このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230322となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ganの潜在空間における意味編集におけるwassersteinの損失 Wasserstein Loss for Semantic Editing in the Latent Space of GANs ( http://arxiv.org/abs/2304.10508v1 ) ライセンス: Link先を確認 | Perla Doubinsky (CEDRIC - VERTIGO, CNAM), Nicolas Audebert (CEDRIC - VERTIGO, CNAM), Michel Crucianu (CEDRIC - VERTIGO), Herv\'e Le Borgne (CEA) | (参考訳) GANの潜在空間には、トレーニングデータを反映したリッチなセマンティクスが含まれている。
異なる方法では、意味的属性に対応する潜在空間で編集を学習し、生成した画像を修正することを提案する。
ほとんどの教師付きメソッドは、そのような編集を生成するために分類器のガイダンスに依存している。
しかし、分類器は分布外領域につながり、敵のサンプルによって騙される。
分類器に基づく手法と同等の性能を維持しつつ,このような問題を回避するワッサースタイン損失に基づく代替定式化を提案する。
StyleGAN2を用いた2つのデータセット(デジタルと顔)に対して,本手法の有効性を示す。 The latent space of GANs contains rich semantics reflecting the training data. Different methods propose to learn edits in latent space corresponding to semantic attributes, thus allowing to modify generated images. Most supervised methods rely on the guidance of classifiers to produce such edits. However, classifiers can lead to out-of-distribution regions and be fooled by adversarial samples. We propose an alternative formulation based on the Wasserstein loss that avoids such problems, while maintaining performance on-par with classifier-based approaches. We demonstrate the effectiveness of our method on two datasets (digits and faces) using StyleGAN2. | 翻訳日:2023-04-23 03:59:00 公開日:2023-03-22 |
# 公正性:利害関係者との継続的な合意としての倫理原則から機械学習開発実践へ Fairness: from the ethical principle to the practice of Machine Learning development as an ongoing agreement with stakeholders ( http://arxiv.org/abs/2304.06031v1 ) ライセンス: Link先を確認 | Georgina Curto and Flavio Comim | (参考訳) 本稿では、機械学習(ML)においてバイアスを完全に緩和できない理由を明らかにし、利害関係者との継続的な合意として、正義と公正の倫理的原則をML開発実践に変換するエンドツーエンド方法論を提案する。
本論文の倫理的反復的プロセスは、ML設計における公平性決定における非対称なパワーダイナミクスに挑戦し、ML開発チームがMLシステム開発の各ステップにおけるバイアスを特定し、緩和し、監視することを目的としている。
このプロセスは、ユーザにバイアスの観点から常に不完全なトレードオフを説明する方法に関するガイダンスも提供する。 This paper clarifies why bias cannot be completely mitigated in Machine Learning (ML) and proposes an end-to-end methodology to translate the ethical principle of justice and fairness into the practice of ML development as an ongoing agreement with stakeholders. The pro-ethical iterative process presented in the paper aims to challenge asymmetric power dynamics in the fairness decision making within ML design and support ML development teams to identify, mitigate and monitor bias at each step of ML systems development. The process also provides guidance on how to explain the always imperfect trade-offs in terms of bias to users. | 翻訳日:2023-04-16 22:18:12 公開日:2023-03-22 |
# Web3:次のインターネット革命 Web3: The Next Internet Revolution ( http://arxiv.org/abs/2304.06111v1 ) ライセンス: Link先を確認 | Shicheng Wan, Hong Lin, Wensheng Gan, Jiahui Chen, Philip S. Yu | (参考訳) world wide webの最初の登場以来、人々はサイバー社会活動のためにウェブを頼りにしている。
World Wide Webの第2フェーズであるWeb 2.0は、仮想世界の構築と楽しみに参加する世界中の人々を広く惹きつけてきた。
現在、次のインターネット革命: Web3は従来のソーシャルモデルに新たな機会を開く。
Web3の分散化特性は、インターネット企業の独占を破ることができる。
さらに、web3は、出版媒体としてのwebから対話と参加の媒体へのパラダイムシフトをリードします。
この変化は、ユーザーとプラットフォーム間の関係、生産の力と関係、そして世界経済を深く変えるだろう。
したがって、技術的に、事実上、より広く、web3の概要を取る必要がある。
本稿では,現在の技術,課題,機会,展望を中心に,web3に関する総合的な調査を行う。
この記事ではまず、Web3のいくつかの主要な技術を紹介します。
次に、web3アプリケーションのタイプを詳細に説明する。
ブロックチェーンとスマートコントラクトによって、分散型組織は、その集中型組織よりも信頼性が低く、真実性が向上する。
分散金融はグローバルであり、銀行を持たない人々のための金融包括性を持つ。
本稿では、metaverse と web3 の関係、web 3.0 と web3 の相違点と類似点についても述べる。
maslow's hierarchy of needs theoryに触発されて、我々はさらにweb3内でニーズ理論の新しい階層を実践する。
最後に,Web3の今後の研究方針について述べる。 Since the first appearance of the World Wide Web, people more rely on the Web for their cyber social activities. The second phase of World Wide Web, named Web 2.0, has been extensively attracting worldwide people that participate in building and enjoying the virtual world. Nowadays, the next internet revolution: Web3 is going to open new opportunities for traditional social models. The decentralization property of Web3 is capable of breaking the monopoly of the internet companies. Moreover, Web3 will lead a paradigm shift from the Web as a publishing medium to a medium of interaction and participation. This change will deeply transform the relations among users and platforms, forces and relations of production, and the global economy. Therefore, it is necessary that we technically, practically, and more broadly take an overview of Web3. In this paper, we present a comprehensive survey of Web3, with a focus on current technologies, challenges, opportunities, and outlook. This article first introduces several major technologies of Web3. Then, we illustrate the type of Web3 applications in detail. Blockchain and smart contracts ensure that decentralized organizations will be less trusted and more truthful than that centralized organizations. Decentralized finance will be global, and open with financial inclusiveness for unbanked people. This paper also discusses the relationship between the Metaverse and Web3, as well as the differences and similarities between Web 3.0 and Web3. Inspired by the Maslow's hierarchy of needs theory, we further conduct a novel hierarchy of needs theory within Web3. Finally, several worthwhile future research directions of Web3 are discussed. | 翻訳日:2023-04-16 22:08:29 公開日:2023-03-22 |
# 大規模言語マルチモーダルモデルが雇用市場の将来に及ぼす影響 The Impact of Large Language Multi-Modal Models on the Future of Job Market ( http://arxiv.org/abs/2304.06123v1 ) ライセンス: Link先を確認 | Tarry Singh | (参考訳) 人工知能の急速な進歩、特にGPT-4のような大規模言語マルチモーダルモデルでは、様々な産業における人的労働者の移転が懸念されている。
本稿では,aiモデルによるジョブ置換の現状を分析し,aiとヒューマンワーカーのバランスのとれた共存に向けた潜在的意義と戦略を検討する。 The rapid advancements in artificial intelligence, particularly in large language multi-modal models like GPT-4, have raised concerns about the potential displacement of human workers in various industries. This position paper aims to analyze the current state of job replacement by AI models and explores potential implications and strategies for a balanced coexistence between AI and human workers. | 翻訳日:2023-04-16 21:57:15 公開日:2023-03-22 |
# 進化的計算がプライバシーを満たすとき When Evolutionary Computation Meets Privacy ( http://arxiv.org/abs/2304.01205v1 ) ライセンス: Link先を確認 | Bowen Zhao, Wei-Neng Chen, Xiaoguo Li, Ximeng Liu, Qingqi Pei, Jun Zhang | (参考訳) 近年、進化計算(EC)が機械学習、分散コンピューティング、ビッグデータ技術によって推進され、分散ECや代理ECのようなECの新しい研究方向が導かれた。
これらの進歩はECの性能と適用範囲を大幅に改善しただけでなく、最適な結果のリークや代理モデルといったプライバシーの漏洩も引き起こした。
そのため、進化的計算とプライバシー保護が組み合わさって話題になりつつある。
しかしながら、進化的計算におけるプライバシの懸念は、特にオブジェクト、モチベーション、位置、プライバシ保護の方法に対する体系的な探索を欠いている。
本稿では、進化計算の最適化モードを特徴付ける3つの典型的な最適化パラダイム(すなわち、分散最適化、データ駆動最適化)について論じ、進化計算におけるプライバシーの懸念をソートするBOOMを提案する。
具体的には、集中型最適化パラダイムにより、クライアントは集中型サーバに最適化問題をアウトソースし、サーバから最適化ソリューションを得ることができる。
分散最適化パラダイムは、分散デバイスのストレージと計算能力を利用して最適化問題を解決する。
また、データ駆動最適化パラダイムは、履歴に収集されたデータを利用して、明示的な目的関数を欠いた最適化問題に取り組む。
本稿では,3つの典型的な最適化パラダイムにおいて,プライバシー保護の目的とモチベーションを特徴付けるためにBOOMを採用し,3つの典型的な最適化パラダイムにおいて,最適化性能とプライバシ保証のバランスをとる潜在的なプライバシ保護技術について議論する。
さらに,プライバシを保全する進化的計算の新たな研究の方向性について述べる。 Recently, evolutionary computation (EC) has been promoted by machine learning, distributed computing, and big data technologies, resulting in new research directions of EC like distributed EC and surrogate-assisted EC. These advances have significantly improved the performance and the application scope of EC, but also trigger privacy leakages, such as the leakage of optimal results and surrogate model. Accordingly, evolutionary computation combined with privacy protection is becoming an emerging topic. However, privacy concerns in evolutionary computation lack a systematic exploration, especially for the object, motivation, position, and method of privacy protection. To this end, in this paper, we discuss three typical optimization paradigms (i.e., \textit{centralized optimization, distributed optimization, and data-driven optimization}) to characterize optimization modes of evolutionary computation and propose BOOM to sort out privacy concerns in evolutionary computation. Specifically, the centralized optimization paradigm allows clients to outsource optimization problems to the centralized server and obtain optimization solutions from the server. While the distributed optimization paradigm exploits the storage and computational power of distributed devices to solve optimization problems. Also, the data-driven optimization paradigm utilizes data collected in history to tackle optimization problems lacking explicit objective functions. Particularly, this paper adopts BOOM to characterize the object and motivation of privacy protection in three typical optimization paradigms and discusses potential privacy-preserving technologies balancing optimization performance and privacy guarantees in three typical optimization paradigms. Furthermore, this paper attempts to foresee some new research directions of privacy-preserving evolutionary computation. | 翻訳日:2023-04-09 05:45:50 公開日:2023-03-22 |
# ロバスト音声翻訳のための選択的データ拡張 Selective Data Augmentation for Robust Speech Translation ( http://arxiv.org/abs/2304.03169v1 ) ライセンス: Link先を確認 | Rajul Acharya, Ashish Panda, Sunil Kumar Kopparapu | (参考訳) 音声翻訳(st)システムは、ある言語でスピーチを他の言語でテキストに変換する。
終端STシステム(e2e-ST)は、待ち時間と計算コストの削減により性能が向上したため、カスケードシステムで人気を博している。
資源集約的なe2e-stシステムは、カスケードシステムとは異なり、パラ言語的および非言語的特徴を保持できる固有の能力を持っている。
本稿では,英語ヒンディー語(en-hi)STにおけるe2eアーキテクチャを提案する。2つの不完全な機械翻訳(MT)サービスを用いて,Libri-transのテキストをハイテキストに変換する。
本稿では,各サービスが並列STデータを生成するためにMTデータを個別に提供しながら,頑健なSTを支援するため,ノイズの多いMTデータのデータ拡張戦略を提案する。
その結果, MTデータの鈍力増強よりもST(BLEUスコア)がよいことがわかった。
我々はアプローチで1.59 bleuスコアの絶対的な改善を観察した。 Speech translation (ST) systems translate speech in one language to text in another language. End-to-end ST systems (e2e-ST) have gained popularity over cascade systems because of their enhanced performance due to reduced latency and computational cost. Though resource intensive, e2e-ST systems have the inherent ability to retain para and non-linguistic characteristics of the speech unlike cascade systems. In this paper, we propose to use an e2e architecture for English-Hindi (en-hi) ST. We use two imperfect machine translation (MT) services to translate Libri-trans en text into hi text. While each service gives MT data individually to generate parallel ST data, we propose a data augmentation strategy of noisy MT data to aid robust ST. The main contribution of this paper is the proposal of a data augmentation strategy. We show that this results in better ST (BLEU score) compared to brute force augmentation of MT data. We observed an absolute improvement of 1.59 BLEU score with our approach. | 翻訳日:2023-04-09 05:26:34 公開日:2023-03-22 |
# ビザンチン攻撃に対する不均一多エージェントシステムの回復的出力コンセンサス制御:双層アプローチ Resilient Output Consensus Control of Heterogeneous Multi-agent Systems against Byzantine Attacks: A Twin Layer Approach ( http://arxiv.org/abs/2303.15299v1 ) ライセンス: Link先を確認 | Xin Gong, Yiwen Liang, Yukang Cui, Shi Liang, Tingwen Huang | (参考訳) 本稿では,ビザンチン攻撃に対する異種マルチエージェントシステム(MAS)の協調制御の問題について検討する。
ビザンチン攻撃の影響を受けたエージェントは、攻撃的で防御が難しい入力信号を適用しながら、すべての隣人に異なる間違った値を送信します。
ディジタルツインの概念に触発されて,上記の問題をtlに対するビザンチンエッジ攻撃に対する防御スキームと,サイバー物理層(cpl)におけるビザンチンノード攻撃に対する防御スキームに分離する,仮想ツイン層(virtual twin layer, tl)を備えた新しい階層プロトコルが提案されている。
tlでは,ネットワークのレジリエンスを改善するために最小数のキーエッジを追加することで,レジリエントなトポロジ再構成戦略を提案する。
制御戦略は、tl 上の位相が強い $(2f+1)$-robustness を満たす有限時間で漸近的コンセンサスを達成するのに十分であることが厳密に証明されている。
CPLでは、Byzantineノード攻撃に対する異種MASに対するレジリエントな出力コンセンサスを保証するために、分散型チャットフリーコントローラが提案されている。
さらに、得られたコントローラは指数収束を示す。
理論的結果の有効性と実用性を数値的な例で検証する。 This paper studies the problem of cooperative control of heterogeneous multi-agent systems (MASs) against Byzantine attacks. The agent affected by Byzantine attacks sends different wrong values to all neighbors while applying wrong input signals for itself, which is aggressive and difficult to be defended. Inspired by the concept of Digital Twin, a new hierarchical protocol equipped with a virtual twin layer (TL) is proposed, which decouples the above problems into the defense scheme against Byzantine edge attacks on the TL and the defense scheme against Byzantine node attacks on the cyber-physical layer (CPL). On the TL, we propose a resilient topology reconfiguration strategy by adding a minimum number of key edges to improve network resilience. It is strictly proved that the control strategy is sufficient to achieve asymptotic consensus in finite time with the topology on the TL satisfying strongly $(2f+1)$-robustness. On the CPL, decentralized chattering-free controllers are proposed to guarantee the resilient output consensus for the heterogeneous MASs against Byzantine node attacks. Moreover, the obtained controller shows exponential convergence. The effectiveness and practicality of the theoretical results are verified by numerical examples. | 翻訳日:2023-03-31 16:18:53 公開日:2023-03-22 |
# 大規模実効共分散行列の予測:因子モデルと収縮の利点 Forecasting Large Realized Covariance Matrices: The Benefits of Factor Models and Shrinkage ( http://arxiv.org/abs/2303.16151v1 ) ライセンス: Link先を確認 | Rafael Alves, Diego S. de Brito, Marcelo C. Medeiros, Ruy M. Ribeiro | (参考訳) 本研究では, s\&p 500の構成成分に毎日適用することにより, 回帰の大規模共分散行列を予測できるモデルを提案する。
次元の呪いに対処するために、標準のファウンドレベル因子(サイズ、価値、収益性など)を用いて回帰共分散行列を分解し、残留共分散行列においてセクタ的制約を用いる。
この制限されたモデルは、最小絶対収縮・選択演算子 (LASSO) を持つベクトルヘテロジニアス自己回帰モデル (VHAR) を用いて推定される。
本手法は,標準ベンチマークに対する予測精度を向上し,最小分散ポートフォリオの推定精度を向上させる。 We propose a model to forecast large realized covariance matrices of returns, applying it to the constituents of the S\&P 500 daily. To address the curse of dimensionality, we decompose the return covariance matrix using standard firm-level factors (e.g., size, value, and profitability) and use sectoral restrictions in the residual covariance matrix. This restricted model is then estimated using vector heterogeneous autoregressive (VHAR) models with the least absolute shrinkage and selection operator (LASSO). Our methodology improves forecasting precision relative to standard benchmarks and leads to better estimates of minimum variance portfolios. | 翻訳日:2023-03-31 15:59:16 公開日:2023-03-22 |
# 効率的な逆強化学習による通信負荷分散 Communication Load Balancing via Efficient Inverse Reinforcement Learning ( http://arxiv.org/abs/2303.16686v1 ) ライセンス: Link先を確認 | Abhisek Konar, Di Wu, Yi Tian Xu, Seowoo Jang, Steve Liu, Gregory Dudek | (参考訳) 通信負荷分散は、利用可能なリソース間の負荷のバランスをとり、ネットワークシステムのサービス品質を向上させることを目的としている。
負荷分散 (LB) をマルコフ決定過程問題として定式化した後, 強化学習 (RL) は近年, LB問題に対処する上で有効であることが証明されている。
しかし、負荷分散に古典的なRLの利点を利用するには、明確な報酬定義が必要である。
この報酬関数のエンジニアリングは、専門家の知識を必要とし、最適な報酬関数の形式に関する一般的なコンセンサスが欠如しているため、難しい。
本研究では,irl(逆強化学習)アプローチによる通信負荷分散問題に取り組む。
我々の知る限りでは、IRLが通信負荷分散の分野で成功しているのはこれが初めてである。
具体的には、まず、一連の実演から報酬関数を推定し、次に、推定報酬関数を用いて強化学習負荷バランスポリシーを学習する。
古典的なRLベースのソリューションと比較して、提案されたソリューションはより汎用的で現実のシナリオに適している。
異なるシミュレーショントラヒックシナリオで実施した実験評価により,本手法は実効性が高く,他のベースラインよりもかなり優れていることが示された。 Communication load balancing aims to balance the load between different available resources, and thus improve the quality of service for network systems. After formulating the load balancing (LB) as a Markov decision process problem, reinforcement learning (RL) has recently proven effective in addressing the LB problem. To leverage the benefits of classical RL for load balancing, however, we need an explicit reward definition. Engineering this reward function is challenging, because it involves the need for expert knowledge and there lacks a general consensus on the form of an optimal reward function. In this work, we tackle the communication load balancing problem from an inverse reinforcement learning (IRL) approach. To the best of our knowledge, this is the first time IRL has been successfully applied in the field of communication load balancing. Specifically, first, we infer a reward function from a set of demonstrations, and then learn a reinforcement learning load balancing policy with the inferred reward function. Compared to classical RL-based solution, the proposed solution can be more general and more suitable for real-world scenarios. Experimental evaluations implemented on different simulated traffic scenarios have shown our method to be effective and better than other baselines by a considerable margin. | 翻訳日:2023-03-31 15:49:12 公開日:2023-03-22 |
# 未確認交通シナリオにおける通信負荷分散のための政策再利用 Policy Reuse for Communication Load Balancing in Unseen Traffic Scenarios ( http://arxiv.org/abs/2303.16685v1 ) ライセンス: Link先を確認 | Yi Tian Xu, Jimmy Li, Di Wu, Michael Jenkin, Seowoo Jang, Xue Liu, and Gregory Dudek | (参考訳) 通信ネットワークの複雑さとトラフィックボリュームの継続的な成長に伴い、通信負荷分散ソリューションが注目を集めている。
具体的には、強化学習(RL)に基づく手法は、従来のルールベースの手法に比べて優れた性能を示した。
しかし、標準のRL法は訓練に膨大な量のデータを必要とし、訓練中に遭遇しないシナリオに乏しく一般化する。
本稿では、政策選択者が現在の交通状況に基づいて、最も適切な事前訓練されたRLポリシーを選択する政策再利用フレームワークを提案する。
当社の手法は,多様な交通シナリオに基づいて訓練された政策からなる政策銀行を基盤にしている。
未知のトラフィックシナリオにデプロイする場合、現在のシナリオの前日のトラフィックとトレーニング中に観測されたトラフィックの類似性に基づいて、ポリシーバンクからポリシーを選択する。
実験により、このフレームワークは古典的および適応的ルールベースのメソッドを大きなマージンで上回ることができることが示されている。 With the continuous growth in communication network complexity and traffic volume, communication load balancing solutions are receiving increasing attention. Specifically, reinforcement learning (RL)-based methods have shown impressive performance compared with traditional rule-based methods. However, standard RL methods generally require an enormous amount of data to train, and generalize poorly to scenarios that are not encountered during training. We propose a policy reuse framework in which a policy selector chooses the most suitable pre-trained RL policy to execute based on the current traffic condition. Our method hinges on a policy bank composed of policies trained on a diverse set of traffic scenarios. When deploying to an unknown traffic scenario, we select a policy from the policy bank based on the similarity between the previous-day traffic of the current scenario and the traffic observed during training. Experiments demonstrate that this framework can outperform classical and adaptive rule-based methods by a large margin. | 翻訳日:2023-03-31 15:48:52 公開日:2023-03-22 |
# 2つの正しいオブジェクト認識: 視覚的合理的な理由 Doubly Right Object Recognition: A Why Prompt for Visual Rationales ( http://arxiv.org/abs/2212.06202v2 ) ライセンス: Link先を確認 | Chengzhi Mao, Revant Teotia, Amrutha Sundar, Sachit Menon, Junfeng Yang, Xin Wang, Carl Vondrick | (参考訳) 多くの視覚認識モデルは、それらが強い性能を得る指標である分類精度に基づいて評価される。
本稿では,コンピュータビジョンモデルが予測に正しい根拠を与えることができるかどうかを考察する。
そこで、メトリクスはモデルに対して、正しいラベルと正しい合理性の両方を同時に生成するように要求する。
クリップのような最先端の視覚モデルは、分類学的予測に不正確な根拠を与えることが多い。
しかし, 言語モデルから, 適切なデータセットを用いて視覚表現に有理を変換することにより, 大きな視覚表現を適応させて正しい有理を生成できる「なぜプロンプト」を学習できることが示される。
可視化と実証実験により,2倍のオブジェクト認識の性能が向上し,非認識タスクやデータセットへのゼロショット転送も向上した。 Many visual recognition models are evaluated only on their classification accuracy, a metric for which they obtain strong performance. In this paper, we investigate whether computer vision models can also provide correct rationales for their predictions. We propose a ``doubly right'' object recognition benchmark, where the metric requires the model to simultaneously produce both the right labels as well as the right rationales. We find that state-of-the-art visual models, such as CLIP, often provide incorrect rationales for their categorical predictions. However, by transferring the rationales from language models into visual representations through a tailored dataset, we show that we can learn a ``why prompt,'' which adapts large visual representations to produce correct rationales. Visualizations and empirical experiments show that our prompts significantly improve performance on doubly right object recognition, in addition to zero-shot transfer to unseen tasks and datasets. | 翻訳日:2023-03-27 18:04:23 公開日:2023-03-22 |
# ProtoCon: オンラインクラスタリングによる擬似ラベルリファインメントと半教師あり学習のためのプロトタイプ一貫性 ProtoCon: Pseudo-label Refinement via Online Clustering and Prototypical Consistency for Efficient Semi-supervised Learning ( http://arxiv.org/abs/2303.13556v1 ) ライセンス: Link先を確認 | Islam Nassar, Munawar Hayat, Ehsan Abbasnejad, Hamid Rezatofighi, Gholamreza Haffari | (参考訳) 信頼に基づく疑似ラベルは、半教師あり学習(SSL)において支配的なアプローチの一つである。
モデルをトレーニングするための追加のターゲットとして、ラベルのないデータに対する信頼性の高い予測を含めることに依存している。
本稿では,低探索ラベルスカースSSLを対象とした新しいSSL手法であるProtoConを提案する。
プロトコンは、近接する隣人の情報を利用して擬似ラベルを洗練する。
トレーニングは、オンラインクラスタリングアプローチを使用して、プロトタイプ損失によってトレーニングされた埋め込みスペースで実行され、良好なクラスタを奨励する。
protoconのオンラインの性質は、1つのトレーニングサイクルでデータセット全体のラベル履歴を活用し、イメージ埋め込みを保存することなく、次のサイクルでラベルを洗練することができる。
したがって、低コストで、大きなデータセットにシームレスにスケールできる。
最後にprotoconは、補助的な自己教師付き損失を導入することで、トレーニングの初期段階(自信の少ない予測による)におけるトレーニング信号の不足に対処する。
CIFAR、ImageNet、DomainNetを含む5つのデータセットにまたがって、大幅な向上と最先端の収束を実現している。 Confidence-based pseudo-labeling is among the dominant approaches in semi-supervised learning (SSL). It relies on including high-confidence predictions made on unlabeled data as additional targets to train the model. We propose ProtoCon, a novel SSL method aimed at the less-explored label-scarce SSL where such methods usually underperform. ProtoCon refines the pseudo-labels by leveraging their nearest neighbours' information. The neighbours are identified as the training proceeds using an online clustering approach operating in an embedding space trained via a prototypical loss to encourage well-formed clusters. The online nature of ProtoCon allows it to utilise the label history of the entire dataset in one training cycle to refine labels in the following cycle without the need to store image embeddings. Hence, it can seamlessly scale to larger datasets at a low cost. Finally, ProtoCon addresses the poor training signal in the initial phase of training (due to fewer confident predictions) by introducing an auxiliary self-supervised loss. It delivers significant gains and faster convergence over state-of-the-art across 5 datasets, including CIFARs, ImageNet and DomainNet. | 翻訳日:2023-03-27 17:18:12 公開日:2023-03-22 |
# 非線型対流拡散吸着系の効率的なハイブリッドモデリングと吸着モデル発見--系統的科学的機械学習アプローチ Efficient hybrid modeling and sorption model discovery for non-linear advection-diffusion-sorption systems: A systematic scientific machine learning approach ( http://arxiv.org/abs/2303.13555v1 ) ライセンス: Link先を確認 | Vinicius V. Santana, Erbet Costa, Carine M. Rebello, Ana Mafalda Ribeiro, Christopher Rackauckas, Idelfonso B. R. Nogueira | (参考訳) 本研究では,非線型対流拡散吸着系における効率的なハイブリッドモデルの作成と吸着取り込みモデル発見のための機械学習手法を提案する。
これは、勾配に基づく最適化、随伴感度解析、JITコンパイルベクタージャコビアン積を空間離散化と適応積分器と組み合わせて、これらの複雑なシステムを効果的に訓練する方法を示す。
ニューラルネットワークの欠落する機能を特定するためにスパースとシンボリックレグレッションが用いられた。
提案手法のロバスト性は, 固定層吸着のノイズ破砕曲線観測のシリカ内データセット上で試験され, 良好なハイブリッドモデルが得られた。
本研究は, 偏差とシンボリック回帰を用いて吸収吸収速度論を再構成し, 同定多項式を用いたブレークスルー曲線を精度良く予測し, 吸着運動法則構造の発見のためのフレームワークの可能性を強調した。 This study presents a systematic machine learning approach for creating efficient hybrid models and discovering sorption uptake models in non-linear advection-diffusion-sorption systems. It demonstrates an effective method to train these complex systems using gradientbased optimizers, adjoint sensitivity analysis, and JIT-compiled vector Jacobian products, combined with spatial discretization and adaptive integrators. Sparse and symbolic regression were employed to identify missing functions in the artificial neural network. The robustness of the proposed method was tested on an in-silico data set of noisy breakthrough curve observations of fixed-bed adsorption, resulting in a well-fitted hybrid model. The study successfully reconstructed sorption uptake kinetics using sparse and symbolic regression, and accurately predicted breakthrough curves using identified polynomials, highlighting the potential of the proposed framework for discovering sorption kinetic law structures. | 翻訳日:2023-03-27 17:17:55 公開日:2023-03-22 |
# CH-Go: チャンクデータストレージに基づくオンラインGoシステム CH-Go: Online Go System Based on Chunk Data Storage ( http://arxiv.org/abs/2303.13553v1 ) ライセンス: Link先を確認 | H. Lu, C. Li, Y. Yang, C. Li, A. Islam | (参考訳) オンラインGoシステムのトレーニングと実行には、初期のGoゲームレコード、表現学習によって得られた特徴データセット、セルフプレイの経験データセット、ランダムにサンプリングされたモンテカルロツリーなど、膨大なデータを扱うための効果的なデータ管理システムのサポートが必要である。
これまでの研究では、この問題はめったに言及されていないが、データ管理システムの能力と効率は、Goシステムの精度と速度を決定する。
そこで本稿では,kiseido go server (kgs) がリリースした160k goゲームデータのフォーマットを処理し,11面のgoエンコーダ,並列プロセッサ,メモリ性能向上のためのジェネレータを設計するチャンクデータストレージ方式 (ch-go) に基づくオンラインgoゲームシステムを提案する。
具体的には、データをチャンクに格納し、チャンクサイズの1024をバッチとして、各チャンクの特徴とラベルをバイナリファイルとして保存します。
次に、ニューラルネットワークトレーニングのために、小さなデータセットをランダムにサンプリングし、yieldメソッドを介してバッチでアクセスする。
プロトタイプのトレーニング部分には、教師付き学習モジュール、強化学習モジュール、オンラインモジュールの3つのモジュールが含まれている。
まず,Zobrist誘導ハッシュ符号化を用いてGoボード構築を高速化する。
次に,教師付き学習ポリシーネットワークを訓練し,経験データ生成のためのセルフプレイを,kgsが公開する160k goゲームデータを用いて初期化する。
最後に,REINFORCEアルゴリズムに基づく強化学習を行う。
実験によると、サンプル150試合におけるch-goのトレーニング精度は99.14%であり、テストセットの精度は98.82%である。
ローカルコンピューティングの能力と時間に制限のある状況下では、より優れたインテリジェンスを実現しました。
GOLAXYのような古典的なシステムが自由でオープンでない現状を踏まえると、CH-Goは完全なインターネットオープン性を実現し維持してきた。 The training and running of an online Go system require the support of effective data management systems to deal with vast data, such as the initial Go game records, the feature data set obtained by representation learning, the experience data set of self-play, the randomly sampled Monte Carlo tree, and so on. Previous work has rarely mentioned this problem, but the ability and efficiency of data management systems determine the accuracy and speed of the Go system. To tackle this issue, we propose an online Go game system based on the chunk data storage method (CH-Go), which processes the format of 160k Go game data released by Kiseido Go Server (KGS) and designs a Go encoder with 11 planes, a parallel processor and generator for better memory performance. Specifically, we store the data in chunks, take the chunk size of 1024 as a batch, and save the features and labels of each chunk as binary files. Then a small set of data is randomly sampled each time for the neural network training, which is accessed by batch through yield method. The training part of the prototype includes three modules: supervised learning module, reinforcement learning module, and an online module. Firstly, we apply Zobrist-guided hash coding to speed up the Go board construction. Then we train a supervised learning policy network to initialize the self-play for generation of experience data with 160k Go game data released by KGS. Finally, we conduct reinforcement learning based on REINFORCE algorithm. Experiments show that the training accuracy of CH- Go in the sampled 150 games is 99.14%, and the accuracy in the test set is as high as 98.82%. Under the condition of limited local computing power and time, we have achieved a better level of intelligence. Given the current situation that classical systems such as GOLAXY are not free and open, CH-Go has realized and maintained complete Internet openness. | 翻訳日:2023-03-27 17:17:36 公開日:2023-03-22 |
# 説明の文脈・実用性・影響 Context, Utility and Influence of an Explanation ( http://arxiv.org/abs/2303.13552v1 ) ライセンス: Link先を確認 | Minal Suresh Patil and Kary Fr\"amling | (参考訳) コンテキストユーティリティ理論は、コンテキスト依存因子をユーティリティベースの意思決定モデルに統合する。
個人の意思決定者の好み、価値観、信念を理解することの重要性と、それらに影響を与える状況要因を強調する。
コンテキストユーティリティ理論は、説明可能なAIに恩恵を与える。
まず、AIシステムが意思決定にどう影響するかの透明性と理解を改善することができる。
個人の好みやコンテキストを考慮することで、AIモデルのバイアスと制限を明らかにすることができる。
第二に、コンテキストユーティリティ理論は、AIシステムをよりパーソナライズし、ユーザや利害関係者に適応させることができる。
aiシステムは人口統計と文化データを組み込むことで、ユーザーのニーズと価値をよりよく満たすことができる。
最後に、文脈ユーティリティ理論は倫理的AI開発と社会的責任を促進する。
ai開発者は社会規範や価値観といった文脈的要因を考慮して、社会に利益をもたらす倫理的システムを作ることができる。
この研究は、コンテキストユーティリティ理論がAIシステムの透明性、パーソナライゼーション、倫理を改善し、ユーザと開発者の双方に利益をもたらすことを示す。 Contextual utility theory integrates context-sensitive factors into utility-based decision-making models. It stresses the importance of understanding individual decision-makers' preferences, values, and beliefs and the situational factors that affect them. Contextual utility theory benefits explainable AI. First, it can improve transparency and understanding of how AI systems affect decision-making. It can reveal AI model biases and limitations by considering personal preferences and context. Second, contextual utility theory can make AI systems more personalized and adaptable to users and stakeholders. AI systems can better meet user needs and values by incorporating demographic and cultural data. Finally, contextual utility theory promotes ethical AI development and social responsibility. AI developers can create ethical systems that benefit society by considering contextual factors like societal norms and values. This work, demonstrates how contextual utility theory can improve AI system transparency, personalization, and ethics, benefiting both users and developers. | 翻訳日:2023-03-27 17:17:03 公開日:2023-03-22 |
# 効率的なディープラーニングのための低ランク最適化 - コンパクトアーキテクチャと高速トレーニングのバランスを取る Low Rank Optimization for Efficient Deep Learning: Making A Balance between Compact Architecture and Fast Training ( http://arxiv.org/abs/2303.13635v1 ) ライセンス: Link先を確認 | Xinwei Ou, Zhangxin Chen, Ce Zhu, Yipeng Liu | (参考訳) ディープニューラルネットワークは多くのデータ処理アプリケーションで大きな成功を収めています。
しかし、計算の複雑さとストレージコストが高いため、ディープラーニングはリソース制約のあるデバイスでの使用が難しくなり、環境に優しい電力コストにはならない。
本稿では,効率的なディープラーニング手法のための低ランク最適化に注目する。
空間領域では、ディープニューラルネットワークは、ネットワークパラメータの低階近似によって圧縮され、ネットワークパラメータの少ないストレージ要求を直接削減する。
時間領域では、ネットワークパラメータをいくつかのサブスペースでトレーニングできるため、高速収束のための効率的なトレーニングが可能になる。
空間領域におけるモデル圧縮は,プレトレイン,プレセット,圧縮認識の3つのカテゴリに分類される。
スパースプルーニング、量子化、エントロピー符号化といった一連の積分可能な手法を議論することで、計算の複雑さとストレージの少ない統合フレームワークでそれらを統合することができる。
近年の技術的進歩の要約に加えて,ネットワーク圧縮において有効なランクが他の疎度尺度よりも優れているという,今後の研究を動機付ける2つの知見がある。
もう1つは、テンソル化ニューラルネットワークの空間的および時間的バランスである。 Deep neural networks have achieved great success in many data processing applications. However, the high computational complexity and storage cost makes deep learning hard to be used on resource-constrained devices, and it is not environmental-friendly with much power cost. In this paper, we focus on low-rank optimization for efficient deep learning techniques. In the space domain, deep neural networks are compressed by low rank approximation of the network parameters, which directly reduces the storage requirement with a smaller number of network parameters. In the time domain, the network parameters can be trained in a few subspaces, which enables efficient training for fast convergence. The model compression in the spatial domain is summarized into three categories as pre-train, pre-set, and compression-aware methods, respectively. With a series of integrable techniques discussed, such as sparse pruning, quantization, and entropy coding, we can ensemble them in an integration framework with lower computational complexity and storage. Besides of summary of recent technical advances, we have two findings for motivating future works: one is that the effective rank outperforms other sparse measures for network compression. The other is a spatial and temporal balance for tensorized neural networks. | 翻訳日:2023-03-27 16:51:24 公開日:2023-03-22 |
# 物理インフォームドポイントネット:不規則な幾何の測地を同時に解くことができるか?
線形弾性への応用 Physics-informed PointNet: On how many irregular geometries can it solve an inverse problem simultaneously? Application to linear elasticity ( http://arxiv.org/abs/2303.13634v1 ) ライセンス: Link先を確認 | Ali Kashefi, Leonidas J. Guibas, Tapan Mukerji | (参考訳) 正規物理情報ニューラルネットワーク(PINN)はスパースラベル付きデータを用いた偏微分方程式の解を1つの領域で予測する。
一方、完全に教師付き学習モデルは通常、既知のソリューション(ラベル付きデータ)を持つ数千以上のドメインで訓練され、数百の未知のドメインでそのソリューションを予測する。
物理インフォームドポイントネット(PIPN)は、PINN(弱教師付き学習モデル)と完全教師付き学習モデルの間のギャップを埋めるように設計されている。
本稿では、PIPNが数百の領域に対して所望の偏微分方程式の解を同時に予測し、スパースラベル付きデータのみを使用することを示した。
このフレームワークは、ラベル付きデータしか利用できない業界で高速な幾何学的設計の恩恵を受ける。
特に, pipnは, 異なる地形を持つ500以上の領域において, 平面応力問題の解を同時に予測することを示した。
さらに,顕著なバッチサイズの概念(すなわち,各サブエポックで pipn に供給されるジオメトリの数)を pipn に実装する先駆者でもある。
具体的には,7,14,19,38,76,133のバッチサイズを試す。
さらに、損失関数におけるスパースラベルデータの構成成分に対するPIPNサイズ、PIPNアーキテクチャにおける対称関数、および静的および動的重みの影響について検討した。 Regular physics-informed neural networks (PINNs) predict the solution of partial differential equations using sparse labeled data but only over a single domain. On the other hand, fully supervised learning models are first trained usually over a few thousand domains with known solutions (i.e., labeled data) and then predict the solution over a few hundred unseen domains. Physics-informed PointNet (PIPN) is primarily designed to fill this gap between PINNs (as weakly supervised learning models) and fully supervised learning models. In this article, we demonstrate that PIPN predicts the solution of desired partial differential equations over a few hundred domains simultaneously, while it only uses sparse labeled data. This framework benefits fast geometric designs in the industry when only sparse labeled data are available. Particularly, we show that PIPN predicts the solution of a plane stress problem over more than 500 domains with different geometries, simultaneously. Moreover, we pioneer implementing the concept of remarkable batch size (i.e., the number of geometries fed into PIPN at each sub-epoch) into PIPN. Specifically, we try batch sizes of 7, 14, 19, 38, 76, and 133. Additionally, the effect of the PIPN size, symmetric function in the PIPN architecture, and static and dynamic weights for the component of the sparse labeled data in the loss function are investigated. | 翻訳日:2023-03-27 16:51:03 公開日:2023-03-22 |
# モーメントの変分法 The Variational Method of Moments ( http://arxiv.org/abs/2012.09422v4 ) ライセンス: Link先を確認 | Andrew Bennett, Nathan Kallus | (参考訳) 条件モーメント問題は、可観測性の観点から構造因果パラメータを記述するための強力な定式化である。
標準的なアプローチでは、問題を限界モーメント条件の有限集合に還元し、最適に重み付けされたモーメントの一般化法(OWGMM)を適用するが、これは有限集合の識別モーメントを知っていなければならない。
OWGMMの変分極小修正により、条件モーメント問題に対する非常に一般的な推定器のクラスを定義し、このクラスはモーメントの変分法(VMM)と呼ばれ、無限個のモーメントを自然に制御できる。
カーネル法とニューラルネットに基づく複数のVMM推定器の詳細な理論的解析を行い、これらが完全条件モーメントモデルにおいて一貫した、漸近的に正常で半パラメトリックに効率的である条件を提供する。
さらに,カーネルとニューラルネットに基づく多様体に対して,同じ種類の変分的再構成に基づく妥当な統計的推論のためのアルゴリズムを提供する。
最後に,提案した推定および推論アルゴリズムの強い性能を,詳細な合成実験で実証する。 The conditional moment problem is a powerful formulation for describing structural causal parameters in terms of observables, a prominent example being instrumental variable regression. A standard approach reduces the problem to a finite set of marginal moment conditions and applies the optimally weighted generalized method of moments (OWGMM), but this requires we know a finite set of identifying moments, can still be inefficient even if identifying, or can be theoretically efficient but practically unwieldy if we use a growing sieve of moment conditions. Motivated by a variational minimax reformulation of OWGMM, we define a very general class of estimators for the conditional moment problem, which we term the variational method of moments (VMM) and which naturally enables controlling infinitely-many moments. We provide a detailed theoretical analysis of multiple VMM estimators, including ones based on kernel methods and neural nets, and provide conditions under which these are consistent, asymptotically normal, and semiparametrically efficient in the full conditional moment model. We additionally provide algorithms for valid statistical inference based on the same kind of variational reformulations, both for kernel- and neural-net-based varieties. Finally, we demonstrate the strong performance of our proposed estimation and inference algorithms in a detailed series of synthetic experiments. | 翻訳日:2023-03-24 20:01:32 公開日:2023-03-22 |
# Coupled Matrix Factorization を用いた部分観測型ソーシャルネットワークにおける拡散と構造の統合推論 Joint Inference of Diffusion and Structure in Partially Observed Social Networks Using Coupled Matrix Factorization ( http://arxiv.org/abs/2010.01400v2 ) ライセンス: Link先を確認 | Maryam Ramezani, Aryan Ahadinia, Amirmohammad Ziaei, and Hamid R. Rabiee | (参考訳) 大規模ネットワークにおける完全なデータへのアクセスは、しばしば実現不可能である。
したがって、現実のソーシャルネットワークの分析とモデリングにおいて、データ不足の問題は重要かつ避けられない問題である。
しかし、ソーシャルネットワークの異なる側面に関する研究のほとんどは、この制限を考慮していない。
この問題を解決する効果的な方法は、不足したデータを前処理のステップとして回収することです。
本稿では, 部分的観測データからモデルを学び, 非観測拡散と構造ネットワークを推定する。
省略拡散活動と隠れネットワーク構造を共同で発見するため,我々はDiffStruと呼ばれる確率的生成モデルを構築した。
提案手法では, ノードとカスケードプロセスの相互関係を, 低次元潜在因子と組み合わせて学習することで利用した。
予期せぬデータを推測する以外に、コミュニティ検出などの潜伏要因はネットワーク分類の問題にも役立つ。
lfrネットワーク上のシミュレートされた独立したカスケードと、twitterやmemtrackerを含む実際のデータセット上で、さまざまなデータシナリオをテストした。
これらの合成および実世界のデータセットの実験により、提案手法は見えない社会行動を検出し、リンクを予測し、潜伏した特徴を識別することに成功した。 Access to complete data in large-scale networks is often infeasible. Therefore, the problem of missing data is a crucial and unavoidable issue in the analysis and modeling of real-world social networks. However, most of the research on different aspects of social networks does not consider this limitation. One effective way to solve this problem is to recover the missing data as a pre-processing step. In this paper, a model is learned from partially observed data to infer unobserved diffusion and structure networks. To jointly discover omitted diffusion activities and hidden network structures, we develop a probabilistic generative model called "DiffStru." The interrelations among links of nodes and cascade processes are utilized in the proposed method via learning coupled with low-dimensional latent factors. Besides inferring unseen data, latent factors such as community detection may also aid in network classification problems. We tested different missing data scenarios on simulated independent cascades over LFR networks and real datasets, including Twitter and Memtracker. Experiments on these synthetic and real-world datasets show that the proposed method successfully detects invisible social behaviors, predicts links, and identifies latent features. | 翻訳日:2023-03-24 20:00:59 公開日:2023-03-22 |
# 近位強化学習:部分観察マルコフ決定過程における効率的なオフポリティ評価 Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes ( http://arxiv.org/abs/2110.15332v2 ) ライセンス: Link先を確認 | Andrew Bennett, Nathan Kallus | (参考訳) 医学や教育などの観測データへのオフライン強化学習の適用においては、観測された行動は観測されていない要因に影響され、完全なマルコフ決定過程(MDP)モデル(英語版)の仮定に基づいて導かれる偏見と偏見を誘発する。
本稿では,部分観察型mdp (pomdp) におけるオフポリシー評価について検討する。
具体的には、観測された状態に依存する可能性のある異なる未知のポリシーによって生成される部分的な状態の観測のみを用いて、POMDPの与えられた目標ポリシーの価値を推定することを検討する。
我々は、観測されたデータから対象の政策価値を特定できる条件と、それを最もよく見積もる方法の2つに対処する。
これらの問題に対処するため、我々は近因果推論の枠組みをPOMDP設定に拡張し、いわゆるブリッジ関数の存在によって識別が可能となる様々な設定を提供する。
次に、これらの設定で半パラメトリックで効率的な推定器を構築する方法を示す。
得られたフレームワークをPRL(proximal reinforcement learning)と呼ぶ。
本研究では,PRLの利点を広範囲にわたるシミュレーション研究および敗血症管理の問題点について示す。 In applications of offline reinforcement learning to observational data, such as in healthcare or education, a general concern is that observed actions might be affected by unobserved factors, inducing confounding and biasing estimates derived under the assumption of a perfect Markov decision process (MDP) model. Here we tackle this by considering off-policy evaluation in a partially observed MDP (POMDP). Specifically, we consider estimating the value of a given target policy in a POMDP given trajectories with only partial state observations generated by a different and unknown policy that may depend on the unobserved state. We tackle two questions: what conditions allow us to identify the target policy value from the observed data and, given identification, how to best estimate it. To answer these, we extend the framework of proximal causal inference to our POMDP setting, providing a variety of settings where identification is made possible by the existence of so-called bridge functions. We then show how to construct semiparametrically efficient estimators in these settings. We term the resulting framework proximal reinforcement learning (PRL). We demonstrate the benefits of PRL in an extensive simulation study and on the problem of sepsis management. | 翻訳日:2023-03-24 19:06:18 公開日:2023-03-22 |
# Faith-Shap: The Faithful Shapley Interaction Index Faith-Shap: The Faithful Shapley Interaction Index ( http://arxiv.org/abs/2203.00870v3 ) ライセンス: Link先を確認 | Che-Ping Tsai, Chih-Kuan Yeh, Pradeep Ravikumar | (参考訳) 当初、連立ゲームにおける個々のプレイヤーへの属性を割り当てるために設計されたシェープ値は、ブラックボックス機械学習モデルの入力機能への属性を提供するための説明可能な機械学習において、一般的なアプローチとなっている。
シャプリー値の重要な魅力は、非常に自然な公理的性質を一意的に満たしていることである。
しかし、Shapley値を拡張して、個々のプレイヤーではなく相互作用への帰属を割り当てることは、非自明である: 元のShapley値に対する自然な公理の集合として、相互作用のコンテキストに拡張され、もはやユニークな相互作用インデックスは指定されない。
したがって、多くの提案では、独自の相互作用指標を得るために効率の鍵公理を犠牲にしながら、より少ない「自然な」公理を導入する。
本研究では, 相反公理を導入するのではなく, 擬似ブーリアン連立ゲーム値関数に対する最も忠実な線形近似の係数としてシャプリー値の観点を採用する。
線形を$\ell$-order多項式近似に拡張することで、忠実な相互作用指標の一般族を定義することができる。
標準のシャプリー公理(ダミー、対称性、線形性、効率)の相互作用-拡張を満たすために忠実な相互作用指標を付け加えることで、信頼-幸福を表す一意な忠実なシャプリー相互作用指数を、相互作用に対するシャプリー値の自然な一般化として得ることができる。
次に,前述した相互作用指標との信頼関係の対比を行い,その興味深い代数的性質についてさらに検討する。
我々はさらに,いくつかの説明的実験を通じて,信頼感を計算し,さらに定性的な洞察を与える計算効率を示す。 Shapley values, which were originally designed to assign attributions to individual players in coalition games, have become a commonly used approach in explainable machine learning to provide attributions to input features for black-box machine learning models. A key attraction of Shapley values is that they uniquely satisfy a very natural set of axiomatic properties. However, extending the Shapley value to assigning attributions to interactions rather than individual players, an interaction index, is non-trivial: as the natural set of axioms for the original Shapley values, extended to the context of interactions, no longer specify a unique interaction index. Many proposals thus introduce additional less ''natural'' axioms, while sacrificing the key axiom of efficiency, in order to obtain unique interaction indices. In this work, rather than introduce additional conflicting axioms, we adopt the viewpoint of Shapley values as coefficients of the most faithful linear approximation to the pseudo-Boolean coalition game value function. By extending linear to $\ell$-order polynomial approximations, we can then define the general family of faithful interaction indices. We show that by additionally requiring the faithful interaction indices to satisfy interaction-extensions of the standard individual Shapley axioms (dummy, symmetry, linearity, and efficiency), we obtain a unique Faithful Shapley Interaction index, which we denote Faith-Shap, as a natural generalization of the Shapley value to interactions. We then provide some illustrative contrasts of Faith-Shap with previously proposed interaction indices, and further investigate some of its interesting algebraic properties. We further show the computational efficiency of computing Faith-Shap, together with some additional qualitative insights, via some illustrative experiments. | 翻訳日:2023-03-24 18:58:07 公開日:2023-03-22 |
# T-Tetromino Pixelを用いた画像超解像 Image Super-Resolution Using T-Tetromino Pixels ( http://arxiv.org/abs/2111.09013v2 ) ライセンス: Link先を確認 | Simon Grosche, Andy Regensky, J\"urgen Seiler, Andr\'e Kaup | (参考訳) 現代の高解像度撮像センサでは、低照度条件下でピクセルバイナリ化が行われ、高いフレームレートが必要となる。
元の空間分解能を回復するために、アップスケーリングに単一画像超分解能技術を適用することができる。
高度化後の高画質を実現するために,tetromino型画素を用いた新しいバイナリ化概念を提案する。
圧縮センシングの分野に埋め込まれ、コヒーレンスを計算して使用するセンサレイアウトを動機付ける。
次に,tetrominoピクセルを用いた復元品質を文献上で初めて検討する。
異なる種類のテトロミノを用いる代わりに、4つのt-テトロミノだけからなる小さな繰り返し細胞を使用することで十分であることを示す。
再構成には, 局所完全接続型再構成(LFCR)ネットワークと, 圧縮センシングの分野での2つの古典的再構成手法を用いる。
提案するテトロミノレイアウトとLFCRネットワークを用いて,PSNR,SSIM,視覚的にも優れた画像品質を実現し,超深層超解像(VDSR)ネットワークを用いた従来の単一画像超解像と比較した。
PSNRでは、SI[retain-explicit-plus]{+1.92}{dB}までのゲインが達成される。 For modern high-resolution imaging sensors, pixel binning is performed in low-lighting conditions and in case high frame rates are required. To recover the original spatial resolution, single-image super-resolution techniques can be applied for upscaling. To achieve a higher image quality after upscaling, we propose a novel binning concept using tetromino-shaped pixels. It is embedded into the field of compressed sensing and the coherence is calculated to motivate the sensor layouts used. Next, we investigate the reconstruction quality using tetromino pixels for the first time in literature. Instead of using different types of tetrominoes as proposed elsewhere, we show that using a small repeating cell consisting of only four T-tetrominoes is sufficient. For reconstruction, we use a locally fully connected reconstruction (LFCR) network as well as two classical reconstruction methods from the field of compressed sensing. Using the LFCR network in combination with the proposed tetromino layout, we achieve superior image quality in terms of PSNR, SSIM, and visually compared to conventional single-image super-resolution using the very deep super-resolution (VDSR) network. For PSNR, a gain of up to \SI[retain-explicit-plus]{+1.92}{dB} is achieved. | 翻訳日:2023-03-24 18:55:07 公開日:2023-03-22 |
# 能動ラベル取得における名前付きエンティティに注目して Focusing on Potential Named Entities During Active Label Acquisition ( http://arxiv.org/abs/2111.03837v2 ) ライセンス: Link先を確認 | Ali Osman Berk Sapci, Oznur Tastan, Reyyan Yeniterzi | (参考訳) 名前付きエンティティ認識(ner)は、非構造化テキスト内の名前付きエンティティの参照を識別し、それらを予め定義された名前付きエンティティクラスに分類することを目的としている。
ディープラーニングベースの事前学習言語モデルは、NERで優れた予測性能を達成するのに役立つが、多くのドメイン固有のNERアプリケーションは、依然としてかなりの量のラベル付きデータを要求する。
ラベル取得問題の一般的なフレームワークであるアクティブラーニング(AL)は、モデル性能を犠牲にすることなく、アノテーションコストを最小限に抑えるためにNERタスクに使用されている。
しかし,トークンの非バランスなクラス分布は,NERの効果的なALクエリ手法を設計する上での課題をもたらす。
本稿では,有意な正のトークンにより多くの注意を払うAL文クエリ評価関数を提案し,これらの関数を文ベースおよびトークンベースのコスト評価戦略を用いて評価する。
また、長すぎるか短すぎる文をペナル化するためのデータ駆動正規化手法を提案する。
異なる領域からの3つのデータセットに対する実験により,提案手法はアノテーション付きトークンの数を減らし,従来の手法による予測性能を向上する。 Named entity recognition (NER) aims to identify mentions of named entities in an unstructured text and classify them into predefined named entity classes. While deep learning-based pre-trained language models help to achieve good predictive performances in NER, many domain-specific NER applications still call for a substantial amount of labeled data. Active learning (AL), a general framework for the label acquisition problem, has been used for NER tasks to minimize the annotation cost without sacrificing model performance. However, the heavily imbalanced class distribution of tokens introduces challenges in designing effective AL querying methods for NER. We propose several AL sentence query evaluation functions that pay more attention to potential positive tokens, and evaluate these proposed functions with both sentence-based and token-based cost evaluation strategies. We also propose a better data-driven normalization approach to penalize sentences that are too long or too short. Our experiments on three datasets from different domains reveal that the proposed approach reduces the number of annotated tokens while achieving better or comparable prediction performance with conventional methods. | 翻訳日:2023-03-24 18:54:47 公開日:2023-03-22 |
# PromptDA: Prompt-based Few-shot Learningersのためのラベル誘導型データ拡張 PromptDA: Label-guided Data Augmentation for Prompt-based Few-shot Learners ( http://arxiv.org/abs/2205.09229v3 ) ライセンス: Link先を確認 | Canyu Chen, Kai Shu | (参考訳) 大規模事前学習型言語モデル(plm)の最近の進歩は、タスク固有の微調整を伴う自然言語理解(nlu)タスクの素晴らしい向上につながる。
しかし、直接微調整plmは十分なラベル付きトレーニングインスタンスに大きく依存しており、通常は取得が難しい。
PLMのプロンプトベースのチューニングは、下流の様々な数ショットタスクに強力であることが示されている。
nluタスクのプロンプトベースのチューニングの研究は、主に適切なラベル単語を動詞化子で導出するか、plmから意味を導出するためのプロンプトテンプレートを生成することに焦点を当てている。
さらに、低リソースシナリオで広く採用されている同義語置換のような従来のデータ強化戦略は、プロンプトベースの少数ショット学習に限界的な改善をもたらすだけである。
したがって、重要な研究課題が生じる: プロンプトベースの数ショットチューニングのための効果的なデータ拡張手法をどうやって設計するか?
そこで本研究では,ラベルのセマンティクスを即時チューニングに欠かせないものとして,ラベル誘導型データ拡張フレームワークPromptDAを提案する。
ラベルのセマンティクスとデータ拡張を効果的に活用して自然言語理解に活用することにより,提案手法の優れた性能を示す。
私たちのコードはhttps://github.com/canyuchen/promptdaで利用可能です。 Recent advances in large pre-trained language models (PLMs) lead to impressive gains in natural language understanding (NLU) tasks with task-specific fine-tuning. However, directly fine-tuning PLMs heavily relies on sufficient labeled training instances, which are usually hard to obtain. Prompt-based tuning on PLMs has shown to be powerful for various downstream few-shot tasks. Existing works studying prompt-based tuning for few-shot NLU tasks mainly focus on deriving proper label words with a verbalizer or generating prompt templates to elicit semantics from PLMs. In addition, conventional data augmentation strategies such as synonym substitution, though widely adopted in low-resource scenarios, only bring marginal improvements for prompt-based few-shot learning. Thus, an important research question arises: how to design effective data augmentation methods for prompt-based few-shot tuning? To this end, considering the label semantics are essential in prompt-based tuning, we propose a novel label-guided data augmentation framework PromptDA, which exploits the enriched label semantic information for data augmentation. Extensive experiment results on few-shot text classification tasks demonstrate the superior performance of the proposed framework by effectively leveraging label semantics and data augmentation for natural language understanding. Our code is available at https://github.com/canyuchen/PromptDA. | 翻訳日:2023-03-24 18:47:31 公開日:2023-03-22 |
# これらすべてを合成するための1つのモデル:データのインプテーションを欠くマルチコントラストマルチスケールトランスフォーマー One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation ( http://arxiv.org/abs/2204.13738v2 ) ライセンス: Link先を確認 | Jiang Liu, Srivathsa Pasumarthi, Ben Duffy, Enhao Gong, Keshav Datta, Greg Zaharchuk | (参考訳) 多コントラストMRI(Multi-Contrast magnetic resonance imaging)は臨床で広く用いられている。
しかし、各画像コントラストの可用性は患者によって異なり、放射線医や自動画像解析アルゴリズムに課題が生じる。
この問題を解決する一般的なアプローチは、データインプテーションの欠如であり、既存のデータとのコントラストの欠如を合成することを目的としている。
いくつかの畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムが提案されているが、CNNモデルの基本的な制限、例えば、入力チャネルと出力チャネルの固定数の要件、長距離依存をキャプチャすることができないこと、解釈不能などである。
本研究では,データインプテーションの欠落をシーケンスからシーケンスへの学習問題として定式化し,入力コントラストの任意のサブセットを取り込んで,欠落したデータを合成するマルチコントラストマルチスケールトランス(mmt)を提案する。
MMTは、入力の階層的な表現を構築するマルチスケールトランスフォーマーエンコーダと、粗い方法で出力を生成するマルチスケールトランスフォーマーデコーダで構成される。
提案するマルチコントラストスウィントランスブロックは、正確な画像合成のために、コントラスト内およびコントラスト間依存性を効率的に捉えることができる。
さらに、MTMは、デコーダ内のトランスフォーマーブロックの組込みアテンションマップを解析することにより、異なる領域における各入力コントラストの重要性を理解することができるため、本質的に解釈可能である。
2つの大規模マルチコントラストMRIデータセットに対する大規模な実験により、MTTは最先端の手法を定量的に質的に優れていることが示された。 Multi-contrast magnetic resonance imaging (MRI) is widely used in clinical practice as each contrast provides complementary information. However, the availability of each imaging contrast may vary amongst patients, which poses challenges to radiologists and automated image analysis algorithms. A general approach for tackling this problem is missing data imputation, which aims to synthesize the missing contrasts from existing ones. While several convolutional neural networks (CNN) based algorithms have been proposed, they suffer from the fundamental limitations of CNN models, such as the requirement for fixed numbers of input and output channels, the inability to capture long-range dependencies, and the lack of interpretability. In this work, we formulate missing data imputation as a sequence-to-sequence learning problem and propose a multi-contrast multi-scale Transformer (MMT), which can take any subset of input contrasts and synthesize those that are missing. MMT consists of a multi-scale Transformer encoder that builds hierarchical representations of inputs combined with a multi-scale Transformer decoder that generates the outputs in a coarse-to-fine fashion. The proposed multi-contrast Swin Transformer blocks can efficiently capture intra- and inter-contrast dependencies for accurate image synthesis. Moreover, MMT is inherently interpretable as it allows us to understand the importance of each input contrast in different regions by analyzing the in-built attention maps of Transformer blocks in the decoder. Extensive experiments on two large-scale multi-contrast MRI datasets demonstrate that MMT outperforms the state-of-the-art methods quantitatively and qualitatively. | 翻訳日:2023-03-24 18:46:50 公開日:2023-03-22 |
# TwistSLAM++: 正確な動的セマンティックSLAMのために複数のモードを使用する TwistSLAM++: Fusing multiple modalities for accurate dynamic semantic SLAM ( http://arxiv.org/abs/2209.07888v2 ) ライセンス: Link先を確認 | Mathieu Gonzalez, Eric Marchand, Amine Kacete and J\'er\^ome Royan | (参考訳) ほとんどの古典的なSLAMシステムは静的シーンの仮定に依存しており、現実のシナリオにおける適用性を制限する。
近年,カメラと移動物体を同時に追跡するSLAMフレームワークが提案されている。
しかし、それらはしばしば、オブジェクトの標準的なポーズを推定できず、低いオブジェクト追跡精度を示す。
この問題を解決するために,ステレオ画像とLiDAR情報を融合した意味的動的SLAMシステムTwistSLAM++を提案する。
セマンティクス情報を用いて、移動可能なオブジェクトを追跡し、lidarスキャンで3dオブジェクト検出と関連付けて、そのポーズとサイズを取得する。
次に,連続するオブジェクトスキャンの登録を行い,オブジェクトポーズ推定を洗練する。
最後に、オブジェクトスキャンを用いてオブジェクトの形状を推定し、BA内の推定表面にある制約マップポイントを推定する。
本稿では,マルチモーダル情報に基づくこの融合手法が,オブジェクト追跡の精度を向上させることを示す。 Most classical SLAM systems rely on the static scene assumption, which limits their applicability in real world scenarios. Recent SLAM frameworks have been proposed to simultaneously track the camera and moving objects. However they are often unable to estimate the canonical pose of the objects and exhibit a low object tracking accuracy. To solve this problem we propose TwistSLAM++, a semantic, dynamic, SLAM system that fuses stereo images and LiDAR information. Using semantic information, we track potentially moving objects and associate them to 3D object detections in LiDAR scans to obtain their pose and size. Then, we perform registration on consecutive object scans to refine object pose estimation. Finally, object scans are used to estimate the shape of the object and constrain map points to lie on the estimated surface within the BA. We show on classical benchmarks that this fusion approach based on multimodal information improves the accuracy of object tracking. | 翻訳日:2023-03-24 18:28:32 公開日:2023-03-22 |
# SUSY-非相対論的量子固有エネルギー解析によるニキフォロフ-ウバロフ形式による正方形型三角ポテンシャル SUSY-Nonrelativistic Quantum Eigenspectral Energy Analysis for Squared-Type Trigonometric Potentials Through Nikiforov-Uvarov Formalism ( http://arxiv.org/abs/2208.11587v3 ) ライセンス: Link先を確認 | Metin Aktas | (参考訳) 超対称量子力学(SUSYQM)の枠組みにおける正方形三角ポテンシャルに対するシュロディンガー方程式の明示的および解析的境界状態解は、ニキフォロフ・ウバロフ(NU)多項式手順を実装して実行される。
最初のステップは、ポテンシャル対を V1(x) と V2(x) として生成する適切なアンザッツ超ポテンシャル W(x) を採用するための特定の作用を必要とする。
第2のプロセスでは、一次元シュロディンガー方程式の各ポテンシャルを挿入し、超幾何微分方程式を NU 法で解くことで正規化波動関数の記述が生まれ、代数的に特徴的なSUSY量子エネルギー固有スペクトル集合に対応する。
パラメトリック的に調べると、それらは相対論的あるいは非相対論的文脈で定められた様々な物理量子系の数学的処理に関する信頼性があり適用可能な形式である。 Explicit and analytical bound-state solutions of the Schrodinger equation for squared-form trigonometric potentials within the framework of supersymmetric quantum mechanics (SUSYQM) are performed by implementing the Nikiforov-Uvarov (NU) polynomial procedure. The first step requires a certain action to adopt an appropriate ansatz superpotential W(x) for generating the potential pair as V1 (x) and V2(x). In the second process, inserting each potential for the one-dimensional Schrodinger equation and solving the hypergeometric differential equation with the NU method gives rise to normalized wave function descriptions and algebraically corresponds to the characteristic SUSY quantum energy eigenspectrum sets. It is remarkable to note that, when examined parametrically, they are of reliable and applicable forms concerning the mathematical treatment of various physical quantum systems prescribed in relativistic or nonrelativistic contexts. | 翻訳日:2023-03-24 18:26:34 公開日:2023-03-22 |
# Frank-Wolfe法による凸混合整数最適化 Convex mixed-integer optimization with Frank-Wolfe methods ( http://arxiv.org/abs/2208.11010v5 ) ライセンス: Link先を確認 | Deborah Hendrych and Hannah Troppens and Mathieu Besan\c{c}on and Sebastian Pokutta | (参考訳) 混合整数非線形最適化は、理論的および計算的課題の両方を示す幅広い種類の問題を含む。
本稿では,凸ノード緩和を用いた分岐結合アルゴリズムに基づいて,これらの問題の解法を提案する。
これらの緩和は、混合整数線型解法を線形オラクルとして呼び出すことで連続的な緩和ではなく、混合整数可能点の凸包上のフランク・ウルフアルゴリズムによって解決される。
提案手法は,多面体制約の単一表現に取り組みながら実現可能な解を計算し,外部近似スキームを使わずに混合整数線形解法を最大限に活用し,ノードサブプロブレムの不適合解を活用できる。 Mixed-integer nonlinear optimization encompasses a broad class of problems that present both theoretical and computational challenges. We propose a new type of method to solve these problems based on a branch-and-bound algorithm with convex node relaxations. These relaxations are solved with a Frank-Wolfe algorithm over the convex hull of mixed-integer feasible points instead of the continuous relaxation via calls to a mixed-integer linear solver as the linear oracle. The proposed method computes feasible solutions while working on a single representation of the polyhedral constraints, leveraging the full extent of mixed-integer linear solvers without an outer approximation scheme and can exploit inexact solutions of node subproblems. | 翻訳日:2023-03-24 18:26:16 公開日:2023-03-22 |
# 量子回路アルゴリズムに関するソフトウェア科学の展望 Software science view on quantum circuit algorithms ( http://arxiv.org/abs/2209.13731v2 ) ライセンス: Link先を確認 | Yuri Gurevich and Andreas Blass | (参考訳) 量子回路図の抽象化レベルにおいて、量子回路アルゴリズムは、我々が以前に研究した対話的逐次アルゴリズムの種類に属することを示す。
この観察は、量子回路アルゴリズムの自然な仕様言語に繋がる。 We show that, on the abstraction level of quantum circuit diagrams, quantum circuit algorithms belong to the species of interactive sequential algorithms that we studied in earlier work. This observation leads to a natural specification language for quantum circuit algorithms. | 翻訳日:2023-03-24 18:18:20 公開日:2023-03-22 |
# マルチタスク学習を用いた自己教師付きモデルによる構音障害の重症度自動評価 Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning ( http://arxiv.org/abs/2210.15387v2 ) ライセンス: Link先を確認 | Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung | (参考訳) 変形性音声の自動評価は持続的治療とリハビリテーションに不可欠である。
しかし、非典型的音声の取得は困難であり、しばしばデータ不足の問題を引き起こす。
そこで本研究では,マルチタスク学習を併用した自己教師付きモデルを用いて,構音障害の重症度自動評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)という2つのタスクで共同で訓練されている。
ベースライン実験では,手作り音響特徴と,SVM,MLP,XGBoostなどの機械学習分類器を用いる。
韓国の変形性音声QoLTデータベースを探索し,F1スコアが1.25%増加し,従来のベースライン法よりも優れていた。
さらに、提案モデルはASRヘッドなしで訓練されたモデルを超え、10.61%の相対パーセンテージ向上を達成した。
さらに,マルチタスク学習が潜在表現と正規化効果を分析し,重度分類性能にどのように影響するかを示す。 Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity classification and auxiliary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted acoustic features and machine learning classifiers such as SVM, MLP, and XGBoost. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 1.25% for F1-score. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.61% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect. | 翻訳日:2023-03-24 18:09:43 公開日:2023-03-22 |
# コード生成モデルの多言語評価 Multi-lingual Evaluation of Code Generation Models ( http://arxiv.org/abs/2210.14868v2 ) ライセンス: Link先を確認 | Ben Athiwaratkun, Sanjay Krishna Gouda, Zijian Wang, Xiaopeng Li, Yuchen Tian, Ming Tan, Wasi Uddin Ahmad, Shiqi Wang, Qing Sun, Mingyue Shang, Sujan Kumar Gonugondla, Hantian Ding, Varun Kumar, Nathan Fulton, Arash Farahani, Siddhartha Jain, Robert Giaquinto, Haifeng Qian, Murali Krishna Ramanathan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang | (参考訳) 本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーし、元のPythonデータセットからターゲット言語の対応するデータにプロンプトとテストケースをトランスパイルするスケーラブルな変換フレームワークを使用して生成される。
これらのベンチマークを用いて、コード生成モデルの性能を多言語方式で評価し、ドメイン外言語における言語モデルの一般化能力、単言語に対する多言語モデルの利点、モデルに新しい言語を教えるための数ショットプロンプト能力、単言語環境においてもゼロショット翻訳能力を見出した。
さらに,コード生成モデルを用いて大規模ブートストラップを行い,コード挿入やロバスト性,要約タスクなどのコード関連評価に使用可能な,いくつかの言語における合成正準解を得る。
全体的に、私たちのベンチマークは、言語モデルのコード生成能力をより深く理解するための重要なステップを示しています。
コードとデータセットはhttps://github.com/amazon-research/mxeval.comで公開しています。 We present new benchmarks on evaluation code generation models: MBXP and Multilingual HumanEval, and MathQA-X. These datasets cover over 10 programming languages and are generated using a scalable conversion framework that transpiles prompts and test cases from the original Python datasets into the corresponding data in the target language. Using these benchmarks, we are able to assess the performance of code generation models in a multi-lingual fashion, and discovered generalization ability of language models on out-of-domain languages, advantages of multi-lingual models over mono-lingual, the ability of few-shot prompting to teach the model new languages, and zero-shot translation abilities even on mono-lingual settings. Furthermore, we use our code generation model to perform large-scale bootstrapping to obtain synthetic canonical solutions in several languages, which can be used for other code-related evaluations such as code insertion, robustness, or summarization tasks. Overall, our benchmarks represents a significant step towards a deeper understanding of language models' code generation abilities. We publicly release our code and datasets at https://github.com/amazon-research/mxeval. | 翻訳日:2023-03-24 18:09:25 公開日:2023-03-22 |
# 角距離と関連する性質に関する量子古典的条件エントロピーのリプシッツ連続性 Lipschitz continuity of quantum-classical conditional entropies with respect to angular distance and related properties ( http://arxiv.org/abs/2210.04874v2 ) ライセンス: Link先を確認 | Michael Liaofan Liu, Florian Kanitschar, Amir Arqand, and Ernest Y.-Z. Tan | (参考訳) 我々は、量子古典的条件エントロピーに対して角距離に関して有界なリプシッツ連続性を導出し、条件系の次元に依存しないリプシッツ定数を導出する。
この境界は、跡距離(リプシッツ連続性は不可能である)、あるいは角距離に基づくが条件付きシステムを含んでいないような、以前の連続性境界よりもいくつかの状況ではよりシャープである。
しかし、境界は完全な量子条件エントロピーに直接一般化しない。
そこで本研究では,ファックス・ファン・ド・グラフの不等式を飽和させ,従って角距離がトレース距離とほぼ等しい状態のキャラクタリゼーションについて検討する。
可逆の場合、そのような状態の正確な特徴づけを与える。
非可逆的なケースでは、状況ははるかに精巧に見え、不確実性保存測定の集合を特徴づける問題に強く関係していると考えられる。 We derive a Lipschitz continuity bound for quantum-classical conditional entropies with respect to angular distance, with a Lipschitz constant that is independent of the dimension of the conditioning system. This bound is sharper in some situations than previous continuity bounds, which were either based on trace distance (where Lipschitz continuity is not possible), or based on angular distance but did not include a conditioning system. However, we find that the bound does not directly generalize to fully quantum conditional entropies. To investigate possible counterexamples in that setting, we study the characterization of states which saturate the Fuchs--van de Graaf inequality and thus have angular distance approximately equal to trace distance. We give an exact characterization of such states in the invertible case. For the noninvertible case, we show that the situation appears to be significantly more elaborate, and seems to be strongly connected to the question of characterizing the set of fidelity-preserving measurements. | 翻訳日:2023-03-24 18:07:40 公開日:2023-03-22 |
# Rydbergブロックのない原子アンサンブルにおける集合励起を用いた量子レジスタ A quantum register using collective excitations in an atomic ensemble without a Rydberg blockade ( http://arxiv.org/abs/2211.09252v2 ) ライセンス: Link先を確認 | Elisha Haber (1), Zekai Chen (1 and 2), Nicholas P. Bigelow (1) ((1) University of Rochester, (2) University of Innsbruck) | (参考訳) 原子の集合からなる量子ビットは、原子の損失に対する耐性から魅力的であり、そのような量子ビットを実現するための多くの提案は、リドベルク封鎖効果に基づいている。
本研究では,空間的に重なり合うボース・アインシュタイン凝縮体からスピン依存光学格子をコヒーレントにロードする実験可能なプロトコルを考える。
各格子サイトを量子ビットとして同定し, 空あるいは充填されたサイトを量子ビットとして, 高忠実度単一量子ビット演算, 任意の量子ビット間の2量子ゲート, 非破壊測定を行う方法について検討した。
この設定では、原子損失の影響は緩和されており、基底状態多様体の計算基底から原子を取り除く必要はなく、どちらも他の種類の原子量子ビットにおいて重要なデコヒーレンスの原因となる。 A qubit made up of an ensemble of atoms is attractive due to its resistance to atom losses, and many proposals to realize such a qubit are based on the Rydberg blockade effect. In this work, we instead consider an experimentally feasible protocol to coherently load a spin-dependent optical lattice from a spatially overlapping Bose-Einstein condensate. Identifying each lattice site as a qubit, with an empty or filled site as the qubit basis, we discuss how high-fidelity single qubit operations, two-qubit gates between arbitrary pairs of qubits, and nondestructive measurements could be performed. In this setup, the effect of atom losses has been mitigated, and we never need to remove the atoms from the computational basis in the ground state manifold, both of which can be significant sources of decoherence in other types of atomic qubits. | 翻訳日:2023-03-24 18:00:48 公開日:2023-03-22 |
# インジウムイオン注入により生成したZnOのドナー量子ビットの性質 Properties of donor qubits in ZnO formed by indium ion implantation ( http://arxiv.org/abs/2212.05230v3 ) ライセンス: Link先を確認 | Xingyi Wang, Christian Zimmermann, Michael Titze, Vasileios Niaouris, Ethan R. Hansen, Samuel H. D'Ambrosia, Lasse Vines, Edward S. Bielejec, Kai-Mei C. Fu | (参考訳) ZnOの浅中性ドナー(D$^{0}$)は、固体スピン量子ビットの候補として期待されている。
ZnO中のD$^{0}$の形成はInの注入とその後の焼鈍によるものである。
埋め込みInドナーは、$\textit{in situ}$ doped donorと同等の光学特性とスピン特性を示す。
ドナーバウンド励起子転移の不均質な線幅は10ghz未満であり、光学的線幅である$\textit{in situ}$ inに匹敵する。
経時的スピン緩和時間(T_1$)は、$\textit{in situ}$ Ga ドナーの報告値を超える。
ドナースピン上の2つのレーザーラマン分光は、ドナー電子とスピン-9/2 In核との超微細な相互作用を明らかにする。
この研究は、長寿命の核スピンメモリへの光学的アクセスを持つZnOにおけるInドナー量子ビットの決定論的形成に向けた重要なステップである。 Shallow neutral donors (D$^{0}$) in ZnO have emerged as a promising candidate for solid-state spin qubits. Here, we report on the formation of D$^{0}$ in ZnO via implantation of In and subsequent annealing. The implanted In donors exhibit optical and spin properties on par with $\textit{in situ}$ doped donors. The inhomogeneous linewidth of the donor-bound exciton transition is less than 10 GHz, comparable to the optical linewidth of $\textit{in situ}$ In. Longitudinal spin relaxation times ($T_1$) exceed reported values for $\textit{in situ}$ Ga donors, indicating that residual In implantation damage does not degrade $T_1$. Two laser Raman spectroscopy on the donor spin reveals the hyperfine interaction of the donor electron with the spin-9/2 In nuclei. This work is an important step toward the deterministic formation of In donor qubits in ZnO with optical access to a long-lived nuclear spin memory. | 翻訳日:2023-03-24 17:52:23 公開日:2023-03-22 |
# UNETR++: 効率的で正確な3D画像セグメンテーション UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation ( http://arxiv.org/abs/2212.04497v2 ) ライセンス: Link先を確認 | Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan | (参考訳) トランスモデルの成功により、最近の研究は3次元医療セグメンテーションタスクの適用性について研究している。
トランスフォーマーモデルでは、セルフアテンションメカニズムは、長距離の依存関係を捉えるための主要なビルディングブロックの1つです。
しかし、セルフアテンション操作は二次的複雑度を有しており、特に、入力が多数のスライスで3dである体積医用画像において計算ボトルネックであることが証明されている。
本稿では,高品質なセグメンテーションマスクと,パラメータや計算コスト,推論速度といった面での効率性を提供する,unetr++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的注意に基づく一対の依存枝を用いて、空間的およびチャネル的差別的特徴を効率的に学習する、新しい効率的なペア注意(EPA)ブロックの導入である。
空間的注意の定式化は,入力シーケンス長に対して線形複雑度を有する。
空間的およびチャネル中心のブランチ間の通信を可能にするため、クエリとキーマッピング関数の重みを共有し、補足的なメリット(注意のペア化)を提供するとともに、ネットワーク全体のパラメータを削減します。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークから, 効率と精度の両面での貢献の有効性を明らかにした。
シナプスについて、我々のunetr++は87.2%のサイススコアで新しい最先端をセットし、パラメータとフラップの両方の点で71%以上の削減で大幅に効率的である。
コード:https://github.com/Amshaker/unetr_plus_plus Owing to the success of transformer models, recent works study their applicability in 3D medical segmentation tasks. Within the transformer models, the self-attention mechanism is one of the main building blocks that strives to capture long-range dependencies. However, the self-attention operation has quadratic complexity which proves to be a computational bottleneck, especially in volumetric medical imaging, where the inputs are 3D with numerous slices. In this paper, we propose a 3D medical image segmentation approach, named UNETR++, that offers both high-quality segmentation masks as well as efficiency in terms of parameters, compute cost, and inference speed. The core of our design is the introduction of a novel efficient paired attention (EPA) block that efficiently learns spatial and channel-wise discriminative features using a pair of inter-dependent branches based on spatial and channel attention. Our spatial attention formulation is efficient having linear complexity with respect to the input sequence length. To enable communication between spatial and channel-focused branches, we share the weights of query and key mapping functions that provide a complimentary benefit (paired attention), while also reducing the overall network parameters. Our extensive evaluations on five benchmarks, Synapse, BTCV, ACDC, BRaTs, and Decathlon-Lung, reveal the effectiveness of our contributions in terms of both efficiency and accuracy. On Synapse, our UNETR++ sets a new state-of-the-art with a Dice Score of 87.2%, while being significantly efficient with a reduction of over 71% in terms of both parameters and FLOPs, compared to the best method in the literature. Code: https://github.com/Amshaker/unetr_plus_plus. | 翻訳日:2023-03-24 17:52:06 公開日:2023-03-22 |
# パルスレベルでの変分量子ゲート最適化 Variational Quantum Gate Optimization at the Pulse Level ( http://arxiv.org/abs/2211.16322v2 ) ライセンス: Link先を確認 | Sean Greenaway, Francesco Petiziol, Hongzheng Zhao and Florian Mintert | (参考訳) 固定周波数トランスモン量子ビットの物理ハミルトニアンにより入力される変分量子ゲート最適化プロトコルの有効性を実験的に検討した。
このスキームの有用性は、ネイティブな相互共振相互作用に合わせた2ビットと3ビットの量子ゲートの実験的な最適化によって実証される。
このような戦略の限界は、フロッケ工学による3量子ビット相互作用に基づくゲートの最適化によって検討されるが、パラメータドリフトは、変分最適化プロトコルが克服できないようなスキームの実装を妨げる鍵制限因子として同定される。 We experimentally investigate the viability of a variational quantum gate optimization protocol informed by the underlying physical Hamiltonian of fixed-frequency transmon qubits. The utility of the scheme is demonstrated through the successful experimental optimization of two and three qubit quantum gates tailored on the native cross-resonance interaction. The limits of such a strategy are investigated through the optimization of a gate based on Floquet-engineered three-qubit interactions, however parameter drift is identified as a key limiting factor preventing the implementation of such a scheme which the variational optimization protocol is unable to overcome. | 翻訳日:2023-03-24 17:51:22 公開日:2023-03-22 |
# ウェーブレット拡散モデルは高速でスケーラブルな画像生成器である Wavelet Diffusion Models are fast and scalable Image Generators ( http://arxiv.org/abs/2211.16152v2 ) ライセンス: Link先を確認 | Hao Phung, Quan Dao, Anh Tran | (参考訳) 拡散モデルは高忠実度画像生成の強力なソリューションとして増加しており、多くの状況においてGANを超える。
しかし、彼らの遅いトレーニングと推論速度は大きなボトルネックであり、リアルタイムアプリケーションでの使用を妨げている。
最近のDiffusionGAN法では、サンプリングステップの数を数千から数に削減することで、モデルの実行時間を大幅に短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレットに基づく拡散スキームを提案することにより,速度ギャップの低減を目指す。
ウェーブレット分解によって画像と特徴レベルの両方から低周波数と高周波数のコンポーネントを抽出し、これらのコンポーネントを適応的に処理し、優れた生成品質を維持しつつ処理を高速化する。
さらに,モデルトレーニングの収束を効果的に促進する再構築項の使用を提案する。
CelebA-HQ, CIFAR-10, LSUN-Church, STL-10データセットによる実験結果から, 実時間および高忠実拡散モデルを提供するための基盤となる。
私たちのコードと事前訓練されたチェックポイントは、 \url{https://github.com/VinAIResearch/WaveDiff.git}で利用可能です。 Diffusion models are rising as a powerful solution for high-fidelity image generation, which exceeds GANs in quality in many circumstances. However, their slow training and inference speed is a huge bottleneck, blocking them from being used in real-time applications. A recent DiffusionGAN method significantly decreases the models' running time by reducing the number of sampling steps from thousands to several, but their speeds still largely lag behind the GAN counterparts. This paper aims to reduce the speed gap by proposing a novel wavelet-based diffusion scheme. We extract low-and-high frequency components from both image and feature levels via wavelet decomposition and adaptively handle these components for faster processing while maintaining good generation quality. Furthermore, we propose to use a reconstruction term, which effectively boosts the model training convergence. Experimental results on CelebA-HQ, CIFAR-10, LSUN-Church, and STL-10 datasets prove our solution is a stepping-stone to offering real-time and high-fidelity diffusion models. Our code and pre-trained checkpoints are available at \url{https://github.com/VinAIResearch/WaveDiff.git}. | 翻訳日:2023-03-24 17:51:13 公開日:2023-03-22 |
# 連続的および段階的テスト時間適応のためのロバスト平均教師 Robust Mean Teacher for Continual and Gradual Test-Time Adaptation ( http://arxiv.org/abs/2211.13081v2 ) ライセンス: Link先を確認 | Mario D\"obler, Robert A. Marsden, Bin Yang | (参考訳) テスト時のドメインシフトを実際に経験することは避けられないので、テスト時間適応(TTA)はデプロイ後もモデルを適応し続けます。
近年,TTA (Continuous and gradual test-time adapt) が出現している。
標準的なTTAとは対照的に、連続的なTTAは単一のドメインシフトだけでなく、一連のシフトも考慮している。
経時変化TTAは、時間とともに徐々に変化していく性質をさらに活用する。
どちらの設定にも長いテストシーケンスが存在するため、自己学習に依存するメソッドではエラーの蓄積に対処する必要がある。
本稿では,ttaの設定において,対称クロスエントロピーが一般的なクロスエントロピーと比較して,平均教師の一貫性損失として適していることを示す。
これは(対称)クロスエントロピーの勾配特性に関する解析によって正当化される。
事前学習されたモデルがよく提示されているソース領域にテスト特徴空間を近づけるには、コントラスト学習を利用する。
アプリケーションは要件が異なるため、ソースデータの提供や、より困難なソースフリー設定など、いくつかの設定に対処します。
提案手法がCIFAR10C, CIFAR100C, Imagenet-Cの連続的, 段階的な汚職ベンチマークに与える影響を実証した。
我々はさらにimagenet-rを検討し、新しいcontinual domainnet-126ベンチマークを提案する。
最先端の結果はすべてのベンチマークで達成される。 Since experiencing domain shifts during test-time is inevitable in practice, test-time adaption (TTA) continues to adapt the model after deployment. Recently, the area of continual and gradual test-time adaptation (TTA) emerged. In contrast to standard TTA, continual TTA considers not only a single domain shift, but a sequence of shifts. Gradual TTA further exploits the property that some shifts evolve gradually over time. Since in both settings long test sequences are present, error accumulation needs to be addressed for methods relying on self-training. In this work, we propose and show that in the setting of TTA, the symmetric cross-entropy is better suited as a consistency loss for mean teachers compared to the commonly used cross-entropy. This is justified by our analysis with respect to the (symmetric) cross-entropy's gradient properties. To pull the test feature space closer to the source domain, where the pre-trained model is well posed, contrastive learning is leveraged. Since applications differ in their requirements, we address several settings, including having source data available and the more challenging source-free setting. We demonstrate the effectiveness of our proposed method 'robust mean teacher' (RMT) on the continual and gradual corruption benchmarks CIFAR10C, CIFAR100C, and Imagenet-C. We further consider ImageNet-R and propose a new continual DomainNet-126 benchmark. State-of-the-art results are achieved on all benchmarks. | 翻訳日:2023-03-24 17:49:46 公開日:2023-03-22 |
# 未来を予測するために過去を要約する: 自然言語によるマルチモーダルオブジェクトインタラクションの強化 Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction ( http://arxiv.org/abs/2301.09209v2 ) ライセンス: Link先を確認 | Razvan-George Pasca, Alexey Gavryushin, Yen-Ling Kuo, Luc Van Gool, Otmar Hilliges, Xi Wang | (参考訳) エゴセントリックビデオにおけるオブジェクトインタラクションの予測について検討する。
このタスクは、過去のアクションがオブジェクトに生成した時空間コンテキストの理解を必要とする。
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで言語の表現力を利用する。
TransFusionは、トレーニング済みの画像キャプションとビジョン言語モデルを利用して、過去のビデオフレームからアクションコンテキストを抽出する。
このアクションコンテキストと次のビデオフレームは、マルチモーダル融合モジュールによって処理され、次のオブジェクトの相互作用を予測する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
大きな事前訓練された言語モデルには、常識と一般化機能が追加されている。
Ego4D と EPIC-KITCHENS-100 の実験により, マルチモーダル核融合モデルの有効性が示された。
また、視覚が十分であると思われるタスクで言語ベースのコンテキスト要約を使用することの利点も強調している。
提案手法は,Ego4Dテストセット全体のmAPにおいて,相対的に40.4%向上する。
EPIC-KITCHENS-100実験によるTransFusionの有効性を検証した。
ビデオとコードは、https://eth-ait.github.io/transfusion-proj/.com/で入手できる。 We study object interaction anticipation in egocentric videos. This task requires an understanding of the spatiotemporal context formed by past actions on objects, coined action context. We propose TransFusion, a multimodal transformer-based architecture. It exploits the representational power of language by summarising the action context. TransFusion leverages pre-trained image captioning and vision-language models to extract the action context from past video frames. This action context together with the next video frame is processed by the multimodal fusion module to forecast the next object interaction. Our model enables more efficient end-to-end learning. The large pre-trained language models add common sense and a generalisation capability. Experiments on Ego4D and EPIC-KITCHENS-100 show the effectiveness of our multimodal fusion model. They also highlight the benefits of using language-based context summaries in a task where vision seems to suffice. Our method outperforms state-of-the-art approaches by 40.4% in relative terms in overall mAP on the Ego4D test set. We validate the effectiveness of TransFusion via experiments on EPIC-KITCHENS-100. Video and code are available at: https://eth-ait.github.io/transfusion-proj/. | 翻訳日:2023-03-24 17:33:24 公開日:2023-03-22 |
# CA$^2$T-Net: 単一画像からのカテゴリー非依存的3次元調音伝達 CA$^2$T-Net: Category-Agnostic 3D Articulation Transfer from Single Image ( http://arxiv.org/abs/2301.02232v2 ) ライセンス: Link先を確認 | Jasmine Collins, Anqi Liang, Jitendra Malik, Hao Zhang, Fr\'ed\'eric Devernay | (参考訳) 本稿では,物体の単一画像から静止状態(すなわち,非有声)3dモデルに動きを伝達するニューラルネットワーク手法を提案する。
我々のネットワークは、入力画像に表示される調音を再現するために、オブジェクトのポーズ、部分分割、および対応する動きパラメータを予測することを学習する。
ネットワークは3つの異なるブランチで構成されており、共有されたジョイントイメージ型の埋め込みを受け、エンドツーエンドでトレーニングされている。
従来の方法とは異なり、このアプローチはオブジェクトのトポロジとは独立であり、任意のカテゴリのオブジェクトと協調することができる。
提案手法は, 合成データのみを用いて学習し, メッシュの自動アニメーション, 実画像からの動作推定, および機能的に類似しているが幾何的に異なる3次元モデルへの調音伝達を行う。 We present a neural network approach to transfer the motion from a single image of an articulated object to a rest-state (i.e., unarticulated) 3D model. Our network learns to predict the object's pose, part segmentation, and corresponding motion parameters to reproduce the articulation shown in the input image. The network is composed of three distinct branches that take a shared joint image-shape embedding and is trained end-to-end. Unlike previous methods, our approach is independent of the topology of the object and can work with objects from arbitrary categories. Our method, trained with only synthetic data, can be used to automatically animate a mesh, infer motion from real images, and transfer articulation to functionally similar but geometrically distinct 3D models at test time. | 翻訳日:2023-03-24 17:32:23 公開日:2023-03-22 |
# カット・アンド・パスング GAN を用いた自己監督型オブジェクトセグメンテーション Self-Supervised Object Segmentation with a Cut-and-Pasting GAN ( http://arxiv.org/abs/2301.00366v2 ) ライセンス: Link先を確認 | Kunal Chaturvedi, Ali Braytee, Jun Li, Mukesh Prasad | (参考訳) 本稿では,手動のアノテーションを使わずに,前景オブジェクトのセグメンテーションを行い,リアルな合成画像を生成するための,自己監督型カット・アンド・ペーストGANを提案する。
我々は、U-Netベースの識別器と組み合わせて、シンプルながら効果的な自己教師型アプローチによって、この目標を達成する。
提案手法は,グローバルなデータ表現を分類(リアル/フェイク)によって学習するだけでなく,自己管理タスクを用いて作成した擬似ラベルを用いて意味や構造情報を学習する。
提案手法では,各画素ごとの情報学習や,識別器からのグローバルイメージフィードバックを強制することで,意味のあるマスクを作成することができる。
実験により,提案手法が標準ベンチマークデータセットの最先端手法を大幅に上回ることを示した。 This paper proposes a novel self-supervised based Cut-and-Paste GAN to perform foreground object segmentation and generate realistic composite images without manual annotations. We accomplish this goal by a simple yet effective self-supervised approach coupled with the U-Net based discriminator. The proposed method extends the ability of the standard discriminators to learn not only the global data representations via classification (real/fake) but also learn semantic and structural information through pseudo labels created using the self-supervised task. The proposed method empowers the generator to create meaningful masks by forcing it to learn informative per-pixel as well as global image feedback from the discriminator. Our experiments demonstrate that our proposed method significantly outperforms the state-of-the-art methods on the standard benchmark datasets. | 翻訳日:2023-03-24 17:31:10 公開日:2023-03-22 |
# 人工知能の解説としての属性スコアと因果関係 Attribution-Scores and Causal Counterfactuals as Explanations in Artificial Intelligence ( http://arxiv.org/abs/2303.02829v2 ) ライセンス: Link先を確認 | Leopoldo Bertossi | (参考訳) 本稿では、人工知能、一般に、そして、様々なアプローチの出自と関連性を参照しながら、新しい発展を論じる「説明可能なAI」に関する説明の関連性を強調します。
本稿では、帰属スコアに基づくデータ管理と機械学習における説明、因果関係の領域で見られる反事実を簡潔に記述する。
本稿では, 対物処理における論理的推論の重要性と, スコア計算への利用について詳述する。 In this expository article we highlight the relevance of explanations for artificial intelligence, in general, and for the newer developments in {\em explainable AI}, referring to origins and connections of and among different approaches. We describe in simple terms, explanations in data management and machine learning that are based on attribution-scores, and counterfactuals as found in the area of causality. We elaborate on the importance of logical reasoning when dealing with counterfactuals, and their use for score computation. | 翻訳日:2023-03-24 17:12:47 公開日:2023-03-22 |
# 不確実性マイニングと知識埋め込みによる無人運転注意予測 Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge Embedding ( http://arxiv.org/abs/2303.09706v2 ) ライセンス: Link先を確認 | Pengfei Zhu, Mengshi Qi, Xia Li, Weijian Li and Huadong Ma | (参考訳) 関心のある注意領域を予測することは、自動運転システムにとって重要な課題である。
既存の手法は、労働集約的な大規模ラベル付きトラフィックデータセットに依存している。
さらに、現在のデータセットにおける自然なシーンとトラフィックシーンの間の大きなドメインギャップは、モデルトレーニングの可能性を制限する。
これらの課題に対処するため、我々は、不確実性モデリングと知識統合の推進により、自動運転の注意を予測できる教師なしの方法を導入する。
提案手法のUncertainty Mining Branch (UMB) は, 自然環境下で事前学習したモデルから得られた複数の擬似ラベルの共通点と相違点を, 積極的に不確実性を測定することによって検出する。
一方、我々の知識埋め込みブロック(keb)は、生成された擬似ラベルを適応的に洗練するために、駆動知識を組み込んでドメインギャップを橋渡しします。
3つの公開データセットすべてで完全に監視された最先端のアプローチと比較して、同等あるいはさらに印象的なパフォーマンスを持つ定量的、質的結果が、提案手法の有効性とこの方向の可能性を示している。
コードは公開される予定だ。 Predicting attention regions of interest is an important yet challenging task for self-driving systems. Existing methodologies rely on large-scale labeled traffic datasets that are labor-intensive to obtain. Besides, the huge domain gap between natural scenes and traffic scenes in current datasets also limits the potential for model training. To address these challenges, we are the first to introduce an unsupervised way to predict self-driving attention by uncertainty modeling and driving knowledge integration. Our approach's Uncertainty Mining Branch (UMB) discovers commonalities and differences from multiple generated pseudo-labels achieved from models pre-trained on natural scenes by actively measuring the uncertainty. Meanwhile, our Knowledge Embedding Block (KEB) bridges the domain gap by incorporating driving knowledge to adaptively refine the generated pseudo-labels. Quantitative and qualitative results with equivalent or even more impressive performance compared to fully-supervised state-of-the-art approaches across all three public datasets demonstrate the effectiveness of the proposed method and the potential of this direction. The code will be made publicly available. | 翻訳日:2023-03-24 17:04:21 公開日:2023-03-22 |
# 複合攻撃に対する非線形マルチエージェントシステムのデータ駆動型リーダ追従コンセンサス:ツインズ層アプローチ Data-Driven Leader-following Consensus for Nonlinear Multi-Agent Systems against Composite Attacks: A Twins Layer Approach ( http://arxiv.org/abs/2303.12823v1 ) ライセンス: Link先を確認 | Xin Gong, Jintao Peng, Dong Yang, Zhan Shu, Tingwen Huang, Yukang Cui | (参考訳) 本稿では,複合攻撃(cas)に対する不確実かつ非線形マルチエージェントシステムのリーダ追従コンセンサスについて,dos攻撃やaas攻撃などについて検討する。
最近のDigital Twin技術に触発された従来のサイバー物理層(CPL)の横に、デジタルツイン層(TL)を付加する、二重層制御フレームワークが定式化されている。
その結果、CAに対するレジリエントな制御タスクは、TLに対するDoS攻撃に対する分散推定と、CPLに対するアクティベーション攻撃に対するレジリエントな分散トラッキング制御の2つに分けられる。
まず,DoSに対するスイッチング推定則に基づく分散オブザーバをTL上に設計する。
第2に, aasに対する攻撃補償に基づく分散モデル自由適応制御(dmfac)プロトコルをcpl上で設計し, さらに, 提案する二重層dmfacアルゴリズムのコンセンサス誤差の一様有界収束を厳密に証明した。
最後に、レジリエントな二重層制御方式の有効性をシミュレーションにより検証する。 This paper studies the leader-following consensuses of uncertain and nonlinear multi-agent systems against composite attacks (CAs), including Denial of Service (DoS) attacks and actuation attacks (AAs). A double-layer control framework is formulated, where a digital twin layer (TL) is added beside the traditional cyber-physical layer (CPL), inspired by the recent Digital Twin technology. Consequently, the resilient control task against CAs can be divided into two parts: One is distributed estimation against DoS attacks on the TL and the other is resilient decentralized tracking control against actuation attacks on the CPL. %The data-driven scheme is used to deal with both model non-linearity and model uncertainty, in which only the input and output data of the system are employed throughout the whole control process. First, a distributed observer based on switching estimation law against DoS is designed on TL. Second, a distributed model free adaptive control (DMFAC) protocol based on attack compensation against AAs is designed on CPL. Moreover, the uniformly ultimately bounded convergence of consensus error of the proposed double-layer DMFAC algorithm is strictly proved. Finally, the simulation verifies the effectiveness of the resilient double-layer control scheme. | 翻訳日:2023-03-24 16:56:50 公開日:2023-03-22 |
# ディープラーニングモデル作成のためのビジュアルプログラミングツールの開発 Towards A Visual Programming Tool to Create Deep Learning Models ( http://arxiv.org/abs/2303.12821v1 ) ライセンス: Link先を確認 | Tommaso Cal\`o and Luigi De Russis | (参考訳) ディープラーニング(DL)開発者は、医学、ゲノム学、ファイナンス、コンピュータサイエンスなど、さまざまなバックグラウンドから来ている。
dlモデルを作成するには、ハイレベルなプログラミング言語(例えばpython)を学ばなければならないため、関連するセットアップを処理し、プログラムエラーを解決する必要がある。
本稿では、DL開発者が特定のプログラミング言語に頼ることなく、モデルの設計、訓練、評価ができるビジュアルプログラミングツールであるDeepBlocksについて述べる。
deepblocksは典型的なモデル構造の上に構築することで機能する: モデルの特定の特性を定義する配列を持つ学習可能な関数のシーケンス。
我々は,deepblocksの設計目標を5つの参加者によるフォーマティブ・インタビューから導出し,そのツールの最初の実装を典型的なユースケースで検証した。
結果は有望であり、複雑なDLアーキテクチャを視覚的に設計できることを示しています。 Deep Learning (DL) developers come from different backgrounds, e.g., medicine, genomics, finance, and computer science. To create a DL model, they must learn and use high-level programming languages (e.g., Python), thus needing to handle related setups and solve programming errors. This paper presents DeepBlocks, a visual programming tool that allows DL developers to design, train, and evaluate models without relying on specific programming languages. DeepBlocks works by building on the typical model structure: a sequence of learnable functions whose arrangement defines the specific characteristics of the model. We derived DeepBlocks' design goals from a 5-participants formative interview, and we validated the first implementation of the tool through a typical use case. Results are promising and show that developers could visually design complex DL architectures. | 翻訳日:2023-03-24 16:56:25 公開日:2023-03-22 |
# 量子時空境界問題:局所因果情報による大域因果構造 Quantum space-time marginal problem: global causal structure from local causal information ( http://arxiv.org/abs/2303.12819v1 ) ライセンス: Link先を確認 | Zhian Jia, Minjeong Song, Dagomir Kaszlikowski | (参考訳) 空間的および時間的量子相関は擬密度演算子の枠組みで統一することができ、実験における関連する事象間の量子因果関係は対応する擬密度演算子に符号化される。
局所因果情報とグローバル因果構造との関係について検討する。
因果構造が擬密度演算子によって表されるような与えられた辺縁因果構造から大域因果構造を推定する時空境界問題を提案する。
この解集合に対応する制約を課すことで、正の半定値境界問題や分離可能な限界問題などのような特別クラス境界問題の解を得ることができる。
本稿では,時空エントロピーを導入し,ニューラルネットワークを用いて効果的に解くことができる最大エントロピー原理に基づいて大域的因果構造を決定する手法を提案する。
量子疑似チャネルの概念も導入され、チャネル状態双対性を介して疑似密度作用素境界問題に変換することで量子疑似チャネル境界問題を解くことができることを実証する。 Spatial and temporal quantum correlations can be unified in the framework of the pseudo-density operators, and quantum causality between the involved events in an experiment is encoded in the corresponding pseudo-density operator. We study the relationship between local causal information and global causal structure. A space-time marginal problem is proposed to infer global causal structures from given marginal causal structures where causal structures are represented by the pseudo-density operators; we show that there almost always exists a solution in this case. By imposing the corresponding constraints on this solution set, we could obtain the required solutions for special classes of marginal problems, like a positive semidefinite marginal problem, separable marginal problem, etc. We introduce a space-time entropy and propose a method to determine the global causal structure based on the maximum entropy principle, which can be solved effectively by using a neural network. The notion of quantum pseudo-channel is also introduced and we demonstrate that the quantum pseudo-channel marginal problem can be solved by transforming it into a pseudo-density operator marginal problem via the channel-state duality. | 翻訳日:2023-03-24 16:56:13 公開日:2023-03-22 |
# BatchNormにおけるシフトパラメータとスケールパラメータの実証解析 An Empirical Analysis of the Shift and Scale Parameters in BatchNorm ( http://arxiv.org/abs/2303.12818v1 ) ライセンス: Link先を確認 | Yashna Peerthum and Mark Stamp | (参考訳) Batch Normalization (BatchNorm)は、ディープニューラルネットワーク、特に畳み込みニューラルネットワーク(CNN)のトレーニングを改善する技術である。
BatchNormはパフォーマンス、安定性、正確性を向上させることが実証されているが、そのような改善の理由は不明である。
BatchNormには正規化ステップとトレーニング可能なシフトとスケールパラメータが含まれている。
本稿では,シフトとスケーリングによる再パラメータ化と比較して,正規化ステップのバッチノルムの成功に対する相対的貢献を実証的に検討する。
実験を行うために、我々はPyTorchで2つの新しいオプティマイザを実装し、すなわち、正規化せずに再パラメータ化ステップを含むAffineLayerと呼ばれるBatchNormのバージョンと、正規化ステップのみを持つバージョンをBatchNorm-minusと呼ぶ。
我々は、AffineLayerとBatchNorm-minusの実装の性能を標準のBatchNormと比較し、バッチ正規化を使用しない場合と比較する。
ResNet18、ResNet34、ResNet50、ResNet101の4つのアーキテクチャを、標準的な画像データセットと複数のバッチサイズで実験した。
BatchNormの成功は、主に体重初期化の改善から生じる可能性があるという実証的な証拠を提供する。 Batch Normalization (BatchNorm) is a technique that improves the training of deep neural networks, especially Convolutional Neural Networks (CNN). It has been empirically demonstrated that BatchNorm increases performance, stability, and accuracy, although the reasons for such improvements are unclear. BatchNorm includes a normalization step as well as trainable shift and scale parameters. In this paper, we empirically examine the relative contribution to the success of BatchNorm of the normalization step, as compared to the re-parameterization via shifting and scaling. To conduct our experiments, we implement two new optimizers in PyTorch, namely, a version of BatchNorm that we refer to as AffineLayer, which includes the re-parameterization step without normalization, and a version with just the normalization step, that we call BatchNorm-minus. We compare the performance of our AffineLayer and BatchNorm-minus implementations to standard BatchNorm, and we also compare these to the case where no batch normalization is used. We experiment with four ResNet architectures (ResNet18, ResNet34, ResNet50, and ResNet101) over a standard image dataset and multiple batch sizes. Among other findings, we provide empirical evidence that the success of BatchNorm may derive primarily from improved weight initialization. | 翻訳日:2023-03-24 16:55:55 公開日:2023-03-22 |
# 幅広から深部まで:パラメータ効率の知識グラフ埋め込みのための次元リフティングネットワーク From Wide to Deep: Dimension Lifting Network for Parameter-efficient Knowledge Graph Embedding ( http://arxiv.org/abs/2303.12816v1 ) ライセンス: Link先を確認 | Borui Cai, Yong Xiang, Longxiang Gao, Di Wu, He Zhang, Jiong Jin, Tom Luan | (参考訳) エンティティと関係をベクトル表現にマッピングする知識グラフ埋め込み(KGE)は下流タスクに不可欠である。
従来のKGE法は知識グラフの構造情報を保存するために比較的高次元の実体表現を必要とするが、大きすぎるモデルパラメータをもたらす。
近年の手法では、低次元の実体表現を採用することでモデルパラメータを減らすとともに、縮小次元を補う技術(例えば、知識蒸留)を開発する。
しかし、そのような操作はモデルの精度を低下させ、モデルのパラメータを限定的に削減する。
具体的には、すべての実体表現の連結を埋め込み層とみなし、次に、埋め込み層の幅を拡大して表現性を得るのに等しい高次元実体表現を採用する従来のKGE手法を考察する。
精度を犠牲にすることなくパラメータ効率を実現するため,より深度を高くし,細い埋め込み層と多層リフトネットワーク(LiftNet)というエンティティ表現のためのより深い埋め込みネットワークを提案する。
3つの公開データセットを用いた実験により, 4次元実体表現を用いた提案手法(TransEとDistMultをベースとした実装)は, 512次元実体表現を持つTransEやDistMultを含む,対応するパラメータ効率の高いKGE法や強力なKGEベースラインよりも正確なリンク予測結果が得られることが示された。 Knowledge graph embedding (KGE) that maps entities and relations into vector representations is essential for downstream tasks. Conventional KGE methods require relatively high-dimensional entity representations to preserve the structural information of knowledge graph, but lead to oversized model parameters. Recent methods reduce model parameters by adopting low-dimensional entity representations, while developing techniques (e.g., knowledge distillation) to compensate for the reduced dimension. However, such operations produce degraded model accuracy and limited reduction of model parameters. Specifically, we view the concatenation of all entity representations as an embedding layer, and then conventional KGE methods that adopt high-dimensional entity representations equal to enlarging the width of the embedding layer to gain expressiveness. To achieve parameter efficiency without sacrificing accuracy, we instead increase the depth and propose a deeper embedding network for entity representations, i.e., a narrow embedding layer and a multi-layer dimension lifting network (LiftNet). Experiments on three public datasets show that the proposed method (implemented based on TransE and DistMult) with 4-dimensional entity representations achieves more accurate link prediction results than counterpart parameter-efficient KGE methods and strong KGE baselines, including TransE and DistMult with 512-dimensional entity representations. | 翻訳日:2023-03-24 16:55:32 公開日:2023-03-22 |
# 任意深部1次元ニューラルネットワークの固定点 Fixed points of arbitrarily deep 1-dimensional neural networks ( http://arxiv.org/abs/2303.12814v1 ) ライセンス: Link先を確認 | Andrew Cook, Andy Hammerlindl and Warwick Tucker | (参考訳) 本稿では,合成下で閉である$\mathbb{r}$ 上の新たな関数クラスを導入し,ロジスティックなシグモイド関数を含む。
このクラスを用いて,ロジスティックなシグモイド活性化関数を持つ任意の深さの1次元ニューラルネットワークが,少なくとも3つの不動点を持つことを示す。
このようなニューラルネットワークは現実世界の応用とは程遠いが、我々はそれらの固定点を完全に理解することができ、深層ニューラルネットワークのアプリケーションと理論の間の、はるかに必要な接続の基礎となる。 In this paper, we introduce a new class of functions on $\mathbb{R}$ that is closed under composition, and contains the logistic sigmoid function. We use this class to show that any 1-dimensional neural network of arbitrary depth with logistic sigmoid activation functions has at most three fixed points. While such neural networks are far from real world applications, we are able to completely understand their fixed points, providing a foundation to the much needed connection between application and theory of deep neural networks. | 翻訳日:2023-03-24 16:55:07 公開日:2023-03-22 |
# マルウェア分類のためのグラフニューラルネットワークの比較 A Comparison of Graph Neural Networks for Malware Classification ( http://arxiv.org/abs/2303.12812v1 ) ライセンス: Link先を確認 | Vrinda Malhotra and Katerina Potika and Mark Stamp | (参考訳) マルウェアによる脅威を管理するには、正確な検出と分類技術が必要である。
シグネチャスキャンのような従来の検出戦略は、作業集約的で専門家の知識を必要とする関連する特徴を抽出するために、マルウェアの手動分析に依存している。
関数呼び出しグラフはプログラム関数のセットとプロセス間呼び出しで構成されており、従来の手法の労働集約的な特徴抽出ステップを使わずにマルウェアの分類に活用できる豊富な情報ソースを提供する。
本研究では,マルウェア分類をグラフ分類問題として扱う。
Local Degree Profileの機能に基づいて、幅広いグラフニューラルネットワーク(GNN)アーキテクチャをトレーニングし、埋め込みを生成し、それを分類します。
我々の最高のGNNモデルは、有名なMalNet-Tiny Androidマルウェアデータセットを含む以前の比較研究より優れていることが分かりました。
さらに,我々のGNNモデルでは,GNN以外の技術に共通する過度な問題に悩まされることはないが,GNNモデルはより長いトレーニング時間を必要とする。 Managing the threat posed by malware requires accurate detection and classification techniques. Traditional detection strategies, such as signature scanning, rely on manual analysis of malware to extract relevant features, which is labor intensive and requires expert knowledge. Function call graphs consist of a set of program functions and their inter-procedural calls, providing a rich source of information that can be leveraged to classify malware without the labor intensive feature extraction step of traditional techniques. In this research, we treat malware classification as a graph classification problem. Based on Local Degree Profile features, we train a wide range of Graph Neural Network (GNN) architectures to generate embeddings which we then classify. We find that our best GNN models outperform previous comparable research involving the well-known MalNet-Tiny Android malware dataset. In addition, our GNN models do not suffer from the overfitting issues that commonly afflict non-GNN techniques, although GNN models require longer training times. | 翻訳日:2023-03-24 16:54:57 公開日:2023-03-22 |
# LLMはオールトレードのマスターか?
LLMのドメイン非依存推論技術を探る Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs ( http://arxiv.org/abs/2303.12810v1 ) ライセンス: Link先を確認 | Shrivats Agrawal | (参考訳) 大規模言語モデル(LLM)が人間のように推論できる可能性は、機械学習コミュニティで非常に議論の的になっている。
しかし、人間の推論能力は多面的であり、類似性、空間的、道徳的な推論など様々な形態で見られる。
この事実は、LLMがこれらすべての異なる領域で等しく機能するかどうかという問題を提起する。
本研究は,既存のデータセットの類似と空間的推論を直接使用したり,インスピレーションを得たりすることで,異なる推論タスクにおけるllmの性能について検討することを目的とする。
さらに、llmが人間のように推論する能力を評価するため、その性能はよりオープンな自然言語質問に評価される。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることがわかった。
これらの実験は, LLMの今後の発展, 特に多種多様な推論能力を必要とする状況において, 重要なものであると考えています。
この研究は、LLMの推論能力に光を当てることで、人間の認知能力をより良くエミュレートする方法の理解を深めることを目的としている。 The potential of large language models (LLMs) to reason like humans has been a highly contested topic in Machine Learning communities. However, the reasoning abilities of humans are multifaceted and can be seen in various forms, including analogical, spatial and moral reasoning, among others. This fact raises the question whether LLMs can perform equally well across all these different domains. This research work aims to investigate the performance of LLMs on different reasoning tasks by conducting experiments that directly use or draw inspirations from existing datasets on analogical and spatial reasoning. Additionally, to evaluate the ability of LLMs to reason like human, their performance is evaluted on more open-ended, natural language questions. My findings indicate that LLMs excel at analogical and moral reasoning, yet struggle to perform as proficiently on spatial reasoning tasks. I believe these experiments are crucial for informing the future development of LLMs, particularly in contexts that require diverse reasoning proficiencies. By shedding light on the reasoning abilities of LLMs, this study aims to push forward our understanding of how they can better emulate the cognitive abilities of humans. | 翻訳日:2023-03-24 16:54:17 公開日:2023-03-22 |
# 時相理解のためのsalient span masking Salient Span Masking for Temporal Understanding ( http://arxiv.org/abs/2303.12860v1 ) ライセンス: Link先を確認 | Jeremy R. Cole, Aditi Chaudhary, Bhuwan Dhingra, Partha Talukdar | (参考訳) Salient Span Masking (SSM) は、クローズドブックの質問応答性能を改善する効果的な戦略であることを示している。
SSMは、単一のエンティティや日付を隠蔽する教師なしのトレーニング文を作成することで、一般的なマスク付き言語モデルの事前訓練を拡張する。
このパラダイムの成功にもかかわらず、スパン型とサンプリング戦略は比較的任意であり、他のタスクでは広く研究されていない。
そこで,SSMを時間的タスクの観点から検討し,様々な時間的表現の優れた表現を学習することが重要である。
そのために,時間的スパン・マスキング(TSM)中間訓練を導入する。
まず、SSM単独で3つの時間的タスクのダウンストリーム性能をavgで改善する。
5.8ポイント。
さらに、TSMタスクを追加することで、さらなる改善(+0.29ポイント)が達成できます。
これらは、対象タスクに関する最新の報告結果で構成されている。
分析の結果,ssmの有効性は,マスク選択よりも訓練データに選択された文に起因していることが示唆された。
それでも、tsmをターゲットとする追加のスパンは、特にゼロショットのコンテキストにおいて、パフォーマンスを改善できる。 Salient Span Masking (SSM) has shown itself to be an effective strategy to improve closed-book question answering performance. SSM extends general masked language model pretraining by creating additional unsupervised training sentences that mask a single entity or date span, thus oversampling factual information. Despite the success of this paradigm, the span types and sampling strategies are relatively arbitrary and not widely studied for other tasks. Thus, we investigate SSM from the perspective of temporal tasks, where learning a good representation of various temporal expressions is important. To that end, we introduce Temporal Span Masking (TSM) intermediate training. First, we find that SSM alone improves the downstream performance on three temporal tasks by an avg. +5.8 points. Further, we are able to achieve additional improvements (avg. +0.29 points) by adding the TSM task. These comprise the new best reported results on the targeted tasks. Our analysis suggests that the effectiveness of SSM stems from the sentences chosen in the training data rather than the mask choice: sentences with entities frequently also contain temporal expressions. Nonetheless, the additional targeted spans of TSM can still improve performance, especially in a zero-shot context. | 翻訳日:2023-03-24 16:48:18 公開日:2023-03-22 |
# 反対称バロン関数とその行列式和による近似 Anti-symmetric Barron functions and their approximation with sums of determinants ( http://arxiv.org/abs/2303.12856v1 ) ライセンス: Link先を確認 | Nilin Abrahamsen, Lin Lin | (参考訳) 量子物理学の基本的な問題は、同一粒子の置換の下で完全に非対称な関数を符号化することである。
バロン空間は、1つの隠れた層を持つ無限のニューラルネットワークでパラメータ化できる高次元関数からなる。
反対称構造を明示的に符号化することにより、バロン空間に属する反対称函数が行列式の和で効率的に近似できることを示す。
これにより、バロン空間の標準表現と比較して複雑性が因子的に向上し、ab-initio量子化学における行列式に基づくアーキテクチャの有効性の理論的な説明が得られる。 A fundamental problem in quantum physics is to encode functions that are completely anti-symmetric under permutations of identical particles. The Barron space consists of high-dimensional functions that can be parameterized by infinite neural networks with one hidden layer. By explicitly encoding the anti-symmetric structure, we prove that the anti-symmetric functions which belong to the Barron space can be efficiently approximated with sums of determinants. This yields a factorial improvement in complexity compared to the standard representation in the Barron space and provides a theoretical explanation for the effectiveness of determinant-based architectures in ab-initio quantum chemistry. | 翻訳日:2023-03-24 16:47:45 公開日:2023-03-22 |
# 1-d)$-WLテストの3つの反復は、$d$-次元点の非等尺雲を区別する Three iterations of $(1-d)$-WL test distinguish non isometric clouds of $d$-dimensional points ( http://arxiv.org/abs/2303.12853v1 ) ライセンス: Link先を確認 | Valentino Delle Rose, Alexander Kozachinskiy, Crist\'obal Rojas, Mircea Petrache and Pablo Barcel\'o | (参考訳) Weisfeiler--Lehman (WL) テストはグラフの同型性をチェックするための基本的な反復アルゴリズムである。
また、このテストの表現力の観点から、能力と性能を理解できるいくつかのグラフニューラルネットワークアーキテクチャの設計の基礎となることも観察されている。
三次元オブジェクトを含むデータセットへの機械学習応用の最近の発展により、完全距離グラフで表されるユークリッド点の雲に対するWLテストがいつ完備になるか、すなわち、等距離まで、任意の任意の雲を区別できるかが研究されている。
我々の主な結果は、d 次元ユークリッド空間における点雲に対する $(d-1) 次元 wl テストは、任意の $d\ge 2$ に対して完備であり、テスト suffice の3つの反復のみである。
我々の結果は$d = 2, 3$に対してきつい。
また、$d$-dimensional WL テストは完全性を達成するために 1 つの反復しか必要としない。 The Weisfeiler--Lehman (WL) test is a fundamental iterative algorithm for checking isomorphism of graphs. It has also been observed that it underlies the design of several graph neural network architectures, whose capabilities and performance can be understood in terms of the expressive power of this test. Motivated by recent developments in machine learning applications to datasets involving three-dimensional objects, we study when the WL test is {\em complete} for clouds of euclidean points represented by complete distance graphs, i.e., when it can distinguish, up to isometry, any arbitrary such cloud. Our main result states that the $(d-1)$-dimensional WL test is complete for point clouds in $d$-dimensional Euclidean space, for any $d\ge 2$, and that only three iterations of the test suffice. Our result is tight for $d = 2, 3$. We also observe that the $d$-dimensional WL test only requires one iteration to achieve completeness. | 翻訳日:2023-03-24 16:47:25 公開日:2023-03-22 |
# 線形実効規則の半公約チェイス終了:実験的検討 Semi-Oblivious Chase Termination for Linear Existential Rules: An Experimental Study ( http://arxiv.org/abs/2303.12851v1 ) ライセンス: Link先を確認 | Marco Calautti, Mostafa Milani, Andreas Pieris | (参考訳) チェイスプロシージャはデータベースの基本的なアルゴリズムツールであり、既存のルールなどの制約を多くのアプリケーションに当てはめることができる。
データベースと制約のセットを入力として取り、制約によって決定されるようにデータベースを反復的に完了します。
しかし、重要な課題は、データベースが終了しない可能性があるという事実であり、データベースと制約のセットが終了するかどうかをチェックすることに繋がる。
本研究では,実践的な実装に適したチェイスの半公開バージョンと,いくつかのアプリケーションによる制約の集中クラスである線形存在規則に着目した。
この設定では、チェイスがいつ終了するか、チェイス終了のアルゴリズム、正確な複雑性結果、そしてチェイスの結果(有限である場合)の最悪のケース最適境界の構文的特徴を提供する理論的な研究の成熟体が存在する。
本研究の目的は,既存のチェイス終了アルゴリズムを,どの入力パラメータが性能に影響を及ぼすかを理解し,実際に使用できるかを明らかにし,性能制限を明らかにすることにある。 The chase procedure is a fundamental algorithmic tool in databases that allows us to reason with constraints, such as existential rules, with a plethora of applications. It takes as input a database and a set of constraints, and iteratively completes the database as dictated by the constraints. A key challenge, though, is the fact that it may not terminate, which leads to the problem of checking whether it terminates given a database and a set of constraints. In this work, we focus on the semi-oblivious version of the chase, which is well-suited for practical implementations, and linear existential rules, a central class of constraints with several applications. In this setting, there is a mature body of theoretical work that provides syntactic characterizations of when the chase terminates, algorithms for checking chase termination, precise complexity results, and worst-case optimal bounds on the size of the result of the chase (whenever is finite). Our main objective is to experimentally evaluate the existing chase termination algorithms with the aim of understanding which input parameters affect their performance, clarifying whether they can be used in practice, and revealing their performance limitations. | 翻訳日:2023-03-24 16:47:02 公開日:2023-03-22 |
# 対人攻撃に対する試験時間防御:マスクオートエンコーダによる対人攻撃の検出と再構築 Test-time Defense against Adversarial Attacks: Detection and Reconstruction of Adversarial Examples via Masked Autoencoder ( http://arxiv.org/abs/2303.12848v1 ) ライセンス: Link先を確認 | Yun-Yun Tsai, Ju-Chin Chao, Albert Wen, Zhaoyuan Yang, Chengzhi Mao, Tapan Shah, Junfeng Yang | (参考訳) 敵の攻撃に対する既存の防御方法は、訓練時間とテスト時間に分類できる。
訓練時間防衛、すなわち敵の訓練は、訓練にかなりの時間を要するため、しばしば目に見えない攻撃に一般化できない。
一方、試験時間重み適応による試験時間防御では、(一部)モデルの重量に対して勾配降下を行う必要があり、凍結重量を持つモデルでは不可能である。
これらの課題に対処するため,我々は,Masked Autoencoder (MAE) を介して複数種類の敵攻撃を検知・再構成する新しい防御手法であるDRAMを提案する。
我々は、敵攻撃を検出するためのKSテストを構築するためにMAE損失を利用する方法を示す。
さらに、MAE損失は、見えない攻撃タイプからの敵のサンプルの修復に使用できる。
この意味で、DRAMはテスト時間におけるモデルウェイト更新も必要とせず、より敵対的なサンプルでトレーニングセットを増強する。
大規模画像ネットデータを用いたDRAMの評価では,8種類の攻撃に対して,他の検出基準に比べて平均82%の検出率が得られる。
再構築のために、DRAMは、回転予測やコントラスト学習のような他の自己超越的なタスクと比較して、Standard ResNet50の6%~41%、Robost ResNet50の3%~8%の堅牢な精度を改善する。 Existing defense methods against adversarial attacks can be categorized into training time and test time defenses. Training time defense, i.e., adversarial training, requires a significant amount of extra time for training and is often not able to be generalized to unseen attacks. On the other hand, test time defense by test time weight adaptation requires access to perform gradient descent on (part of) the model weights, which could be infeasible for models with frozen weights. To address these challenges, we propose DRAM, a novel defense method to Detect and Reconstruct multiple types of Adversarial attacks via Masked autoencoder (MAE). We demonstrate how to use MAE losses to build a KS-test to detect adversarial attacks. Moreover, the MAE losses can be used to repair adversarial samples from unseen attack types. In this sense, DRAM neither requires model weight updates in test time nor augments the training set with more adversarial samples. Evaluating DRAM on the large-scale ImageNet data, we achieve the best detection rate of 82% on average on eight types of adversarial attacks compared with other detection baselines. For reconstruction, DRAM improves the robust accuracy by 6% ~ 41% for Standard ResNet50 and 3% ~ 8% for Robust ResNet50 compared with other self-supervision tasks, such as rotation prediction and contrastive learning. | 翻訳日:2023-03-24 16:46:44 公開日:2023-03-22 |
# 熱リコール:記憶支援マルコフ熱過程 Thermal recall: Memory-assisted Markovian thermal processes ( http://arxiv.org/abs/2303.12840v1 ) ライセンス: Link先を確認 | Jakub Czartowski, A. de Oliveira Junior, Kamil Korzekwa | (参考訳) 我々は,マルコフ熱過程(メモリレスダイナミクスをモデル化する)と熱操作(任意に非マルコフ力学をモデル化する)に基づく量子熱力学への2つのアプローチのギャップを埋めるための資源理論的枠組みを開発した。
本手法は,メモリレス熱力学過程を非マルコフ性に促進し,熱平衡状態において初期化された漸近記憶系を明示的にモデル化する,メモリ支援マルコフ熱過程の概念に基づいている。
本設定では, 熱操作によりアクセス可能なエネルギー不整合状態間のすべての遷移を近似する基本的2段階熱化系列からなるプロトコル群を提案する。
メモリのサイズが大きくなるにつれて、これらの近似は無限温度限界における全ての遷移、および有限温度状態における遷移のサブセットに対して任意に良いものとなる。
さらに,有限温度での任意の遷移に対するプロトコルの収束に関する固相数値的証拠も提示する。
また,作業抽出などの熱力学プロトコルにおいて,メモリ効果が果たす役割を定量化するために,我々のフレームワークをどのように利用できるかを説明する。
以上の結果から,熱操作を通じてアクセス可能なエネルギー非一貫性遷移を発生させるには,所定の時間に2つのエネルギー準位の初等制御が十分であることが判明した。 We develop a resource-theoretic framework that allows one to bridge the gap between two approaches to quantum thermodynamics based on Markovian thermal processes (which model memoryless dynamics) and thermal operations (which model arbitrarily non-Markovian dynamics). Our approach is built on the notion of memory-assisted Markovian thermal processes, where memoryless thermodynamic processes are promoted to non-Markovianity by explicitly modelling ancillary memory systems initialised in thermal equilibrium states. Within this setting, we propose a family of protocols composed of sequences of elementary two-level thermalisations that approximate all transitions between energy-incoherent states accessible via thermal operations. We prove that, as the size of the memory increases, these approximations become arbitrarily good for all transitions in the infinite temperature limit, and for a subset of transitions in the finite temperature regime. Furthermore, we present solid numerical evidence for the convergence of our protocol to any transition at finite temperatures. We also explain how our framework can be used to quantify the role played by memory effects in thermodynamic protocols such as work extraction. Finally, our results show that elementary control over two energy levels at a given time is sufficient to generate all energy-incoherent transitions accessible via thermal operations if one allows for ancillary thermal systems. | 翻訳日:2023-03-24 16:46:18 公開日:2023-03-22 |
# 量子幾何学的テンソルを持たない変分量子時間進化 Variational Quantum Time Evolution without the Quantum Geometric Tensor ( http://arxiv.org/abs/2303.12839v1 ) ライセンス: Link先を確認 | Julien Gacon, Jannes Nys, Riccardo Rossi, Stefan Woerner, Giuseppe Carleo | (参考訳) 量子状態のリアルタイムおよび想像的進化は、量子力学の研究、基底状態の作成、熱力学的観測値の計算のための物理学と化学の強力なツールである。
また、量子機械学習や最適化といった幅広い分野の応用も見出す。
短期的デバイスでは、変動量子時間発展はこれらのタスクの有望な候補であり、必要な回路モデルによって利用可能なデバイスの能力と近似精度をトレードオフすることができる。
しかし、たとえ回路が確実に実行されるとしても、変分量子時間発展アルゴリズムは関連するシステムサイズではすぐに実現不可能となる。
これらは量子幾何学的テンソルの計算を必要とし、その複雑性は回路内のパラメータの数と二次的にスケールする。
本研究では、量子幾何学的テンソルの明示的な評価を回避した二重定式化を利用して、このスケーリング問題の解を提案する。
ハイゼンベルク・ハミルトニアンの時間進化のアルゴリズムを実証し、標準的な変分量子時間進化アルゴリズムのコストのごく一部で系の力学を正確に再現することを示した。
応用例として、qmettsアルゴリズムを用いて熱力学的観測量を計算する。 The real- and imaginary-time evolution of quantum states are powerful tools in physics and chemistry to investigate quantum dynamics, prepare ground states or calculate thermodynamic observables. They also find applications in wider fields such as quantum machine learning or optimization. On near-term devices, variational quantum time evolution is a promising candidate for these tasks, as the required circuit model can be tailored to trade off available device capabilities and approximation accuracy. However, even if the circuits can be reliably executed, variational quantum time evolution algorithms quickly become infeasible for relevant system sizes. They require the calculation of the Quantum Geometric Tensor and its complexity scales quadratically with the number of parameters in the circuit. In this work, we propose a solution to this scaling problem by leveraging a dual formulation that circumvents the explicit evaluation of the Quantum Geometric Tensor. We demonstrate our algorithm for the time evolution of the Heisenberg Hamiltonian and show that it accurately reproduces the system dynamics at a fraction of the cost of standard variational quantum time evolution algorithms. As an application, we calculate thermodynamic observables with the QMETTS algorithm. | 翻訳日:2023-03-24 16:45:57 公開日:2023-03-22 |
# 量子力学を不整合に学習する力と限界 The power and limitations of learning quantum dynamics incoherently ( http://arxiv.org/abs/2303.12834v1 ) ライセンス: Link先を確認 | Sofiene Jerbi, Joe Gibbs, Manuel S. Rudolph, Matthias C. Caro, Patrick J. Coles, Hsin-Yuan Huang, Zo\"e Holmes | (参考訳) 量子プロセス学習は、量子システムを研究する重要なツールとして浮上している。
ターゲットとモデルシステムが量子情報を共有できるコヒーレントなフレームワークで広く研究されているが、量子システムのダイナミクスがシステムなしで学べるか、直接的に相互作用できるのかについては、あまり注目されていない。
このような非コヒーレントなフレームワークは、技術的に挑戦するハイブリッド絡み合い方式を必要とせずに、異なる物理プラットフォーム間で量子プロセスをトランスパイルする方法をオープンするので、事実上魅力的である。
ここでは,確立されたコヒーレント学習戦略をエミュレートするために必要な測定値の数を分析することにより,学習ユニタリプロセスのサンプル複雑性を非一貫性に評価する。
任意の測定が許された場合、非一貫性フレームワーク内で効率的に表現可能なユニタリを効率的に学習できるが、浅い深度測定に制限された場合、低エンタングリングユニタリのみを学習できる。
我々は,低エンタングリングユニタリに対する非コヒーレント学習アルゴリズムを,texttt{ibmq\_kolkata} 上で 16-qubit ユニタリを学習し,より広範な数値実験により提案アルゴリズムの可視性を示す。 Quantum process learning is emerging as an important tool to study quantum systems. While studied extensively in coherent frameworks, where the target and model system can share quantum information, less attention has been paid to whether the dynamics of quantum systems can be learned without the system and target directly interacting. Such incoherent frameworks are practically appealing since they open up methods of transpiling quantum processes between the different physical platforms without the need for technically challenging hybrid entanglement schemes. Here we provide bounds on the sample complexity of learning unitary processes incoherently by analyzing the number of measurements that are required to emulate well-established coherent learning strategies. We prove that if arbitrary measurements are allowed, then any efficiently representable unitary can be efficiently learned within the incoherent framework; however, when restricted to shallow-depth measurements only low-entangling unitaries can be learned. We demonstrate our incoherent learning algorithm for low entangling unitaries by successfully learning a 16-qubit unitary on \texttt{ibmq\_kolkata}, and further demonstrate the scalabilty of our proposed algorithm through extensive numerical experiments. | 翻訳日:2023-03-24 16:45:40 公開日:2023-03-22 |
# 量子力学における非エルミートエッジバーストの観測 Observation of non-Hermitian edge burst in quantum dynamics ( http://arxiv.org/abs/2303.12831v1 ) ライセンス: Link先を確認 | Lei Xiao, Wen-Tan Xue, Fei Song, Yu-Min Hu, Wei Yi, Zhong Wang and Peng Xue | (参考訳) ハミルトンの固有状態が境界で主に局在している非エルミート皮膚効果は、境界条件に対する非エルミート系の強い感度を明らかにしている。
ここでは非エルミートエッジバースト(non-hermitian edge burst)として知られる境界誘起動的現象を実験的に観察し,非エルミート時間発展における損失の鋭い境界蓄積を特徴とする。
固有状態の局在とは対照的に、エッジバーストはリアルタイムに発生する一般的な非エルミート力学現象を表す。
光量子ウォークに基づく我々の実験は、現象の予測を裏付けるだけでなく、その完全な時空ダイナミクスを明らかにする。
エッジバーストの観測は、非エルミートトポロジカルなトポロジカルシステムにおけるリッチリアルタイムダイナミクスの研究の道を開く。 The non-Hermitian skin effect, by which the eigenstates of Hamiltonian are predominantly localized at the boundary, has revealed a strong sensitivity of non-Hermitian systems to the boundary condition. Here we experimentally observe a striking boundary-induced dynamical phenomenon known as the non-Hermitian edge burst, which is characterized by a sharp boundary accumulation of loss in non-Hermitian time evolutions. In contrast to the eigenstate localization, the edge burst represents a generic non-Hermitian dynamical phenomenon that occurs in real time. Our experiment, based on photonic quantum walks, not only confirms the prediction of the phenomenon, but also unveils its complete space-time dynamics. Our observation of edge burst paves the way for studying the rich real-time dynamics in non-Hermitian topological systems. | 翻訳日:2023-03-24 16:45:18 公開日:2023-03-22 |
# カイラルRydbergモデルにおける量子スピン液体の分類と発生 Classification and emergence of quantum spin liquids in chiral Rydberg models ( http://arxiv.org/abs/2303.12829v1 ) ライセンス: Link先を確認 | Poetri Sonya Tarabunga, Giuliano Giudici, Titas Chanda, Marcello Dalmonte | (参考訳) ライドバーグ原子配列で最近実現されたキラル相互作用ハミルトニアンの量子相の性質について検討する。
ハニカム格子上のパルトン構成を用いて、全ての可能なフェルミオンキラルスピン液体を{\mathrm{u}(1)$ global symmetryに分類する。
これらの2つのクラスから得られる対応する変動波動関数は、Rydberg多体基底状態の1/2$と1/4$の粒子密度を正確に記述する。
この解析をテンソルネットワークシミュレーションで補完することにより、両方の粒子充填セクタは、同じ位相次数$\nu=1/2$分数量子ホール効果を持つスピン液体を持つと結論づける。
密度 1/2$ では, モデルの位相図を明らかにするが, 密度 1/4$ では, 微視的位相図とほぼ重複する基底状態波動関数を明示的に構成する。
これらの発見は、チャートン波動関数を用いてカイラル・リドバーグ模型における量子スピン液体の発見を導く道を開いた。 We investigate the nature of quantum phases arising in chiral interacting Hamiltonians recently realized in Rydberg atom arrays. We classify all possible fermionic chiral spin liquids with $\mathrm{U}(1)$ global symmetry using parton construction on the honeycomb lattice. The resulting classification includes six distinct classes of gapped quantum spin liquids: the corresponding variational wave functions obtained from two of these classes accurately describe the Rydberg many-body ground state at $1/2$ and $1/4$ particle density. Complementing this analysis with tensor network simulations, we conclude that both particle filling sectors host a spin liquid with the same topological order of a $\nu=1/2$ fractional quantum Hall effect. At density $1/2$, our results clarify the phase diagram of the model, while at density $1/4$, they provide an explicit construction of the ground state wave function with almost unit overlap with the microscopic one. These findings pave the way to the use of parton wave functions to guide the discovery of quantum spin liquids in chiral Rydberg models. | 翻訳日:2023-03-24 16:45:04 公開日:2023-03-22 |
# 機械学習による心原性ショックの早期予測のための動的リスクスコア A dynamic risk score for early prediction of cardiogenic shock using machine learning ( http://arxiv.org/abs/2303.12888v1 ) ライセンス: Link先を確認 | Yuxuan Hu, Albert Lui, Mark Goldstein, Mukund Sudarshan, Andrea Tinsay, Cindy Tsui, Samuel Maidman, John Medamana, Neil Jethani, Aaalad Puli, Vuthy Nguy, Yindalon Aphinyanaphongs, Nicholas Kiefer, Nathaniel Smilowitz, James Horowitz, Tania Ahuja, Glenn Fishman, Judith Hochman, Stuart Katz, Samuel Bernard, Rajesh Ranganath | (参考訳) 心筋梗塞と心不全は、米国の何百万人もの人々に影響を及ぼす主要な心血管疾患である。
心原性ショックを発症する患者では死亡率と死亡率が高い。
心原性ショックの早期認識は重要である。
治療の迅速な実施は、虚血の有害なスパイラル、低血圧、心原性ショックによる心臓出力の低下を防ぐことができる。
しかし、心原性ショックの早期発見は、心臓集中治療ユニット(ICU)に膨大な量のデータを処理できないことや、効果的なリスク階層化ツールがないために困難である。
心原性ショックの発症を予知するために,急性心不全と心筋梗塞を併発した心ICU患者を対象に,深層学習型リスク層化ツールCShockを開発した。
CShockの開発と評価を行うため, 心ICUデータセットのアノテートを行った。
CShock は 0.820 のレシーバ演算子特性曲線 (AUROC) の下の領域を達成し、CardShock (AUROC 0.519) は心原性ショック予後の優れたリスクスコアである。
CShockは、独立した患者のコホートで外部から検証され、AUROCの0.800を達成し、他の心ICUの一般化可能性を示した。 Myocardial infarction and heart failure are major cardiovascular diseases that affect millions of people in the US. The morbidity and mortality are highest among patients who develop cardiogenic shock. Early recognition of cardiogenic shock is critical. Prompt implementation of treatment measures can prevent the deleterious spiral of ischemia, low blood pressure, and reduced cardiac output due to cardiogenic shock. However, early identification of cardiogenic shock has been challenging due to human providers' inability to process the enormous amount of data in the cardiac intensive care unit (ICU) and lack of an effective risk stratification tool. We developed a deep learning-based risk stratification tool, called CShock, for patients admitted into the cardiac ICU with acute decompensated heart failure and/or myocardial infarction to predict onset of cardiogenic shock. To develop and validate CShock, we annotated cardiac ICU datasets with physician adjudicated outcomes. CShock achieved an area under the receiver operator characteristic curve (AUROC) of 0.820, which substantially outperformed CardShock (AUROC 0.519), a well-established risk score for cardiogenic shock prognosis. CShock was externally validated in an independent patient cohort and achieved an AUROC of 0.800, demonstrating its generalizability in other cardiac ICUs. | 翻訳日:2023-03-24 16:39:07 公開日:2023-03-22 |
# 線形光学法による解析関数の量子計算 Quantum computing of analytical functions by linear optics methods ( http://arxiv.org/abs/2303.12885v1 ) ライセンス: Link先を確認 | Mikhail S. Podoshvedov and Sergey A. Podoshvedov | (参考訳) 本稿では,光子数解法(PNR)検出器によるビームスプリッタ(BS)の出力モードの1つにおける光子数を測定する光子状態と,初期単モード圧縮真空(SMSV)状態と光子数を測定する光子状態とを用いて,光スキームにおける多光子結果の出力分布を推定した解析関数の計算モデルを提案する。
解析関数の集合は、ある関数の任意の導関数を含む多項式式であり、引数の小さい区間でも非常に大きな値を取ることができ、減算された光子の数を示すパラメータの小さい値を含む。
解析関数が取ることができる大きな値は、減算された光子の数の因子を含む非常に小さな項によってオフセットされ、多光子測定結果の出力正規化分布が保証される。
量子コンピューティングアルゴリズムは、十分な数の試行を経て、抽出された光子の個数に対する解析関数の値を見つけ、その確率によって多光子の事象の測定繰り返し率を置き換えることができる。
初期パラメータの変更(SMSV状態の振幅とBSパラメータのスクイーズ)により、引数全体の(少なくとも重要な)連続的な変更間隔に対する関数の計算を実装することができる。
特定のパリティの非古典的状態に基づく光学量子コンピューティングのポテンシャルは、bssのような新しい光学要素の追加と、任意のパリティの他の連続変数(cv)状態の両方によって拡張することができる。 We propose a model for computing of a certain set of analytical functions based on estimating the output distribution of multiphoton outcomes in an optical scheme with an initial single-mode squeezed vacuum (SMSV) state and photonic states measuring the number of photons in one of the output modes of the beam splitter (BS) by photon number resolving (PNR) detector. The set of considered analytical functions is polynomial expressions including arbitrary derivatives of certain functions which can take on very large values even on small interval in their argument and small values of the parameter indicating the number of the subtracted photons. The large values that the analytic functions can take are offset by a very small term including the factorial of the number of subtracted photons, which guarantees an output normalized distribution of multiphoton measurement outcomes. The quantum computing algorithm makes it possible to find the values of the analytical functions for each number of extracted photons after a sufficiently large number of trials that would allow replacing the measurement repetition rate of multiphoton events by their probabilities. Changing the initial parameters (squeezing amplitude of the SMSV state and BS parameter) makes it possible to implement calculations of the functions over the entire (or, at least, significant) continuous interval of alteration in their argument. The potential of optical quantum computing based on nonclassical states of a certain parity can be expanded both by adding new optical elements such as BSs, and by using other continuous variable (CV) states of definite parity. | 翻訳日:2023-03-24 16:38:43 公開日:2023-03-22 |
# ランキングデータ分析におけるロバストコンセンサス:定義、性質、計算問題 Robust Consensus in Ranking Data Analysis: Definitions, Properties and Computational Issues ( http://arxiv.org/abs/2303.12878v1 ) ライセンス: Link先を確認 | Morgane Goibert, Cl\'ement Calauz\`enes, Ekhine Irurozki, St\'ephan Cl\'emen\c{c}on | (参考訳) aiシステムのロバスト性の問題が不可欠になると、部分的に汚染されたデータが存在する場合でも信頼できる統計学習技術を開発する必要がある。
最も単純な状況における(完全な)ランキングの形式での選好データは例外ではなく、このタイプのデータ(例えば、検索エンジン、推奨システム)によって供給される技術が大規模にデプロイされていることを考えると、適切な概念やツールの需要はより強く迫られている。
しかしながら、ランキングの集合に対するベクトル空間構造(例えば対称群 $\mathfrak{s}_n$)の欠如と、ランキングデータ解析で考慮される統計の複雑な性質は、この領域における堅牢性目標の定式化を困難にしている。
本稿では,データ分析におけるフラッグシップ問題であるConsensus Rankingを,中央値ランキングで$\mathfrak{S}_n$の確率分布を要約することを目的とした,厳密性の概念と専用統計手法を紹介する。
具体的には,コンセンサスランキングに合わせた,一般的なブレークダウンポイントの概念の具体的拡張を提案し,関連する計算問題に対処する。
理論的貢献の他に、提案手法の妥当性は実験的研究によって支持されている。 As the issue of robustness in AI systems becomes vital, statistical learning techniques that are reliable even in presence of partly contaminated data have to be developed. Preference data, in the form of (complete) rankings in the simplest situations, are no exception and the demand for appropriate concepts and tools is all the more pressing given that technologies fed by or producing this type of data (e.g. search engines, recommending systems) are now massively deployed. However, the lack of vector space structure for the set of rankings (i.e. the symmetric group $\mathfrak{S}_n$) and the complex nature of statistics considered in ranking data analysis make the formulation of robustness objectives in this domain challenging. In this paper, we introduce notions of robustness, together with dedicated statistical methods, for Consensus Ranking the flagship problem in ranking data analysis, aiming at summarizing a probability distribution on $\mathfrak{S}_n$ by a median ranking. Precisely, we propose specific extensions of the popular concept of breakdown point, tailored to consensus ranking, and address the related computational issues. Beyond the theoretical contributions, the relevance of the approach proposed is supported by an experimental study. | 翻訳日:2023-03-24 16:38:14 公開日:2023-03-22 |
# 概念ベースAIシステムにおける人間の不確実性 Human Uncertainty in Concept-Based AI Systems ( http://arxiv.org/abs/2303.12872v1 ) ライセンス: Link先を確認 | Katherine M. Collins, Matthew Barker, Mateo Espinosa Zarlenga, Naveen Raman, Umang Bhatt, Mateja Jamnik, Ilia Sucholutsky, Adrian Weller, Krishnamurthy Dvijotham | (参考訳) ループに人間を配置することは、安全クリティカルな設定(例えば、医療AIシステムを扱う臨床医)でAIシステムをデプロイするリスクを緩和する可能性がある。
しかしながら、このような人間とAIの相互作用におけるヒューマンエラーや不確実性から生じるリスクを軽減することは重要かつ未検討の問題である。
本研究では、専門家がタスクに関連する人間解釈可能な概念に介入するコンセプト介入を通じて人間のフィードバックを可能にするAIシステムのファミリーである概念ベースモデルの文脈における人間の不確実性を研究する。
この分野での先行研究は、人間が常に確実で正しいオラクルであると仮定することが多い。
しかし、人間による現実世界の意思決定は、しばしばミスや不確実性をもたらす。
既存の概念ベースモデルは、MNISTデータセットに基づいて制御された模擬不確実性を持つ視覚的データセットであるUMNISTと、人間からのリッチで濃密に注釈付けされたソフトラベルを持つ人気のCUBコンセプトデータセットであるCUB-Sの2つの新しいデータセットを用いて、人間の不確実性に対する対処方法を検討する。
不確定な概念ラベルを持つトレーニングは、不確定な介入を扱う際に概念ベースのシステムの弱点を和らげる可能性がある。
これらの結果から,対話型不確実性認識システム構築に関する今後の多分野研究を通じて解決可能な,いくつかのオープン課題を明らかにすることができる。
さらなる研究を容易にするために,人間からの不確定なフィードバックを協調的な予測タスクで収集する,新たなelicitation platformであるuelicをリリースする。 Placing a human in the loop may abate the risks of deploying AI systems in safety-critical settings (e.g., a clinician working with a medical AI system). However, mitigating risks arising from human error and uncertainty within such human-AI interactions is an important and understudied issue. In this work, we study human uncertainty in the context of concept-based models, a family of AI systems that enable human feedback via concept interventions where an expert intervenes on human-interpretable concepts relevant to the task. Prior work in this space often assumes that humans are oracles who are always certain and correct. Yet, real-world decision-making by humans is prone to occasional mistakes and uncertainty. We study how existing concept-based models deal with uncertain interventions from humans using two novel datasets: UMNIST, a visual dataset with controlled simulated uncertainty based on the MNIST dataset, and CUB-S, a relabeling of the popular CUB concept dataset with rich, densely-annotated soft labels from humans. We show that training with uncertain concept labels may help mitigate weaknesses of concept-based systems when handling uncertain interventions. These results allow us to identify several open challenges, which we argue can be tackled through future multidisciplinary research on building interactive uncertainty-aware systems. To facilitate further research, we release a new elicitation platform, UElic, to collect uncertain feedback from humans in collaborative prediction tasks. | 翻訳日:2023-03-24 16:37:51 公開日:2023-03-22 |
# jacotext: javaコードテキスト生成のための事前学習モデル JaCoText: A Pretrained Model for Java Code-Text Generation ( http://arxiv.org/abs/2303.12869v1 ) ライセンス: Link先を確認 | Jessica L\'opez Espejel, Mahaman Sanoussi Yahaya Alassan, Walid Dahhane, El Hassane Ettifouri | (参考訳) 事前訓練されたトランスフォーマーベースモデルは、自然言語生成タスクにおいて高い性能を示している。
しかし、新しい関心の波が急増した:自動プログラミング言語生成。
このタスクは、自然言語命令をプログラミング言語に翻訳する。
言語生成に関するよく知られた事前訓練モデルが、プログラミング言語の学習において優れたパフォーマンスを達成したにもかかわらず、自動コード生成には依然として努力が必要である。
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
JaCoTextは自然言語とコード生成モデルの利点を利用する。
具体的には,(1)強力な事前学習モデルからモデルの初期化,(2)javaデータセットのさらなる事前トレーニング,(3)トレーニングにおけるユニモーダルデータとバイモーダルデータを組み合わせた実験,(4)モデルの微調整時の入出力長のスケールアップ,など,技術の現状から得られた知見について検討した。
CONCODEデータセットで実施された実験では、JaCoTextが新しい最先端の結果を達成することが示された。 Pretrained transformer-based models have shown high performance in natural language generation task. However, a new wave of interest has surged: automatic programming language generation. This task consists of translating natural language instructions to a programming code. Despite the fact that well-known pretrained models on language generation have achieved good performance in learning programming languages, effort is still needed in automatic code generation. In this paper, we introduce JaCoText, a model based on Transformers neural network. It aims to generate java source code from natural language text. JaCoText leverages advantages of both natural language and code generation models. More specifically, we study some findings from the state of the art and use them to (1) initialize our model from powerful pretrained models, (2) explore additional pretraining on our java dataset, (3) carry out experiments combining the unimodal and bimodal data in the training, and (4) scale the input and output length during the fine-tuning of the model. Conducted experiments on CONCODE dataset show that JaCoText achieves new state-of-the-art results. | 翻訳日:2023-03-24 16:37:24 公開日:2023-03-22 |
# CV-QKDの最大耐雑音化と2方向容量の低減 Maximum tolerable excess noise in CV-QKD and improved lower bound on two-way capacities ( http://arxiv.org/abs/2303.12867v1 ) ライセンス: Link先を確認 | Francesco Anna Mele, Ludovico Lami, Vittorio Giovannetti | (参考訳) 量子チャネルの双方向容量は、量子リピータがない状態でノイズ伝達線で接続された2つの遠くのパーティによって達成可能な究極の絡み合い分布率を決定する。
リピータは構築とメンテナンスにコストがかかる可能性が高いため、量子通信の中心的な課題は、それらなしで達成可能なパフォーマンスを理解することである。
本稿では,光ファイバーや自由空間リンクに影響を及ぼす雑音の現実的モデルである熱減衰器,熱増幅器,加法的ガウス雑音など,すべての位相非感応性ガウス流路のエネルギー制約と非拘束性量子および秘密鍵容量の新たな下界を求める。
oursは、(逆)コヒーレント情報が負となるパラメータ範囲における最初の非零下界であり、チャネルが絡み合わなければ、絡み合い分布が常に可能であることを明示的に示している。
さらに,我々は,再帰プロトコルとハッシュプロトコルを組み合わせることで,具体的な絡み合い分布と蒸留プロトコルを考案し,最適化する。 The two-way capacities of quantum channels determine the ultimate entanglement distribution rates achievable by two distant parties that are connected by a noisy transmission line, in absence of quantum repeaters. Since repeaters will likely be expensive to build and maintain, a central open problem of quantum communication is to understand what performances are achievable without them. In this paper, we find a new lower bound on the energy-constrained and unconstrained two-way quantum and secret-key capacities of all phase-insensitive bosonic Gaussian channels, namely thermal attenuator, thermal amplifier, and additive Gaussian noise, which are realistic models for the noise affecting optical fibres or free-space links. Ours is the first nonzero lower bound in the parameter range where the (reverse) coherent information becomes negative, and it shows explicitly that entanglement distribution is always possible when the channel is not entanglement breaking. In addition, our construction is fully explicit, i.e. we devise and optimise a concrete entanglement distribution and distillation protocol that works by combining recurrence and hashing protocols. | 翻訳日:2023-03-24 16:37:09 公開日:2023-03-22 |
# 畳み込みを伴う高効率3次元アウェア生成のためのNeRF-GAN蒸留 NeRF-GAN Distillation for Efficient 3D-Aware Generation with Convolutions ( http://arxiv.org/abs/2303.12865v1 ) ライセンス: Link先を確認 | Mohamad Shahbazi, Evangelos Ntavelis, Alessio Tonioni, Edo Collins, Danda Pani Paudel, Martin Danelljan, Luc Van Gool | (参考訳) ポーズ条件付き畳み込み生成モデルは、十分な3dプリミティブがないため、シングルビューデータセットから高品質な3d一貫性のある画像生成に苦しむ。
近年,ニューラルレージアンスフィールド(NeRF)とGAN(Generative Adversarial Networks)のような生成モデルの統合により,単一ビュー画像から3次元認識生成が変化している。
NeRF-GANは3次元神経表現の強い誘導バイアスと高い計算複雑性のコストで体積レンダリングを利用する。
本研究では,事前訓練したNeRF-GANSから3D知識を蒸留することにより,ポーズ条件付き2D GANを推論時に効率よく3D認識生成するために再検討することを目的とする。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
提案手法は,畳み込みネットワークの優れた計算優位性を生かしながら,品質と3次元整合性の観点から,ボリュームレンダリングに匹敵する結果が得られることを示す。
コードは以下の通り。 https://github.com/mshahbazi72/NeRF-GAN-Distillation Pose-conditioned convolutional generative models struggle with high-quality 3D-consistent image generation from single-view datasets, due to their lack of sufficient 3D priors. Recently, the integration of Neural Radiance Fields (NeRFs) and generative models, such as Generative Adversarial Networks (GANs), has transformed 3D-aware generation from single-view images. NeRF-GANs exploit the strong inductive bias of 3D neural representations and volumetric rendering at the cost of higher computational complexity. This study aims at revisiting pose-conditioned 2D GANs for efficient 3D-aware generation at inference time by distilling 3D knowledge from pretrained NeRF-GANS. We propose a simple and effective method, based on re-using the well-disentangled latent space of a pre-trained NeRF-GAN in a pose-conditioned convolutional network to directly generate 3D-consistent images corresponding to the underlying 3D representations. Experiments on several datasets demonstrate that the proposed method obtains results comparable with volumetric rendering in terms of quality and 3D consistency while benefiting from the superior computational advantage of convolutional networks. The code will be available at: https://github.com/mshahbazi72/NeRF-GAN-Distillation | 翻訳日:2023-03-24 16:36:47 公開日:2023-03-22 |
# 量子フォトニクスチャネルの忠実度曲線に基づく絡み合いルーティング Entanglement Routing Based on Fidelity Curves for Quantum Photonics Channels ( http://arxiv.org/abs/2303.12864v1 ) ライセンス: Link先を確認 | Bruno C. Coutinho, Raul Monteiro, Lu\'is Bugalho, Francisco A. Monteiro | (参考訳) 量子インターネットは、近くの隣接ノードからネットワーク内の任意の2つのノードへの絡み合い相関を拡張することを約束している。
大規模ネットワーク上での絡み合いを効率的に分散する方法は、検討した技術に大きく依存するオープンな問題である。
本研究では,絡み合い生成率と忠実度とのトレードオフを特徴とするフォトニックチャネルからなる量子ネットワークを考える。
このようなネットワークについては、ネットワークの2部絡みルーティングにおいて与えられた2つのノードを接続する最善の経路を見つけることと、ネットワークの3つのノードを複数部絡みルーティングで接続するために最善のスタートノードを見つける問題という2つの問題に目を向ける。
エンタングルメント分布モデルとしては,エンタングル量子ビットが一度に1つずつ分布するフローモデルと,多数のエンタングル量子ビットが同時に分布するフローモデルがある。
連続的忠実度曲線(つまり、絡み合い生成忠実度とレート)を主要なルーティング指標として用いることを提案する。
多目的パスフィニングアルゴリズムと組み合わせて、各リンクを記述する忠実度曲線は、エンドツーエンドの忠実度と絡み合い生成率の両方を最大化するパスの集合を見つけることができる。
検討したモデルとネットワークに対しては,アルゴリズムが常に最適解に収束することを証明し,その実行時間がネットワーク内のノード数とともに多項式を増大させることを示す。
私たちの実装は、ネットワークによっては1ドルから14ドルのパワーを持つノードの数で成長します。
本研究は、複雑な絡み合い分布プロトコルを持つネットワークのためのパスフィニングアルゴリズムの開発方法、特に、リピータ・アンド・パーフィケーションプロトコルのような、世代密度とレートのトレードオフを示す他のプロトコルの開発方法である。 The quantum internet promises to extend entanglement correlations from nearby neighbors to any two nodes in a network. How to efficiently distribute entanglement over large-scale networks is still an open problem that greatly depends on the technology considered. In this work, we consider quantum networks composed of photonic channels characterized by a trade-off between the entanglement generation rate and fidelity. For such networks we look at the two following problems: the one of finding the best path to connect any two given nodes in the network bipartite entanglement routing, and the problem of finding the best starting node in order to connect three nodes in the network multipartite entanglement routing. We consider two entanglement distribution models: one where entangled qubit are distributed one at a time, and a flow model where a large number of entangled qubits are distributed simultaneously. We propose the use of continuous fidelity curves (i.e., entanglement generation fidelity vs rate) as the main routing metric. Combined with multi-objective path-finding algorithms, the fidelity curves describing each link allow finding a set of paths that maximize both the end-to-end fidelity and the entanglement generation rate. For the models and networks considered, we prove that the algorithm always converges to the optimal solution, and we show through simulation that its execution time grows polynomial with the number of nodes in the network. Our implementation grows with the number of nodes with a power between $1$ and $1.4$ depending on the network. This work paves the way for the development of path-finding algorithms for networks with complex entanglement distribution protocols, in particular for other protocols that exhibit a trade-off between generation fidelity and rate, such as repeater-and-purify protocols. | 翻訳日:2023-03-24 16:36:23 公開日:2023-03-22 |
# LP-IOANet: 効率的な高解像度ドキュメントシャドウ除去 LP-IOANet: Efficient High Resolution Document Shadow Removal ( http://arxiv.org/abs/2303.12862v1 ) ライセンス: Link先を確認 | Konstantinos Georgiadis, M. Kerim Yucel, Evangelos Skartados, Valia Dimaridou, Anastasios Drosou, Albert Saa-Garriga, Bruno Manganelli | (参考訳) ドキュメントのシャドウ削除は、可視性、可読性、全体的な品質を改善するため、ドキュメント拡張パイプラインにおいて不可欠なタスクである。
実用的な文書のシャドウ除去シナリオの大部分が高精細な出力を生成できるリアルタイムで正確なモデルを必要とすることを前提として,軽量アーキテクチャとアップサンプリングモジュールを備えた新しいパイプラインである入出力注意ネットワーク(LP-IOANet)を用いたラプラシアンピラミッドを提案する。
さらに,様々な照明条件,画像,影の形状,視点をカバーする3つの新しいデータセットを提案する。
その結果, 平均誤差(MAE)が35%向上し, 携帯端末の4倍の解像度(最先端手法の4倍)でリアルタイムに動作できることが判明した。 Document shadow removal is an integral task in document enhancement pipelines, as it improves visibility, readability and thus the overall quality. Assuming that the majority of practical document shadow removal scenarios require real-time, accurate models that can produce high-resolution outputs in-the-wild, we propose Laplacian Pyramid with Input/Output Attention Network (LP-IOANet), a novel pipeline with a lightweight architecture and an upsampling module. Furthermore, we propose three new datasets which cover a wide range of lighting conditions, images, shadow shapes and viewpoints. Our results show that we outperform the state-of-the-art by a 35% relative improvement in mean average error (MAE), while running real-time in four times the resolution (of the state-of-the-art method) on a mobile device. | 翻訳日:2023-03-24 16:35:53 公開日:2023-03-22 |
# 不完全データを用いたコーンビームCT再構成のための立方体3次元拡散確率モデル Cube-Based 3D Denoising Diffusion Probabilistic Model for Cone Beam Computed Tomography Reconstruction with Incomplete Data ( http://arxiv.org/abs/2303.12861v1 ) ライセンス: Link先を確認 | Wenjun Xia, Chuang Niu, Wenxiang Cong, Ge Wang | (参考訳) 深層学習(deep learning, dl)は、不完全なデータを用いたct再構成、特にスパースビューct再構成の分野で広く研究されている。
しかし,Sparse-view cone beam CT (CBCT) に対するDLの適用は依然として困難である。
多くのモデルは、スパースビューCT画像から地上の真実へのマッピングを学ぶが、グローバルアーティファクトの除去という観点からは、満足できるパフォーマンスを達成するのに苦労する。
sinogramデータとデュアルドメイン情報を利用することで、アンチアーティファクトのパフォーマンスが向上するが、これにはsinogram全体をメモリに格納する必要がある。
これは高分解能CBCTシングラムのメモリ問題を示し、さらなる研究と応用を制限している。
本稿では、ダウンサンプリングデータを用いたCBCT再構成のための立方体型3次元拡散確率モデル(DDPM)を提案する。
完全にサンプリングされたシングラムとダウンサンプリングされたシングラムから抽出された立方体に基づいて訓練されたDDPMネットワークを用いて、ダウンサンプリングされたシングラムを塗布する。
提案手法では,シンノグラム全体を重なり合う立方体に分割し,複数のgpuを用いて並列に処理し,メモリ制限を克服する。
実験結果から,本手法はテクストの細部を忠実に保存しながら,少数視点のアーティファクトを効果的に抑制することを示した。 Deep learning (DL) has been extensively researched in the field of computed tomography (CT) reconstruction with incomplete data, particularly in sparse-view CT reconstruction. However, applying DL to sparse-view cone beam CT (CBCT) remains challenging. Many models learn the mapping from sparse-view CT images to ground truth but struggle to achieve satisfactory performance in terms of global artifact removal. Incorporating sinogram data and utilizing dual-domain information can enhance anti-artifact performance, but this requires storing the entire sinogram in memory. This presents a memory issue for high-resolution CBCT sinograms, limiting further research and application. In this paper, we propose a cube-based 3D denoising diffusion probabilistic model (DDPM) for CBCT reconstruction using down-sampled data. A DDPM network, trained on cubes extracted from paired fully sampled sinograms and down-sampled sinograms, is employed to inpaint down-sampled sinograms. Our method divides the entire sinogram into overlapping cubes and processes these cubes in parallel using multiple GPUs, overcoming memory limitations. Experimental results demonstrate that our approach effectively suppresses few-view artifacts while preserving textural details faithfully. | 翻訳日:2023-03-24 16:35:36 公開日:2023-03-22 |
# 深層学習に基づくステレオカメラのマルチビデオ同期 Deep learning-based stereo camera multi-video synchronization ( http://arxiv.org/abs/2303.12916v1 ) ライセンス: Link先を確認 | Nicolas Boizard, Kevin El Haddad, Thierry Ravet, Fran\c{c}ois Cresson and Thierry Dutoit | (参考訳) ステレオビジョンは多くのアプリケーションに不可欠である。
現在、2台のカメラからのストリームの同期は、主にハードウェアで行われている。
ソフトウェアベースの同期方式は、システム全体のコスト、重量、サイズを削減し、そのようなシステムを構築する際の柔軟性を高める。
この目標を念頭に置いて、異なるディープラーニングベースのシステムの比較を行い、そのようなタスクに十分な効率と一般化性を示す。
本研究は、ソフトウェアベースのビデオ同期システムの実現方法を明らかにする。 Stereo vision is essential for many applications. Currently, the synchronization of the streams coming from two cameras is done using mostly hardware. A software-based synchronization method would reduce the cost, weight and size of the entire system and allow for more flexibility when building such systems. With this goal in mind, we present here a comparison of different deep learning-based systems and prove that some are efficient and generalizable enough for such a task. This study paves the way to a production ready software-based video synchronization system. | 翻訳日:2023-03-24 16:29:09 公開日:2023-03-22 |
# 手術動作認識のための自己蒸留 Self-distillation for surgical action recognition ( http://arxiv.org/abs/2303.12915v1 ) ライセンス: Link先を確認 | Amine Yamlahi, Thuy Nuong Tran, Patrick Godau, Melanie Schellenberg, Dominik Michael, Finn-Henri Smidt, Jan-Hinrich Noelke, Tim Adler, Minu Dietlinde Tizabi, Chinedu Nwoye, Nicolas Padoy, Lena Maier-Hein | (参考訳) 手術現場理解は手術室における文脈認識意思決定支援の重要な前提条件である。
深層学習に基づくアプローチはすでに様々な分野で人間のパフォーマンスを上回っているが、手術行動認識の課題は依然として大きな課題である。
この貢献により, 手術ビデオ解析におけるクラス不均衡と潜在的なラベル曖昧性に対処する手段として, 自己蒸留の概念を初めて検討した。
提案手法は,スウィントランスフォマーをバックボーンとして,自己蒸留とマルチタスク学習を基本設計として用いる3つのモデルからなる不均質アンサンブルである。
クロスバリデーションによるColecT45チャレンジデータを用いたアブレーション研究によると, 自己蒸留により得られたソフトラベルを用いることで, 最大の性能向上が達成された。
独立したテストセット上でのメソッドの外部検証は、当社の推論モデルのDockerコンテナをチャレンジオーガナイザに提供することで実現しました。
彼らの分析によると、本手法は、この分野における最新の課題に対する他のソリューションよりも優れている。
本手法は, 医用画像解析における重要なツールとなるための自己蒸留の可能性を示す。 Surgical scene understanding is a key prerequisite for contextaware decision support in the operating room. While deep learning-based approaches have already reached or even surpassed human performance in various fields, the task of surgical action recognition remains a major challenge. With this contribution, we are the first to investigate the concept of self-distillation as a means of addressing class imbalance and potential label ambiguity in surgical video analysis. Our proposed method is a heterogeneous ensemble of three models that use Swin Transfomers as backbone and the concepts of self-distillation and multi-task learning as core design choices. According to ablation studies performed with the CholecT45 challenge data via cross-validation, the biggest performance boost is achieved by the usage of soft labels obtained by self-distillation. External validation of our method on an independent test set was achieved by providing a Docker container of our inference model to the challenge organizers. According to their analysis, our method outperforms all other solutions submitted to the latest challenge in the field. Our approach thus shows the potential of self-distillation for becoming an important tool in medical image analysis applications. | 翻訳日:2023-03-24 16:29:02 公開日:2023-03-22 |
# TRON:非コヒーレントシリコンフォトニクスを用いたトランスフォーマーニューラルネットワーク高速化 TRON: Transformer Neural Network Acceleration with Non-Coherent Silicon Photonics ( http://arxiv.org/abs/2303.12914v1 ) ライセンス: Link先を確認 | Salma Afifi, Febin Sunny, Mahdi Nikdast, Sudeep Pasricha | (参考訳) トランスフォーマーニューラルネットワークは、自然言語処理(NLP)とコンピュータビジョンのための最先端のソリューションに急速に統合されている。
しかし、これらのモデルの複雑な構造は、従来の電子プラットフォーム上での実行を加速するための課題を生み出している。
我々は、BERTやVision Transformersといったトランスフォーマーモデルのための、TRONと呼ばれる最初のシリコンフォトニックハードウェアニューラルネットワークアクセラレータを提案する。
我々の分析では、TRONは最先端のトランスフォーマーアクセラレータと比較して、少なくとも14倍のスループットと8倍のエネルギー効率を示します。 Transformer neural networks are rapidly being integrated into state-of-the-art solutions for natural language processing (NLP) and computer vision. However, the complex structure of these models creates challenges for accelerating their execution on conventional electronic platforms. We propose the first silicon photonic hardware neural network accelerator called TRON for transformer-based models such as BERT, and Vision Transformers. Our analysis demonstrates that TRON exhibits at least 14x better throughput and 8x better energy efficiency, in comparison to state-of-the-art transformer accelerators. | 翻訳日:2023-03-24 16:28:44 公開日:2023-03-22 |
# 非コヒーレント光コンピューティングによるaiアクセラレーションのためのクロスレイヤー設計 Cross-Layer Design for AI Acceleration with Non-Coherent Optical Computing ( http://arxiv.org/abs/2303.12910v1 ) ライセンス: Link先を確認 | Febin Sunny, Mahdi Nikdast, Sudeep Pasricha | (参考訳) ChatGPT、グラフ畳み込みネットワーク、その他のディープニューラルネットワークといった新しいAIアプリケーションは、トレーニングと推論のために膨大な計算資源を必要とする。
CPU、GPU、TPUといった現代のコンピューティングプラットフォームは、これらのAIアプリケーションの要求に応えようと苦労しています。
非コヒーレント光コンピューティングは、aiワークロードの光速加速に有望なアプローチである。
本稿では,非コヒーレント光コンピューティングプラットフォームにおける課題を,クロスレイヤー設計が克服できることを示す。
我々は、光学デバイス工学、チューニング回路拡張、および様々なAIワークロードに光コンピューティングを適用するアーキテクチャ革新のアプローチについて説明する。
また、AIソフトウェアをインテリジェントにマッピングし、適応し、非コヒーレントな光コンピューティングプラットフォームの性能を向上させるハードウェア/ソフトウェア共同設計の技術についても論じる。 Emerging AI applications such as ChatGPT, graph convolutional networks, and other deep neural networks require massive computational resources for training and inference. Contemporary computing platforms such as CPUs, GPUs, and TPUs are struggling to keep up with the demands of these AI applications. Non-coherent optical computing represents a promising approach for light-speed acceleration of AI workloads. In this paper, we show how cross-layer design can overcome challenges in non-coherent optical computing platforms. We describe approaches for optical device engineering, tuning circuit enhancements, and architectural innovations to adapt optical computing to a variety of AI workloads. We also discuss techniques for hardware/software co-design that can intelligently map and adapt AI software to improve its performance on non-coherent optical computing platforms. | 翻訳日:2023-03-24 16:28:35 公開日:2023-03-22 |
# コンピューティング教育における倫理 : 組み込み倫理の課題と経験 Ethics in Computing Education: Challenges and Experience with Embedded Ethics ( http://arxiv.org/abs/2303.12909v1 ) ライセンス: Link先を確認 | Sudeep Pasricha | (参考訳) 次世代のコンピュータ技術者や科学者は、新しいマイクロエレクトロニクスシステムの解析、最適化、作成に必要な技術知識だけでなく、設計中に倫理的な決定を行うために必要なスキルも熟達しなければならない。
それゆえ、コンピュータ倫理を計算カリキュラムで教えることは、ますます接続され、コンピュータ依存社会に重大な影響をもたらす重要な要件になりつつある。
本稿では,倫理を現代コンピュータのカリキュラムに効果的に統合する多くの課題と課題について考察する。
コロラド州立大学のコンピュータ工学カリキュラムに倫理モジュールを統合するケーススタディについて述べる。 The next generation of computer engineers and scientists must be proficient in not just the technical knowledge required to analyze, optimize, and create emerging microelectronics systems, but also with the skills required to make ethical decisions during design. Teaching computer ethics in computing curricula is therefore becoming an important requirement with significant ramifications for our increasingly connected and computing-reliant society. In this paper, we reflect on the many challenges and questions with effectively integrating ethics into modern computing curricula. We describe a case study of integrating ethics modules into the computer engineering curricula at Colorado State University. | 翻訳日:2023-03-24 16:28:22 公開日:2023-03-22 |
# 医療用テキスト-SQLモデルとデータセットの一般化の理解に向けて Towards Understanding the Generalization of Medical Text-to-SQL Models and Datasets ( http://arxiv.org/abs/2303.12898v1 ) ライセンス: Link先を確認 | Richard Tarbell, Kim-Kwang Raymond Choo, Glenn Dietrich and Anthony Rios | (参考訳) 電子カルテ(EMR)はリレーショナルデータベースに格納される。
ユーザがデータベーススキーマや一般的なデータベース基盤に精通していない場合、必要な情報にアクセスするのは困難です。
したがって、研究者は、データベースの専門家を必要とせずに、医療専門家がEMRデータに直接アクセスするためのテキストからSQL生成方法を模索してきた。
しかし、現在利用可能なデータセットは本質的に「解決」され、最先端のモデルが90%以上の精度を達成する。
本稿では,医療領域におけるテキスト・トゥ・SQL生成の解決にはまだ長い道のりがあることを示す。
これを示すために、既存の医療用テキスト-SQLデータセットMIMICSQLの新しい分割を作成し、その結果のモデルの一般化性をよりよく測定する。
新しい分割で最先端言語モデルを評価し、パフォーマンスが大幅に低下し、精度が最大92%から28%に低下した。
さらに,言語モデルの一般化性を向上させるための新しいデータ拡張手法を提案する。
全体として、本論文は医療領域でより堅牢なテキスト対sqlモデルを開発するための第一歩となる。
データセットとコードは、受理時にリリースされます。 Electronic medical records (EMRs) are stored in relational databases. It can be challenging to access the required information if the user is unfamiliar with the database schema or general database fundamentals. Hence, researchers have explored text-to-SQL generation methods that provide healthcare professionals direct access to EMR data without needing a database expert. However, currently available datasets have been essentially "solved" with state-of-the-art models achieving accuracy greater than or near 90%. In this paper, we show that there is still a long way to go before solving text-to-SQL generation in the medical domain. To show this, we create new splits of the existing medical text-to-SQL dataset MIMICSQL that better measure the generalizability of the resulting models. We evaluate state-of-the-art language models on our new split showing substantial drops in performance with accuracy dropping from up to 92% to 28%, thus showing substantial room for improvement. Moreover, we introduce a novel data augmentation approach to improve the generalizability of the language models. Overall, this paper is the first step towards developing more robust text-to-SQL models in the medical domain.\footnote{The dataset and code will be released upon acceptance. | 翻訳日:2023-03-24 16:28:12 公開日:2023-03-22 |
# 単一モードボソニックモデルにおける量子相転移のシグナチャ Signatures of a quantum phase transition on a single-mode bosonic model ( http://arxiv.org/abs/2303.12894v1 ) ライセンス: Link先を確認 | Emmanouil Grigoriou and Carlos Navarrete-Benlloch | (参考訳) 平衡相転移は通常多体系の微視的挙動から生じ、長距離秩序の生成や自発的対称性の破れといった興味深い現象と関連している。
これらは熱力学限界における熱力学ポテンシャルの非解析的挙動によって定義される。
この限界は、無限の自由度(無限個の粒子やモード)によって形成される空間的に拡張されたシステムと通常関連する、システムの利用可能な構成の数が無限に近づくと得られる。
これまでの考えを極端に考えると、そのような極限は非拡張系でも定義でき、単一のモードボソニックハミルトニアンの最も単純な形の特定の例を提供する。
従来の非拡張モデルとは対照的に、モデルの単純さにより、全てのパラメータ空間において、特に熱力学的限界に近い正確な数値シミュレーションに直面することができる近似解析式を見つけることができる。
これにより,制御パラメータの関数として,第2次相転移のすべての特性を表示する変更を行うことを示すことができる。
我々は、量子 Rabi や Lipkin-Meshkov-Glick のようなより精巧な非拡張モデルと一致するモデルの普遍性クラスを明らかにする臨界指数とスケーリング法則を導出する。
モデルを分析し、熱力学と古典的限界が一致することを示すことによって、このタイプの相転移の特徴に関する洞察を与えることもできる。
言い換えれば、システムが真の位相遷移を行うためには、量子ゆらぎを調整しなければならない。 Equilibrium phase transitions usually emerge from the microscopic behavior of many-body systems and are associated to interesting phenomena such as the generation of long-range order and spontaneous symmetry breaking. They can be defined through the non-analytic behavior of thermodynamic potentials in the thermodynamic limit. This limit is obtained when the number of available configurations of the system approaches infinity, which is conventionally associated to spatially-extended systems formed by an infinite number of degrees of freedom (infinite number of particles or modes). Taking previous ideas to the extreme, we argue that such a limit can be defined even in non-extended systems, providing a specific example in the simplest form of a single-mode bosonic Hamiltonian. In contrast to previous non-extended models, the simplicity of our model allows us to find approximate analytical expressions that can be confronted with precise numerical simulations in all the parameter space, particularly as close to the thermodynamic limit as we want. We are thus able to show that the system undergoes a change displaying all the characteristics of a second-order phase transition as a function of a control parameter. We derive critical exponents and scaling laws revealing the universality class of the model, which coincide with that of more elaborate non-extended models such as the quantum Rabi or Lipkin-Meshkov-Glick models. Analyzing our model, we are also able to offer insights into the features of this type of phase transitions, by showing that the thermodynamic and classical limits coincide. In other words, quantum fluctuations must be tamed in order for the system to undergo a true phase transition. | 翻訳日:2023-03-24 16:27:54 公開日:2023-03-22 |
# 臨床物語分類のための小型スイッチ変換器とNLPモデル A Small-Scale Switch Transformer and NLP-based Model for Clinical Narratives Classification ( http://arxiv.org/abs/2303.12892v1 ) ライセンス: Link先を確認 | Thanh-Dung Le, Philippe Jouvet, Rita Noumeir | (参考訳) 近年、switch transformerのようなトランスフォーマは自然言語処理タスクにおいて顕著な成果を上げている。
しかし、これらのモデルは複雑すぎることが多く、広範囲な事前訓練が必要であり、限られたデータを持つ小さな臨床テキスト分類タスクの有効性を制限している。
そこで本研究では,簡単なスイッチトランスフォーマフレームワークを提案し,チュサント=ジャスティヌ病院の小規模臨床テキスト分類データセット上でスクラッチから学習する。
以上の結果から,DistillBERT,CamemBERT,FrauBERT,FrALBERTなど,既存のBERTモデルよりも高速な小型トランスフォーマーモデルが得られた。
さらに,Switch Transformerからの専門家機構を混合することにより,多様なパターンを抽出し,自己認識機構を持つ従来のTransformerよりも優れた結果が得られる。
最後に,提案手法は,精度が 87\%,精度が 87\%,リコールが 85\% と,精度が 84\%,精度が 84\%,リコールが 84\% であった bert-based model flaubert と比較して精度が 87\%,精度が 87\%,リコールが 85\% であった。
しかし、スイッチトランスフォーマーには一般化ギャップやシャープミニマなど制限がある。
フランスの小規模臨床ナラティブ分類のための多層パーセプトロンニューラルネットワークと比較し,後者が他のモデルよりも優れていることを示す。 In recent years, Transformer-based models such as the Switch Transformer have achieved remarkable results in natural language processing tasks. However, these models are often too complex and require extensive pre-training, which limits their effectiveness for small clinical text classification tasks with limited data. In this study, we propose a simplified Switch Transformer framework and train it from scratch on a small French clinical text classification dataset at CHU Sainte-Justine hospital. Our results demonstrate that the simplified small-scale Transformer models outperform pre-trained BERT-based models, including DistillBERT, CamemBERT, FlauBERT, and FrALBERT. Additionally, using a mixture of expert mechanisms from the Switch Transformer helps capture diverse patterns; hence, the proposed approach achieves better results than a conventional Transformer with the self-attention mechanism. Finally, our proposed framework achieves an accuracy of 87\%, precision at 87\%, and recall at 85\%, compared to the third-best pre-trained BERT-based model, FlauBERT, which achieved an accuracy of 84\%, precision at 84\%, and recall at 84\%. However, Switch Transformers have limitations, including a generalization gap and sharp minima. We compare it with a multi-layer perceptron neural network for small French clinical narratives classification and show that the latter outperforms all other models. | 翻訳日:2023-03-24 16:27:29 公開日:2023-03-22 |
# サイバーセキュリティ侵入検知システムにおける説明可能性と効率性の比較 Feature Reduction Method Comparison Towards Explainability and Efficiency in Cybersecurity Intrusion Detection Systems ( http://arxiv.org/abs/2303.12891v1 ) ライセンス: Link先を確認 | Adam M. Lehavi, Seongtae Kim | (参考訳) サイバーセキュリティの領域では、侵入検知システム(IDS)は収集されたコンピュータおよびネットワークデータに基づいて攻撃を検出し、防止する。
近年の研究では、機械学習(ML)や、ランダムフォレスト(RF)やディープニューラルネットワーク(DNN)といったディープラーニング(DL)手法を用いてIDSモデルを構築している。
特徴選択(FS)はより速く、より解釈可能で、より正確なモデルを構築するために使用できる。
RF情報ゲイン(RF-IG)、Bat Algorithm(CFS-BA)を用いた相関特徴選択、Aquila Optimizer(CFS-AO)を用いたCFSの3つの異なるFS技術について検討する。
その結果, cfs-baはfs法の中で最も効率的であり, 精度99.99%の精度を保ちつつ, 最良のrf-igモデルの55%の時間内に構築できることがわかった。
これは、最終結果において、サブセットサイズ、CFSスコア、RF-IGスコアの関係を構築しながら、CFS-BAの精度を証明する事前の貢献を強化する。 In the realm of cybersecurity, intrusion detection systems (IDS) detect and prevent attacks based on collected computer and network data. In recent research, IDS models have been constructed using machine learning (ML) and deep learning (DL) methods such as Random Forest (RF) and deep neural networks (DNN). Feature selection (FS) can be used to construct faster, more interpretable, and more accurate models. We look at three different FS techniques; RF information gain (RF-IG), correlation feature selection using the Bat Algorithm (CFS-BA), and CFS using the Aquila Optimizer (CFS-AO). Our results show CFS-BA to be the most efficient of the FS methods, building in 55% of the time of the best RF-IG model while achieving 99.99% of its accuracy. This reinforces prior contributions attesting to CFS-BA's accuracy while building upon the relationship between subset size, CFS score, and RF-IG score in final results. | 翻訳日:2023-03-24 16:27:02 公開日:2023-03-22 |
# スケール空間ラドン変換に基づく慣性軸と物体中心対称性の推定 Scale space radon transform-based inertia axis and object central symmetry estimation ( http://arxiv.org/abs/2303.12890v1 ) ライセンス: Link先を確認 | Aicha Baya Goumeidane, Djemel Ziou, and Nafaa Nacereddine | (参考訳) 慣性軸は、線、角度、セントロイドなどから得られる情報を含む画像コンテンツ測定の多くの技術に関与している。
本研究では,画像中の物体の慣性主軸の推定について検討する。
スケール空間ラドン変換(ssrt)の最大値と慣性主軸の一致条件を明らかにする。
適切なスケールパラメータを選択することで、画像中の埋め込みオブジェクトの位置と方向のSSRT最大値と主軸とを一致させることができることを示す。
さらに、ssrt射影と慣性方向の軸によって二元対象中心対称性計算が導出される場合のユースケースを示す。
この目的のために、いくつかのSSRT特性が強調され、活用されている。
実験によりssrtに基づく慣性計算の有効性の主軸が示された。
中央対称性については、ランダムに生成された画像データセットで行った実験の結果が極めて満足でき、既存のデータセットでは、これらの画像ベースを中央対称および非中央対称オブジェクトに分割することが許されている。 Inertia Axes are involved in many techniques for image content measurement when involving information obtained from lines, angles, centroids... etc. We investigate, here, the estimation of the main axis of inertia of an object in the image. We identify the coincidence conditions of the Scale Space Radon Transform (SSRT) maximum and the inertia main axis. We show, that by choosing the appropriate scale parameter, it is possible to match the SSRT maximum and the main axis of inertia location and orientation of the embedded object in the image. Furthermore, an example of use case is presented where binary objects central symmetry computation is derived by means of SSRT projections and the axis of inertia orientation. To this end, some SSRT characteristics have been highlighted and exploited. The experimentations show the SSRT-based main axis of inertia computation effectiveness. Concerning the central symmetry, results are very satisfying as experimentations carried out on randomly created images dataset and existing datasets have permitted to divide successfully these images bases into centrally symmetric and non-centrally symmetric objects. | 翻訳日:2023-03-24 16:26:42 公開日:2023-03-22 |
# TSI-GAN: Convolutional Cycle-Consistent Generative Adversarial Networks を用いた教師なし時系列異常検出 TSI-GAN: Unsupervised Time Series Anomaly Detection using Convolutional Cycle-Consistent Generative Adversarial Networks ( http://arxiv.org/abs/2303.12952v1 ) ライセンス: Link先を確認 | Shyam Sundar Saravanan, Tie Luo, and Mao Van Ngo | (参考訳) 異常検出は、ネットワーク侵入検出、自動運転、医療診断、クレジットカード詐欺などに広く使われている。
しかし、基底の真理ラベルの欠如、複雑な時間パターンの存在、異なるデータセットの一般化など、いくつかの重要な課題が残っている。
本稿では,時系列の非教師なし異常検出モデルであるtsi-ganを提案する。これは複雑な時相パターンを自動的に学習し,データセット固有のパラメータの選択や,基礎となるデータに関する統計的仮定,モデルアーキテクチャの変更などを行う必要がない。
これらの目的を達成するために、各入力時系列を2つの符号化手法を用いて2次元画像のシーケンスに変換する。
さらに,エンコーダ・デコーダネットワークにおける畳み込み層を用いた再構成GANを設計し,トレーニング中にサイクル整合性損失を用いて逆写像の精度も保証する。
さらに,偽陽性を緩和するために,後処理のHodrick-Prescottフィルタも実装する。
提案手法は,250個の高度・厳密なデータセットを用いてTSI-GANを評価し,最先端の8つのベースライン手法と比較した。
その結果,全ベースラインに対するtsi-ganの優位性が示され,第2位のmerlinと第3位のlstm-aeと比較して,全体のパフォーマンスが13%,31%向上した。 Anomaly detection is widely used in network intrusion detection, autonomous driving, medical diagnosis, credit card frauds, etc. However, several key challenges remain open, such as lack of ground truth labels, presence of complex temporal patterns, and generalizing over different datasets. This paper proposes TSI-GAN, an unsupervised anomaly detection model for time-series that can learn complex temporal patterns automatically and generalize well, i.e., no need for choosing dataset-specific parameters, making statistical assumptions about underlying data, or changing model architectures. To achieve these goals, we convert each input time-series into a sequence of 2D images using two encoding techniques with the intent of capturing temporal patterns and various types of deviance. Moreover, we design a reconstructive GAN that uses convolutional layers in an encoder-decoder network and employs cycle-consistency loss during training to ensure that inverse mappings are accurate as well. In addition, we also instrument a Hodrick-Prescott filter in post-processing to mitigate false positives. We evaluate TSI-GAN using 250 well-curated and harder-than-usual datasets and compare with 8 state-of-the-art baseline methods. The results demonstrate the superiority of TSI-GAN to all the baselines, offering an overall performance improvement of 13% and 31% over the second-best performer MERLIN and the third-best performer LSTM-AE, respectively. | 翻訳日:2023-03-24 16:20:43 公開日:2023-03-22 |
# LightPainter:フリーハンドによるインタラクティブなポートレートライティング LightPainter: Interactive Portrait Relighting with Freehand Scribble ( http://arxiv.org/abs/2303.12950v1 ) ライセンス: Link先を確認 | Yiqun Mei, He Zhang, Xuaner Zhang, Jianming Zhang, Zhixin Shu, Yilin Wang, Zijun Wei, Shi Yan, HyunJoon Jung, Vishal M. Patel | (参考訳) 近年,環境地図などの所望の照明表現により,ポートレート照明効果の現実的な結果が得られている。
しかし、これらの手法はユーザインタラクションには直感的ではなく、正確な照明制御を欠いている。
我々は、スクリブルベースのライティングシステムであるLightPainterを導入し、ユーザーが簡単にポートレート照明効果を操作できるようにする。
これは、2つの条件付きニューラルネットワーク、幾何とアルベドを任意に肌のトーンに調整する喜びモジュール、およびリライトのためのスクリブルベースのモジュールによって実現される。
relightingモジュールをトレーニングするために、私たちは実際のユーザースクリブルを模倣する新しいスクリブルシミュレーション手順を提案しました。
定量的および定性的な実験により,高品質でフレキシブルなポートレート照明編集機能を示す。
商用照明編集ツールとのユーザスタディ比較も,本手法に対する一貫したユーザ嗜好を示す。 Recent portrait relighting methods have achieved realistic results of portrait lighting effects given a desired lighting representation such as an environment map. However, these methods are not intuitive for user interaction and lack precise lighting control. We introduce LightPainter, a scribble-based relighting system that allows users to interactively manipulate portrait lighting effect with ease. This is achieved by two conditional neural networks, a delighting module that recovers geometry and albedo optionally conditioned on skin tone, and a scribble-based module for relighting. To train the relighting module, we propose a novel scribble simulation procedure to mimic real user scribbles, which allows our pipeline to be trained without any human annotations. We demonstrate high-quality and flexible portrait lighting editing capability with both quantitative and qualitative experiments. User study comparisons with commercial lighting editing tools also demonstrate consistent user preference for our method. | 翻訳日:2023-03-24 16:20:17 公開日:2023-03-22 |
# テキスト分類のための深層文脈言語表現の一般化可能性の解析 Analyzing the Generalizability of Deep Contextualized Language Representations For Text Classification ( http://arxiv.org/abs/2303.12936v1 ) ライセンス: Link先を確認 | Berfu Buyukoz | (参考訳) 本研究は,2項の抗議ニュース分類の指導的学習と製品レビューの感情分析における2つの最先端の文脈言語表現であるELMoとDistilBERTの堅牢性を評価する。
クロスコンテキスト"の設定は、トレーニングデータと異なるテストセットを使用して有効にします。
特に、ニュース分類タスクでは、モデルはインドからのローカルニュースで開発され、中国からのローカルニュースでテストされます。
感情分析タスクでは、モデルは映画レビューでトレーニングされ、顧客レビューでテストされます。
この比較は、現在の自然言語処理システムの代表的な能力の限界を、現実のシナリオに一般化可能なシステムへの道のりで探求することを目的としている。
モデルは微調整され、フィードフォワードニューラルネットワークと双方向の長期記憶ネットワークに供給される。
多項ナイーブベイズと線形支持ベクターマシンは伝統的なベースラインとして使用される。
その結果、バイナリテキスト分類において、DitilBERTは、クロスコンテキスト設定への一般化においてELMoよりもはるかに優れていることがわかった。
ELMoは、両基線よりも、クロスコンテキストテストデータに対してはるかに堅牢である。
一方、ベースラインは、トレーニングとテストデータが同じコーパスのサブセットである場合(クロスコンテクストなし)、elmoと同等の性能を発揮した。
DistilBERTはELMoよりも30%小さく83%速くなっている。
その結果、DistilBERTはELMoよりもジェネリックセマンティック知識を他のドメインに転送できることがわかった。
DistilBERTは、より少ない計算訓練予算を必要とするために、現実のシステムに組み込むのに適している。
一般化が最も好ましくなく、テストドメインがトレーニングドメインに似ている場合、従来のmlアルゴリズムは、深層言語表現のより経済的な代替案と見なすことができる。 This study evaluates the robustness of two state-of-the-art deep contextual language representations, ELMo and DistilBERT, on supervised learning of binary protest news classification and sentiment analysis of product reviews. A "cross-context" setting is enabled using test sets that are distinct from the training data. Specifically, in the news classification task, the models are developed on local news from India and tested on the local news from China. In the sentiment analysis task, the models are trained on movie reviews and tested on customer reviews. This comparison is aimed at exploring the limits of the representative power of today's Natural Language Processing systems on the path to the systems that are generalizable to real-life scenarios. The models are fine-tuned and fed into a Feed-Forward Neural Network and a Bidirectional Long Short Term Memory network. Multinomial Naive Bayes and Linear Support Vector Machine are used as traditional baselines. The results show that, in binary text classification, DistilBERT is significantly better than ELMo on generalizing to the cross-context setting. ELMo is observed to be significantly more robust to the cross-context test data than both baselines. On the other hand, the baselines performed comparably well to ELMo when the training and test data are subsets of the same corpus (no cross-context). DistilBERT is also found to be 30% smaller and 83% faster than ELMo. The results suggest that DistilBERT can transfer generic semantic knowledge to other domains better than ELMo. DistilBERT is also favorable in incorporating into real-life systems for it requires a smaller computational training budget. When generalization is not the utmost preference and test domain is similar to the training domain, the traditional ML algorithms can still be considered as more economic alternatives to deep language representations. | 翻訳日:2023-03-24 16:20:02 公開日:2023-03-22 |
# 実世界のコミュニティ・イン・ザ・ループ型スマートビデオサーベイランス-コミュニティ・カレッジにおける事例研究 Real-World Community-in-the-Loop Smart Video Surveillance -- A Case Study at a Community College ( http://arxiv.org/abs/2303.12934v1 ) ライセンス: Link先を確認 | Shanle Yao, Babak Rahimi Ardabili, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Christopher Neff, Hamed Tabkhi | (参考訳) スマートビデオ監視システムは、特にスマートシティにおいて、公共の安全とセキュリティを確保するために近年重要になっている。
しかし、低遅延通知とアラームを組み合わせたリアルタイム人工知能技術の採用は、これらのシステムのデプロイを非常に困難にしている。
本稿では,コミュニティカレッジにおける実世界テストベッドに基づくスマートビデオ監視システムを設計・展開するためのケーススタディを提案する。
私たちは主に、疑わしい/異常なアクティビティを特定し、ステークホルダーや住民に即座に警告できるスマートカメラベースのシステムにフォーカスしています。
テストベッド内でのリアルタイムな高精度ビデオ解析処理を保証するために,さまざまなアルゴリズムとシステム設計の課題を強調し,対処する。
また、クラウドシステムインフラストラクチャとリアルタイム通知のためのモバイルアプリの例を示し、学生、教員/スタッフ、責任のあるセキュリティ担当者をループに留める。
同時に、コミュニティのプライバシと倫理的要件とハードウェア設定とセットアップを維持するという設計決定についても触れている。
スループットとエンドツーエンドのレイテンシを用いてシステムの性能を評価する。
実験の結果,1,4,8台のカメラを起動した場合,疑わしい物体を検知した場合のエンド・ツー・エンドのレイテンシは5.3秒,5.78秒,11.11秒であった。
一方、異常な動作を検出する場合、システムはエンドユーザーに7.3, 7.63, 20.78秒平均遅延を通知する。
これらの結果は,異常行動や疑わしい物体を合理的な期間内に,効果的に検出し,通知することを示す。
このシステムは8台のカメラを同時に32.41フレーム/秒(fps)で動作させることができる。 Smart Video surveillance systems have become important recently for ensuring public safety and security, especially in smart cities. However, applying real-time artificial intelligence technologies combined with low-latency notification and alarming has made deploying these systems quite challenging. This paper presents a case study for designing and deploying smart video surveillance systems based on a real-world testbed at a community college. We primarily focus on a smart camera-based system that can identify suspicious/abnormal activities and alert the stakeholders and residents immediately. The paper highlights and addresses different algorithmic and system design challenges to guarantee real-time high-accuracy video analytics processing in the testbed. It also presents an example of cloud system infrastructure and a mobile application for real-time notification to keep students, faculty/staff, and responsible security personnel in the loop. At the same time, it covers the design decision to maintain communities' privacy and ethical requirements as well as hardware configuration and setups. We evaluate the system's performance using throughput and end-to-end latency. The experiment results show that, on average, our system's end-to-end latency to notify the end users in case of detecting suspicious objects is 5.3, 5.78, and 11.11 seconds when running 1, 4, and 8 cameras, respectively. On the other hand, in case of detecting anomalous behaviors, the system could notify the end users with 7.3, 7.63, and 20.78 seconds average latency. These results demonstrate that the system effectively detects and notifies abnormal behaviors and suspicious objects to the end users within a reasonable period. The system can run eight cameras simultaneously at a 32.41 Frame Per Second (FPS) rate. | 翻訳日:2023-03-24 16:19:33 公開日:2023-03-22 |
# パラジクロロベンゼンの低温における単一ジベンゾテレレン分子の量子効率 Quantum Efficiency of Single Dibenzoterrylene Molecules in para-Dichlorobenzene at Cryogenic Temperatures ( http://arxiv.org/abs/2303.12933v1 ) ライセンス: Link先を確認 | Mohammad Musavinezhad, Dominik Rattenbacher, Alexey Shkarin, Jan Renger, Tobias Utikal, Stephan G\"otzinger, Vahid Sandoghdar | (参考訳) パラジクロロベンゼンに埋め込まれた個々のジベンゾテレレン(DBT)分子の低温における量子効率(QE)を測定した。
これを実現するために、極大光子放出とゼロフォノン線を飽和させるために必要な電力に基づく2つの異なる方法を適用する。
この2つの手法の結果はよく一致しており、QE値が50%以上、一部が70%を超える分子が報告されている。
さらに, 分子の寿命とQEの観測下限との間には相関が認められず, 分子のほとんどが確立された下限を超えるQEを有することが示唆された。
これは、量子光学実験におけるDBTの適合性を確認する。
環境条件下でのQE値の低下は前報に照らして, この結果からQEの強い温度依存性の可能性が示唆された。 We measure the quantum efficiency (QE) of individual dibenzoterrylene (DBT) molecules embedded in para-dichlorobenzene at cryogenic temperatures. To achieve this, we apply two distinct methods based on the maximal photon emission and on the power required to saturate the zero-phonon line. We find that the outcome of the two approaches are in good agreement, reporting a large fraction of molecules with QE values above 50%, with some exceeding 70%. Furthermore, we observe no correlation between the observed lower bound on the QE and the lifetime of the molecule, suggesting that most of the molecules have a QE exceeding the established lower bound. This confirms the suitability of DBT for quantum optics experiments. In light of previous reports of low QE values at ambient conditions, our results hint at the possibility of a strong temperature dependence of the QE. | 翻訳日:2023-03-24 16:19:03 公開日:2023-03-22 |
# 十分統計量を用いた一般化データ薄型化 Generalized Data Thinning Using Sufficient Statistics ( http://arxiv.org/abs/2303.12931v1 ) ライセンス: Link先を確認 | Ameer Dharamshi, Anna Neufeld, Keshav Motwani, Lucy L. Gao, Daniela Witten, Jacob Bien | (参考訳) 我々の目標は、未知のパラメータに関する情報を犠牲にすることなく、確率変数$X$を複数の独立確率変数に分解する一般的な戦略を開発することである。
最近の論文では、いくつかのよく知られた自然指数族に対して、$X$ は独立確率変数 $X^{(1)}, \ldots, X^{(K)}$ に "thinned" され、$X = \sum_{k=1}^K X^{(k)}$ となることを示した。
本稿では、この和の要求を緩和し、独立確率変数の既知の関数が$X$を正確に再構成することを求めることで、それらの手順を一般化する。
この手続きの一般化は2つの目的がある。
第一に、薄型化が可能な分布のファミリーを大きく広げる。
第二に、同じ原理の応用として、表面上は非常に異なるように見えるサンプル分割とデータの薄型化を統一する。
この共有原則は十分である。
この知見を多種多様な家族を対象とした汎用的な薄型化作業に活用する。 Our goal is to develop a general strategy to decompose a random variable $X$ into multiple independent random variables, without sacrificing any information about unknown parameters. A recent paper showed that for some well-known natural exponential families, $X$ can be "thinned" into independent random variables $X^{(1)}, \ldots, X^{(K)}$, such that $X = \sum_{k=1}^K X^{(k)}$. In this paper, we generalize their procedure by relaxing this summation requirement and simply asking that some known function of the independent random variables exactly reconstruct $X$. This generalization of the procedure serves two purposes. First, it greatly expands the families of distributions for which thinning can be performed. Second, it unifies sample splitting and data thinning, which on the surface seem to be very different, as applications of the same principle. This shared principle is sufficiency. We use this insight to perform generalized thinning operations for a diverse set of families. | 翻訳日:2023-03-24 16:18:49 公開日:2023-03-22 |
# 非トリミングビデオにおけるDense-Localizing Audio-Visual Events:大規模ベンチマークとベースライン Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline ( http://arxiv.org/abs/2303.12930v1 ) ライセンス: Link先を確認 | Tiantian Geng, Teng Wang, Jinming Duan, Runmin Cong, Feng Zheng | (参考訳) 既存のオーディオ視覚イベントローカライゼーション(AVE)は、手動でトリミングされたビデオを処理する。
しかし、この設定は非現実的であり、自然ビデオは様々なカテゴリーの多数のオーディオ視覚イベントを含むことが多い。
本稿では,実生活の応用をよりよくするために,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,密集した音声視覚イベントのタスクに焦点をあてる。
この問題は、きめ細かいオーディオ視覚シーンとコンテキスト理解を必要とするため、難しい。
この問題に対処するために,最初のUntrimmed Audio-Visual (UnAV-100)データセットを導入する。
各ビデオには平均して2.8の映像イベントがあり、イベントは通常互いに関連しており、現実のシーンのように共起する可能性がある。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
提案手法の有効性と,マルチスケールクロスモーダル知覚と依存性モデリングの意義を実証する実験を行った。 Existing audio-visual event localization (AVE) handles manually trimmed videos with only a single instance in each of them. However, this setting is unrealistic as natural videos often contain numerous audio-visual events with different categories. To better adapt to real-life applications, in this paper we focus on the task of dense-localizing audio-visual events, which aims to jointly localize and recognize all audio-visual events occurring in an untrimmed video. The problem is challenging as it requires fine-grained audio-visual scene and context understanding. To tackle this problem, we introduce the first Untrimmed Audio-Visual (UnAV-100) dataset, which contains 10K untrimmed videos with over 30K audio-visual events. Each video has 2.8 audio-visual events on average, and the events are usually related to each other and might co-occur as in real-life scenes. Next, we formulate the task using a new learning-based framework, which is capable of fully integrating audio and visual modalities to localize audio-visual events with various lengths and capture dependencies between them in a single pass. Extensive experiments demonstrate the effectiveness of our method as well as the significance of multi-scale cross-modal perception and dependency modeling for this task. | 翻訳日:2023-03-24 16:18:30 公開日:2023-03-22 |
# リアルタイムハミルトン・ヤコビPDEを用いた科学機械学習問題の解法 Leveraging Multi-time Hamilton-Jacobi PDEs for Certain Scientific Machine Learning Problems ( http://arxiv.org/abs/2303.12928v1 ) ライセンス: Link先を確認 | Paula Chen, Tingwei Meng, Zongren Zou, J\'er\^ome Darbon, George Em Karniadakis | (参考訳) ハミルトン・ヤコビ偏微分方程式(HJ PDE)は、最適制御、微分ゲーム、画像科学など幅広い分野と深い関係を持つ。
時間変数を高次元量とすることで、HJ PDEをマルチタイムケースに拡張することができる。
本稿では,機械学習における特定の最適化問題と,特定のHJ PDEに対する解の表現に対応するマルチタイムホップ式との間に,新たな理論的関係を確立する。
この接続を通じて、機械学習アプリケーションの学習過程の解釈可能性を高めるために、これらの学習問題を解く際に、マルチタイムのHJ PDEを解き、拡張することで、対応する最適制御問題を解くことを示す。
この接続に関する最初の調査として,正規化線形回帰問題と線形二次レギュレータ(lqr)の関係を明らかにした。
次に、理論的な接続を利用して標準lqrソルバ(すなわち、リッカティ常微分方程式に基づくもの)を適応させ、機械学習のための新しいトレーニングアプローチを設計する。
最後に,連続学習,ポストトレーニングキャリブレーション,トランスファー学習,スパースダイナミクス同定といった文脈において,riccatiに基づくアプローチの汎用性と計算可能性を示す数値例を提案する。 Hamilton-Jacobi partial differential equations (HJ PDEs) have deep connections with a wide range of fields, including optimal control, differential games, and imaging sciences. By considering the time variable to be a higher dimensional quantity, HJ PDEs can be extended to the multi-time case. In this paper, we establish a novel theoretical connection between specific optimization problems arising in machine learning and the multi-time Hopf formula, which corresponds to a representation of the solution to certain multi-time HJ PDEs. Through this connection, we increase the interpretability of the training process of certain machine learning applications by showing that when we solve these learning problems, we also solve a multi-time HJ PDE and, by extension, its corresponding optimal control problem. As a first exploration of this connection, we develop the relation between the regularized linear regression problem and the Linear Quadratic Regulator (LQR). We then leverage our theoretical connection to adapt standard LQR solvers (namely, those based on the Riccati ordinary differential equations) to design new training approaches for machine learning. Finally, we provide some numerical examples that demonstrate the versatility and possible computational advantages of our Riccati-based approach in the context of continual learning, post-training calibration, transfer learning, and sparse dynamics identification. | 翻訳日:2023-03-24 16:18:06 公開日:2023-03-22 |
# 影響関数のフレギリティの再検討 Revisiting the Fragility of Influence Functions ( http://arxiv.org/abs/2303.12922v1 ) ライセンス: Link先を確認 | Jacob R. Epifano, Ravi P. Ramachandran, Aaron J. Masino, Ghulam Rasool | (参考訳) 過去数年間、ディープラーニングモデルの予測を説明する多くの研究が試みられている。
しかし、これらの説明の正確さや忠実さを検証する方法はほとんど提案されていない。
近年,退学訓練が損失関数に与える影響を近似する手法である影響関数が脆弱であることが示されている。
その脆弱さの理由はまだ不明である。
以前の研究は、ロバスト性を高めるために正規化を使うことを示唆していたが、全てのケースでこれは成り立たない。
本研究では, 影響関数の脆弱性のメカニズムを理解するために, 先行研究で実施した実験について検討する。
まず, 影響関数の凸性仮定が満たされた条件下で, 文献からの手順を用いて影響関数を検証する。
そして、これらの仮定を緩和し、より深いモデルとより複雑なデータセットを用いて非凸性の効果を研究する。
本稿では,影響関数を検証するための重要な指標と手順を分析する。
以上の結果から, 検証手順が脆弱性の原因となる可能性が示唆された。 In the last few years, many works have tried to explain the predictions of deep learning models. Few methods, however, have been proposed to verify the accuracy or faithfulness of these explanations. Recently, influence functions, which is a method that approximates the effect that leave-one-out training has on the loss function, has been shown to be fragile. The proposed reason for their fragility remains unclear. Although previous work suggests the use of regularization to increase robustness, this does not hold in all cases. In this work, we seek to investigate the experiments performed in the prior work in an effort to understand the underlying mechanisms of influence function fragility. First, we verify influence functions using procedures from the literature under conditions where the convexity assumptions of influence functions are met. Then, we relax these assumptions and study the effects of non-convexity by using deeper models and more complex datasets. Here, we analyze the key metrics and procedures that are used to validate influence functions. Our results indicate that the validation procedures may cause the observed fragility. | 翻訳日:2023-03-24 16:17:43 公開日:2023-03-22 |
# 安定性は安定 - 再現性、プライバシ、適応的一般化のつながり Stability is Stable: Connections between Replicability, Privacy, and Adaptive Generalization ( http://arxiv.org/abs/2303.12921v1 ) ライセンス: Link先を確認 | Mark Bun, Marco Gaboardi, Max Hopkins, Russell Impagliazzo, Rex Lei, Toniann Pitassi, Jessica Sorrell, Satchit Sivakumar | (参考訳) レプリカブルアルゴリズムの概念は、Impagliazzo et alで導入された。
[STOC '22]は入力の再サンプリングの下で安定なランダム化アルゴリズムを記述する。
より正確には、replicableアルゴリズムは、ランダム性が固定され、同じ分布から新しいi.i.d.サンプル上で実行される場合に、高い確率で同じ出力を与える。
データ解析にレプリカブルアルゴリズムを用いることで、新たなデータセット上で解析を行う場合でも、分析結果が高い確率で同じになるようにして、公開結果の検証を容易にすることができる。
本研究では,複製性とアルゴリズム安定性の標準概念との新たな接続と分離を確立する。
特に、完全な一般化、近似微分プライバシー、幅広い統計問題に対する再現性の間のサンプル効率の高いアルゴリズム還元を与える。
逆に、そのような等価性は計算的に分解しなければならない: 差分プライバシー下では容易であるが、公開鍵暗号を破ることなく複製的に解決できない統計問題が存在する。
さらに、これらの結果は、統計的に最適であり、DPと複製性の間の計算的分離が一方向関数の存在を示唆していることを示す。
我々の統計的削減は、安定性の概念を翻訳するための新しいアルゴリズムの枠組みを与え、複製性とプライバシに関するいくつかのオープンな疑問に即座に答えられるようにします。
これには、様々なpac学習、分布推定、分布テスト問題のためのサンプル効率の高いレプリカブルアルゴリズム、近似dpにおける$\delta$のアルゴリズム増幅、アイテムレベルからユーザレベルのプライバシへの変換、構造化分布下での非依存から実現可能な学習削減の存在が含まれる。 The notion of replicable algorithms was introduced in Impagliazzo et al. [STOC '22] to describe randomized algorithms that are stable under the resampling of their inputs. More precisely, a replicable algorithm gives the same output with high probability when its randomness is fixed and it is run on a new i.i.d. sample drawn from the same distribution. Using replicable algorithms for data analysis can facilitate the verification of published results by ensuring that the results of an analysis will be the same with high probability, even when that analysis is performed on a new data set. In this work, we establish new connections and separations between replicability and standard notions of algorithmic stability. In particular, we give sample-efficient algorithmic reductions between perfect generalization, approximate differential privacy, and replicability for a broad class of statistical problems. Conversely, we show any such equivalence must break down computationally: there exist statistical problems that are easy under differential privacy, but that cannot be solved replicably without breaking public-key cryptography. Furthermore, these results are tight: our reductions are statistically optimal, and we show that any computational separation between DP and replicability must imply the existence of one-way functions. Our statistical reductions give a new algorithmic framework for translating between notions of stability, which we instantiate to answer several open questions in replicability and privacy. This includes giving sample-efficient replicable algorithms for various PAC learning, distribution estimation, and distribution testing problems, algorithmic amplification of $\delta$ in approximate DP, conversions from item-level to user-level privacy, and the existence of private agnostic-to-realizable learning reductions under structured distributions. | 翻訳日:2023-03-24 16:17:29 公開日:2023-03-22 |
# 臨床基礎モデルの揺るぎない基礎:EMRのための大規模言語モデルと基礎モデルに関する調査 The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs ( http://arxiv.org/abs/2303.12961v1 ) ライセンス: Link先を確認 | Michael Wornow, Yizhe Xu, Rahul Thapa, Birju Patel, Ethan Steinberg, Scott Fleming, Michael A. Pfeffer, Jason Fries, Nigam H. Shah | (参考訳) chatgptやalphafoldのような基礎モデルの成功は、患者ケアや病院の運営を改善するために、電子医療記録(emr)の類似モデルを構築することに大きな関心を寄せている。
しかし、最近の誇大広告は、これらのモデルの能力に対する理解において重大なギャップを曖昧にした。
我々は,非イメージングEMMデータ(臨床テキストおよび/または構造化データ)に基づいて訓練された80以上の基礎モデルをレビューし,そのアーキテクチャ,トレーニングデータ,潜在的なユースケースを記述した分類学を作成する。
殆どのモデルは、小さな、狭くスコープされた臨床データセット(MIMIC-IIIなど)や、広く公共のバイオメディカルコーパス(PubMedなど)で訓練されており、健康システムに対する有用性について有意義な洞察を与えていないタスクで評価されている。
これらの知見を踏まえて,医療において重要な指標により深く根ざした臨床基礎モデルの利点を評価するための,改善された評価枠組みを提案する。 The successes of foundation models such as ChatGPT and AlphaFold have spurred significant interest in building similar models for electronic medical records (EMRs) to improve patient care and hospital operations. However, recent hype has obscured critical gaps in our understanding of these models' capabilities. We review over 80 foundation models trained on non-imaging EMR data (i.e. clinical text and/or structured data) and create a taxonomy delineating their architectures, training data, and potential use cases. We find that most models are trained on small, narrowly-scoped clinical datasets (e.g. MIMIC-III) or broad, public biomedical corpora (e.g. PubMed) and are evaluated on tasks that do not provide meaningful insights on their usefulness to health systems. In light of these findings, we propose an improved evaluation framework for measuring the benefits of clinical foundation models that is more closely grounded to metrics that matter in healthcare. | 翻訳日:2023-03-24 16:09:10 公開日:2023-03-22 |
# 分節情報ボトルネックを有する異型オートエンコーダ Variantional autoencoder with decremental information bottleneck for disentanglement ( http://arxiv.org/abs/2303.12959v1 ) ライセンス: Link先を確認 | Jiantao Wu, Shentong Mo, Muhammad Awais, Sara Atito, Xingshen Zhang, Lin Wang, Xiang Yang | (参考訳) 変分オートエンコーダとの絡み合い学習の大きな課題は、絡み合いと再構成の忠実さのトレードオフである。
この2つの目標を同時に最適化することはできないため、インフォメーション・ボトルネックをトレーニング中に拡張し、アンタングルメントから再構成までを最適化する。
しかし、大きなボトルネックは絡み合いの制約を失い、情報拡散問題を引き起こす。
この問題に対処するため,多層空間の情報ボトルネックを徐々に低減し,多層空間における複数の目的を最適化するデバエ (DeVAE) と呼ばれる新しいデクリメンタル変分オートエンコーダを提案する。
DeVAEは複数の潜在空間に適合し、情報の拡散を回避しつつ、複数の目的を同時に最適化して再構成を最適化する。
DeVAEは高次元の潜在空間を持つ大型モデルとも互換性がある。
DeVAEによるdSpritesとShapes3Dの実験結果から,Def{R2q6}{aは絡み合いと復元のバランスが良好であることがわかった。 One major challenge of disentanglement learning with variational autoencoders is the trade-off between disentanglement and reconstruction fidelity. Previous incremental methods with only on latent space cannot optimize these two targets simultaneously, so they expand the Information Bottleneck while training to {optimize from disentanglement to reconstruction. However, a large bottleneck will lose the constraint of disentanglement, causing the information diffusion problem. To tackle this issue, we present a novel decremental variational autoencoder with disentanglement-invariant transformations to optimize multiple objectives in different layers, termed DeVAE, for balancing disentanglement and reconstruction fidelity by decreasing the information bottleneck of diverse latent spaces gradually. Benefiting from the multiple latent spaces, DeVAE allows simultaneous optimization of multiple objectives to optimize reconstruction while keeping the constraint of disentanglement, avoiding information diffusion. DeVAE is also compatible with large models with high-dimension latent space. Experimental results on dSprites and Shapes3D that DeVAE achieves \fix{R2q6}{a good balance between disentanglement and reconstruction.DeVAE shows high tolerant of hyperparameters and on high-dimensional latent spaces. | 翻訳日:2023-03-24 16:08:52 公開日:2023-03-22 |
# 外因性国家とリワードによる強化学習 Reinforcement Learning with Exogenous States and Rewards ( http://arxiv.org/abs/2303.12957v1 ) ライセンス: Link先を確認 | George Trimponias and Thomas G. Dietterich | (参考訳) 外因的状態変数と報酬は、報酬信号に制御不能な変動を注入することで強化学習を遅くすることができる。
本稿では, 報酬関数が内因性および外因性成分に付加的に分解される場合, mdpは外因性マルコフ報酬過程(外因性報酬に基づく)と内因性マルコフ決定過程(内因性報酬を最適化する)に分解できることを示す。
内因性MDPの最適政策は、元のMDPの最適政策でもあるが、内因性報酬は通常、ばらつきを減少させるため、内因性MDPの解決が容易である。
状態空間を外因性および内因性状態空間に分解することは与えられず、発見しなければならない状況について検討する。
線形結合によって混合された状態空間の外因性部分空間や内因性部分空間を発見するアルゴリズムを導入し,その正当性を証明する。
これらのアルゴリズムは、強化学習中に外因性空間を発見し、外因性報酬を取り除き、内因性MDPに強化学習を集中させる。
様々な難解な合成MDPの実験により、これらの手法がオンラインに適用され、大規模な外因性状態空間を発見し、強化学習においてかなりのスピードアップをもたらすことが示された。 Exogenous state variables and rewards can slow reinforcement learning by injecting uncontrolled variation into the reward signal. This paper formalizes exogenous state variables and rewards and shows that if the reward function decomposes additively into endogenous and exogenous components, the MDP can be decomposed into an exogenous Markov Reward Process (based on the exogenous reward) and an endogenous Markov Decision Process (optimizing the endogenous reward). Any optimal policy for the endogenous MDP is also an optimal policy for the original MDP, but because the endogenous reward typically has reduced variance, the endogenous MDP is easier to solve. We study settings where the decomposition of the state space into exogenous and endogenous state spaces is not given but must be discovered. The paper introduces and proves correctness of algorithms for discovering the exogenous and endogenous subspaces of the state space when they are mixed through linear combination. These algorithms can be applied during reinforcement learning to discover the exogenous space, remove the exogenous reward, and focus reinforcement learning on the endogenous MDP. Experiments on a variety of challenging synthetic MDPs show that these methods, applied online, discover large exogenous state spaces and produce substantial speedups in reinforcement learning. | 翻訳日:2023-03-24 16:08:29 公開日:2023-03-22 |
# 臨床ノートから身体リハビリテーション運動情報を抽出する:ルールベースと機械学習自然言語処理技術の比較 Extracting Physical Rehabilitation Exercise Information from Clinical Notes: a Comparison of Rule-Based and Machine Learning Natural Language Processing Techniques ( http://arxiv.org/abs/2303.13466v1 ) ライセンス: Link先を確認 | Stephen W. Shaffran, Fengyi Gao, Parker E. Denny, Bayan M. Aldhahwani, Allyn Bove, Shyam Visweswaran, Yanshan Wang | (参考訳) 身体リハビリテーションは術後患者の回復過程において重要な役割を担っている。
予測モデリングと電子健康記録(EHR)を活用する患者に対する療法をパーソナライズすることで、医療提供者はリハビリテーションプロセスをより効率的にすることができる。
予測モデリングが治療計画の割り当てに決定的支援を与える前に、非構造的EHRから身体的リハビリテーション運動情報を抽出する自動化手法が必要である。
脳卒中患者の治療手順をアノテートし、いくつかの小型機械学習モデルと比較するためのルールベースの自然言語処理アルゴリズムを提案する。
我々のアルゴリズムは、十分なデータが利用可能な概念の半数を抽出することでこれらのモデルよりも優れており、個々のエクササイズ記述は、概念毎に0.75以下のfスコアでバイナリラベルを割り当てることができる。
これらのアルゴリズムがラベルのない文書にデプロイされる前にさらなる研究を行う必要があるが、現在の進歩は精度回復研究の可能性を約束している。 Physical rehabilitation plays a crucial role in the recovery process of post-stroke patients. By personalizing therapies for patients leveraging predictive modeling and electronic health records (EHRs), healthcare providers can make the rehabilitation process more efficient. Before predictive modeling can provide decision support for the assignment of treatment plans, automated methods are necessary to extract physical rehabilitation exercise information from unstructured EHRs. We introduce a rule-based natural language processing algorithm to annotate therapeutic procedures for stroke patients and compare it to several small machine learning models. We find that our algorithm outperforms these models in extracting half of the concepts where sufficient data is available, and individual exercise descriptions can be assigned binary labels with an f-score of no less than 0.75 per concept. More research needs to be done before these algorithms can be deployed on unlabeled documents, but current progress gives promise to the potential of precision rehabilitation research. | 翻訳日:2023-03-24 13:13:06 公開日:2023-03-22 |
# 対話生成のための階層的行動探索型深層rl Deep RL with Hierarchical Action Exploration for Dialogue Generation ( http://arxiv.org/abs/2303.13465v1 ) ライセンス: Link先を確認 | Itsugun Cho, Ryota Takahashi, Yusaku Yanase, Hiroaki Saito | (参考訳) 従来、自然言語アクション空間は天文学的であるため、対話生成に適用される近似動的プログラミングは、アクションサンプリングによる政策改善を伴う。
しかし, 適応性(高い動作値)の応答が非常に疎外であり, ランダムサンプリングによって維持される欲求政策が曖昧であるため, 強化学習(RL)では非効率である。
本稿では,対話政策の性能とサンプリングサイズとの関係を理論的および実験的に検討した。
サンプリングに介入する最も有望な応答カテゴリを探索することにより、この制限を緩和する新しい双粒度q関数を導入する。
きめ細かい階層に従ってアクションを抽出し、ポリシーの繰り返しを少なくすることで最適な処理を実現できる。
人間の感情的詳細を認識するために設計された複数の報酬関数からオフラインのRLを学習する。
実験により,本アルゴリズムがベースライン法を上回ることを示した。
さらなる検証により、より期待された報酬と制御可能性で反応を生成できることが示される。 Conventionally, since the natural language action space is astronomical, approximate dynamic programming applied to dialogue generation involves policy improvement with action sampling. However, such a practice is inefficient for reinforcement learning (RL) because the eligible (high action value) responses are very sparse, and the greedy policy sustained by the random sampling is flabby. This paper shows that the performance of dialogue policy positively correlated with sampling size by theoretical and experimental. We introduce a novel dual-granularity Q-function to alleviate this limitation by exploring the most promising response category to intervene in the sampling. It extracts the actions following the grained hierarchy, which can achieve the optimum with fewer policy iterations. Our approach learns in the way of offline RL from multiple reward functions designed to recognize human emotional details. Empirical studies demonstrate that our algorithm outperforms the baseline methods. Further verification presents that ours can generate responses with higher expected rewards and controllability. | 翻訳日:2023-03-24 13:12:47 公開日:2023-03-22 |
# W2KPE:単語関係を用いたキーワード抽出 W2KPE: Keyphrase Extraction with Word-Word Relation ( http://arxiv.org/abs/2303.13463v1 ) ライセンス: Link先を確認 | Wen Cheng, Shichen Dong, Wei Wang | (参考訳) 本稿では,ICASSP 2023 MUG Challenge Track 4, Keyphrase extractについて述べる。
データ前処理では、単語セグメンテーション後の分割キーフレーズをエンコードします。
さらに,複数の前処理文を1セグメントに融合させることで,モデルが一度に受信できる入力情報量を増加させる。
我々は、キーフレーズのスパース性に対処するため、損失関数をマルチクラス焦点損失に置き換える。
さらに,キーフレーズの出現度ごとにスコアを付け,キーフレーズのランク付けに適合する追加出力層を追加する。
単語セグメンテーションツール,事前学習した埋め込みモデル,および対応するハイパーパラメータの最適な組み合わせを見つけるために,抽出評価を行う。
これらの提案により、最終テストセットで45.04点を記録した。 This paper describes our submission to ICASSP 2023 MUG Challenge Track 4, Keyphrase Extraction, which aims to extract keyphrases most relevant to the conference theme from conference materials. We model the challenge as a single-class Named Entity Recognition task and developed techniques for better performance on the challenge: For the data preprocessing, we encode the split keyphrases after word segmentation. In addition, we increase the amount of input information that the model can accept at one time by fusing multiple preprocessed sentences into one segment. We replace the loss function with the multi-class focal loss to address the sparseness of keyphrases. Besides, we score each appearance of keyphrases and add an extra output layer to fit the score to rank keyphrases. Exhaustive evaluations are performed to find the best combination of the word segmentation tool, the pre-trained embedding model, and the corresponding hyperparameters. With these proposals, we scored 45.04 on the final test set. | 翻訳日:2023-03-24 13:12:33 公開日:2023-03-22 |
# 量子状態における音響周波数原子スピン振動子 Acoustic frequency atomic spin oscillator in the quantum regime ( http://arxiv.org/abs/2303.11029v2 ) ライセンス: Link先を確認 | Jun Jia, Valeriy Novikov, Tulio Brito Brasil, Emil Zeuthen, J\"org Helge M\"uller and Eugene S. Polzik | (参考訳) 音響周波数領域におけるマクロ原子スピン振動子の量子挙動を実験的に実証する。
スピン測定の量子バックアクション、光の入射的スクイーズ、発振器スプリング軟化は、スピン発振周波数が6kHz以下で観測される。
近DC周波数帯で動作するスピン発振器の特徴となる量子ノイズ源を特定し、その緩和手段を示す。
これらの結果は、負質量参照フレームを用いた音域の量子ノイズ低減とエンタングルメントエンハンスセンシングへの重要なステップである。
特に、この結果は重力波検出器の広帯域ノイズ低減に関係している。 We experimentally demonstrate quantum behavior of a macroscopic atomic spin oscillator in the acoustic frequency range. Quantum back-action of the spin measurement, ponderomotive squeezing of light, and oscillator spring softening are observed at spin oscillation frequencies down to 6 kHz. Quantum noise sources characteristic of spin oscillators operating in the near-DC frequency range are identified and means for their mitigation are presented. These results constitute an important step towards quantum noise reduction and entanglement-enhanced sensing in the acoustic range using a negative-mass reference frame. In particular, the results are relevant for broadband noise reduction in gravitational wave detectors. | 翻訳日:2023-03-24 10:50:56 公開日:2023-03-22 |
# cTBL:対話型テーブルのための大規模言語モデルの拡張 cTBL: Augmenting Large Language Models for Conversational Tables ( http://arxiv.org/abs/2303.12024v2 ) ライセンス: Link先を確認 | Anirudh S Sundar, Larry Heck | (参考訳) マルチモーダル会話型aiにおけるオープンチャレンジは、マルチターン対話のためのテキストおよび非テキストソースからの情報を含む大きな言語モデルの拡張を必要とする。
そこで本稿では,3段階エンコーダ・デコーダアプローチである会話表(ctbl)を用いて,検索された情報に基づく対話応答を生成する。
cTBLは、Dense Table Retrieval用のTransformerエンコーダ埋め込みを使用し、HirbiDialogueデータセット上のスパース検索よりもTop-1とTop-3の精度を最大5%向上させる。
さらに、cTBLはエンコーダモデルとデコーダモデルの両方を用いて表層知識検索を行い、ROUGEスコアが46%向上し、HyrbiDialogue上での応答生成に対する人的評価が向上した。 An open challenge in multimodal conversational AI requires augmenting large language models with information from textual and non-textual sources for multi-turn dialogue. To address this problem, this paper introduces Conversational Tables (cTBL), a three-step encoder-decoder approach to retrieve tabular information and generate dialogue responses grounded on the retrieved information. cTBL uses Transformer encoder embeddings for Dense Table Retrieval and obtains up to 5% relative improvement in Top-1 and Top-3 accuracy over sparse retrieval on the HyrbiDialogue dataset. Additionally, cTBL performs tabular knowledge retrieval using both encoder and decoder models, resulting in up to 46% relative improvement in ROUGE scores and better human evaluation for response generation on HyrbiDialogue. | 翻訳日:2023-03-24 10:38:21 公開日:2023-03-22 |
# 最大マージン線形分類器の一般化誤差:過パラメトリケート状態における良性オーバーフィットと高次元漸近 The generalization error of max-margin linear classifiers: Benign overfitting and high dimensional asymptotics in the overparametrized regime ( http://arxiv.org/abs/1911.01544v3 ) ライセンス: Link先を確認 | Andrea Montanari, Feng Ruan, Youngtak Sohn, Jun Yan | (参考訳) 現代の機械学習分類器は、しばしばトレーニングセット上で消滅する分類エラーを示す。
彼らはデータを線形分離可能なクラスにマッピングする入力の非線形表現を学習することでこれを実現できる。
これらの現象に動機づけられ,線形分離データに対する高次元最大マージン分類を再考する。
我々は、データ $(y_i,{\boldsymbol x}_i)$, $i\le n$ が i.i.d. with ${\boldsymbol x}_i\sim\mathsf{n}({\boldsymbol 0},{\boldsymbol \sigma})$ a $p$-dimensional gaussian feature vector, $y_i \in\{+1,-1\}$ である定式化集合を考える。
ガウス模型は極端に単純に見えるかもしれないが、普遍性論証は、この設定から導かれた結果がある種の非線形分解写像の出力にも適用可能であることを示すために用いられる。
比例漸近の $n,p\to\infty$ を $p/n\to \psi$ とみなし、極限一般化誤差の正確な式を導出する。
この理論は、独立利害の2つの結果を引き出すのに使われます。
(i)$ ({\boldsymbol \sigma},{\boldsymbol \theta}_*)$ for 'benign overfitting' の条件は、線形回帰の場合、既に導出されていた条件である。
(ii)$ ランダムな一層ニューラルネットワークによって生成される特徴ベクトルとマックスマージン分類を用いる場合の一般化誤差の漸近的厳密な表現。 Modern machine learning classifiers often exhibit vanishing classification error on the training set. They achieve this by learning nonlinear representations of the inputs that maps the data into linearly separable classes. Motivated by these phenomena, we revisit high-dimensional maximum margin classification for linearly separable data. We consider a stylized setting in which data $(y_i,{\boldsymbol x}_i)$, $i\le n$ are i.i.d. with ${\boldsymbol x}_i\sim\mathsf{N}({\boldsymbol 0},{\boldsymbol \Sigma})$ a $p$-dimensional Gaussian feature vector, and $y_i \in\{+1,-1\}$ a label whose distribution depends on a linear combination of the covariates $\langle {\boldsymbol \theta}_*,{\boldsymbol x}_i \rangle$. While the Gaussian model might appear extremely simplistic, universality arguments can be used to show that the results derived in this setting also apply to the output of certain nonlinear featurization maps. We consider the proportional asymptotics $n,p\to\infty$ with $p/n\to \psi$, and derive exact expressions for the limiting generalization error. We use this theory to derive two results of independent interest: $(i)$ Sufficient conditions on $({\boldsymbol \Sigma},{\boldsymbol \theta}_*)$ for `benign overfitting' that parallel previously derived conditions in the case of linear regression; $(ii)$ An asymptotically exact expression for the generalization error when max-margin classification is used in conjunction with feature vectors produced by random one-layer neural networks. | 翻訳日:2023-03-24 08:50:00 公開日:2023-03-22 |
# 対称化によるAND-OR木の下界 Lower Bounding the AND-OR Tree via Symmetrization ( http://arxiv.org/abs/1907.06731v5 ) ライセンス: Link先を確認 | William Kretschmer | (参考訳) シンメトリゼーションの引数を用いて、2レベル $\mathsf{AND}$-$\mathsf{OR}$ツリーの近似次数に対して、単純で、ほぼ厳密な下界を証明する。
具体的には、$\widetilde{\mathrm{deg}}(\mathsf{AND}_m \circ \mathsf{OR}_n) = \widetilde{\Omega}(\sqrt{mn})$を示す。
線形プログラムとして近似次数の定式化を含む他の証明(BT13, She13, BDBGK18]と対照的に、一連の対称性化ステップによる$\mathsf{OR}$関数への還元によるこの下界の証明を行う。
我々の証明はまた、Aaronson, Kothari, Kretschmer, Thaler [AKKT19] によって導入されたローラン多項式(負の指数を持つポリノミアル)を含む対称性化技術の力を示す。 We prove a simple, nearly tight lower bound on the approximate degree of the two-level $\mathsf{AND}$-$\mathsf{OR}$ tree using symmetrization arguments. Specifically, we show that $\widetilde{\mathrm{deg}}(\mathsf{AND}_m \circ \mathsf{OR}_n) = \widetilde{\Omega}(\sqrt{mn})$. We prove this lower bound via reduction to the $\mathsf{OR}$ function through a series of symmetrization steps, in contrast to most other proofs that involve formulating approximate degree as a linear program [BT13, She13, BDBGK18]. Our proof also demonstrates the power of a symmetrization technique involving Laurent polynomials (polynomials with negative exponents) that was previously introduced by Aaronson, Kothari, Kretschmer, and Thaler [AKKT19]. | 翻訳日:2023-03-24 08:49:18 公開日:2023-03-22 |
# ベイズ確率ブロックモデリング Bayesian stochastic blockmodeling ( http://arxiv.org/abs/1705.10225v9 ) ライセンス: Link先を確認 | Tiago P. Peixoto | (参考訳) 本章は、確率ブロックモデル(sbm)に基づくネットワークデータから大規模モジュラー構造を抽出するためにベイズ推論を用いた自己完結的導入と、その次数補正と重複一般化を提供する。
我々は、過剰適合を防止し、モデル選択を可能にする方法で推論を可能にする非パラメトリックな定式化にフォーカスする。
本稿では,事前選択の側面,特にベイズ階層の増大による不適合を回避する方法について論じるとともに,ネットワーク分割を後方分布からサンプリングする作業と,それを最大化する単一点推定を求める作業とを対比し,一方を効率的に行うアルゴリズムについて述べる。
また,sbmを推定することでリンクの欠落やスプリアスを予測できることを示し,ネットワークにおけるモジュール構造の検出可能性の基本的な限界を明らかにした。 This chapter provides a self-contained introduction to the use of Bayesian inference to extract large-scale modular structures from network data, based on the stochastic blockmodel (SBM), as well as its degree-corrected and overlapping generalizations. We focus on nonparametric formulations that allow their inference in a manner that prevents overfitting, and enables model selection. We discuss aspects of the choice of priors, in particular how to avoid underfitting via increased Bayesian hierarchies, and we contrast the task of sampling network partitions from the posterior distribution with finding the single point estimate that maximizes it, while describing efficient algorithms to perform either one. We also show how inferring the SBM can be used to predict missing and spurious links, and shed light on the fundamental limitations of the detectability of modular structures in networks. | 翻訳日:2023-03-24 08:48:58 公開日:2023-03-22 |
# 境界散逸を持つ開XXスピン鎖に対するリンドブレディアン力学の厳密解 Exact solution for the Lindbladian dynamics for the open XX spin chain with boundary dissipation ( http://arxiv.org/abs/2104.11479v2 ) ライセンス: Link先を確認 | Kohei Yamanaka, Tomohiro Sasamoto | (参考訳) 我々は、リンドブラジアンダイナミクスを持つオープンxxスピンチェーンのいくつかの物理観測可能な時間依存性の正確な公式を得る。
我々の分析は、3次量子化のスキームに従うことによって、構造行列と呼ばれる4N\times4N$行列の対角化の観点で、任意の開二次系に対するリンドブラッド方程式が明示的に解かれるという事実に基づいている。
主に磁化とスピン電流の時間依存性に焦点を当てる。
与えられた場所での短時間の挙動として,鎖の中心付近を除く台地構造を観察する。
これらの基本的特徴は、初期から境界効果の伝播によって生成された光円錐構造によって説明されるが、より詳細な性質を我々の正確な公式を用いて解析的に説明することができる。
一方、高原崩壊後の磁化とスピン電流は、リウヴィリアンギャップによって記述された定常状態値に対して緩やかに減衰する。
o(n^{-3})$のスケーリングを解析的に確立し、その係数も決定する。 We obtain exact formulas for the time-dependence of a few physical observables for the open XX spin chain with Lindbladian dynamics. Our analysis is based on the fact that the Lindblad equation for an arbitrary open quadratic system of $N$ fermions is explicitly solved in terms of diagonalization of a $4N\times4N$ matrix called structure matrix by following the scheme of the third quantization. We mainly focus on the time-dependence of magnetization and spin current. As a short-time behavior at a given site, we observe the plateau regime except near the center of the chain. Basic features of this are explained by the light-cone structure created by propagations of boundary effects from the initial time, but we can explain their more detailed properties analytically using our exact formulas. On the other hand, after the plateau regime, the magnetization and spin current exhibit a slow decay to the steady state values described by the Liouvillian gap. We analytically establish its $O(N^{-3})$ scaling and also determine its coefficient. | 翻訳日:2023-03-24 08:41:39 公開日:2023-03-22 |
# DA-DETR:情報融合型ドメイン適応検出変換器 DA-DETR: Domain Adaptive Detection Transformer with Information Fusion ( http://arxiv.org/abs/2103.17084v2 ) ライセンス: Link先を確認 | Jingyi Zhang, Jiaxing Huang, Zhipeng Luo, Gongjie Zhang, Xiaoqin Zhang, Shijian Lu | (参考訳) 最近の検出変換器(DETR)は、従来の2段階の物体検出器で用いられる手作りの設計やハイパーパラメータを除去することで、物体検出パイプラインを単純化する。
しかし、ドメイン適応型オブジェクト検出において、単純だが効果的なDETRアーキテクチャを利用する方法はほとんど無視されている。
DA-DETRは,ラベル付きソースドメインからラベル付きターゲットドメインへの効果的な転送のための情報融合を実現するドメイン適応型オブジェクト検出変換器である。
DA-DETRはCNN機能とトランスフォーマー機能を融合させる新しいCNN-Transformer Blender (CTBlender)を導入した。
具体的には、CTBlenderはTransformer機能を使用して、高レベルのセマンティック情報と低レベルの空間情報が融合された複数のスケールでCNN機能を変調し、正確なオブジェクト識別とローカライゼーションを行う。
大規模な実験により、DA-DETRは複数の広く採用されているドメイン適応ベンチマークにおいて、常に優れた検出性能を達成できることが示された。 The recent detection transformer (DETR) simplifies the object detection pipeline by removing hand-crafted designs and hyperparameters as employed in conventional two-stage object detectors. However, how to leverage the simple yet effective DETR architecture in domain adaptive object detection is largely neglected. Inspired by the unique DETR attention mechanisms, we design DA-DETR, a domain adaptive object detection transformer that introduces information fusion for effective transfer from a labeled source domain to an unlabeled target domain. DA-DETR introduces a novel CNN-Transformer Blender (CTBlender) that fuses the CNN features and Transformer features ingeniously for effective feature alignment and knowledge transfer across domains. Specifically, CTBlender employs the Transformer features to modulate the CNN features across multiple scales where the high-level semantic information and the low-level spatial information are fused for accurate object identification and localization. Extensive experiments show that DA-DETR achieves superior detection performance consistently across multiple widely adopted domain adaptation benchmarks. | 翻訳日:2023-03-24 08:41:24 公開日:2023-03-22 |
# RoBIC: 分類器の堅牢性を評価するベンチマークスイート RoBIC: A benchmark suite for assessing classifiers robustness ( http://arxiv.org/abs/2102.05368v2 ) ライセンス: Link先を確認 | Thibault Maho, Beno\^it Bonnet, Teddy Furon, Erwan Le Merrer | (参考訳) 敵の攻撃の進展により多くの防衛が出現した。
モデルは客観的に評価されなければならない。
本稿では,RoBICを用いた新しいパラメータフリーベンチマークを提案することにより,この問題を体系的に解決する。
RoBICは新しい半歪み尺度を用いて画像分類器の堅牢性を評価する。
白黒ボックス攻撃に対するネットワークの堅牢さを、その正確性とは独立に測定する。
RoBICは他のベンチマークよりも高速である。
本稿では,RoBICによる最近の16モデルのロバスト性に大きな違いを示す。 Many defenses have emerged with the development of adversarial attacks. Models must be objectively evaluated accordingly. This paper systematically tackles this concern by proposing a new parameter-free benchmark we coin RoBIC. RoBIC fairly evaluates the robustness of image classifiers using a new half-distortion measure. It gauges the robustness of the network against white and black box attacks, independently of its accuracy. RoBIC is faster than the other available benchmarks. We present the significant differences in the robustness of 16 recent models as assessed by RoBIC. | 翻訳日:2023-03-24 08:40:44 公開日:2023-03-22 |
# 誤り証明書を用いたゼロ階リプシッツ最適化のためのインスタンス依存境界 Instance-Dependent Bounds for Zeroth-order Lipschitz Optimization with Error Certificates ( http://arxiv.org/abs/2102.01977v5 ) ライセンス: Link先を確認 | Fran\c{c}ois Bachoc (IMT, GdR MASCOT-NUM), Tommaso R Cesari (TSE-R), S\'ebastien Gerchinovitz (IMT) | (参考訳) コンパクト部分集合 $\mathcal X$ of $\mathbb R^d$ 上で定義されるリプシッツ関数 $f$ のゼロ階最適化(ブラックボックス)の問題を、アルゴリズムが推奨の精度を証明しなければならないという追加の制約で検討する。
我々は、任意のリプシッツ関数の最適評価回数を、精度$\varepsilon$で、近似最大値が$f$であることを示す。
$\mathcal X$ 上の弱い仮定の下で、この最適なサンプル複雑性は積分 $\int_{\mathcal X} \mathrm{d}\boldsymbol x/(\max(f) - f(\boldsymbol x) + \varepsilon )^d$ にほぼ比例する。
この結果は、次元 $d=1$ でしか知られていなかったが、1991年にまでさかのぼる未解決問題を解く。
手法の面では、我々の上界は、上記の積分にリンクする piyavskii-shubert アルゴリズムの bouttier al. (2020) で束縛されたパッキングに依存している。
また,計算抽出可能なDOOアルゴリズムの認定バージョンが,これらのパッキングと積分境界に一致することを示す。
インスタンス依存の下限は、リプシッツ設定の従来の最悪ケース下限と異なり、ローカルな最悪のケース分析に依存しており、他の学習タスクに有用である可能性が高い。 We study the problem of zeroth-order (black-box) optimization of a Lipschitz function $f$ defined on a compact subset $\mathcal X$ of $\mathbb R^d$, with the additional constraint that algorithms must certify the accuracy of their recommendations. We characterize the optimal number of evaluations of any Lipschitz function $f$ to find and certify an approximate maximizer of $f$ at accuracy $\varepsilon$. Under a weak assumption on $\mathcal X$, this optimal sample complexity is shown to be nearly proportional to the integral $\int_{\mathcal X} \mathrm{d}\boldsymbol x/( \max(f) - f(\boldsymbol x) + \varepsilon )^d$. This result, which was only (and partially) known in dimension $d=1$, solves an open problem dating back to 1991. In terms of techniques, our upper bound relies on a packing bound by Bouttier al. (2020) for the Piyavskii-Shubert algorithm that we link to the above integral. We also show that a certified version of the computationally tractable DOO algorithm matches these packing and integral bounds. Our instance-dependent lower bound differs from traditional worst-case lower bounds in the Lipschitz setting and relies on a local worst-case analysis that could likely prove useful for other learning tasks. | 翻訳日:2023-03-24 08:40:36 公開日:2023-03-22 |
# 補助結果を用いた高次元分類規則のロバストで柔軟な学習 Robust and flexible learning of a high-dimensional classification rule using auxiliary outcomes ( http://arxiv.org/abs/2011.05493v3 ) ライセンス: Link先を確認 | Muxuan Liang, Jaeyoung Park, Qing Lu, Xiang Zhong | (参考訳) 関連する結果は、多くの実践的な問題に共通している。
ある設定では、ある結果が特に興味を持ち、別の結果が補助的になる。
全ての結果から共有される情報を活用するために、従来のマルチタスク学習(MTL)は、全ての結果に対して平均損失関数を最小化し、特にMTLモデルが不特定である場合、対象結果に対するバイアス推定につながる可能性がある。
本研究では,inside-subspace と against-subspace の2つのタイプに推定バイアスを分解し,補助的な結果が存在する場合の利子結果に対する高次元線形決定規則を推定するためのロバストな伝達学習手法を開発した。
提案手法は、すべての結果を用いて効率を上げるためのMTLステップと、興味のある結果のみを用いて両方のバイアスを補正するキャリブレーションステップとを含む。
最終推定器は,1つの利害関係のみを用いた推定よりも低い推定誤差が得られることを示す。
提案手法の優位性を正当化するためにシミュレーションと実データ解析を行う。 Correlated outcomes are common in many practical problems. In some settings, one outcome is of particular interest, and others are auxiliary. To leverage information shared by all the outcomes, traditional multi-task learning (MTL) minimizes an averaged loss function over all the outcomes, which may lead to biased estimation for the target outcome, especially when the MTL model is mis-specified. In this work, based on a decomposition of estimation bias into two types, within-subspace and against-subspace, we develop a robust transfer learning approach to estimating a high-dimensional linear decision rule for the outcome of interest with the presence of auxiliary outcomes. The proposed method includes an MTL step using all outcomes to gain efficiency, and a subsequent calibration step using only the outcome of interest to correct both types of biases. We show that the final estimator can achieve a lower estimation error than the one using only the single outcome of interest. Simulations and real data analysis are conducted to justify the superiority of the proposed method. | 翻訳日:2023-03-24 08:39:19 公開日:2023-03-22 |
# 経路積分のテンソルネットワーク表現:実装と解析 A tensor network representation of path integrals: Implementation and analysis ( http://arxiv.org/abs/2106.12523v6 ) ライセンス: Link先を確認 | Amartya Bose and Peter L. Walters | (参考訳) 有限相関を持つテンソルは、非常にコンパクトなテンソルネットワーク表現を与える。
Feynman-Vernon 影響関数を含む実時間経路積分シミュレーションのテンソルネットワークに基づく新しい分解法を提案する。
このテンソルネットワークパス積分(TNPI)技術では、影響関数によって導入された有限な非局所的相互作用を、パス振幅(PA)テンソルの行列積状態表現を用いて、非常に効率的に捉えることができる。
このtnpi法を,電荷移動反応や二量体中の励起子移動など,様々な実例を通じて示す。
また,fmoの7サイトモデルと分子線モデルをシミュレートすることにより,2状態以上の系に対して容易に適用できることを示す。
拡張プロパゲータ (AP) TNPI は問題の対称性を利用して収束を加速し、計算労力を劇的に削減する。
また,非局所メモリ長を超える伝搬を高速化する近似手法を提案する。
さらに、PAテンソルのテンソルネットワーク表現によって課される構造は、拡張システムのシミュレーションをより効率的にする他の因子化を自然に示唆する。
これらの要因は将来の探検の対象となる。
AP-TNPIフレームワークの柔軟性により、非平衡量子力学のための経路積分法ファミリーに新たな期待が持てる。 Tensors with finite correlation afford very compact tensor network representations. A novel tensor network-based decomposition of real-time path integral simulations involving Feynman-Vernon influence functional is introduced. In this tensor network path integral (TNPI) technique, the finite temporarily non-local interactions introduced by the influence functional can be captured very efficiently using matrix product state representation for the path amplitude (PA) tensor. We illustrate this particular TNPI method through various realistic examples, including a charge transfer reaction and an exciton transfer in a dimer. We also show how it is readily applied to systems with greater than two states by simulating a 7-site model of FMO and a molecular wire model. The augmented propagator (AP) TNPI utilizes the symmetries of the problem, leading to accelerated convergence and dramatic reductions of computational effort. We also introduce an approximate method that speeds up propagation beyond the non-local memory length. Furthermore, the structure imposed by the tensor network representation of the PA tensor naturally suggests other factorizations that make simulations for extended systems more efficient. These factorizations would be the subject of future explorations. The flexibility of the AP-TNPI framework makes it a promising new addition to the family of path integral methods for non-equilibrium quantum dynamics. | 翻訳日:2023-03-24 08:31:46 公開日:2023-03-22 |
# エッジデバイスを用いたディープニューラルネットワークの能動的学習 Active Learning for Deep Neural Networks on Edge Devices ( http://arxiv.org/abs/2106.10836v2 ) ライセンス: Link先を確認 | Yuya Senzaki, Christian Hamelain | (参考訳) エッジデバイス上のディープニューラルネットワーク(DNN)アプリケーションを扱う場合、モデルを継続的に更新することが重要である。
実際のデータでモデルを更新するのは理想的ですが、ラベリングや通信コストといった制限のため、それらすべてを使用することは必ずしも可能ではありません。
したがって、デバイス上のトレーニング(すなわちアクティブラーニング)に使用するデータをフィルタリングして選択する必要がある。
本稿では,エッジデバイス上でのDNNの実用的なアクティブラーニング問題を定式化し,この問題に対処するための一般的なタスク非依存フレームワークを提案する。
このフレームワークは低計算資源で動かすのに十分軽量であるが、サブモジュラー特性により理論的に保証されるソリューションを提供する。
このフレームワークにより、従来のアクティブラーニング研究で提案された手法を含め、データ選択基準を柔軟に設定できる。
我々は,実生活シナリオをシミュレートする実践的な環境で,分類タスクとオブジェクト検出タスクの両方に対するアプローチを評価する。
本研究の結果から,提案するフレームワークは,実機上で実行しながら,両方のタスクにおいて他の手法よりも優れていた。 When dealing with deep neural network (DNN) applications on edge devices, continuously updating the model is important. Although updating a model with real incoming data is ideal, using all of them is not always feasible due to limits, such as labeling and communication costs. Thus, it is necessary to filter and select the data to use for training (i.e., active learning) on the device. In this paper, we formalize a practical active learning problem for DNNs on edge devices and propose a general task-agnostic framework to tackle this problem, which reduces it to a stream submodular maximization. This framework is light enough to be run with low computational resources, yet provides solutions whose quality is theoretically guaranteed thanks to the submodular property. Through this framework, we can configure data selection criteria flexibly, including using methods proposed in previous active learning studies. We evaluate our approach on both classification and object detection tasks in a practical setting to simulate a real-life scenario. The results of our study show that the proposed framework outperforms all other methods in both tasks, while running at a practical speed on real devices. | 翻訳日:2023-03-24 08:31:26 公開日:2023-03-22 |
# 機械学習型エンタングルメント・ウィットネス Machine-Learning-Derived Entanglement Witnesses ( http://arxiv.org/abs/2107.02301v3 ) ライセンス: Link先を確認 | Alexander C. B. Greenwood, Larry T. H. Wu, Eric Y. Zhu, Brian T. Kirby, and Li Qian | (参考訳) 本研究では,線形支持ベクトルマシン (svms) と絡み合い証人との対応を示し,この対応を用いて2成分および3成分の量子ビット(およびqudit)標的絡み合い状態の絡み合い証人を生成する。
この超平面は、SVMのトレーニング中に係数が最適化される観測可能な("features')の重み付けされた和である。
この方法では, 目標状態が不安定状態であっても, 局所的測定のみを必要とする目撃者を得る能力を示す。
さらに,SVMは特徴のランク付けに十分な柔軟性を持ち,推測誤差を限定しながら機能数を体系的に削減できることを示す。
これにより、今日の文献で支配的な忠実度法よりも少ない測定条件で絡みを検出できるW状態の証人を導出することができる。
このアプローチの実用性は、IBM Quantum Experienceを通じて提供される量子ハードウェア上で実証される。 In this work, we show a correspondence between linear support vector machines (SVMs) and entanglement witnesses, and use this correspondence to generate entanglement witnesses for bipartite and tripartite qubit (and qudit) target entangled states. An SVM allows for the construction of a hyperplane that clearly delineates between separable states and the target entangled state; this hyperplane is a weighted sum of observables ('features') whose coefficients are optimized during the training of the SVM. We demonstrate with this method the ability to obtain witnesses that require only local measurements even when the target state is a non-stabilizer state. Furthermore, we show that SVMs are flexible enough to allow us to rank features, and to reduce the number of features systematically while bounding the inference error. This allows us to derive W state witnesses capable of detecting entanglement with fewer measurement terms than the fidelity method dominant in today's literature. The utility of this approach is demonstrated on quantum hardware furnished through the IBM Quantum Experience. | 翻訳日:2023-03-24 07:44:28 公開日:2023-03-22 |
# 単一ドメインの一般化のための多様性の学習 Learning to Diversify for Single Domain Generalization ( http://arxiv.org/abs/2108.11726v3 ) ライセンス: Link先を確認 | Zijian Wang, Yadan Luo, Ruihong Qiu, Zi Huang, Mahsa Baktashmotlagh | (参考訳) ドメイン一般化(DG)は、複数のソース(トレーニング)ドメインで訓練されたモデルを、分散的に異なるターゲット(テスト)ドメインに一般化することを目的としている。
本稿では、複数のソースドメインの可用性を厳密に要求する従来のDGとは対照的に、より現実的で困難なシナリオである単一ドメイン一般化(Single-DG)について考察する。
このシナリオでは、限られた多様性は、目に見えないターゲット領域上のモデルの一般化を阻害する可能性がある。
この問題に対処するため,本稿では,原点と相補的な多様な分布の画像を合成することにより,モデルの一般化能力を高めるためのスタイル補完モジュールを提案する。
より具体的には、生成したサンプルとソースの相互情報(MI)のトラクタブルな上限を適用して、2段階の最適化を反復的に実施する。(1) サンプルペアごとにMI上限近似を最小化することにより、生成した画像はソースサンプルから多様化せざるを得なくなり、(2) 同一セマンティックカテゴリのサンプル間でMIを最大化し、ネットワークが多様なスタイルの画像から識別的特徴を学習するのに役立つ。
3つのベンチマークデータセットに対する大規模な実験は、最先端のシングルDGメソッドを最大25.14%上回るアプローチの優位性を示している。 Domain generalization (DG) aims to generalize a model trained on multiple source (i.e., training) domains to a distributionally different target (i.e., test) domain. In contrast to the conventional DG that strictly requires the availability of multiple source domains, this paper considers a more realistic yet challenging scenario, namely Single Domain Generalization (Single-DG), where only one source domain is available for training. In this scenario, the limited diversity may jeopardize the model generalization on unseen target domains. To tackle this problem, we propose a style-complement module to enhance the generalization power of the model by synthesizing images from diverse distributions that are complementary to the source ones. More specifically, we adopt a tractable upper bound of mutual information (MI) between the generated and source samples and perform a two-step optimization iteratively: (1) by minimizing the MI upper bound approximation for each sample pair, the generated images are forced to be diversified from the source samples; (2) subsequently, we maximize the MI between the samples from the same semantic category, which assists the network to learn discriminative features from diverse-styled images. Extensive experiments on three benchmark datasets demonstrate the superiority of our approach, which surpasses the state-of-the-art single-DG methods by up to 25.14%. | 翻訳日:2023-03-24 07:35:43 公開日:2023-03-22 |
# Few-Shotオブジェクト検出のための動的関連学習 Dynamic Relevance Learning for Few-Shot Object Detection ( http://arxiv.org/abs/2108.02235v3 ) ライセンス: Link先を確認 | Weijie Liu, Chong Wang, Haohe Li, Shenghao Yu and Jiafei Wu | (参考訳) 高価なバウンディングボックスアノテーションは、オブジェクト検出タスクの開発を制限する。
そのため,被写体検出の難易度が高い課題に注目する必要がある。
検出器は、いくつかのトレーニングサンプルだけで、新しいクラスのオブジェクトを認識する必要がある。
近年,メタ学習に類似したトレーニング手法が採用され,メタR-CNNシリーズなどの有望なパフォーマンスを実現している。
しかし、サポートデータは、毎回クエリ画像の検出を誘導するクラスアテンションとしてのみ使用される。
互いとの関係は未発表のままである。
さらに、最近の多くの研究は、サポートデータとクエリイメージを、それらの関係を考慮せずに独立したブランチとして扱う。
この問題を解決するために,クエリ画像上のすべてのサポート画像と関心領域(RoI)の関係を利用して動的グラフ畳み込みネットワーク(GCN)を構築する動的関連学習モデルを提案する。
このGCNの出力を用いてベース検出器の予測分布を調整することにより、提案モデルは、クラス表現を暗黙的に改善するために検出器を誘導するハード補助的分類タスクとして機能する。
パスカルVOCとMS-COCOデータセットの総合実験を行った。
提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
私たちのコードはhttps://github.com/liuweijie19980216/DRL-for-FSODで公開されています。 Expensive bounding-box annotations have limited the development of object detection task. Thus, it is necessary to focus on more challenging task of few-shot object detection. It requires the detector to recognize objects of novel classes with only a few training samples. Nowadays, many existing popular methods adopting training way similar to meta-learning have achieved promising performance, such as Meta R-CNN series. However, support data is only used as the class attention to guide the detecting of query images each time. Their relevance to each other remains unexploited. Moreover, a lot of recent works treat the support data and query images as independent branch without considering the relationship between them. To address this issue, we propose a dynamic relevance learning model, which utilizes the relationship between all support images and Region of Interest (RoI) on the query images to construct a dynamic graph convolutional network (GCN). By adjusting the prediction distribution of the base detector using the output of this GCN, the proposed model serves as a hard auxiliary classification task, which guides the detector to improve the class representation implicitly. Comprehensive experiments have been conducted on Pascal VOC and MS-COCO dataset. The proposed model achieves the best overall performance, which shows its effectiveness of learning more generalized features. Our code is available at https://github.com/liuweijie19980216/DRL-for-FSOD. | 翻訳日:2023-03-24 07:34:56 公開日:2023-03-22 |
# 旅行セールスパーソン問題に適用されるmlroseの改良 Improvements for mlrose applied to the Traveling Salesperson Problem ( http://arxiv.org/abs/2109.14392v2 ) ライセンス: Link先を確認 | Stefan Wintersteller, Martin Uray, Michael Lehenauer, Stefan Huber | (参考訳) 本稿では,旅行セールスマン問題(TSP)の事例として,ハイベイストレージにおける2次元コミッショニング問題の実例として,人工知能(AI)の適用について論じる。
種々のヒューリスティック最適化手法に基づくTSP最適化を提供するmlroseライブラリについて検討する。
我々は,mlrose が提供する遺伝的アルゴリズム (ga) とヒルクライミング (hc) という2つの手法に注目した。
本稿では,TSPの問題点構造を適度に活用することにより,ツアー長を短縮する両手法の改善を提案する。
つまり、提案された改善は汎用的な特徴を持ち、TSPに限らない。 In this paper we discuss the application of Artificial Intelligence (AI) to the exemplary industrial use case of the two-dimensional commissioning problem in a high-bay storage, which essentially can be phrased as an instance of Traveling Salesperson Problem (TSP). We investigate the mlrose library that provides an TSP optimizer based on various heuristic optimization techniques. Our focus is on two methods, namely Genetic Algorithm (GA) and Hill Climbing (HC), which are provided by mlrose. We present improvements for both methods that yield shorter tour lengths, by moderately exploiting the problem structure of TSP. That is, the proposed improvements have a generic character and are not limited to TSP only. | 翻訳日:2023-03-24 05:49:09 公開日:2023-03-22 |
# 量子インスパイアされた分子ビブロニックスペクトルの古典的アルゴリズム Quantum-inspired classical algorithm for molecular vibronic spectra ( http://arxiv.org/abs/2202.01861v3 ) ライセンス: Link先を確認 | Changhun Oh, Youngrong Lim, Yat Wong, Bill Fefferman, and Liang Jiang | (参考訳) 我々は最近,ランダム回路サンプリングやガウスボソンサンプリングなどのサンプリング問題を用いて,量子優位性に関する最初の確実な主張を行った。
明らかな次のステップは、原理実証実験ではなく、潜在的な量子アドバンテージを実用的な応用につなげることである。
近年、量子シミュレーター、特にガウスボソンサンプリング器が分子の重要な性質である分子のビブロニックスペクトルを効率的に生成し、化学成分の分析や分子構造の研究に重要なツールとして提案されている。
分子振動スペクトルの計算は難しい課題であり、最もよく知られた古典的アルゴリズムはシステムサイズを組合せてスケールする。
したがって、量子デバイスが計算上の利点を提供するタスクの候補である。
本研究では,高調波ポテンシャルに対する分子振動スペクトルに対する量子インスパイアされた古典的アルゴリズムを提案する。
まず, ホック状態ボゾンサンプリングに対応する分子振動スペクトル問題を, ボソンサンプリング器の動作と同じくらい精度良く古典的アルゴリズムを用いて効率的に解くことができることを示す。
特に、Gurvitsのアルゴリズムを一般化し、フォック状態ボソンサンプリングのスペクトルのフーリエ成分を近似し、フーリエ成分の誤差が小さい限りスペクトルの誤差を抑えることができることをParsevalの関係を用いて証明する。
また,Gurvits型アルゴリズムを使わずに,化学における実際の分子ビブロニックスペクトル問題に対応するガウス粒子サンプリングの分子ビブロニックスペクトル問題を正確に解くことができることを示した。
したがって、これらの問題は量子優位性の候補ではない。
次に、より一般的な分子のビブロニックスペクトル問題を提案し、これは化学的に動機づけられており、ボソンサンプリングを利用できるかもしれない。 We have recently seen the first plausible claims for quantum advantage using sampling problems such as random circuit sampling and Gaussian boson sampling. The obvious next step is to channel the potential quantum advantage to solving practical applications rather than proof-of-principle experiments. Recently, a quantum simulator, specifically a Gaussian boson sampler, has been proposed to generate molecular vibronic spectra efficiently, which is an essential property of molecules and an important tool for analyzing chemical components and studying molecular structures. Computing molecular vibronic spectra has been a challenging task, and its best-known classical algorithm scales combinatorially in the system size. Thus, it is a candidate of tasks for which quantum devices provide computational advantages. In this work, we propose a quantum-inspired classical algorithm for molecular vibronic spectra for harmonic potential. We first show that the molecular vibronic spectra problem corresponding to Fock-state boson sampling can be efficiently solved using a classical algorithm as accurately as running a boson sampler. In particular, we generalize Gurvits's algorithm to approximate Fourier components of the spectra of Fock-state boson sampling and prove using Parseval's relation that the error of the spectra can be suppressed as long as that of the Fourier components are small. We also show that the molecular vibronic spectra problems of Gaussian boson sampling, which corresponds to the actual molecular vibronic spectra problem in chemistry, can be exactly solved even without Gurvits-type algorithms. Consequently, we demonstrate that those problems are not candidates of quantum advantage. We then provide a more general molecular vibronic spectra problem, which is also chemically well-motivated, for which we might be able to take advantage of a boson sampler. | 翻訳日:2023-03-24 05:24:12 公開日:2023-03-22 |
# 独立鎖を持つn$-player確率ゲームにおける定常ナッシュ均衡政策の学習 Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic Games with Independent Chains ( http://arxiv.org/abs/2201.12224v4 ) ライセンス: Link先を確認 | S. Rasoul Etesami | (参考訳) 我々は$n$プレーヤ確率ゲームのサブクラスについて検討し、プレイヤーはペイオフ関数を介して結合された状態で内部の状態/行動空間を持つ。
プレイヤーの内部鎖は独立した遷移確率によって駆動されると仮定される。
さらに、プレイヤーは実際の機能ではなく、ペイオフの実現のみを受信でき、お互いの状態や行動を見ることはできない。
このクラスのゲームに対して、報奨関数の仮定なしに定常なナッシュ均衡(NE)ポリシーを見つけることは相互作用可能であることを示す。
しかし,一般的な報酬関数に対しては,平均的な二階堂-アズダ距離からほぼ確実にあるいは期待できる$\epsilon$-neポリシの集合へ収束する双対平均化と双対ミラー降下に基づく多項式時間学習アルゴリズムを開発した。
特に、社会共空性のような報酬関数に関する余分な仮定の下で、高確率で$\epsilon$-NEポリシーを達成するために反復数上の多項式上限を導出する。
最後に, スマートグリッドにおけるエネルギー管理のための数値実験を用いて, $\epsilon$-ne ポリシー学習における提案アルゴリズムの有効性を評価する。 We consider a subclass of $n$-player stochastic games, in which players have their own internal state/action spaces while they are coupled through their payoff functions. It is assumed that players' internal chains are driven by independent transition probabilities. Moreover, players can receive only realizations of their payoffs, not the actual functions, and cannot observe each other's states/actions. For this class of games, we first show that finding a stationary Nash equilibrium (NE) policy without any assumption on the reward functions is interactable. However, for general reward functions, we develop polynomial-time learning algorithms based on dual averaging and dual mirror descent, which converge in terms of the averaged Nikaido-Isoda distance to the set of $\epsilon$-NE policies almost surely or in expectation. In particular, under extra assumptions on the reward functions such as social concavity, we derive polynomial upper bounds on the number of iterates to achieve an $\epsilon$-NE policy with high probability. Finally, we evaluate the effectiveness of the proposed algorithms in learning $\epsilon$-NE policies using numerical experiments for energy management in smart grids. | 翻訳日:2023-03-24 05:22:46 公開日:2023-03-22 |
# 自律運転における物体検出のための適応インスタンス蒸留 Adaptive Instance Distillation for Object Detection in Autonomous Driving ( http://arxiv.org/abs/2201.11097v2 ) ライセンス: Link先を確認 | Qizhen Lan and Qing Tian | (参考訳) 近年,効率的なモデルを導出するために知識蒸留(kd)が広く用いられている。
大きな教師モデルを模倣することで、軽量な生徒モデルはより効率良く同等のパフォーマンスを達成できる。
しかし,既存の知識蒸留法のほとんどは分類作業に重点を置いている。
特に時間に敏感な自動運転シナリオにおいて、物体検出に知識蒸留を応用した研究は限られている。
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
全てのインスタンスを等しく扱う従来のKD法とは異なり、我々のAIDは教師モデルの予測損失に基づいて、インスタンスの蒸留重量を注意深く調整することができる。
提案手法の有効性を,KITTIおよびCOCOトラヒックデータセットを用いた実験により検証した。
その結果, 最先端の注意誘導蒸留法および非局所蒸留法の性能が向上し, 単段・二段検出法ともにより良好な蒸留結果が得られることがわかった。
ベースラインと比較すると,AIDは1段検出器と2段検出器で平均2.7%,2.1%のmAP上昇を示した。
さらに,AIDは,教師モデルの性能向上に有効であることが示された。 In recent years, knowledge distillation (KD) has been widely used to derive efficient models. Through imitating a large teacher model, a lightweight student model can achieve comparable performance with more efficiency. However, most existing knowledge distillation methods are focused on classification tasks. Only a limited number of studies have applied knowledge distillation to object detection, especially in time-sensitive autonomous driving scenarios. In this paper, we propose Adaptive Instance Distillation (AID) to selectively impart teacher's knowledge to the student to improve the performance of knowledge distillation. Unlike previous KD methods that treat all instances equally, our AID can attentively adjust the distillation weights of instances based on the teacher model's prediction loss. We verified the effectiveness of our AID method through experiments on the KITTI and the COCO traffic datasets. The results show that our method improves the performance of state-of-the-art attention-guided and non-local distillation methods and achieves better distillation results on both single-stage and two-stage detectors. Compared to the baseline, our AID led to an average of 2.7% and 2.1% mAP increases for single-stage and two-stage detectors, respectively. Furthermore, our AID is also shown to be useful for self-distillation to improve the teacher model's performance. | 翻訳日:2023-03-24 05:22:25 公開日:2023-03-22 |
# 変圧器層を有するハイブリッドCNNを用いたMRI肝病変と肝病変の鑑別 Joint Liver and Hepatic Lesion Segmentation in MRI using a Hybrid CNN with Transformer Layers ( http://arxiv.org/abs/2201.10981v3 ) ライセンス: Link先を確認 | Georg Hille, Shubham Agrawal, Pavan Tummala, Christian Wybranski, Maciej Pech, Alexey Surov, Sylvia Saalfeld | (参考訳) 深層学習による肝病変と肝病変の分画は,毎年肝癌の発生頻度の増加により,臨床実践において着実に関連している。
医用画像のセグメンテーションの分野では、様々なネットワークのバリエーションが過去数年間に開発されてきたが、ほとんど全てがMRI(MRI)で肝病変を正確にセグメンテーションすることの難しさに苦慮している。
これは、既存の制限を克服するために、畳み込みとトランスフォーマーベースのアーキテクチャの要素を組み合わせるというアイデアにつながった。
SWTR-Unetと呼ばれるハイブリッドネットワークは、事前訓練されたResNet、トランスフォーマーブロック、共通のUnetスタイルのデコーダパスで構成されている。
このネットワークは、主に単一のモダリティの非コントラスト強調肝mriに応用され、さらに、他のモダリティへの適用性を検証するために、一般の肝腫瘍分画(lits)チャレンジのctデータにも適用された。
より広範な評価のために、複数の最先端ネットワークが実装され、適用され、直接の互換性が保証された。
さらに, 相関解析とアブレーション実験を行い, 提案手法のセグメンテーション精度に影響を及ぼす因子について検討した。
Diceスコアが平均98-2%,MRIデータセットでは81+-28%,CTデータセットでは97+-2%,79+-25%であった。
肝病変の分節に対するサーバ間変動が示すように,手作業による専門家分節と同等のセグメンテーション精度が得られた。
その結果, 臨床実習において貴重な時間と資源を節約できる可能性が示唆された。 Deep learning-based segmentation of the liver and hepatic lesions therein steadily gains relevance in clinical practice due to the increasing incidence of liver cancer each year. Whereas various network variants with overall promising results in the field of medical image segmentation have been successfully developed over the last years, almost all of them struggle with the challenge of accurately segmenting hepatic lesions in magnetic resonance imaging (MRI). This led to the idea of combining elements of convolutional and transformer-based architectures to overcome the existing limitations. This work presents a hybrid network called SWTR-Unet, consisting of a pretrained ResNet, transformer blocks as well as a common Unet-style decoder path. This network was primarily applied to single-modality non-contrast-enhanced liver MRI and additionally to the publicly available computed tomography (CT) data of the liver tumor segmentation (LiTS) challenge to verify the applicability on other modalities. For a broader evaluation, multiple state-of-the-art networks were implemented and applied, ensuring a direct comparability. Furthermore, correlation analysis and an ablation study were carried out, to investigate various influencing factors on the segmentation accuracy of the presented method. With Dice scores of averaged 98+-2% for liver and 81+-28% lesion segmentation on the MRI dataset and 97+-2% and 79+-25%, respectively on the CT dataset, the proposed SWTR-Unet proved to be a precise approach for liver and hepatic lesion segmentation with state-of-the-art results for MRI and competing accuracy in CT imaging. The achieved segmentation accuracy was found to be on par with manually performed expert segmentations as indicated by inter-observer variabilities for liver lesion segmentation. In conclusion, the presented method could save valuable time and resources in clinical practice. | 翻訳日:2023-03-24 05:22:08 公開日:2023-03-22 |
# プライベート・データ効率学習のためのノイズ圧縮 Lossy Compression of Noisy Data for Private and Data-Efficient Learning ( http://arxiv.org/abs/2202.02892v4 ) ライセンス: Link先を確認 | Berivan Isik, Tsachy Weissman | (参考訳) ストレージ効率の高いプライバシ保護学習は、現代の学習タスクに必要なセンシティブなユーザデータの増加のために重要である。
本稿では,学習用データの有用性を損なうことなく,プライバシ保証を提供すると同時に,ユーザデータのストレージコストを削減するフレームワークを提案する。
本手法はノイズ注入と損失圧縮を含む。
その結果, 損失圧縮を付加雑音の分布に適切に一致させると, 圧縮サンプルは, トレーニングデータ(またはトレーニングデータの寸法)のサンプルサイズが増加するにつれて, ノイズフリートレーニングデータの分布に収束することがわかった。
この意味では、学習データの有用性は本質的に維持され、定量量によるストレージとプライバシーの漏洩は低減される。
我々は、性別分類のためのCelebAデータセットに実験結果を示し、提案したパイプラインは、画像内の個人が認識できない(または、ノイズレベルによっては認識できない)こと、データの全体的な保存が大幅に減少すること、そして、本質的な損失(場合によっては多少の上昇)を伴わないこと、といった理論の約束に基づいて実際に提供されることを発見した。
追加のボーナスとして,本手法は逆テストデータに対してロバスト性が大幅に向上することが示唆された。 Storage-efficient privacy-preserving learning is crucial due to increasing amounts of sensitive user data required for modern learning tasks. We propose a framework for reducing the storage cost of user data while at the same time providing privacy guarantees, without essential loss in the utility of the data for learning. Our method comprises noise injection followed by lossy compression. We show that, when appropriately matching the lossy compression to the distribution of the added noise, the compressed examples converge, in distribution, to that of the noise-free training data as the sample size of the training data (or the dimension of the training data) increases. In this sense, the utility of the data for learning is essentially maintained, while reducing storage and privacy leakage by quantifiable amounts. We present experimental results on the CelebA dataset for gender classification and find that our suggested pipeline delivers in practice on the promise of the theory: the individuals in the images are unrecognizable (or less recognizable, depending on the noise level), overall storage of the data is substantially reduced, with no essential loss (and in some cases a slight boost) to the classification accuracy. As an added bonus, our experiments suggest that our method yields a substantial boost to robustness in the face of adversarial test data. | 翻訳日:2023-03-24 05:12:26 公開日:2023-03-22 |
# 変分推論としての自己監督学習における表現の不確かさ Representation Uncertainty in Self-Supervised Learning as Variational Inference ( http://arxiv.org/abs/2203.11437v3 ) ライセンス: Link先を確認 | Hiroki Nakamura, Masashi Okada and Tadahiro Taniguchi | (参考訳) 本稿では, 表現だけでなく, 変動推論の観点からのsslを考慮した不確実性も学習する新しい自己教師付き学習(ssl)法を提案する。
sslはラベルのない表現を学習する方法であり、同じ画像の異なる拡張ビューの画像表現間の類似性を最大化する。
変分オートエンコーダ(VAE)は、確率的生成モデルを変分推論で訓練する教師なし表現学習法である。
VAEとSSLはラベルなしで表現を学ぶことができるが、VAEとSSLの関係は明らかにされていない。
本稿では,SSLと変分推論の理論的関係を明らかにする。
さらに,変分推論による不確かさを解釈し,潜在空間分布を定義することで表現の不確かさを予測できる変分推論シムシアム (vi-simsiam) を提案する。
実験は、VISimSiamが入力画像と予測不確かさを比較して不確かさを学習できることを定性的に示した。
また,推定不確かさと分類精度の関係も明らかにした。 In this paper, a novel self-supervised learning (SSL) method is proposed, which learns not only representations but also representations uncertainties by considering SSL in terms of variational inference. SSL is a method of learning representation without labels by maximizing the similarity between image representations of different augmented views of the same image. Variational autoencoder (VAE) is an unsupervised representation learning method that trains a probabilistic generative model with variational inference. VAE and SSL can learn representations without labels, but the relationship between VAE and SSL has not been revealed. In this paper, the theoretical relationship between SSL and variational inference is clarified. In addition, variational inference SimSiam (VI-SimSiam) is proposed, which can predict the representation uncertainty by interpreting SimSiam with variational inference and defining the latent space distribution. The experiment qualitatively showed that VISimSiam could learn uncertainty by comparing input images and predicted uncertainties. We also revealed a relationship between estimated uncertainty and classification accuracy. | 翻訳日:2023-03-24 04:54:39 公開日:2023-03-22 |
# 全方位画像補完を用いた新しいビュー合成の促進 Enhancement of Novel View Synthesis Using Omnidirectional Image Completion ( http://arxiv.org/abs/2203.09957v2 ) ライセンス: Link先を確認 | Takayuki Hara and Tatsuya Harada | (参考訳) 本研究では,ニューラルラジアンス場(NeRF)に基づく単一の360度RGB-D画像から新しいビューを合成する方法を提案する。
それまでの研究は、多層パーセプトロンの近傍補間能力を、閉塞とズームによる完全な欠損領域に頼っていた。
本研究では,入力画像を他のカメラ位置の360度RGB画像に再投影し,2次元画像生成モデルにより再投影された画像の欠落領域を完了し,完成した画像を用いてNeRFを訓練する手法を提案する。
複数枚の画像に3Dの矛盾が生じているため, 対象画像のサブセットを用いてNeRFモデルを学習し, 領域の重複を少なくする手法を提案する。
このような画像のサブセットの選択は、シミュレーションアニールによって解決される最大重量独立セット問題に起因する。
実験により,提案手法は実世界と実世界の両方でシーンの特徴を保ちながら,可塑性新規ビューを合成できることが実証された。 In this study, we present a method for synthesizing novel views from a single 360-degree RGB-D image based on the neural radiance field (NeRF) . Prior studies relied on the neighborhood interpolation capability of multi-layer perceptrons to complete missing regions caused by occlusion and zooming, which leads to artifacts. In the method proposed in this study, the input image is reprojected to 360-degree RGB images at other camera positions, the missing regions of the reprojected images are completed by a 2D image generative model, and the completed images are utilized to train the NeRF. Because multiple completed images contain inconsistencies in 3D, we introduce a method to learn the NeRF model using a subset of completed images that cover the target scene with less overlap of completed regions. The selection of such a subset of images can be attributed to the maximum weight independent set problem, which is solved through simulated annealing. Experiments demonstrated that the proposed method can synthesize plausible novel views while preserving the features of the scene for both artificial and real-world data. | 翻訳日:2023-03-24 04:54:02 公開日:2023-03-22 |
# 実世界データから治療効果を推定する2重ロバストな手法が機械学習と合致する場合--比較研究 When Doubly Robust Methods Meet Machine Learning for Estimating Treatment Effects from Real-World Data: A Comparative Study ( http://arxiv.org/abs/2204.10969v3 ) ライセンス: Link先を確認 | Xiaoqing Tan, Shu Yang, Wenyu Ye, Douglas E. Faries, Ilya Lipkovich, Zbigniew Kadziola | (参考訳) 観察コホート研究は、治療の安全性を評価するために比較有効性の研究にますます使われている。
近年, マッチング, 重み付け, 回帰など, 異なる車両による処理モデルと結果モデルを組み合わせることで, 平均処理効果推定のための2つのロバストな手法が提案されている。
二重頑健な推定器の鍵となる利点は、平均的な治療効果の一貫性のある推定器を得るためには、治療モデルまたは結果モデルのいずれかを正しく指定する必要があることである。
しかしながら、処理と結果モデルを使用するユニークな戦略と、機械学習技術を組み合わせてパフォーマンスを向上させる方法によって、二重に堅牢な推定器がどう異なるかを理解するための作業はほとんど行われていない。
本稿では,複数の2重ロバストな手法について検討し,広範囲なシミュレーションと実世界のアプリケーションを用いて,異なる処理と結果モデリングを用いてその性能を比較する。
その結果,機械学習を2つの頑健な推定器に組み込むことで,最適性能が得られることがわかった。
二重ロバストな推定器の適用方法に関する実践的ガイダンスを提供する。 Observational cohort studies are increasingly being used for comparative effectiveness research to assess the safety of therapeutics. Recently, various doubly robust methods have been proposed for average treatment effect estimation by combining the treatment model and the outcome model via different vehicles, such as matching, weighting, and regression. The key advantage of doubly robust estimators is that they require either the treatment model or the outcome model to be correctly specified to obtain a consistent estimator of average treatment effects, and therefore lead to a more accurate and often more precise inference. However, little work has been done to understand how doubly robust estimators differ due to their unique strategies of using the treatment and outcome models and how machine learning techniques can be combined to boost their performance. Here we examine multiple popular doubly robust methods and compare their performance using different treatment and outcome modeling via extensive simulations and a real-world application. We found that incorporating machine learning with doubly robust estimators such as the targeted maximum likelihood estimator gives the best overall performance. Practical guidance on how to apply doubly robust estimators is provided. | 翻訳日:2023-03-24 04:48:00 公開日:2023-03-22 |
# CgAT:Deep Hashing-based Retrievalのためのセンターガイド型対人訓練 CgAT: Center-Guided Adversarial Training for Deep Hashing-Based Retrieval ( http://arxiv.org/abs/2204.10779v5 ) ライセンス: Link先を確認 | Xunguang Wang, Yiqun Lin, Xiaomeng Li | (参考訳) ディープハッシュは、その効率性と有効性のため、大規模な画像検索に広く利用されている。
しかし, 深層ハッシュモデルは, 敵の例に弱いため, 画像検索のための敵防衛手法の開発が不可欠である。
既存のソリューションは、訓練に弱い敵のサンプルを使用し、頑健な特徴を学習するために差別的最適化目標を欠いたため、防御性能が限界であった。
本稿では,Min-maxをベースとしたCgAT(Center-guided Adversarial Training)を提案する。
具体的には、まず、入力画像コンテンツの意味的判別表現として中心コードを定式化し、正のサンプルと意味的類似性と負の例との類似性を保持する。
数学式が中心符号を即座に計算できることを証明した。
ディープハッシュネットワークの各最適化イテレーションにおいて中心符号を得た後、敵のトレーニングプロセスをガイドするために採用する。
一方、CgATは、逆例のハッシュ符号と中心符号とのハミング距離を最大化することにより、拡張データとして最悪の逆例を生成する。
一方、CgATはハミング距離を中心符号に最小化することで、敵対サンプルの効果を緩和することを学ぶ。
ベンチマークデータセットに関する広範囲な実験は、ディープハッシュに基づく検索に対する敵意攻撃に対する防御における、我々の敵意訓練アルゴリズムの有効性を実証する。
現在の防御方法と比較して,flickr-25k,nus-wide,ms-cocoでは,防御性能が18.61\%,12.35\%,11.56\%と有意に向上した。
コードはhttps://github.com/xunguangwang/cgatで入手できる。 Deep hashing has been extensively utilized in massive image retrieval because of its efficiency and effectiveness. However, deep hashing models are vulnerable to adversarial examples, making it essential to develop adversarial defense methods for image retrieval. Existing solutions achieved limited defense performance because of using weak adversarial samples for training and lacking discriminative optimization objectives to learn robust features. In this paper, we present a min-max based Center-guided Adversarial Training, namely CgAT, to improve the robustness of deep hashing networks through worst adversarial examples. Specifically, we first formulate the center code as a semantically-discriminative representative of the input image content, which preserves the semantic similarity with positive samples and dissimilarity with negative examples. We prove that a mathematical formula can calculate the center code immediately. After obtaining the center codes in each optimization iteration of the deep hashing network, they are adopted to guide the adversarial training process. On the one hand, CgAT generates the worst adversarial examples as augmented data by maximizing the Hamming distance between the hash codes of the adversarial examples and the center codes. On the other hand, CgAT learns to mitigate the effects of adversarial samples by minimizing the Hamming distance to the center codes. Extensive experiments on the benchmark datasets demonstrate the effectiveness of our adversarial training algorithm in defending against adversarial attacks for deep hashing-based retrieval. Compared with the current state-of-the-art defense method, we significantly improve the defense performance by an average of 18.61\%, 12.35\%, and 11.56\% on FLICKR-25K, NUS-WIDE, and MS-COCO, respectively. The code is available at https://github.com/xunguangwang/CgAT. | 翻訳日:2023-03-24 04:47:19 公開日:2023-03-22 |
# cycda: 画像からビデオへの教師なしサイクルドメイン適応 CycDA: Unsupervised Cycle Domain Adaptation from Image to Video ( http://arxiv.org/abs/2203.16244v3 ) ライセンス: Link先を確認 | Wei Lin, Anna Kukleva, Kunyang Sun, Horst Possegger, Hilde Kuehne, Horst Bischof | (参考訳) 近年、アクション認識は目覚ましい成果を上げているが、ビデオトレーニングデータの収集とアノテーションはいまだに時間がかかり、費用がかかる。
そのため,ラベルのないweb画像ソースを,ラベルのないターゲットビデオに適応させるために,映像から映像への適応が提案されている。
これは,(1)Web画像とビデオフレーム間の空間的領域シフト,(2)画像とビデオデータのモダリティギャップ,という2つの大きな課題を提起する。
これらの課題に対処するために,画像とビデオの連接空間情報を活用することで,教師なし画像とビデオの領域適応のためのサイクルベースアプローチであるCycDAを提案し,一方,モードギャップを埋めるために,独立した時空間モデルを訓練する。
空間的・時空間的学習と,各サイクルにおける知識伝達を交互に行う。
我々は、画像から映像までのベンチマークデータセットと、最先端の成果を達成し、循環適応の利点を実証する混合ソースドメイン適応に対するアプローチを評価した。
コードは \url{https://github.com/wlin-at/CycDA} で入手できる。 Although action recognition has achieved impressive results over recent years, both collection and annotation of video training data are still time-consuming and cost intensive. Therefore, image-to-video adaptation has been proposed to exploit labeling-free web image source for adapting on unlabeled target videos. This poses two major challenges: (1) spatial domain shift between web images and video frames; (2) modality gap between image and video data. To address these challenges, we propose Cycle Domain Adaptation (CycDA), a cycle-based approach for unsupervised image-to-video domain adaptation by leveraging the joint spatial information in images and videos on the one hand and, on the other hand, training an independent spatio-temporal model to bridge the modality gap. We alternate between the spatial and spatio-temporal learning with knowledge transfer between the two in each cycle. We evaluate our approach on benchmark datasets for image-to-video as well as for mixed-source domain adaptation achieving state-of-the-art results and demonstrating the benefits of our cyclic adaptation. Code is available at \url{https://github.com/wlin-at/CycDA}. | 翻訳日:2023-03-24 04:44:11 公開日:2023-03-22 |
# 人工心電図を用いた新発症糖尿病の評価 New-Onset Diabetes Assessment Using Artificial Intelligence-Enhanced Electrocardiography ( http://arxiv.org/abs/2205.02900v2 ) ライセンス: Link先を確認 | Neil Jethani, Aahlad Puli, Hao Zhang, Leonid Garber, Lior Jankelson, Yindalon Aphinyanaphongs, and Rajesh Ranganath | (参考訳) 糖尿病の成人は21.4%である。
糖尿病は無症候性であり、スクリーニング率の制限のため検出されない。
この問題に対処するため、アメリカ糖尿病協会(ADA)のリスクテストのようなアンケートは、医師や公衆からの使用が推奨されている。
血液グルコース濃度が心電気生理学的に影響を及ぼす証拠に基づいて、人工知能(AI)により強化された心電図(ECG)が、新しい発症糖尿病の成人を識別できると仮定した。
ニューラルネットワークをトレーニングし,12リードのECGと容易に利用可能な人口動態を用いてHbA1cを推定した。
我々は,ペア心電図とHbA1cデータからなるデータセットを振り返って収集した。
心電図とHbA1cの両方を受信した患者の人口は全外来患者のサンプルの偏りがあるため,各患者が重視する重要性を調整し,より代表的な擬似人口を生成する。
その結果、心電図による評価はADAリスクテストよりも優れており、曲線(0.80対0.68)と正の予測値(13%対9%)で、コホート中の糖尿病の頻度の2.6倍である。
AIによって強化されたECGは、心電図の電気生理学的解釈を著しく上回り、現在の臨床能力を超えていることを示唆している。
クリニックやウェアラブルデバイス経由でのECGの普及を考えると、そのようなツールは正確な自動糖尿病評価を広く利用できるようにするだろう。 Undiagnosed diabetes is present in 21.4% of adults with diabetes. Diabetes can remain asymptomatic and undetected due to limitations in screening rates. To address this issue, questionnaires, such as the American Diabetes Association (ADA) Risk test, have been recommended for use by physicians and the public. Based on evidence that blood glucose concentration can affect cardiac electrophysiology, we hypothesized that an artificial intelligence (AI)-enhanced electrocardiogram (ECG) could identify adults with new-onset diabetes. We trained a neural network to estimate HbA1c using a 12-lead ECG and readily available demographics. We retrospectively assembled a dataset comprised of patients with paired ECG and HbA1c data. The population of patients who receive both an ECG and HbA1c may a biased sample of the complete outpatient population, so we adjusted the importance placed on each patient to generate a more representative pseudo-population. We found ECG-based assessment outperforms the ADA Risk test, achieving a higher area under the curve (0.80 vs. 0.68) and positive predictive value (13% vs. 9%) -- 2.6 times the prevalence of diabetes in the cohort. The AI-enhanced ECG significantly outperforms electrophysiologist interpretation of the ECG, suggesting that the task is beyond current clinical capabilities. Given the prevalence of ECGs in clinics and via wearable devices, such a tool would make precise, automated diabetes assessment widely accessible. | 翻訳日:2023-03-24 04:37:06 公開日:2023-03-22 |
# 不完全測定による量子絡み合いの深層学習 Deep learning of quantum entanglement from incomplete measurements ( http://arxiv.org/abs/2205.01462v5 ) ライセンス: Link先を確認 | Dominik Koutn\'y, Laia Gin\'es, Magdalena Mocza{\l}a-Dusanowska, Sven H\"ofling, Christian Schneider, Ana Predojevi\'c, Miroslav Je\v{z}ek | (参考訳) 物理系に存在する絡み合いの定量化は、基礎研究や多くの最先端応用において最も重要なものである。
現在、この目標を達成するには、フルステートトモグラフィーのような非常に必要な実験手順が必要である。
ここでは,ニューラルネットワークを用いることで,量子状態の完全な記述を知ることなく,絡み合いの程度を定量化できることを実証する。
提案手法は,不完全な局所測定値を用いて,量子相関の直接定量化を可能にする。
サンプルの少ない測定値を用いても、最先端の量子トモグラフィよりも最大で1桁低い推定誤差が得られる。
さらに,専用シミュレーションデータを用いてトレーニングしたネットワークを用いて,この結果を得る。
最後に、様々な測定シナリオからデータを受け取り、測定装置とは無関係にある程度実行することができる畳み込みネットワーク入力に基づく手法を導出する。 The quantification of the entanglement present in a physical system is of paramount importance for fundamental research and many cutting-edge applications. Currently, achieving this goal requires very demanding experimental procedures such as full state tomography. Here, we demonstrate that by employing neural networks we can quantify the degree of entanglement without needing to know the full description of the quantum state. Our method allows for direct quantification of the quantum correlations using an incomplete set of local measurements. Despite using under-sampled measurements, we achieve an estimation error of up to an order of magnitude lower than the state-of-the-art quantum tomography. Furthermore, we achieve this result employing networks trained using exclusively simulated data. Finally, we derive a method based on a convolutional network input that can accept data from various measurement scenarios and perform, to some extent, independently of the measurement device. | 翻訳日:2023-03-24 04:36:39 公開日:2023-03-22 |
# 道路交差点におけるリアルタイム協調車両協調 Real-time Cooperative Vehicle Coordination at Unsignalized Road Intersections ( http://arxiv.org/abs/2205.01278v2 ) ライセンス: Link先を確認 | Jiping Luo, Tingting Zhang, Rui Hao, Donglin Li, Chunsheng Chen, Zhenyu Na, and Qinyu Zhang | (参考訳) 近年,連結車両と自動車両の運転安全性と交通スループットの向上を目的とした未署名道路交差点での協調作業が注目されている。
しかし、既存の調査の多くは計算の複雑さに苦しむか、道路インフラの可能性を最大限に活用できない。
この目的のために、我々はまず専用の交差点調整フレームワークを提示し、関連する車両が制御当局を手渡し、中央集権コーディネータからの指示に従う。
そして、協調運転システムの運転安全性と長期安定性を確保しつつ、交通スループットを最大化する統合協調軌道最適化問題を定式化する。
実世界の展開における重要な計算課題に対処するため、この非凸シーケンシャルな決定問題をモデルのないマルコフ決定プロセス(MDP)に再構成し、深層強化学習(DRL)フレームワークにおける双遅延深層決定主義政策勾配(TD3)に基づく戦略を考案する。
シミュレーションおよび実実験により,提案手法が準定常協調シナリオにおいてほぼ最適性能を達成し,現実的な連続交通流における交通スループットを著しく向上できることを示した。
最も顕著な利点は、我々の戦略が計算の時間的複雑さをミリ秒に短縮し、ロードレーンが増加するとスケーラブルになることです。 Cooperative coordination at unsignalized road intersections, which aims to improve the driving safety and traffic throughput for connected and automated vehicles, has attracted increasing interests in recent years. However, most existing investigations either suffer from computational complexity or cannot harness the full potential of the road infrastructure. To this end, we first present a dedicated intersection coordination framework, where the involved vehicles hand over their control authorities and follow instructions from a centralized coordinator. Then a unified cooperative trajectory optimization problem will be formulated to maximize the traffic throughput while ensuring the driving safety and long-term stability of the coordination system. To address the key computational challenges in the real-world deployment, we reformulate this non-convex sequential decision problem into a model-free Markov Decision Process (MDP) and tackle it by devising a Twin Delayed Deep Deterministic Policy Gradient (TD3)-based strategy in the deep reinforcement learning (DRL) framework. Simulation and practical experiments show that the proposed strategy could achieve near-optimal performance in sub-static coordination scenarios and significantly improve the traffic throughput in the realistic continuous traffic flow. The most remarkable advantage is that our strategy could reduce the time complexity of computation to milliseconds, and is shown scalable when the road lanes increase. | 翻訳日:2023-03-24 04:36:26 公開日:2023-03-22 |
# 視覚空間推論 Visual Spatial Reasoning ( http://arxiv.org/abs/2205.00363v3 ) ライセンス: Link先を確認 | Fangyu Liu, Guy Emerson, Nigel Collier | (参考訳) 空間的関係は人間の認知の基本部分である。
しかし、それらは様々な方法で自然言語で表現されており、以前の研究は、現在の視覚・言語モデル(VLM)が関係情報を捉えるのに苦労していることを示唆している。
本稿では,10万以上の自然テキスト画像対と66種類の空間関係(例えば,下,前,前,前)を含むデータセットである visual spatial reasoning (vsr) を提案する。
一見単純なアノテーション形式を用いて,データセットが参照フレームの変化など,困難な言語現象を含むことを示す。
人間の天井は95%を超え、最先端のモデルは70%しか達成していない。
我々は,VLMの逆相関性能がトレーニング例の数とはほとんど相関がなく,テストモデルでは対象の向きに関する関係を認識できないのが一般的である。 Spatial relations are a basic part of human cognition. However, they are expressed in natural language in a variety of ways, and previous work has suggested that current vision-and-language models (VLMs) struggle to capture relational information. In this paper, we present Visual Spatial Reasoning (VSR), a dataset containing more than 10k natural text-image pairs with 66 types of spatial relations in English (such as: under, in front of, and facing). While using a seemingly simple annotation format, we show how the dataset includes challenging linguistic phenomena, such as varying reference frames. We demonstrate a large gap between human and model performance: the human ceiling is above 95%, while state-of-the-art models only achieve around 70%. We observe that VLMs' by-relation performances have little correlation with the number of training examples and the tested models are in general incapable of recognising relations concerning the orientations of objects. | 翻訳日:2023-03-24 04:35:40 公開日:2023-03-22 |
# ノイズの修正:スタイルガンの転送学習のための音源特徴の分離 Fix the Noise: Disentangling Source Feature for Transfer Learning of StyleGAN ( http://arxiv.org/abs/2204.14079v3 ) ライセンス: Link先を確認 | Dongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Junmo Kim | (参考訳) StyleGANの転送学習は、特にドメイン翻訳において、様々なタスクを解く大きな可能性を示している。
これまで、トランスファー学習中に重みを交換または凍結することでソースモデルを利用したが、それらは視覚品質とソース機能の制御に制限がある。
言い換えると、それらは計算上要求される追加のモデルを必要とし、滑らかな遷移を防ぐ制御ステップを制限している。
本稿では,これらの制約を克服するための新しいアプローチを提案する。
切り替えや凍結の代わりに、生成品質を改善するために単純な特徴マッチング損失を導入する。
さらに,ソース特性の程度を制御するために,提案手法であるfixnoiseを用いてターゲットモデルを訓練し,対象特徴空間の分断部分空間にのみソース特徴を保存する。
本手法は,不連続な特徴空間により,単一モデルにおける音源特性の程度を円滑に制御できる。
広範な実験により,提案手法が従来よりも一貫性と現実的な画像を生成することを実証した。 Transfer learning of StyleGAN has recently shown great potential to solve diverse tasks, especially in domain translation. Previous methods utilized a source model by swapping or freezing weights during transfer learning, however, they have limitations on visual quality and controlling source features. In other words, they require additional models that are computationally demanding and have restricted control steps that prevent a smooth transition. In this paper, we propose a new approach to overcome these limitations. Instead of swapping or freezing, we introduce a simple feature matching loss to improve generation quality. In addition, to control the degree of source features, we train a target model with the proposed strategy, FixNoise, to preserve the source features only in a disentangled subspace of a target feature space. Owing to the disentangled feature space, our method can smoothly control the degree of the source features in a single model. Extensive experiments demonstrate that the proposed method can generate more consistent and realistic images than previous works. | 翻訳日:2023-03-24 04:35:25 公開日:2023-03-22 |
# 周期変調連続量子熱機械における精度境界 Precision bound in periodically modulated continuous quantum thermal machines ( http://arxiv.org/abs/2204.14005v2 ) ライセンス: Link先を確認 | Arpan Das, Shishira Mahunta, Bijay Kumar Agarwalla, and Victor Mukherjee | (参考訳) Floquetフォーマリズムを用いて、周期的に変調された連続量子熱機械のゆらぎを研究する。
このような機械の一般的な理論を示し、次いで正弦波変調、最適変調、円周変調の具体例を示す。
熱力学的不確実性関係(TUR)は、考慮されたすべての変調に有効である。
興味深いことに、正弦波変調の場合、TUR比は熱機関の最低値から冷却器遷移点を仮定し、チョップランダム基底(CRAB)最適化プロトコルは、幅広い変調周波数に対して比を小さくすることができる。
さらに,より汎用的な変調方式において,turは冷凍機遷移に対する熱エンジンのシグネチャを示すことを示唆する。
また, 機械の効率の変動の限界についても検討し, 効率の変動は, 上から冷蔵庫に, 下からエンジンに限ることを示した。
本研究は,現実的な量子熱機械の設計において,様々な変調方式が果たす重要な役割を強調した。 We use Floquet formalism to study fluctuations in periodically modulated continuous quantum thermal machines. We present a generic theory for such machines, followed by specific examples of sinusoidal, optimal, and circular modulations respectively. The thermodynamic uncertainty relations (TUR) hold for all modulations considered. Interestingly, in the case of sinusoidal modulation, the TUR ratio assumes a minimum at the heat engine to refrigerator transition point, while the Chopped Random Basis (CRAB) optimization protocol allows us to keep the ratio small for a wide range of modulation frequencies. Furthermore, our numerical analysis suggests that TUR can show signatures of heat engine to refrigerator transition, for more generic modulation schemes. We also study bounds in fluctuations in the efficiencies of such machines; our results indicate that fluctuations in efficiencies are bounded from above for a refrigerator, and from below for an engine. Overall, this study emphasizes the crucial role played by different modulation schemes in designing practical quantum thermal machines. | 翻訳日:2023-03-24 04:35:08 公開日:2023-03-22 |
# 因果推論は視覚的表現学習と合致する--前向き研究 Causal Reasoning Meets Visual Representation Learning: A Prospective Study ( http://arxiv.org/abs/2204.12037v8 ) ライセンス: Link先を確認 | Yang Liu, Yushen Wei, Hong Yan, Guanbin Li, Liang Lin | (参考訳) 視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、人間とコンピュータの相互作用、都市コンピューティングなど、様々な現実世界のアプリケーションで広く使われている。
ビッグデータ時代の多変量多変量空間・時空間・空間・時空間データの出現により、解釈可能性、堅牢性、分散一般化の欠如が既存の視覚モデルの課題となっている。
既存の手法の多くは、元のデータ/可変分布に適合し、多モード知識の背後にある基本的な因果関係を無視する傾向にあり、現代の視覚表現学習手法がデータバイアスに容易に崩壊し、一般化と認知能力が制限される理由について統一的なガイダンスや分析が欠けている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、堅牢な表現と優れた認知能力を備えたモデル学習を実現するための因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,視覚表現学習のための既存の因果推論法を総合的に検討し,基本理論,モデル,データセットについて述べる。
現在のメソッドやデータセットの制限についても議論する。
さらに,視覚表現学習における因果推論アルゴリズムをベンチマークするための課題,機会,今後の研究方向を提案する。
本稿では,この新興分野を総合的に概観し,注意を引き付け,議論を奨励し,新たな因果推論手法,公開ベンチマーク,信頼性の高い視覚的表現学習と関連する実世界アプリケーションのためのコンセンサス構築標準の開発に向けた切迫感をもたらすことを目的とする。 Visual representation learning is ubiquitous in various real-world applications, including visual comprehension, video understanding, multi-modal analysis, human-computer interaction, and urban computing. Due to the emergence of huge amounts of multi-modal heterogeneous spatial/temporal/spatial-temporal data in big data era, the lack of interpretability, robustness, and out-of-distribution generalization are becoming the challenges of the existing visual models. The majority of the existing methods tend to fit the original data/variable distributions and ignore the essential causal relations behind the multi-modal knowledge, which lacks unified guidance and analysis about why modern visual representation learning methods easily collapse into data bias and have limited generalization and cognitive abilities. Inspired by the strong inference ability of human-level agents, recent years have therefore witnessed great effort in developing causal reasoning paradigms to realize robust representation and model learning with good cognitive ability. In this paper, we conduct a comprehensive review of existing causal reasoning methods for visual representation learning, covering fundamental theories, models, and datasets. The limitations of current methods and datasets are also discussed. Moreover, we propose some prospective challenges, opportunities, and future research directions for benchmarking causal reasoning algorithms in visual representation learning. This paper aims to provide a comprehensive overview of this emerging field, attract attention, encourage discussions, bring to the forefront the urgency of developing novel causal reasoning methods, publicly available benchmarks, and consensus-building standards for reliable visual representation learning and related real-world applications more efficiently. | 翻訳日:2023-03-24 04:34:37 公開日:2023-03-22 |
# 50量子ビットまでの量子回路アンサンブルのランダム性の推定 Estimating the randomness of quantum circuit ensembles up to 50 qubits ( http://arxiv.org/abs/2205.09900v3 ) ライセンス: Link先を確認 | Minzhao Liu, Junyu Liu, Yuri Alexeev, Liang Jiang | (参考訳) ランダム量子回路は、量子超越的な実証、化学と機械学習のための変分量子アルゴリズム、ブラックホール情報といった文脈で利用されている。
ランダム回路が任意のランダムなユニタリを近似する能力は、その複雑さ、表現性、訓練性に影響を及ぼす。
ランダム回路の特性を調べるために, フレームポテンシャル, 与えられたアンサンブル間の距離, 正確なランダムネスを推定するための数値プロトコルを開発した。
我々のテンソルネットワークに基づくアルゴリズムは、浅い回路に対して多項式複雑性を持ち、CPUとGPUの並列処理により高い性能を発揮する。
研究は
1.Brown-Susskind予想によって述べられている複雑性の線形成長を検証する局所的および並列的ランダム回路
2. ハードウェア効率のよい ans\" は, 変動アルゴリズムの文脈における表現性や不毛な高原問題に光を当てる。
我々の研究は、大規模テンソルネットワークシミュレーションが量子情報科学におけるオープンな問題に重要なヒントを与える可能性を示唆している。 Random quantum circuits have been utilized in the contexts of quantum supremacy demonstrations, variational quantum algorithms for chemistry and machine learning, and blackhole information. The ability of random circuits to approximate any random unitaries has consequences on their complexity, expressibility, and trainability. To study this property of random circuits, we develop numerical protocols for estimating the frame potential, the distance between a given ensemble and the exact randomness. Our tensor-network-based algorithm has polynomial complexity for shallow circuits and is high-performing using CPU and GPU parallelism. We study 1. local and parallel random circuits to verify the linear growth in complexity as stated by the Brown-Susskind conjecture, and; 2. hardware-efficient ans\"atze to shed light on its expressibility and the barren plateau problem in the context of variational algorithms. Our work shows that large-scale tensor network simulations could provide important hints toward open problems in quantum information science. | 翻訳日:2023-03-24 04:26:48 公開日:2023-03-22 |
# ExpressivE:知識グラフ補完のための比例式埋め込み ExpressivE: A Spatio-Functional Embedding For Knowledge Graph Completion ( http://arxiv.org/abs/2206.04192v2 ) ライセンス: Link先を確認 | Aleksandar Pavlovi\'c and Emanuel Sallinger | (参考訳) 知識グラフは本質的に不完全である。
そのため、知識グラフ完備化(KGC)、すなわち知識グラフ(KG)に表される情報から欠落した三重項を予測するために、かなりの研究が進められている。
KG埋め込みモデル(KGE)は、KGCに対して有望な結果をもたらすが、現在のKGEでは、(1)重要な推論パターン(例えば、構成)を完全にキャプチャし、(2)顕著なパターンを共同でキャプチャし(例えば、階層と構成)、(3)キャプチャされたパターンの直感的な解釈を提供する。
本稿では,これらすべての課題を同時に解決する完全表現型空間関数型KGEであるExpressivEを提案する。
ExpressivE は、仮想三重空間 $\mathbb{R}^{2d}$ に超平行グラフとして一対の実体を点として埋め込む。
このモデル設計は、豊かな推論パターンを共同で捉えるだけでなく、ハイパーパラレルグラムの空間的関係を通じてサポート対象の推論パターンを表示することを可能にし、表現埋め込みとそのキャプチャパターンの直感的かつ一貫した幾何学的解釈を提供する。
標準のKGCベンチマーク実験の結果、ExpressivEは最先端のKGEと競合し、WN18RRでさらに優れていた。 Knowledge graphs are inherently incomplete. Therefore substantial research has been directed toward knowledge graph completion (KGC), i.e., predicting missing triples from the information represented in the knowledge graph (KG). KG embedding models (KGEs) have yielded promising results for KGC, yet any current KGE is incapable of: (1) fully capturing vital inference patterns (e.g., composition), (2) capturing prominent patterns jointly (e.g., hierarchy and composition), and (3) providing an intuitive interpretation of captured patterns. In this work, we propose ExpressivE, a fully expressive spatio-functional KGE that solves all these challenges simultaneously. ExpressivE embeds pairs of entities as points and relations as hyper-parallelograms in the virtual triple space $\mathbb{R}^{2d}$. This model design allows ExpressivE not only to capture a rich set of inference patterns jointly but additionally to display any supported inference pattern through the spatial relation of hyper-parallelograms, offering an intuitive and consistent geometric interpretation of ExpressivE embeddings and their captured patterns. Experimental results on standard KGC benchmarks reveal that ExpressivE is competitive with state-of-the-art KGEs and even significantly outperforms them on WN18RR. | 翻訳日:2023-03-24 04:19:01 公開日:2023-03-22 |
# ツリーテンソルネットワークを用いた量子回路のシミュレーション Simulating quantum circuits using tree tensor networks ( http://arxiv.org/abs/2206.01000v3 ) ライセンス: Link先を確認 | Philipp Seitz, Ismael Medina, Esther Cruz, Qunsheng Huang, Christian B. Mendl | (参考訳) 我々は、量子状態を根付きツリーテンソルネットワークとして表現することで、古典コンピュータ上の量子回路をシミュレーションする手法を開発し、解析する。
提案アルゴリズムはまず,量子回路が生成する期待する絡み合いに適応した,適切な木構造を決定する。
ゲートは、単一キュービットゲートを葉ノードに吸収し、特異値分解によって2キュービットゲートを分割し、結果として生じる仮想結合をツリーを通してスレッディングすることにより、木に順次適用される。
本手法の適用可能性と計算コスト,メモリ要件を理論的に解析し,行列積状態表現と比較して要求される結合次元の観点から有利なシナリオを特定する。
この研究は、37キュービットまでの異なる量子回路レイアウトの数値実験によって補完されている。 We develop and analyze a method for simulating quantum circuits on classical computers by representing quantum states as rooted tree tensor networks. Our algorithm first determines a suitable, fixed tree structure adapted to the expected entanglement generated by the quantum circuit. The gates are sequentially applied to the tree by absorbing single-qubit gates into leaf nodes, and splitting two-qubit gates via singular value decomposition and threading the resulting virtual bond through the tree. We theoretically analyze the applicability of the method as well as its computational cost and memory requirements, and identify advantageous scenarios in terms of required bond dimensions as compared to a matrix product state representation. The study is complemented by numerical experiments for different quantum circuit layouts up to 37 qubits. | 翻訳日:2023-03-24 04:17:39 公開日:2023-03-22 |
# RIAV-MVS:マルチビューステレオ用非対称ボリュームのリカレントインデクシング RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo ( http://arxiv.org/abs/2205.14320v3 ) ライセンス: Link先を確認 | Changjiang Cai, Pan Ji, Qingan Yan, Yi Xu | (参考訳) 本稿では,画像から多視点深度を推定する学習手法を提案する。
私たちの中核的な考え方は"学習から最適化"のパラダイムです。これは、平面スウィーピングのコストボリュームを反復的にインデックス化し、畳み込み Gated Recurrent Unit (GRU) を通じて深度マップを回帰します。
コストボリュームはマルチビュー幾何学のエンコーディングにおいて重要な役割を果たすため、ピクセルレベルとフレームレベルの両方でその構成を改善することを目指している。
画素レベルでは、参照画像に(ソース画像ではなく)トランスフォーマーブロックを導入することにより、シームーズネットワーク(通常、MVSで画像特徴を抽出するために使用される)の対称性を破ることを提案する。
このような非対称ボリュームにより、ネットワークは参照画像からグローバルな特徴を抽出し、深さマップを予測することができる。
参照画像とソース画像間のポーズの潜在的な不正確さを考慮し、相対的なポーズを補正するために残留ポーズネットワークを導入することを提案する。
これは基本的に、フレームレベルでのコストボリュームを補正する。
我々は,実世界のmvsデータセットに関する広範囲な実験を行い,この手法がデータセット内評価とデータセット間一般化の両面で最先端の性能を実現することを示す。 This paper presents a learning-based method for multi-view depth estimation from posed images. Our core idea is a "learning-to-optimize" paradigm that iteratively indexes a plane-sweeping cost volume and regresses the depth map via a convolutional Gated Recurrent Unit (GRU). Since the cost volume plays a paramount role in encoding the multi-view geometry, we aim to improve its construction both at pixel- and frame- levels. At the pixel level, we propose to break the symmetry of the Siamese network (which is typically used in MVS to extract image features) by introducing a transformer block to the reference image (but not to the source images). Such an asymmetric volume allows the network to extract global features from the reference image to predict its depth map. Given potential inaccuracies in the poses between reference and source images, we propose to incorporate a residual pose network to correct the relative poses. This essentially rectifies the cost volume at the frame level. We conduct extensive experiments on real-world MVS datasets and show that our method achieves state-of-the-art performance in terms of both within-dataset evaluation and cross-dataset generalization. | 翻訳日:2023-03-24 04:16:42 公開日:2023-03-22 |
# 意味的曖昧性の因果構造 The Causal Structure of Semantic Ambiguities ( http://arxiv.org/abs/2206.06807v2 ) ライセンス: Link先を確認 | Daphne Wang, Mehrnoosh Sadrzadeh | (参考訳) あいまいさ(ambiguity)は、構文、意味論、実用論の異なるレベルで発生する自然言語現象である。
それは広く研究されており、例えば心理学では、人間の曖昧さの過程に関する様々な競合する研究がある。
これらの研究は経験的であり、視線追跡測定に基づいている。
ここでは, これらのプロセスの形式化に向けた第一歩として, 1) 考えられる解釈の相違点の合同妥当性, (2) 特定の単語がプロセスにおいてより重要な役割を担っている因果構造, の2つの特徴について述べる。
qpl 2021でgogiosoとpinzaniによって開発された決定因果関係の新しい層理論モデルは、これらの特徴をモデル化し、推論するためのツールを提供する。
この理論を,心理言語学文献から抽出した曖昧なフレーズのデータセットと,amazon mechanical turkエンジンを用いて我々によって収集されたヒューマン・プルーサビリティ判断に適用した。
語句内の異なる曖昧化順序の因果分画を測定し,主語動詞から主語動詞へ,動詞動詞句から動詞動詞へという2つの主語を発見した。
また,多義語動詞と偽語動詞の曖昧さの解消が遅滞する証拠を見出した。 Ambiguity is a natural language phenomenon occurring at different levels of syntax, semantics, and pragmatics. It is widely studied; in Psycholinguistics, for instance, we have a variety of competing studies for the human disambiguation processes. These studies are empirical and based on eyetracking measurements. Here we take first steps towards formalizing these processes for semantic ambiguities where we identified the presence of two features: (1) joint plausibility degrees of different possible interpretations, (2) causal structures according to which certain words play a more substantial role in the processes. The novel sheaf-theoretic model of definite causality developed by Gogioso and Pinzani in QPL 2021 offers tools to model and reason about these features. We applied this theory to a dataset of ambiguous phrases extracted from Psycholinguistics literature and their human plausibility judgements collected by us using the Amazon Mechanical Turk engine. We measured the causal fractions of different disambiguation orders within the phrases and discovered two prominent orders: from subject to verb in the subject-verb and from object to verb in the verb object phrases. We also found evidence for delay in the disambiguation of polysemous vs homonymous verbs, again compatible with Psycholinguistic findings. | 翻訳日:2023-03-24 04:08:59 公開日:2023-03-22 |
# 画像マッチングの参照 Referring Image Matting ( http://arxiv.org/abs/2206.05149v3 ) ライセンス: Link先を確認 | Jizhizi Li, Jing Zhang, Dacheng Tao | (参考訳) 本論文では,特定の前景オブジェクトを抽出したり,画像中のすべての前景オブジェクトを直接抽出するために,ユーザ定義のスクリブル/トリマップを必要とする従来の画像マッチングとは違って,画像マッチング(RIM)と呼ばれるタスクを導入し,与えられた自然言語記述に最もよく適合する特定の対象の精巧なアルファマットを抽出することを目的としている。
まず,公開データセットに基づく多彩なテキスト属性とともに高品質な画像を自動的に生成する総合的な画像合成・表現生成エンジンを設計することにより,大規模に挑戦的なデータセットリフマットを確立する。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
さらに,100個の高分解能自然画像を含む実世界テストセットを構築し,複雑なフレーズを手作業で注釈し,rim法の領域外一般化能力を評価する。
さらに,コンテキスト埋め込みプロンプト,テキスト駆動型セマンティックポップアップ,マルチレベル詳細抽出器など,RIM用の新しいベースライン方式CLIPMatを提案する。
キーワードと式設定の両方におけるRefMatteに関する大規模な実験は、代表メソッドよりもCLIPMatの方が優れていることを検証する。
この研究が、画像マッチングに関する新たな洞察を与え、さらなるフォローアップ研究を促進することを期待しています。
データセット、コード、モデルはhttps://github.com/JizhiziLi/RIMで入手できる。 Different from conventional image matting, which either requires user-defined scribbles/trimap to extract a specific foreground object or directly extracts all the foreground objects in the image indiscriminately, we introduce a new task named Referring Image Matting (RIM) in this paper, which aims to extract the meticulous alpha matte of the specific object that best matches the given natural language description, thus enabling a more natural and simpler instruction for image matting. First, we establish a large-scale challenging dataset RefMatte by designing a comprehensive image composition and expression generation engine to automatically produce high-quality images along with diverse text attributes based on public datasets. RefMatte consists of 230 object categories, 47,500 images, 118,749 expression-region entities, and 474,996 expressions. Additionally, we construct a real-world test set with 100 high-resolution natural images and manually annotate complex phrases to evaluate the out-of-domain generalization abilities of RIM methods. Furthermore, we present a novel baseline method CLIPMat for RIM, including a context-embedded prompt, a text-driven semantic pop-up, and a multi-level details extractor. Extensive experiments on RefMatte in both keyword and expression settings validate the superiority of CLIPMat over representative methods. We hope this work could provide novel insights into image matting and encourage more follow-up studies. The dataset, code and models are available at https://github.com/JizhiziLi/RIM. | 翻訳日:2023-03-24 04:08:22 公開日:2023-03-22 |
# UniDAformer:階層型マスク校正による統一ドメイン適応型パノプティックセグメンテーショントランス UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration ( http://arxiv.org/abs/2206.15083v2 ) ライセンス: Link先を確認 | Jingyi Zhang, Jiaxing Huang, Xiaoqin Zhang, Shijian Lu | (参考訳) ドメイン適応型panopticセグメンテーションは、1つまたは複数の関連するソースドメインで既定の注釈付きデータを活用することで、データアノテーションの課題を軽減することを目的としている。
しかし、既存の研究では、セグメンテーションとセマンティクスセグメンテーションの2つの別々のネットワークを使用しており、複雑な計算集約的なトレーニングと推論プロセスと同様に、過剰なネットワークパラメータにつながる。
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層マスク校正(Hierarchical Mask Calibration, HMC)を導入し、オンラインのセルフトレーニングを通じて、領域、スーパーピクセル、ピクセルのレベルで不正確な予測を修正した。
3つの特徴があります
1) 統一ドメイン適応パンオプティカル適応を可能にする。
2)誤った予測を緩和し,ドメイン適応パンオプティカルセグメンテーションを効果的に改善する。
3) よりシンプルなトレーニングと推論パイプラインでエンドツーエンドのトレーニングが可能になる。
複数の公開ベンチマークに対する大規模な実験により、UniDAformerは最先端技術と比較して優れたドメイン適応型パノプティクスのセグメンテーションを実現することが示された。 Domain adaptive panoptic segmentation aims to mitigate data annotation challenge by leveraging off-the-shelf annotated data in one or multiple related source domains. However, existing studies employ two separate networks for instance segmentation and semantic segmentation which lead to excessive network parameters as well as complicated and computationally intensive training and inference processes. We design UniDAformer, a unified domain adaptive panoptic segmentation transformer that is simple but can achieve domain adaptive instance segmentation and semantic segmentation simultaneously within a single network. UniDAformer introduces Hierarchical Mask Calibration (HMC) that rectifies inaccurate predictions at the level of regions, superpixels and pixels via online self-training on the fly. It has three unique features: 1) it enables unified domain adaptive panoptic adaptation; 2) it mitigates false predictions and improves domain adaptive panoptic segmentation effectively; 3) it is end-to-end trainable with a much simpler training and inference pipeline. Extensive experiments over multiple public benchmarks show that UniDAformer achieves superior domain adaptive panoptic segmentation as compared with the state-of-the-art. | 翻訳日:2023-03-24 03:58:30 公開日:2023-03-22 |
# LargeKernel3D: 3DスパースCNNにおけるカーネルのスケールアップ LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs ( http://arxiv.org/abs/2206.10555v2 ) ライセンス: Link先を確認 | Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia | (参考訳) 2D CNNの最近の進歩は、大きなカーネルが重要であることを示している。
しかし、3D CNNで大きな畳み込みカーネルを直接適用する場合、非常に困難な問題が発生し、2Dで成功したモジュール設計は、一般的な深みの畳み込みを含む3Dネットワークでは驚くほど効果がない。
この重要な課題に対処するため、代わりに空間分割畳み込みとその大きなカーネルモジュールを提案する。
その結果、naive 3d large kernelの最適化や効率問題を回避することができる。
我々の大カーネル3D CNNネットワークであるLargeKernel3Dは、セマンティックセグメンテーションとオブジェクト検出の3Dタスクにおいて顕著な改善をもたらす。
ScanNetv2セマンティックセグメンテーションでは73.9% mIoU、NDS nuScenesオブジェクト検出ベンチマークでは72.8%、nuScenes LIDARリーダーボードでは1位である。
さらにパフォーマンスは74.2%に向上し、単純なマルチモーダル核融合を行う。
さらに、waymo 3dオブジェクト検出では、bigkernel3dを17x17x17カーネルサイズにスケールできる。
初めて、大きなカーネルは3dのビジュアルタスクに実現可能で不可欠であることを示した。 Recent advance in 2D CNNs has revealed that large kernels are important. However, when directly applying large convolutional kernels in 3D CNNs, severe difficulties are met, where those successful module designs in 2D become surprisingly ineffective on 3D networks, including the popular depth-wise convolution. To address this vital challenge, we instead propose the spatial-wise partition convolution and its large-kernel module. As a result, it avoids the optimization and efficiency issues of naive 3D large kernels. Our large-kernel 3D CNN network, LargeKernel3D, yields notable improvement in 3D tasks of semantic segmentation and object detection. It achieves 73.9% mIoU on the ScanNetv2 semantic segmentation and 72.8% NDS nuScenes object detection benchmarks, ranking 1st on the nuScenes LIDAR leaderboard. The performance further boosts to 74.2% NDS with a simple multi-modal fusion. In addition, LargeKernel3D can be scaled to 17x17x17 kernel size on Waymo 3D object detection. For the first time, we show that large kernels are feasible and essential for 3D visual tasks. | 翻訳日:2023-03-24 03:57:20 公開日:2023-03-22 |
# DeepProphet2 - ディープラーニング遺伝子レコメンデーションエンジン DeepProphet2 -- A Deep Learning Gene Recommendation Engine ( http://arxiv.org/abs/2208.01918v4 ) ライセンス: Link先を確認 | Daniele Brambilla (1), Davide Maria Giacomini (1), Luca Muscarnera, Andrea Mazzoleni (1) ((1) TheProphetAI) | (参考訳) 生命科学の問題に取り組むための新しい強力なツールは、機械学習の最近の進歩によって生み出された。
本研究の目的は,人工知能(AI)による遺伝子レコメンデーションの潜在的利点について議論することである。
実際に、遺伝子レコメンデーションエンジンがこの問題を解決しようとしている。ユーザーが一連の遺伝子に興味がある場合、どの遺伝子が開始セットと関連し、調査されるべきか?
このタスクは、世界中の研究者がhttps://www.generecommender.comで自由に利用できるカスタムのディープラーニング推奨エンジンであるdeepprophet2(dp2)で解決された。
utm_source=DeepProphet2_paper&utm_medium=pdf。
以下にアルゴリズムの背景にある知見とその実践的応用について説明する。
遺伝子レコメンデーション問題は、遺伝子を距離がそれらの間の実際の意味距離を表すために定義される距離空間にマッピングすることで解決することができる。
この目的を達成するために、トランスフォーマーベースのモデルは、自由に利用可能な紙コーパスで訓練されている。
本稿では,埋め込みサイズとネットワーク深さに着目し,最適なバイアス分散トレードオフを得るための複数の最適化手順について述べる。
この文脈では、モデルが疾患や経路に関与する遺伝子群を発見する能力は相互評価によって評価された。
ネットワークは経路や疾患について直接知識を持たず、遺伝子の類似性とそれらの相互作用を学んだ。
さらに、ニューラルネットワークが遺伝子を表わす空間をさらに調査するために、埋め込みの次元が減少し、その結果を人間の理解可能な空間に投影した。
結論として、一連のユースケースは、アルゴリズムの潜在的な応用を実際の単語設定で示す。 New powerful tools for tackling life science problems have been created by recent advances in machine learning. The purpose of the paper is to discuss the potential advantages of gene recommendation performed by artificial intelligence (AI). Indeed, gene recommendation engines try to solve this problem: if the user is interested in a set of genes, which other genes are likely to be related to the starting set and should be investigated? This task was solved with a custom deep learning recommendation engine, DeepProphet2 (DP2), which is freely available to researchers worldwide via https://www.generecommender.com?utm_source=DeepProphet2_paper&utm_medium=pdf. Hereafter, insights behind the algorithm and its practical applications are illustrated. The gene recommendation problem can be addressed by mapping the genes to a metric space where a distance can be defined to represent the real semantic distance between them. To achieve this objective a transformer-based model has been trained on a well-curated freely available paper corpus, PubMed. The paper describes multiple optimization procedures that were employed to obtain the best bias-variance trade-off, focusing on embedding size and network depth. In this context, the model's ability to discover sets of genes implicated in diseases and pathways was assessed through cross-validation. A simple assumption guided the procedure: the network had no direct knowledge of pathways and diseases but learned genes' similarities and the interactions among them. Moreover, to further investigate the space where the neural network represents genes, the dimensionality of the embedding was reduced, and the results were projected onto a human-comprehensible space. In conclusion, a set of use cases illustrates the algorithm's potential applications in a real word setting. | 翻訳日:2023-03-24 03:42:03 公開日:2023-03-22 |
# 頑健な視覚質問応答のための生成バイアス Generative Bias for Robust Visual Question Answering ( http://arxiv.org/abs/2208.00690v3 ) ライセンス: Link先を確認 | Jae Won Cho, Dong-jin Kim, Hyeonggon Ryu, In So Kweon | (参考訳) VQA(Visual Question Answering)のタスクは、データセット内のバイアスを利用して最終的な予測を行うVQAモデルの問題に悩まされていることが知られている。
各種のアンサンブルに基づくデバイアス法が提案され、ロバストなターゲットモデルを訓練するために、追加モデルにバイアスを与えるように意図的に訓練されている。
しかし、これらの手法は、トレーニングデータのラベル統計や単一のモーダル分岐からモデルに対するバイアスを計算する。
本研究では,対象のVQAモデルが抱えるバイアスをよりよく学習するために,ターゲットモデル(GenB)から直接バイアスモデルを学習するための生成法を提案する。
特に、genbは生成ネットワークを使用して、対象モデルのバイアスを、敵の目的と知識の蒸留の組み合わせを通して学習する。
次に、GenBをバイアスモデルとしてターゲットモデルをデバイアス化し、VQA-CP2、VQA-CP1、GQA-OOD、VQA-CEなどの様々なVQAバイアスデータセットに対する手法の効果を広範な実験を通して示し、VQA-CP2上のLXMERTアーキテクチャによる最先端の結果を示す。 The task of Visual Question Answering (VQA) is known to be plagued by the issue of VQA models exploiting biases within the dataset to make its final prediction. Various previous ensemble based debiasing methods have been proposed where an additional model is purposefully trained to be biased in order to train a robust target model. However, these methods compute the bias for a model simply from the label statistics of the training data or from single modal branches. In this work, in order to better learn the bias a target VQA model suffers from, we propose a generative method to train the bias model directly from the target model, called GenB. In particular, GenB employs a generative network to learn the bias in the target model through a combination of the adversarial objective and knowledge distillation. We then debias our target model with GenB as a bias model, and show through extensive experiments the effects of our method on various VQA bias datasets including VQA-CP2, VQA-CP1, GQA-OOD, and VQA-CE, and show state-of-the-art results with the LXMERT architecture on VQA-CP2. | 翻訳日:2023-03-24 03:41:35 公開日:2023-03-22 |
# 自由フェルミオンの一般化された深部熱分解 Generalized Deep Thermalization for Free Fermions ( http://arxiv.org/abs/2207.13628v2 ) ライセンス: Link先を確認 | Maxime Lucas, Lorenzo Piroli, Jacopo De Nardis, Andrea De Luca | (参考訳) 非相互作用的孤立量子系において、局所サブシステムは通常非熱的定常状態に緩和される。
標準枠組みでは、システムの残りの情報は破棄され、そのような状態は一般化ギブスアンサンブル(gge)によって記述され、局所保存法によって課される制約を尊重しながらエントロピーを最大化する。
そこで本研究では,システム内の他の部分の投影計測を行い,その結果を記録することで構築した,最近導入された投影アンサンブル(PE)を特徴付ける。
強結合鎖におけるフェルミオンガウス状態の時間的進化に着目して、我々は局所保存法則から構成されたランダムアンサンブルを、ディープGE(Deep GGE)と呼ぶ。
無限温度の初期状態に対して、dGGE はガウス状態の多様体上の普遍的ハールランダムアンサンブルと一致することを示す。
無限温度と有限温度の両方において、モンテカルロ法を用いて、PEに対するdGGEの予測を数値的にテストする。
特に,状態共分散行列と絡み合いエントロピーの$k$-モーメントについて検討し,良好な一致を見いだした。
我々の研究は、カオスシステムや無限温度を超えた、投影されたアンサンブルの体系的な特徴づけに向けた第一歩となる。 In non-interacting isolated quantum systems out of equilibrium, local subsystems typically relax to non-thermal stationary states. In the standard framework, information on the rest of the system is discarded, and such states are described by a Generalized Gibbs Ensemble (GGE), maximizing the entropy while respecting the constraints imposed by the local conservation laws. Here we show that the latter also completely characterize a recently introduced projected ensemble (PE), constructed by performing projective measurements on the rest of the system and recording the outcomes. By focusing on the time evolution of fermionic Gaussian states in a tight-binding chain, we put forward a random ensemble constructed out of the local conservation laws, which we call deep GGE (dGGE). For infinite-temperature initial states, we show that the dGGE coincides with a universal Haar random ensemble on the manifold of Gaussian states. For both infinite and finite temperatures, we use a Monte Carlo approach to test numerically the predictions of the dGGE against the PE. We study in particular the $k$-moments of the state covariance matrix and the entanglement entropy, finding excellent agreement. Our work provides a first step towards a systematic characterization of projected ensembles beyond the case of chaotic systems and infinite temperatures. | 翻訳日:2023-03-24 03:40:54 公開日:2023-03-22 |
# クロス集中サンプリングによるマトリックスコンプリート:ブリッジング一様サンプリングとCURサンプリング Matrix Completion with Cross-Concentrated Sampling: Bridging Uniform Sampling and CUR Sampling ( http://arxiv.org/abs/2208.09723v2 ) ライセンス: Link先を確認 | HanQin Cai, Longxiu Huang, Pengyu Li, Deanna Needell | (参考訳) 均一サンプリングは行列補完文献において広く研究されているが、CURサンプリングは行と列のサンプルを通して低ランク行列を近似する。
残念ながら、両方のサンプリングモデルには、現実世界のアプリケーションにおける様々な状況に対する柔軟性がない。
本研究では,新しい,実装容易なサンプリング戦略であるクロス集中サンプリング(ccs)を提案する。
均一サンプリングとCURサンプリングをブリッジすることで、CCSはアプリケーションのサンプリングコストを削減できる柔軟性を提供する。
さらに, CCS ベースの行列補完に十分な条件を提供する。
さらに,提案したCSモデルに対して,ICURC(Iterative CUR Completion)と呼ばれる高効率な非凸アルゴリズムを提案する。
シミュレーション実験により,CCS と ICURC の合成および実世界のデータセットにおける一様サンプリングとそのベースラインアルゴリズムに対する経験的優位性を検証した。 While uniform sampling has been widely studied in the matrix completion literature, CUR sampling approximates a low-rank matrix via row and column samples. Unfortunately, both sampling models lack flexibility for various circumstances in real-world applications. In this work, we propose a novel and easy-to-implement sampling strategy, coined Cross-Concentrated Sampling (CCS). By bridging uniform sampling and CUR sampling, CCS provides extra flexibility that can potentially save sampling costs in applications. In addition, we also provide a sufficient condition for CCS-based matrix completion. Moreover, we propose a highly efficient non-convex algorithm, termed Iterative CUR Completion (ICURC), for the proposed CCS model. Numerical experiments verify the empirical advantages of CCS and ICURC against uniform sampling and its baseline algorithms, on both synthetic and real-world datasets. | 翻訳日:2023-03-24 03:32:00 公開日:2023-03-22 |
# 雑音線形ネットワークにおける非n局所相関の持続性 Persistency of non-n-local correlations in noisy linear networks ( http://arxiv.org/abs/2208.06861v3 ) ライセンス: Link先を確認 | Kaushiki Mukherjee, Indranil Chakrabarty and Ganesh Mylavarapu | (参考訳) 線形nローカルネットワークは量子リピータベースの絡み合い分布プロトコルと互換性がある。
絡み合い生成の誤り、ノイズ量子チャネル上の通信、測定における不完全性など、異なる不完全さの源は、そのようなネットワーク全体で量子性が崩壊する結果となる。
実用的な観点からは、異なる種類の雑音の存在下で量子ネットワーク相関の非古典性を分析することが不可欠となる。
現在の議論は、ノイズの多いネットワークシナリオにおける量子相関の非局所的特徴の形式的特徴を提供する。
この文脈では、非 n-局所性の持続性が導入されている。
このような概念は、ネットワーク相関の非n局所的特徴の減衰と、1つ以上の不完全な原因の存在下での線形ネットワークの長さの増加を分析するのに役立つ。 Linear n-local networks are compatible with quantum repeaters based entanglement distribution protocols. Different sources of imperfections such as error in entanglement generation, communication over noisy quantum channels and imperfections in measurements result in decay of quantumness across such networks. From practical perspectives it becomes imperative to analyze non classicality of quantum network correlations in presence of different types of noise. Present discussion provides a formal characterization of non n-local feature of quantum correlations in noisy network scenario. In this context, persistency of non n-locality has been introduced. Such a notion helps in analyzing decay of non n-local feature of network correlations with increasing length of the linear network in presence of one or more causes of imperfections. | 翻訳日:2023-03-24 03:30:51 公開日:2023-03-22 |
# 潜在サロゲート表現学習による長期因果効果の推定 Long-term Causal Effects Estimation via Latent Surrogates Representation Learning ( http://arxiv.org/abs/2208.04589v2 ) ライセンス: Link先を確認 | Ruichu Cai, Weilin Chen, Zeqin Yang, Shu Wan, Chen Zheng, Xiaoqing Yang, Jiecheng Guo | (参考訳) 短期的サロゲートに基づく長期的因果効果の推定は、マーケティングや医療など、多くの現実世界の応用において重要な問題である。
特定の領域での成功にもかかわらず、既存のほとんどの手法は、因果効果を理想主義的かつ単純化的な方法で推定し、短期的な結果の因果構造を無視し、それら全てを代理として扱う。
しかし、そのような方法は、短期的な結果の中で部分的に観察されたサロゲートがプロキシと混ざり合う現実のシナリオにはうまく適用できない。
そこで本研究では, サロゲートが観察されるか, 観察されているより現実的な状況において, 長期因果効果を推定するフレキシブルな手法であるレーザーを開発し, サーロゲートとプロキシの識別不能性を考慮して, 観測されたサーロゲートや潜在サロゲートのプロキシを区別することなく, 全てのサーロゲート候補の有効なサーロゲート全体を回収する。
回収されたサロゲートの助けを借りて、長期的因果効果の偏りのない見積もる。
実世界および半合成データセットの広範な実験結果から,提案手法の有効性を示す。 Estimating long-term causal effects based on short-term surrogates is a significant but challenging problem in many real-world applications, e.g., marketing and medicine. Despite its success in certain domains, most existing methods estimate causal effects in an idealistic and simplistic way - ignoring the causal structure among short-term outcomes and treating all of them as surrogates. However, such methods cannot be well applied to real-world scenarios, in which the partially observed surrogates are mixed with their proxies among short-term outcomes. To this end, we develop our flexible method, Laser, to estimate long-term causal effects in the more realistic situation that the surrogates are observed or have observed proxies.Given the indistinguishability between the surrogates and proxies, we utilize identifiable variational auto-encoder (iVAE) to recover the whole valid surrogates on all the surrogates candidates without the need of distinguishing the observed surrogates or the proxies of latent surrogates. With the help of the recovered surrogates, we further devise an unbiased estimation of long-term causal effects. Extensive experimental results on the real-world and semi-synthetic datasets demonstrate the effectiveness of our proposed method. | 翻訳日:2023-03-24 03:30:14 公開日:2023-03-22 |
# 超電導量子ビットの高速かつロバストな2量子ゲート Fast and Robust Geometric Two-Qubit Gates for Superconducting Qubits and beyond ( http://arxiv.org/abs/2208.04249v2 ) ライセンス: Link先を確認 | F. Setiawan, Peter Groszkowski, Aashish A. Clerk | (参考訳) 断熱進化に基づく量子プロトコルは制御パルスの不完全性やシステムの不確実性に対して著しく頑健である。
量子状態転送や単一量子ビットゲートなどの量子演算では断熱プロトコルがうまく実装されているが、幾何学的2量子ビットゲートへのそれらの使用は依然として課題である。
本稿では,キュービット間の相互作用が補助システム(バスやカプラなど)によって媒介されるマルチレベルキュービットシステムにおいて,ロバストな幾何学的2量子ビットゲートを実現する汎用スキームを提案する。
提案手法はStimulated Raman Adiabatic Passage (STIRAP) を用いているが、原子プラットフォーム向けに提案されたSTIRAPベースのゲートよりも大幅にシンプルであり、制御音や補助状態が少なくなり、汎用的な分散相互作用のみを利用する必要がある。
我々はまた、我々のゲートをショートカット・トゥ・アディバチティティ・アプローチで加速し、高速かつ比較的堅牢なゲートを実現できることを示す。
補助系に結合した2つのフラクソニウム量子ビットからなるパラメトリック変調超伝導回路における2量子ゲートの性能に関する包括的理論的解析を行った。 Quantum protocols based on adiabatic evolution are remarkably robust against imperfections of control pulses and system uncertainties. While adiabatic protocols have been successfully implemented for quantum operations such as quantum state transfer and single-qubit gates, their use for geometric two-qubit gates remains a challenge. In this paper, we propose a general scheme to realize robust geometric two-qubit gates in multi-level qubit systems where the interaction between the qubits is mediated by an auxiliary system (such as a bus or coupler). While our scheme utilizes Stimulated Raman Adiabatic Passage (STIRAP), it is substantially simpler than STIRAP-based gates that have been proposed for atomic platforms, requiring fewer control tones and ancillary states, as well as utilizing only a generic dispersive interaction. We also show how our gate can be accelerated using a shortcuts-to-adiabaticity approach, allowing one to achieve a gate that is both fast and relatively robust. We present a comprehensive theoretical analysis of the performance of our two-qubit gate in a parametrically-modulated superconducting circuits comprising two fluxonium qubits coupled to an auxiliary system. | 翻訳日:2023-03-24 03:29:29 公開日:2023-03-22 |
# 統一・離散二部グラフ学習による効率的なマルチビュークラスタリング Efficient Multi-view Clustering via Unified and Discrete Bipartite Graph Learning ( http://arxiv.org/abs/2209.04187v2 ) ライセンス: Link先を確認 | Si-Guo Fang, Dong Huang, Xiao-Sha Cai, Chang-Dong Wang, Chaobo He, Yong Tang | (参考訳) 従来のグラフベースのマルチビュークラスタリングアルゴリズムは大きな進歩を遂げているが、そのほとんどがまだ3つの制限に直面している。
まず、それらはしばしば計算の複雑さに悩まされ、大規模なシナリオでの応用を制限する。
第二に、通常はシングルビューレベルでもビューコンセンサスレベルでもグラフ学習を行うが、シングルビューとコンセンサスグラフの共同学習の可能性は無視されることが多い。
第三に、それらの多くはスペクトル埋め込みの離散化にk平均に依存しており、離散クラスタ構造でグラフを直接学習する能力に欠ける。
そこで本稿では,統一型および離散型2部グラフ学習(udbgl)による効率的なマルチビュークラスタリング手法を提案する。
具体的には、アンカーベースの部分空間学習を用いて、複数のビューからビュー固有の二部グラフを学習し、その上で二部グラフ融合を利用して、適応重み学習を伴うビュー合意二部グラフを学習する。
さらに、融合二部グラフが(特定の数の連結成分を持つ)離散クラスタ構造を持つことを保証するために、ラプラシアン階制限が課される。
ビュー固有二部グラフ学習、ビュー合意二部グラフ学習、および個別クラスタ構造学習を統一目的関数に同時に定式化することにより、この最適化問題に対処し、特にデータサイズに線形時間的複雑性を有する分別クラスタリングソリューションを直接実現する効率的な最小化アルゴリズムを設計する。
さまざまなマルチビューデータセットの実験は、UDBGLアプローチの堅牢性と効率を実証しています。
コードはhttps://github.com/huangdonghere/udbglで入手できる。 Although previous graph-based multi-view clustering algorithms have gained significant progress, most of them are still faced with three limitations. First, they often suffer from high computational complexity, which restricts their applications in large-scale scenarios. Second, they usually perform graph learning either at the single-view level or at the view-consensus level, but often neglect the possibility of the joint learning of single-view and consensus graphs. Third, many of them rely on the k-means for discretization of the spectral embeddings, which lack the ability to directly learn the graph with discrete cluster structure. In light of this, this paper presents an efficient multi-view clustering approach via unified and discrete bipartite graph learning (UDBGL). Specifically, the anchor-based subspace learning is incorporated to learn the view-specific bipartite graphs from multiple views, upon which the bipartite graph fusion is leveraged to learn a view-consensus bipartite graph with adaptive weight learning. Further, the Laplacian rank constraint is imposed to ensure that the fused bipartite graph has discrete cluster structures (with a specific number of connected components). By simultaneously formulating the view-specific bipartite graph learning, the view-consensus bipartite graph learning, and the discrete cluster structure learning into a unified objective function, an efficient minimization algorithm is then designed to tackle this optimization problem and directly achieve a discrete clustering solution without requiring additional partitioning, which notably has linear time complexity in data size. Experiments on a variety of multi-view datasets demonstrate the robustness and efficiency of our UDBGL approach. The code is available at https://github.com/huangdonghere/UDBGL. | 翻訳日:2023-03-24 03:22:34 公開日:2023-03-22 |
# 光機械-界面誘起強スピン-マグノンカップリング Optomechanical-interface-induced strong spin-magnon coupling ( http://arxiv.org/abs/2208.12988v3 ) ライセンス: Link先を確認 | Wei Xiong, Mingfeng Wang, Guo-Qiang Zhang, Jiaojiao Chen | (参考訳) 強い長距離スピン-マグノン結合は、固体量子情報処理と単一量子ビット操作に不可欠である。
本稿では,共振型共振器と共振した2つの共振器からなる光機械系が量子界面として機能するハイブリッド型光機械キャビティ・スピン・マグノン系において,強いスピン・マグノン結合を実現する手法を提案する。
メカニカルモードを除去することにより、2つのキャビティの位置合わせ結合と2モードスクイーズを誘導する。
スクイーズ表示では、スピン光子、マグノン光子および光子光子結合強度を指数的に増幅し、2つのキャビティの強く結合されたモードにより、下および上枝分極(LBP, UBP)を生成する。
LBPの臨界特性を利用すると、スピン量子ビット(マグノン)とLPPとの結合が大幅に向上し、スピン量子ビット(マグノン)とUDPの結合が完全に抑制される。
分散状態では、強いスピン-マグノン結合は仮想LPPによって誘導され、量子状態交換が可能である。
提案手法は,マグノン系ハイブリッドシステムの構築と,オプティメカルインタフェースを用いた固体量子情報処理を実現するための有望なプラットフォームを提供する。 Strong long-distance spin-magnon coupling is essential for solid-state quantum information processing and single qubit manipulation. Here, we propose an approach to realize strong spin-magnon coupling in a hybrid optomechanical cavity-spin-magnon system, where the optomechanical system, consisting of two cavities coupled to a common high-frequency mechanical resonator, acts as quantum interface. By eliminating the mechanical mode, a position-position coupling and two-mode squeezing of two cavities are induced. In the squeezing presentation, the spin-photon, magnon-photon and photon-photon coupling strengths are exponentially amplified, thus lower- and upper-branch polaritons (LBP and UBP) are generated by strongly coupled squeezed modes of two cavities. Utilizing the critical property of the LBP, the coupling between the spin qubit (magnon) and LBP is greatly enhanced, while the coupling between the spin qubit (magnon) and UBP is fully suppressed. In the dispersive regime, strong and tunable spin-magnon coupling is induced by the virtual LBP, allowing quantum state exchange between them. Our proposal provides a promising platform to construct magnon-based hybrid systems and realize solid-state quantum information processing with optomechanical interfaces. | 翻訳日:2023-03-24 03:20:58 公開日:2023-03-22 |
# Kupczynski の文脈局所因果確率モデルはベルの定理によって制約される Kupczynski's Contextual Locally Causal Probabilistic Models are constrained by Bell's theorem ( http://arxiv.org/abs/2208.09930v3 ) ライセンス: Link先を確認 | Richard D. Gill and Justo Pastor Lambare | (参考訳) マリアン・クプシンスキーは一連の論文で、ベルの定理は測定器を記述する文脈的設定依存パラメータを正しく考慮すれば回避できると主張した。
これは事実ではないことを示す。
初期の出現にもかかわらず、クプシンキの文脈的局所因果確率モデルの概念は数学的にはベル局所隠れ変数モデルの特別な場合である。
したがって、たとえ彼が提案した方法で文脈性を考慮するとしても、ベル-CHSHの不等式は導出可能である。
量子力学と局所実在論(クプチンスキーの主張による概念の拡大を含む)は互いに相容れない。
さらなる検査の結果、クプチンスキーは実際に検出の抜け穴に落ちていることがわかった。
2015年以降、ベル・チェシュの不等式に違反する多くの抜け穴のない実験が行われており、そのような実験の他の不完全さにもかかわらず、クプチンスキーの局所実在論への脱出ルートは入手できない。 In a sequence of papers, Marian Kupczynski has argued that Bell's theorem can be circumvented if one takes correct account of contextual setting-dependent parameters describing measuring instruments. We show that this is not true. Despite first appearances, Kupczynksi's concept of a contextual locally causal probabilistic model is mathematically a special case of a Bell local hidden variables model. Thus, even if one takes account of contextuality in the way he suggests, the Bell-CHSH inequality can still be derived. Violation thereof by quantum mechanics cannot be easily explained away: quantum mechanics and local realism (including Kupczynski's claimed enlargement of the concept) are not compatible with one another. Further inspection shows that Kupczynski is actually falling back on the detection loophole. Since 2015, numerous loophole-free experiments have been performed, in which the Bell-CHSH inequality is violated, so despite any other possible imperfections of such experiments, Kupczynski's escape route for local realism is not available | 翻訳日:2023-03-24 03:19:52 公開日:2023-03-22 |
# 脳波データに対する領域適応に対するデータ正規化の効果について On The Effects Of Data Normalisation For Domain Adaptation On EEG Data ( http://arxiv.org/abs/2210.01081v2 ) ライセンス: Link先を確認 | Andrea Apicella, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete | (参考訳) 機械学習(ML)の文献では、よく知られた問題はデータセットシフトの問題であり、ML標準仮説とは違って、トレーニングとテストセットのデータは異なる確率分布に従うことができ、MLシステムの一般化性能が低くなる。
この問題は脳-コンピュータインタフェース(BCI)の文脈で強く感じられ、脳波(EEG)のような生体信号が頻繁に用いられる。
実際、脳波信号は時間とともに異なる被験者の間で非常に非定常である。
この問題を解決するために提案されたいくつかのソリューションは、ドメイン適応(da)のような最近のトランスファー学習アプローチに基づいている。
しかし、いくつかのケースでは、改善の実際の原因はあいまいである。
本稿では,データ正規化の影響,あるいはDA手法と併用した標準化戦略について述べる。
特に, \textit{seed}, \textit{deap}, \textit{bci competition iv 2a} eegデータセットを用いて,いくつかのよく知られたda法を使わずに適用した異なる正規化戦略の影響を実験的に評価し,得られた性能を比較した。
その結果、DAシナリオにおいて正規化戦略の選択は分類器のパフォーマンスにおいて重要な役割を担い、興味深いことに、いくつかのケースでは、適切な正規化スキーマのみを使用することでDAテクニックを上回ります。 In the Machine Learning (ML) literature, a well-known problem is the Dataset Shift problem where, differently from the ML standard hypothesis, the data in the training and test sets can follow different probability distributions, leading ML systems toward poor generalisation performances. This problem is intensely felt in the Brain-Computer Interface (BCI) context, where bio-signals as Electroencephalographic (EEG) are often used. In fact, EEG signals are highly non-stationary both over time and between different subjects. To overcome this problem, several proposed solutions are based on recent transfer learning approaches such as Domain Adaption (DA). In several cases, however, the actual causes of the improvements remain ambiguous. This paper focuses on the impact of data normalisation, or standardisation strategies applied together with DA methods. In particular, using \textit{SEED}, \textit{DEAP}, and \textit{BCI Competition IV 2a} EEG datasets, we experimentally evaluated the impact of different normalization strategies applied with and without several well-known DA methods, comparing the obtained performances. It results that the choice of the normalisation strategy plays a key role on the classifier performances in DA scenarios, and interestingly, in several cases, the use of only an appropriate normalisation schema outperforms the DA technique. | 翻訳日:2023-03-24 03:03:54 公開日:2023-03-22 |
# 間隔におけるシュウィンガーモデル:解析結果とDMRG Schwinger model on an interval: analytic results and DMRG ( http://arxiv.org/abs/2210.00297v2 ) ライセンス: Link先を確認 | Takuya Okuda | (参考訳) 区間上の1+1$次元の量子電磁力学(シュウィンガーモデル)は有限次元ヒルベルト空間との格子の離散化を認め、量子およびテンソルネットワークシミュレーションの試験台としてしばしば用いられる。
本研究では連続体理論と格子理論の境界条件の正確なマッピングを明らかにする。
特にシミュレーションで一般的に用いられるガウスの法則の制約は電荷密度に強い境界効果を生じさせ、分数化電荷の出現を反映していることを示す。
さらに、マスレスシュウィンガーモデルにおける局所可観測物の正確な解析結果をボゾン化することによって得られる。
これらの解析結果を密度行列再正規化群 (dmrg) 法によるシミュレーション結果と比較し, 良好な一致を得た。 Quantum electrodynamics in $1+1$ dimensions (Schwinger model) on an interval admits lattice discretization with a finite-dimensional Hilbert space, and is often used as a testbed for quantum and tensor network simulations. In this work we clarify the precise mapping between the boundary conditions in the continuum and lattice theories. In particular we show that the conventional Gauss law constraint commonly used in simulations induces a strong boundary effect on the charge density, reflecting the appearance of fractionalized charges. Further, we obtain by bosonization a number of exact analytic results for local observables in the massless Schwinger model. We compare these analytic results with the simulation results obtained by the density matrix renormalization group (DMRG) method and find excellent agreements. | 翻訳日:2023-03-24 03:03:30 公開日:2023-03-22 |
# 人間の運動表現の学習 : 統一的な視点 Learning Human Motion Representations: A Unified Perspective ( http://arxiv.org/abs/2210.06551v2 ) ライセンス: Link先を確認 | Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang | (参考訳) 本稿では,大規模・異種データ資源から人間の動作表現を学習し,人間中心のビデオ課題に取り組むための統一的な視点を提案する。
具体的には,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,動きエンコーダを訓練する事前学習ステージを提案する。
この方法で得られた運動表現は、人の動きに関する幾何学的、運動学的、物理的知識を取り入れており、容易に複数の下流タスクに転送できる。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
骨格関節の長距離時空間的関係を包括的かつ適応的に捉え、スクラッチから訓練された場合の最低3次元ポーズ推定誤差を例示する。
さらに,提案手法は,学習した動作表現の汎用性を示す単純な回帰ヘッド(1-2層)で事前学習した動きエンコーダを微調整することで,3つの下流タスクの最先端性能を実現する。 We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations. | 翻訳日:2023-03-24 02:54:19 公開日:2023-03-22 |
# 直交非負行列因子分解 : 最大エントロピー原理アプローチ Orthogonal Non-negative Matrix Factorization: a Maximum-Entropy-Principle Approach ( http://arxiv.org/abs/2210.02672v2 ) ライセンス: Link先を確認 | Salar Basiri, Mustafa Kapadia, Srinivasa Salapaka | (参考訳) 本稿では, 2つの非負行列, 特徴行列, 混合行列の積によって入力データ行列を近似することを目的として, 直交非負行列分解 (onmf) 問題を解く新しい手法を提案する。
我々は,ONMFを特定の施設配置問題(FLP)と解釈し,FLPの最大エントロピー原理に基づく解をONMF問題に適用する方法について述べる。
提案手法は,両者の非負性性を確保しつつ,特徴量や混合行列の直交性と疎性を保証する。
さらに,本手法では,ONMFに必要なハイパーパラメータである「真の」特徴の量的評価法を開発した。
提案手法の評価は, 合成データセットおよび標準遺伝子マイクロアレイデータセットを用いて行った結果, 類似の手法と比較して, 空間性, 直交性, 性能速度が有意に向上し, 再構成誤差が同等あるいは改善された。 In this paper, we introduce a new methodology to solve the orthogonal nonnegative matrix factorization (ONMF) problem, where the objective is to approximate an input data matrix by a product of two nonnegative matrices, the features matrix and the mixing matrix, where one of them is orthogonal. We show how the ONMF can be interpreted as a specific facility-location problem (FLP), and adapt a maximum-entropy-principle based solution for FLP to the ONMF problem. The proposed approach guarantees orthogonality and sparsity of the features or the mixing matrix, while ensuring nonnegativity of both. Additionally, our methodology develops a quantitative characterization of ``true" number of underlying features - a hyperparameter required for the ONMF. An evaluation of the proposed method conducted on synthetic datasets, as well as a standard genetic microarray dataset indicates significantly better sparsity, orthogonality, and performance speed compared to similar methods in the literature, with comparable or improved reconstruction errors. | 翻訳日:2023-03-24 02:52:27 公開日:2023-03-22 |
# 機械学習アルゴリズムにおける次元削減手法の実験的検討と心理計測への応用 An Experimental Study of Dimension Reduction Methods on Machine Learning Algorithms with Applications to Psychometrics ( http://arxiv.org/abs/2210.13230v3 ) ライセンス: Link先を確認 | Sean H. Merritt and Alexander P. Christensen | (参考訳) 解釈可能な機械学習モデルの開発は、ますます重要な問題になっている。
データサイエンティストが解釈可能なモデルを開発する方法の1つは、次元削減技術を使用することである。
本稿では,探索グラフ解析 (EGA) と一意変数解析 (UVA) と呼ばれるネットワーク心理計測学の2つの手法を含む,いくつかの次元削減手法について検討する。
我々はEGAとUVAを、機械学習文献(主成分分析と独立成分分析)に共通する他の2つの次元削減技術と比較した。
EGA と UVA は,他の還元技術と同様に機能し,還元しないことを示す。
従来の文献と一致して,次元減少は変数の減少を伴わずに減少し,増大し,あるいは精度が同じであることを示す。
仮の結果は、次元の縮小が分類タスクに使用する場合のパフォーマンス向上につながる傾向があることを見出した。 Developing interpretable machine learning models has become an increasingly important issue. One way in which data scientists have been able to develop interpretable models has been to use dimension reduction techniques. In this paper, we examine several dimension reduction techniques including two recent approaches developed in the network psychometrics literature called exploratory graph analysis (EGA) and unique variable analysis (UVA). We compared EGA and UVA with two other dimension reduction techniques common in the machine learning literature (principal component analysis and independent component analysis) as well as no reduction to the variables real data. We show that EGA and UVA perform as well as the other reduction techniques or no reduction. Consistent with previous literature, we show that dimension reduction can decrease, increase, or provide the same accuracy as no reduction of variables. Our tentative results find that dimension reduction tends to lead to better performance when used for classification tasks. | 翻訳日:2023-03-24 02:33:57 公開日:2023-03-22 |
# 不均一エネルギー材料のマルチスケール衝撃-起爆シミュレーションにおけるエネルギー局在に関する物理認識深層学習モデル A physics-aware deep learning model for energy localization in multiscale shock-to-detonation simulations of heterogeneous energetic materials ( http://arxiv.org/abs/2211.04561v2 ) ライセンス: Link先を確認 | Phong C.H. Nguyen, Yen-Thi Nguyen, Pradeep K. Seshadri, Joseph B. Choi, H.S. Udaykumar, and Stephen Baek | (参考訳) 不均一エネルギー材料(EM)における衝撃-起爆遷移(SDT)の予測シミュレーションは、そのエネルギー放出と感度の設計と制御に不可欠である。
SDTにおけるEMの熱力学の複雑さのため、マクロスケール応答とサブグリッドメソスケールのエネルギー局在を正確に捉える必要がある。
本研究は,emのsdtシミュレーションのための効率的かつ高精度なマルチスケールフレームワークを提案する。
本研究では, 深層学習を用いたSDTシミュレーションのための新しい手法を提案し, 衝撃開始EMマイクロ構造のメソスケールエネルギー局在をモデル化する。
提案するマルチスケールモデリングフレームワークは,2つの段階に分けられる。
第一に, 物理認識型リカレント畳み込みニューラルネットワーク(parc)を用いて, 衝撃誘起不均質em微細構造のメソスケールエネルギー局在をモデル化する。
PARCは、入力衝撃強度が異なる加圧HMX材料の組織内におけるホットスポット点火および成長の直接数値シミュレーション(DNS)を用いて訓練される。
訓練後、PARCはマクロスケールSDTシミュレーションのためのホットスポット点火および成長速度の供給に使用される。
PARCは,計算コストを大幅に削減し,サブグリッド物理の表現性の向上を図りながら,マルチスケールシミュレーションフレームワークにおける代理モデルの役割を担っている。
提案するマルチスケールモデリング手法は,高性能で安全なエネルギー材料の設計において,材料科学者に新たなツールを提供する。 Predictive simulations of the shock-to-detonation transition (SDT) in heterogeneous energetic materials (EM) are vital to the design and control of their energy release and sensitivity. Due to the complexity of the thermo-mechanics of EM during the SDT, both macro-scale response and sub-grid mesoscale energy localization must be captured accurately. This work proposes an efficient and accurate multiscale framework for SDT simulations of EM. We introduce a new approach for SDT simulation by using deep learning to model the mesoscale energy localization of shock-initiated EM microstructures. The proposed multiscale modeling framework is divided into two stages. First, a physics-aware recurrent convolutional neural network (PARC) is used to model the mesoscale energy localization of shock-initiated heterogeneous EM microstructures. PARC is trained using direct numerical simulations (DNS) of hotspot ignition and growth within microstructures of pressed HMX material subjected to different input shock strengths. After training, PARC is employed to supply hotspot ignition and growth rates for macroscale SDT simulations. We show that PARC can play the role of a surrogate model in a multiscale simulation framework, while drastically reducing the computation cost and providing improved representations of the sub-grid physics. The proposed multiscale modeling approach will provide a new tool for material scientists in designing high-performance and safer energetic materials. | 翻訳日:2023-03-24 02:27:40 公開日:2023-03-22 |
# テキスト認識のための自己教師付き文字対文字蒸留 Self-supervised Character-to-Character Distillation for Text Recognition ( http://arxiv.org/abs/2211.00288v3 ) ライセンス: Link先を確認 | Tongkun Guan, Wei Shen, Xue Yang, Qi Feng, Zekun Jiang | (参考訳) 複雑なテキスト画像(不規則な構造、低い解像度、重い咬合、不均一な照明など)を扱う場合、既存の教師付きテキスト認識手法はデータ格納型である。
これらの手法は、注釈付き実画像への依存を減らすために大規模な合成テキスト画像を用いるが、ドメインギャップは認識性能に制限がある。
したがって、自己教師付き学習によるラベルのない実画像上のロバストテキスト特徴表現の探索は良い解である。
しかし、既存の自己教師付きテキスト認識法は、水平軸に沿って視覚的な特徴を大まかに分割してシーケンスからシーケンスへの表現学習を行い、拡張の柔軟性を制限している。
そこで本研究では,汎用的な補修により汎用的なテキスト表現学習が容易な自己教師付き文字対文字蒸留法であるccdを提案する。
具体的には,自己教師付き文字セグメンテーションモジュールの設計により,ラベルなし実画像のキャラクタ構造を記述する。
これに続いて、CCDは、画像からの2つの拡張ビュー間の変換行列を用いて、フレキシブルな拡張の下でペアのアライメントを維持しながら、局所的な文字の多様性を容易に向上する。
実験の結果、CCDはテキスト認識では1.38%、テキストセグメンテーションでは1.7%、テキスト超解像では0.24dB、SSIMでは0.0321となっている。
コードはまもなくリリースされる。 When handling complicated text images (e.g., irregular structures, low resolution, heavy occlusion, and uneven illumination), existing supervised text recognition methods are data-hungry. Although these methods employ large-scale synthetic text images to reduce the dependence on annotated real images, the domain gap still limits the recognition performance. Therefore, exploring the robust text feature representations on unlabeled real images by self-supervised learning is a good solution. However, existing self-supervised text recognition methods conduct sequence-to-sequence representation learning by roughly splitting the visual features along the horizontal axis, which limits the flexibility of the augmentations, as large geometric-based augmentations may lead to sequence-to-sequence feature inconsistency. Motivated by this, we propose a novel self-supervised Character-to-Character Distillation method, CCD, which enables versatile augmentations to facilitate general text representation learning. Specifically, we delineate the character structures of unlabeled real images by designing a self-supervised character segmentation module. Following this, CCD easily enriches the diversity of local characters while keeping their pairwise alignment under flexible augmentations, using the transformation matrix between two augmented views from images. Experiments demonstrate that CCD achieves state-of-the-art results, with average performance gains of 1.38% in text recognition, 1.7% in text segmentation, 0.24 dB (PSNR) and 0.0321 (SSIM) in text super-resolution. Code will be released soon. | 翻訳日:2023-03-24 02:25:16 公開日:2023-03-22 |
# GPTQ: 生成事前学習変圧器の高精度後量子化 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers ( http://arxiv.org/abs/2210.17323v2 ) ライセンス: Link先を確認 | Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh | (参考訳) GPT(英語版)やOPT(英語版)として知られる生成事前学習トランスフォーマーモデルは、複雑な言語モデリングタスクにおけるブレークスルー性能だけでなく、計算と記憶のコストも非常に高い。
特に、その巨大なサイズのため、大規模で高精度なGPTモデルの推測でさえ、そのようなモデルのユーザビリティを制限する複数のパフォーマンスGPUを必要とする可能性がある。
モデル圧縮によるこのプレッシャーの軽減に向けた新たな取り組みがあるが、既存の圧縮技術の適用性と性能は、GPTモデルのスケールと複雑さによって制限されている。
本稿では,この課題に対処し,高正確かつ高効率な,近似的な2次情報に基づく新しい単発重量量子化法であるgptqを提案する。
特にgptqは、約4gpu時間で175億のパラメータを持つgptモデルを量子化でき、ビット幅を3ビットから4ビットに減らし、圧縮されていないベースラインと比較して精度を低下させる。
提案手法は,従来提案した1ショット量子化法と比較して圧縮ゲインを2倍以上にし,精度を保ち,生成推論のための1つのGPU内で175億パラメータモデルを実行することができる。
さらに,重みを2ビットあるいは3値の量子化レベルに定量化する極端量子化方式においても,本手法が妥当な精度が得られることを示す。
これらの改善は、よりコスト効率の良いGPU(NVIDIA A6000)を使用する場合、ハイエンドGPU(NVIDIA A100)と4.5倍(NVIDIA A6000)を使用する場合、FP16よりも3.25倍のエンドツーエンドの推論スピードアップに活用できることを実験的に示す。
実装はhttps://github.com/ist-daslab/gptqで利用可能である。 Generative Pre-trained Transformer models, known as GPT or OPT, set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their massive size, even inference for large, highly-accurate GPT models may require multiple performant GPUs, which limits the usability of such models. While there is emerging work on relieving this pressure via model compression, the applicability and performance of existing compression techniques is limited by the scale and complexity of GPT models. In this paper, we address this challenge, and propose GPTQ, a new one-shot weight quantization method based on approximate second-order information, that is both highly-accurate and highly-efficient. Specifically, GPTQ can quantize GPT models with 175 billion parameters in approximately four GPU hours, reducing the bitwidth down to 3 or 4 bits per weight, with negligible accuracy degradation relative to the uncompressed baseline. Our method more than doubles the compression gains relative to previously-proposed one-shot quantization methods, preserving accuracy, allowing us for the first time to execute an 175 billion-parameter model inside a single GPU for generative inference. Moreover, we also show that our method can still provide reasonable accuracy in the extreme quantization regime, in which weights are quantized to 2-bit or even ternary quantization levels. We show experimentally that these improvements can be leveraged for end-to-end inference speedups over FP16, of around 3.25x when using high-end GPUs (NVIDIA A100) and 4.5x when using more cost-effective ones (NVIDIA A6000). The implementation is available at https://github.com/IST-DASLab/gptq. | 翻訳日:2023-03-24 02:24:35 公開日:2023-03-22 |
# marlin: 顔ビデオ表現学習のためのマスク付きオートエンコーダ MARLIN: Masked Autoencoder for facial video Representation LearnINg ( http://arxiv.org/abs/2211.06627v3 ) ライセンス: Link先を確認 | Zhixi Cai, Shreya Ghosh, Kalin Stefanov, Abhinav Dhall, Jianfei Cai, Hamid Rezatofighi, Reza Haffari, Munawar Hayat | (参考訳) 本稿では,表情属性認識 (far), 表情認識 (fer), ディープフェイク検出 (dfd), 口唇同期 (ls) などの様々な顔分析タスクにおいて, 映像から普遍的な表情表現を学習するための自己教師ありアプローチを提案する。
提案するフレームワークはMARLINという顔ビデオの自動エンコーダで,十分に利用可能なウェブクローリング顔ビデオから,非常に堅牢で汎用的な顔埋め込みを学習する。
難しい補助課題として、MARLINは、目、鼻、口、唇、皮膚を含む密集した顔領域から顔の時空間的詳細を再構成し、局所的および世界的側面を捉え、汎用的で伝達可能な特徴をコード化するのに役立つ。
様々な下流タスクに関する様々な実験を通じて、MARLINは優れた顔ビデオエンコーダであり、特徴抽出器であり、FAR(1.13%)、FER(2.64%)、DFD(1.86%)、LS(29.36%)、低データ体制でも一貫して機能することを示した。
私たちのコードとモデルはhttps://github.com/ControlNet/MARLIN で利用可能です。 This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our code and models are available at https://github.com/ControlNet/MARLIN . | 翻訳日:2023-03-24 02:17:22 公開日:2023-03-22 |
# OpenGait: より良い実践性に向けた歩行認識の再考 OpenGait: Revisiting Gait Recognition Toward Better Practicality ( http://arxiv.org/abs/2211.06597v3 ) ライセンス: Link先を確認 | Chao Fan and Junhao Liang and Chuanfu Shen and Saihui Hou and Yongzhen Huang and Shiqi Yu | (参考訳) 歩行認識は長距離識別技術の中で最も重要であり、研究と産業の両方で人気が高まっている。
屋内データセットでの大きな進歩にもかかわらず、多くの証拠は、歩行認識技術が野生ではうまく機能していないことを示している。
さらに重要なことに、屋内データセットから引き出されたいくつかの結論が実際のアプリケーションに一般化できないこともわかりました。
したがって,本論文の主な目的は,性能向上のための特定のモデルだけではなく,実用性向上のための総合的なベンチマーク研究を行うことである。
そこで我々はまず,OpenGaitという,柔軟かつ効率的な歩行認識コードベースを開発した。
OpenGaitをベースとして,最近の歩行認識の発達を,アブレーション実験の再実施によって深く再考する。
我々は、ある前のオオカミのいくつかの不完全な部分と新しい洞察を検出する。
これらの発見に触発されて、構造的にシンプルで、経験的に強力で、事実上堅牢なベースラインモデルであるGaitBaseを開発した。
実験として,複数の公開データセット上で,現在行われている多くの歩行認識手法とgaitbaseを包括的に比較し,その結果から,gaitbaseは屋内や屋外の状況によらず,ほとんどのケースで著しく高い性能を達成していることが示唆された。
コードはhttps://github.com/ShiqiYu/OpenGait.comで入手できる。 Gait recognition is one of the most critical long-distance identification technologies and increasingly gains popularity in both research and industry communities. Despite the significant progress made in indoor datasets, much evidence shows that gait recognition techniques perform poorly in the wild. More importantly, we also find that some conclusions drawn from indoor datasets cannot be generalized to real applications. Therefore, the primary goal of this paper is to present a comprehensive benchmark study for better practicality rather than only a particular model for better performance. To this end, we first develop a flexible and efficient gait recognition codebase named OpenGait. Based on OpenGait, we deeply revisit the recent development of gait recognition by re-conducting the ablative experiments. Encouragingly,we detect some unperfect parts of certain prior woks, as well as new insights. Inspired by these discoveries, we develop a structurally simple, empirically powerful, and practically robust baseline model, GaitBase. Experimentally, we comprehensively compare GaitBase with many current gait recognition methods on multiple public datasets, and the results reflect that GaitBase achieves significantly strong performance in most cases regardless of indoor or outdoor situations. Code is available at https://github.com/ShiqiYu/OpenGait. | 翻訳日:2023-03-24 02:16:53 公開日:2023-03-22 |
# 教師なしコントラスト学習 Unbiased Supervised Contrastive Learning ( http://arxiv.org/abs/2211.05568v3 ) ライセンス: Link先を確認 | Carlo Alberto Barbano, Benoit Dufumier, Enzo Tartaglione, Marco Grangetto, Pietro Gori | (参考訳) 多くのデータセットは偏りがあり、それは、データセット内でのみターゲットクラスと高い相関を持つが、真の基盤となるデータの分布にはない、分かりやすい特徴を含んでいる。
このため、偏りのないデータから偏りのないモデルを学ぶことは、ここ数年で非常に重要な研究テーマとなっている。
本研究では,バイアスに対して頑健な表現を学習する問題に取り組む。
まず,偏りのあるデータを扱う場合,最近のコントラスト損失(インフォメーション,サッコンなど)がなぜ失敗するのかを明らかにするために,マージンに基づく理論的枠組みを提案する。
それに基づいて,教師付きコントラスト損失(epsilon-supinfonce)の新しい定式化を行い,正のサンプルと負のサンプルとの最小距離をより正確に制御する。
さらに,理論的な枠組みにより,超偏りのあるデータでも有効に機能する新しい偏り正規化損失であるfairklも提案する。
CIFAR10, CIFAR100, ImageNetなどの標準ビジョンデータセットの損失を検証し, Epsilon-SupInfoNCEによるFairKLの劣化能力を評価し, 野におけるバイアスの実例を含む多くのバイアス付きデータセットで最先端のパフォーマンスに到達する。 Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild. | 翻訳日:2023-03-24 02:15:28 公開日:2023-03-22 |
# EfficientTrain: ビジュアルバックボーンのトレーニングのための汎用的なカリキュラム学習 EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones ( http://arxiv.org/abs/2211.09703v2 ) ライセンス: Link先を確認 | Yulin Wang, Yang Yue, Rui Lu, Tianjiao Liu, Zhao Zhong, Shiji Song, Gao Huang | (参考訳) 現代のディープネットワークの優れたパフォーマンスは通常、高価なトレーニング手順が伴う。
本稿では視覚バックボーン(視覚変換器など)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
我々の研究は、深層ネットワークの固有学習ダイナミクスに着想を得ている:我々は、初期のトレーニングステージで、このモデルが、画像の低周波成分やデータ拡張前の元の情報など、各例内の"より分かりやすい"識別パターンを認識することを主に学んだことを実験的に示します。
この現象によって、モデルは常に各エポックでのトレーニングデータを活用し、カリキュラムは各例の「より簡単な」パターンのみを公開することから始まり、徐々に難しいパターンを導入するカリキュラムを提案する。
このアイデアを実現するために
1)入力のフーリエスペクトルにトリッピング演算を導入することにより、モデルが低周波成分のみから効率的に学習することができる。
2) オリジナル画像の特徴を明らかにすることは、より弱いデータ拡張を採用することにつながることを実証し、
3)統合
1)と
2) 欲求探索アルゴリズムを用いてカリキュラム学習スケジュールを設計する。
結果として得られたアプローチであるEfficientTrainは単純で汎用的だが驚くほど効果的だ。
ハイパーパラメータチューニングがなければ、ImageNet-1K/22Kでは精度を犠牲にすることなく、ResNet、ConvNeXt、DeiT、PVT、Swin、CSWinなどの様々な人気モデルのトレーニングウォール時間を1.5倍に削減できる。
また、自己指導型学習(MAEなど)にも有効である。
コードはhttps://github.com/LeapLabTHU/EfficientTrainで入手できる。 The superior performance of modern deep networks usually comes with a costly training procedure. This paper presents a new curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). Our work is inspired by the inherent learning dynamics of deep networks: we experimentally show that at an earlier training stage, the model mainly learns to recognize some 'easier-to-learn' discriminative patterns within each example, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this phenomenon, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the 'easier-to-learn' patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation, and 3) integrate 1) and 2) and design a curriculum learning schedule with a greedy-search algorithm. The resulting approach, EfficientTrain, is simple, general, yet surprisingly effective. In the absence of hyper-parameter tuning, it reduces the training wall-time of a wide variety of popular models (e.g., ResNet, ConvNeXt, DeiT, PVT, Swin, and CSWin) by >1.5x on ImageNet-1K/22K without sacrificing the accuracy. It is also effective for self-supervised learning (e.g., MAE). Code is available at https://github.com/LeapLabTHU/EfficientTrain. | 翻訳日:2023-03-24 02:09:00 公開日:2023-03-22 |
# ドレープネット:衣服の生成と自己監督ドレーピング DrapeNet: Garment Generation and Self-Supervised Draping ( http://arxiv.org/abs/2211.11277v3 ) ライセンス: Link先を確認 | Luca De Luigi and Ren Li and Beno\^it Guillard and Mathieu Salzmann and Pascal Fua | (参考訳) 任意の人体に素早く着る服をドレープする最近のアプローチは、大きなトレーニングセットの必要性をなくすために自己監督を利用する。
しかし,衣料品ごとに1つのネットワークを訓練し,その一般化能力を著しく制限するように設計されている。
私たちの研究では、複数の衣服をドレーピングするために単一のネットワークを訓練するために、自己スーパービジョンに頼っています。
これは、衣服を無符号距離場としてモデル化する生成ネットワークの潜在符号に基づく3次元変形場を予測することによって達成される。
我々のパイプラインは、あらゆるトポロジーの以前は見つからなかった衣服を生成・ドレープすることができ、その形状は潜在コードを操作することで編集できる。
完全に微分可能で,傾斜勾配による部分的観察(画像や3dスキャン)から服の正確な3dモデルを復元することができる。
私たちのコードはhttps://github.com/liren2515/DrapeNetで公開されています。 Recent approaches to drape garments quickly over arbitrary human bodies leverage self-supervision to eliminate the need for large training sets. However, they are designed to train one network per clothing item, which severely limits their generalization abilities. In our work, we rely on self-supervision to train a single network to drape multiple garments. This is achieved by predicting a 3D deformation field conditioned on the latent codes of a generative network, which models garments as unsigned distance fields. Our pipeline can generate and drape previously unseen garments of any topology, whose shape can be edited by manipulating their latent codes. Being fully differentiable, our formulation makes it possible to recover accurate 3D models of garments from partial observations -- images or 3D scans -- via gradient descent. Our code is publicly available at https://github.com/liren2515/DrapeNet . | 翻訳日:2023-03-24 01:58:44 公開日:2023-03-22 |
# ガウス状態を持つ連続変数系に対するLeggett-Garg違反 Leggett-Garg violations for continuous variable systems with gaussian states ( http://arxiv.org/abs/2211.10292v3 ) ライセンス: Link先を確認 | Clement Mawby, Jonathan Halliwell | (参考訳) マクロリアリズム(マクロリアリズム、英: Macrorealism、MR)とは、ある量は過去や将来の測定に関係なく常に一定の値を取ることができ、レゲット・ガルグの不等式(LG)を介して実験的にファルシフィケーションされるという世界観である。
この世界観を連続変数 $x$ によって記述される系のテストに適用し、量子調和振動子におけるガウス初期状態の場合、ディコトミック変数 $q = \textrm{sign}(x)$ の測定に対する lg の違反を求める。
初期の解析(C. Mawby と J. J. Halliwell, Phys. A 105, 022221 (2022))を拡張して、時間的相関式の解析式を求める。
パラメータ空間の探索により、2回のLGの不等式が3回と4回違反する重要な状況が明らかになった。
lg違反の物理像を得るために,基礎となる位置変数の連続性を利用して,関連する量子力学的電流,ボーム軌道,ウィグナー関数の解析を行う。
さらに,コヒーレント状態プロジェクタ,熱コヒーレント状態,圧縮状態を用いた解析LG試験を拡張した。 Macrorealism (MR) is the world view that certain quantities may take definite values at all times irrespective of past or future measurements and may be experimentally falsified via the Leggett-Garg (LG) inequalities. We put this world view to the test for systems described by a continuous variable $x$ by seeking LG violations for measurements of a dichotomic variable $Q = \textrm{sign}(x)$, in the case of gaussian initial states in a quantum harmonic oscillator. Extending our earlier analysis [C. Mawby and J. J. Halliwell, Phys. Rev. A 105, 022221 (2022)] we find analytic expressions for the temporal correlators. An exploration of parameter space reveals significant regimes in which the two-time LG inequalities are violated, and likewise at three and four times. To obtain a physical picture of the LG violations, we exploit the continuous nature of the underlying position variable and analyse the relevant quantum-mechanical currents, Bohm trajectories, and Wigner function. Further, we extend the analysis LG tests using coherent state projectors, thermal coherent states, and squeezed states. | 翻訳日:2023-03-24 01:57:20 公開日:2023-03-22 |
# 何が起きたのか:マルチモーダルマスクビデオ生成によるテキストガイドビデオの完成 Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation ( http://arxiv.org/abs/2211.12824v2 ) ライセンス: Link先を確認 | Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell | (参考訳) 最初のいくつかの静的フレームを与えられたビデオを生成することは、時間的コヒーレンスで合理的な将来のフレームを予測できるため、難しい。
ビデオ予測の他に、最後のフレームから巻き戻したり、頭と尾の間に埋め込む能力も重要であるが、ビデオ補完のために探索されることはめったにない。
ほんの数フレームのヒントから異なる結果が得られる可能性があるため、自然言語に従ってビデオ補完を行うシステムは、制御性を大幅に改善する可能性がある。
そこで本研究では,テキスト誘導ビデオ補完(TVC)という新たなタスクを導入し,命令で案内された部分フレームから映像を生成することをモデルに要求する。
次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。
トレーニング中、MMVGはビデオフレームを視覚トークンとマスクに識別し、そのほとんどが任意の時点からビデオ補完を行う。
推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
我々は、エゴセントリック、アニメーション、ゲームなど、様々なビデオシナリオでMMVGを評価する。
広汎な実験結果から,MMVGはTVCのテキスト誘導による高品質な視覚的外観の生成に有効であることが示唆された。 Generating a video given the first several static frames is challenging as it anticipates reasonable future frames with temporal coherence. Besides video prediction, the ability to rewind from the last frame or infilling between the head and tail is also crucial, but they have rarely been explored for video completion. Since there could be different outcomes from the hints of just a few frames, a system that can follow natural language to perform video completion may significantly improve controllability. Inspired by this, we introduce a novel task, text-guided video completion (TVC), which requests the model to generate a video from partial frames guided by an instruction. We then propose Multimodal Masked Video Generation (MMVG) to address this TVC task. During training, MMVG discretizes the video frames into visual tokens and masks most of them to perform video completion from any time point. At inference time, a single MMVG model can address all 3 cases of TVC, including video prediction, rewind, and infilling, by applying corresponding masking conditions. We evaluate MMVG in various video scenarios, including egocentric, animation, and gaming. Extensive experimental results indicate that MMVG is effective in generating high-quality visual appearances with text guidance for TVC. | 翻訳日:2023-03-24 01:49:30 公開日:2023-03-22 |
# ハンズ・アバター:モノクラー・ビデオによる無料のハンドアニメーションとレンダリング Hand Avatar: Free-Pose Hand Animation and Rendering from Monocular Video ( http://arxiv.org/abs/2211.12782v2 ) ライセンス: Link先を確認 | Xingyu Chen, Baoyuan Wang, Heung-Yeung Shum | (参考訳) 本稿では,手動アニメーションとレンダリングのための新しい表現であるHandAvatarについて述べる。
具体的には,まず,個人の手形に適合する高分解能メッシュトポロジとしてmano-hdモデルを開発した。
続いて、手動幾何学を骨ごとの剛性部分に分解し、ペア化された幾何符号化を再度分解して、一貫した占有場を導出する。
テクスチャモデリングでは,自己閉塞型シェーディングフィールド(SelF)を提案する。
SelFでは、乾燥可能なアンカーをMANO-HD表面に舗装し、さまざまな手ポーズの下でアルベド情報を記録する。
さらに, 姿勢非依存アルベドとポーズ依存イルミネーションのアンタングル化のための照明場を生成するために利用した光-表面関係を記述した。
モノクロビデオデータからトレーニングしたHandAvatarは、自由な手動アニメーションとレンダリングを同時に実現しつつ、優れた外観忠実性を実現します。
また,ハンダバタールが手外観編集の経路を提供することも実証した。
プロジェクトウェブサイト: https://seanchenxy.github.io/HandAvatarWeb We present HandAvatar, a novel representation for hand animation and rendering, which can generate smoothly compositional geometry and self-occlusion-aware texture. Specifically, we first develop a MANO-HD model as a high-resolution mesh topology to fit personalized hand shapes. Sequentially, we decompose hand geometry into per-bone rigid parts, and then re-compose paired geometry encodings to derive an across-part consistent occupancy field. As for texture modeling, we propose a self-occlusion-aware shading field (SelF). In SelF, drivable anchors are paved on the MANO-HD surface to record albedo information under a wide variety of hand poses. Moreover, directed soft occupancy is designed to describe the ray-to-surface relation, which is leveraged to generate an illumination field for the disentanglement of pose-independent albedo and pose-dependent illumination. Trained from monocular video data, our HandAvatar can perform free-pose hand animation and rendering while at the same time achieving superior appearance fidelity. We also demonstrate that HandAvatar provides a route for hand appearance editing. Project website: https://seanchenxy.github.io/HandAvatarWeb. | 翻訳日:2023-03-24 01:49:07 公開日:2023-03-22 |
# VoP: クロスモーダル検索のためのテキストビデオ協調プロンプトチューニング VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval ( http://arxiv.org/abs/2211.12764v3 ) ライセンス: Link先を確認 | Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan Li, Donglin Wang | (参考訳) 近年の多くの研究は、事前訓練されたCLIPをテキスト・ビデオ・モーダル検索に利用し、バックボーンに重いモジュールを追加して調整することで、より多くのパラメータを伴って膨大な計算負担をもたらすだけでなく、上流モデルからの知識を忘れてしまう。
本稿では,テキストビデオ検索タスクの効率的なチューニングのためのvop: text-video co-operative prompt tuningを提案する。
提案されたVoPはビデオとテキストの両方のプロンプトを備えたエンドツーエンドフレームワークであり、トレーニング可能なパラメータがわずか0.1%の強力なベースラインと見なすことができる。
さらに,ビデオの時空間特性に基づいて,トレーニング可能なパラメータの尺度の異なる性能向上のための3つの新しいビデオプロンプト機構を開発した。
VoP拡張の基本的な考え方は、それぞれ特定のトレーニング可能なプロンプトでフレーム位置、フレームコンテキスト、レイヤ関数をモデル化することである。
大規模な実験によると、拡張されたVoPは完全な微調整に比べて、パラメータのオーバーヘッドが6倍少ない5つのテキストビデオ検索ベンチマークで平均1.4%のR@1ゲインを達成した。
コードはhttps://github.com/bighuang624/vopで入手できる。 Many recent studies leverage the pre-trained CLIP for text-video cross-modal retrieval by tuning the backbone with additional heavy modules, which not only brings huge computational burdens with much more parameters, but also leads to the knowledge forgetting from upstream models. In this work, we propose the VoP: Text-Video Co-operative Prompt Tuning for efficient tuning on the text-video retrieval task. The proposed VoP is an end-to-end framework with both video & text prompts introducing, which can be regarded as a powerful baseline with only 0.1% trainable parameters. Further, based on the spatio-temporal characteristics of videos, we develop three novel video prompt mechanisms to improve the performance with different scales of trainable parameters. The basic idea of the VoP enhancement is to model the frame position, frame context, and layer function with specific trainable prompts, respectively. Extensive experiments show that compared to full fine-tuning, the enhanced VoP achieves a 1.4% average R@1 gain across five text-video retrieval benchmarks with 6x less parameter overhead. The code will be available at https://github.com/bighuang624/VoP. | 翻訳日:2023-03-24 01:48:45 公開日:2023-03-22 |
# AeDet: Azimuth-invariant Multi-view 3D Object Detection AeDet: Azimuth-invariant Multi-view 3D Object Detection ( http://arxiv.org/abs/2211.12501v2 ) ライセンス: Link先を確認 | Chengjian Feng, Zequn Jie, Yujie Zhong, Xiangxiang Chu and Lin Ma | (参考訳) 最近のLSSベースの多視点3Dオブジェクト検出は、畳み込み検出器を介してブリドアイビュー(BEV)の特徴を処理することで大幅に進歩した。
しかし、典型的な畳み込みは、BEV特徴の放射対称性を無視し、検出器最適化の難しさを高める。
BEVの特性の保存と最適化の容易化を目的として,アジマス同変畳み込み(AeConv)とアジマス同変アンカーを提案する。
AeConvのサンプリンググリッドは常に放射方向であり、方位不変なBEV特徴を学習することができる。
提案するアンカーにより,検出ヘッドは方位非関連目標の予測を学習できる。
さらに,カメラが分離した仮想深度を導入し,カメラ固有のパラメータの異なる画像の深度予測を統一する。
結果検出器は azimuth-equivariant detector (aedet) と呼ばれる。
AeDetは62.0%のNDSを達成し、PETRv2やBEVDepthといった最近の多視点3Dオブジェクト検出器をはるかに上回っている。
プロジェクトページ: https://fcjian.github.io/aedet。 Recent LSS-based multi-view 3D object detection has made tremendous progress, by processing the features in Brid-Eye-View (BEV) via the convolutional detector. However, the typical convolution ignores the radial symmetry of the BEV features and increases the difficulty of the detector optimization. To preserve the inherent property of the BEV features and ease the optimization, we propose an azimuth-equivariant convolution (AeConv) and an azimuth-equivariant anchor. The sampling grid of AeConv is always in the radial direction, thus it can learn azimuth-invariant BEV features. The proposed anchor enables the detection head to learn predicting azimuth-irrelevant targets. In addition, we introduce a camera-decoupled virtual depth to unify the depth prediction for the images with different camera intrinsic parameters. The resultant detector is dubbed Azimuth-equivariant Detector (AeDet). Extensive experiments are conducted on nuScenes, and AeDet achieves a 62.0% NDS, surpassing the recent multi-view 3D object detectors such as PETRv2 and BEVDepth by a large margin. Project page: https://fcjian.github.io/aedet. | 翻訳日:2023-03-24 01:48:23 公開日:2023-03-22 |
# PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework ( http://arxiv.org/abs/2211.11629v2 ) ライセンス: Link先を確認 | Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang Zhao, Changhong Fu | (参考訳) 知的ロボットには視覚物体追跡が不可欠である。
既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。
特に、ロバストな追跡が難しく、オンボード計算が制限されている無人航空機(uavs)では、レイテンシの問題が致命的になる可能性がある。
本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。
Kalman Filtersをトラッカーに付加する既存のソリューションとは異なり、PVT++はモーション情報だけでなく、トレーニング済みのほとんどのトラッカーモデルで豊富な視覚的知識を有効活用して堅牢な予測を行うことができる。
さらに,トレーニング・評価領域のギャップを埋めるために,PVT++が難易度が高く複雑なUAV追跡シーンに一般化できるようにするための相対的な動き係数を提案する。
これらの注意深い設計は、小容量軽量PVT++を広く有効なソリューションにした。
さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。
航空の観点からのロボットプラットフォームでの実証結果から、pvt++は様々なトラッカーで大幅なパフォーマンス向上を達成でき、以前のソリューションよりも高い精度を示し、レイテンシによる劣化を軽減できることがわかった。
私たちのコードは公開されます。 Visual object tracking is essential to intelligent robots. Most existing approaches have ignored the online latency that can cause severe performance degradation during real-world processing. Especially for unmanned aerial vehicles (UAVs), where robust tracking is more challenging and onboard computation is limited, the latency issue can be fatal. In this work, we present a simple framework for end-to-end latency-aware tracking, i.e., end-to-end predictive visual tracking (PVT++). Unlike existing solutions that naively append Kalman Filters after trackers, PVT++ can be jointly optimized, so that it takes not only motion information but can also leverage the rich visual knowledge in most pre-trained tracker models for robust prediction. Besides, to bridge the training-evaluation domain gap, we propose a relative motion factor, empowering PVT++ to generalize to the challenging and complex UAV tracking scenes. These careful designs have made the small-capacity lightweight PVT++ a widely effective solution. Additionally, this work presents an extended latency-aware evaluation benchmark for assessing an any-speed tracker in the online setting. Empirical results on a robotic platform from the aerial perspective show that PVT++ can achieve significant performance gain on various trackers and exhibit higher accuracy than prior solutions, largely mitigating the degradation brought by latency. Our code will be made public. | 翻訳日:2023-03-24 01:47:18 公開日:2023-03-22 |
# グラフニューラルネットワークを用いた二値クナップサック問題の解法 Solving Bilevel Knapsack Problem using Graph Neural Networks ( http://arxiv.org/abs/2211.13436v2 ) ライセンス: Link先を確認 | Sunhyeon Kwon, Hwayong Choi, Sungsoo Park | (参考訳) 双レベル最適化問題は、リーダーとフォロワーの2人のエージェントによる階層的最適化問題である。
リーダーはまず自分の決定を下し、フォロワーはそれに従って最良の選択をする。
リーダーはフォロワーの情報を知っており、問題の目標は、リーダーの視点からフォロワーの反応を考慮して最適な解決策を見つけることである。
双レベル最適化問題では、最適解を得るための汎用的で効率的なアルゴリズムや商用解法は存在せず、単純な問題であっても良い解を得るのは非常に困難である。
本稿では,グラフニューラルネットワークを用いた2レベルナップサック問題を解くための深層学習手法を提案する。
リーダーのソリューションを予測するためにモデルをトレーニングし、階層的な最適化問題を単一レベルの最適化問題に変換するためにそれを使用します。
我々のモデルは、最適ギャップが1.7\%の正確なアルゴリズムよりも500倍高速な実現可能な解を発見した。
また、トレーニングしたサイズとサイズが異なる問題に対して、我々のモデルはよく機能しました。 The Bilevel Optimization Problem is a hierarchical optimization problem with two agents, a leader and a follower. The leader make their own decisions first, and the followers make the best choices accordingly. The leader knows the information of the followers, and the goal of the problem is to find the optimal solution by considering the reactions of the followers from the leader's point of view. For the Bilevel Optimization Problem, there are no general and efficient algorithms or commercial solvers to get an optimal solution, and it is very difficult to get a good solution even for a simple problem. In this paper, we propose a deep learning approach using Graph Neural Networks to solve the bilevel knapsack problem. We train the model to predict the leader's solution and use it to transform the hierarchical optimization problem into a single-level optimization problem to get the solution. Our model found the feasible solution that was about 500 times faster than the exact algorithm with $1.7\%$ optimal gap. Also, our model performed well on problems of different size from the size it was trained on. | 翻訳日:2023-03-24 01:38:55 公開日:2023-03-22 |
# 顕微鏡データの効率的な画像分解 {\mu}Split: efficient image decomposition for microscopy data ( http://arxiv.org/abs/2211.12872v3 ) ライセンス: Link先を確認 | Ashesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug | (参考訳) 蛍光顕微鏡画像の文脈における画像分解を専門とするusplitを提案する。
トレーニング中に大きなイメージパッチを使用すると,通常のディープアーキテクチャによる最良の結果が得られることが分かり,メモリ消費が性能向上の限界要因となる。
そこで我々は、強力なネットワークをトレーニングするためのメモリ効率のよいメモリ・コンテクスト・ライゼーション(LC)を導入し、LCがタスクの一貫性と大幅な改善をもたらすことを示す。
LCをU-Net、階層型AE、階層型VAEと統合し、改良されたELBO損失を定式化する。
さらにLCは、他の可能性よりも深い階層モデルのトレーニングを可能にし、興味深いことに、タイル付きVAE予測を使用する場合、本質的に避けられないティアリングアーチファクトを減らすのに役立ちます。
usplitを合成データセット上の5つの分解タスクに適用し,その他4つを実顕微鏡データから導出する。
LCはSOTA結果(平均2.36dB PSNRのベースラインの改善)を達成し、同時にGPUメモリをかなり少なくする。 We present uSplit, a dedicated approach for trained image decomposition in the context of fluorescence microscopy images. We find that best results using regular deep architectures are achieved when large image patches are used during training, making memory consumption the limiting factor to further improving performance. We therefore introduce lateral contextualization (LC), a memory efficient way to train powerful networks and show that LC leads to consistent and significant improvements on the task at hand. We integrate LC with U-Nets, Hierarchical AEs, and Hierarchical VAEs, for which we formulate a modified ELBO loss. Additionally, LC enables training deeper hierarchical models than otherwise possible and, interestingly, helps to reduce tiling artefacts that are inherently impossible to avoid when using tiled VAE predictions. We apply uSplit to five decomposition tasks, one on a synthetic dataset, four others derived from real microscopy data. LC achieves SOTA results (average improvements to the best baseline of 2.36 dB PSNR), while simultaneously requiring considerably less GPU memory. | 翻訳日:2023-03-24 01:37:56 公開日:2023-03-22 |
# 内部注意を伴う形状誘導拡散 Shape-Guided Diffusion with Inside-Outside Attention ( http://arxiv.org/abs/2212.00210v2 ) ライセンス: Link先を確認 | Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell | (参考訳) オブジェクトを操作する場合、既存のテキストと画像の拡散モデルは、しばしばオブジェクトの形状を無視し、誤ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたコンテンツを生成する。
本稿では,ユーザが入力した形状に敏感になるように,あるいはテキストから自動的に推定する,トレーニングフリーな形状誘導拡散法を提案する。
我々は、反転・生成過程において、新しい内部注意機構を用いて、この形状制約を交差及び自己注意マップに適用する。
このメカニズムは、対象(内側)と背景(外側)がどの空間領域であるかを定義し、テキストプロンプトで指定された編集を正しい領域に関連付ける。
本研究では,テキストプロンプトとオブジェクトマスクに基づいてオブジェクトを置き換えなければならない形状誘導編集作業において,本手法の有効性を実証する。
我々は,ms-coco から派生した新しい shapeprompts ベンチマークをキュレートし,テキストアライメントや画像リアリズムの劣化を伴わずに sota 結果の形状忠実性を達成する。
私たちのデータとコードはhttps://shape-guided-diffusion.github.ioで利用可能になります。 When manipulating an object, existing text-to-image diffusion models often ignore the shape of the object and generate content that is incorrectly scaled, cut off, or replaced with background content. We propose a training-free method, Shape-Guided Diffusion, that modifies pretrained diffusion models to be sensitive to shape input specified by a user or automatically inferred from text. We use a novel Inside-Outside Attention mechanism during the inversion and generation process to apply this shape constraint to the cross- and self-attention maps. Our mechanism designates which spatial region is the object (inside) vs. background (outside) then associates edits specified by text prompts to the correct region. We demonstrate the efficacy of our method on the shape-guided editing task, where the model must replace an object according to a text prompt and object mask. We curate a new ShapePrompts benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness without a degradation in text alignment or image realism according to both automatic metrics and annotator ratings. Our data and code will be made available at https://shape-guided-diffusion.github.io. | 翻訳日:2023-03-24 01:30:54 公開日:2023-03-22 |
# PLA: 言語駆動のオープンな3Dシーン理解 PLA: Language-Driven Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2211.16312v2 ) ライセンス: Link先を確認 | Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan Qi | (参考訳) open-vocabulary scene understandingは、無意味なカテゴリを注釈付きラベル空間を超えてローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって大きく推進されている。
しかし、大規模な3dテキストペアが使えないため、この成功は直接3dシナリオに転送できない。
そこで本研究では,3Dから多視点画像をキャプションすることで,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
さらに,キャプションから視覚・視覚表現の粗さを育むために,3dシーンと多視点画像の幾何学的制約を生かした階層的3dキャプチャペアをデザインする。
最後に、コントラスト学習を用いることで、3dとテキストを繋ぐ言語認識埋め込みを学習し、オープンボキャブラリタスクを行う。
提案手法は,オープンボキャブラリーセマンティクスとインスタンスセグメンテーションにおいて,25.8%$\sim$ 44.7% hiouと14.5%$\sim$ 50.4% hap$_{50}$のベースラインメソッドを著しく上回るだけでなく,ゼロショットドメイン転送タスクに対して堅牢な転送性を示す。
プロジェクトのWebサイトはhttps://dingry.github.io/projects/PLAにある。 Open-vocabulary scene understanding aims to localize and recognize unseen categories beyond the annotated label space. The recent breakthrough of 2D open-vocabulary perception is largely driven by Internet-scale paired image-text data with rich vocabulary concepts. However, this success cannot be directly transferred to 3D scenarios due to the inaccessibility of large-scale 3D-text pairs. To this end, we propose to distill knowledge encoded in pre-trained vision-language (VL) foundation models through captioning multi-view images from 3D, which allows explicitly associating 3D and semantic-rich captions. Further, to foster coarse-to-fine visual-semantic representation learning from captions, we design hierarchical 3D-caption pairs, leveraging geometric constraints between 3D scenes and multi-view images. Finally, by employing contrastive learning, the model learns language-aware embeddings that connect 3D and text for open-vocabulary tasks. Our method not only remarkably outperforms baseline methods by 25.8% $\sim$ 44.7% hIoU and 14.5% $\sim$ 50.4% hAP$_{50}$ in open-vocabulary semantic and instance segmentation, but also shows robust transferability on challenging zero-shot domain transfer tasks. See the project website at https://dingry.github.io/projects/PLA. | 翻訳日:2023-03-24 01:29:52 公開日:2023-03-22 |
# sdfusion: マルチモーダルな3次元形状完了, 再構築, 生成 SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation ( http://arxiv.org/abs/2212.04493v2 ) ライセンス: Link先を確認 | Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing and Liangyan Gui | (参考訳) 本稿では,アマチュアユーザのための3dアセット生成を簡略化する新しいフレームワークを提案する。
対話型生成を実現するために,画像,テキスト,部分的に観察された形状,組み合わせなど,人間が容易に提供できる様々な入力モダリティをサポートし,各入力の強度を調整できる。
我々のアプローチの核となるのはエンコーダデコーダであり、3次元形状をコンパクトな潜在表現に圧縮し、拡散モデルが学習される。
様々なマルチモーダル入力を可能にするために、ドロップアウトを伴うタスク固有エンコーダとクロスアテンション機構を用いる。
その柔軟性のため、我々のモデルは自然に様々なタスクをサポートし、形状補完、画像に基づく3d再構成、テキストから3dへの以前の作業よりも優れています。
最も興味深いのは、これらのタスクを1つのswiss-army-knifeツールに組み合わせることで、ユーザが不完全な形状、画像、テキスト記述を同時に実行し、各入力に対する相対重みを与え、対話性を促進することができることです。
本手法は形状のみであるにもかかわらず,大規模テキスト・画像モデルを用いて生成した形状をテクスチャ化する効率的な方法を示す。 In this work, we present a novel framework built to simplify 3D asset generation for amateur users. To enable interactive generation, our method supports a variety of input modalities that can be easily provided by a human, including images, text, partially observed shapes and combinations of these, further allowing to adjust the strength of each input. At the core of our approach is an encoder-decoder, compressing 3D shapes into a compact latent representation, upon which a diffusion model is learned. To enable a variety of multi-modal inputs, we employ task-specific encoders with dropout followed by a cross-attention mechanism. Due to its flexibility, our model naturally supports a variety of tasks, outperforming prior works on shape completion, image-based 3D reconstruction, and text-to-3D. Most interestingly, our model can combine all these tasks into one swiss-army-knife tool, enabling the user to perform shape generation using incomplete shapes, images, and textual descriptions at the same time, providing the relative weights for each input and facilitating interactivity. Despite our approach being shape-only, we further show an efficient method to texture the generated shape using large-scale text-to-image models. | 翻訳日:2023-03-24 01:21:14 公開日:2023-03-22 |
# 小物体検出のための高度なYOLOv3法 An advanced YOLOv3 method for small object detection ( http://arxiv.org/abs/2212.02809v3 ) ライセンス: Link先を確認 | Baokai Liu, Fengjie He, Shiqiang Du, Jiacheng Li, Wenjie Liu | (参考訳) 小型物体検出は、自律走行とドローンシーン解析の分野で重要な応用価値を持つ。
最も先進的なオブジェクト検出アルゴリズムの1つとして、YOLOv3は、小さなオブジェクトや隠蔽オブジェクトの検出失敗の問題など、小さなオブジェクトを検出する際のいくつかの課題に直面する。
これらの問題を解決するために,小型物体検出のための改良されたYOLOv3アルゴリズムを提案する。
提案手法では,拡張畳み込みミッシュ(DCM)モジュールをYOLOv3のバックボーンネットワークに導入し,異なる受容領域の特徴マップを融合させて特徴表現能力を向上させる。
YOLOv3のネックネットワークにおいて、畳み込みブロック注意モジュール(CBAM)とマルチレベル融合モジュールを導入し、浅いネットワークにおける小さな物体検出のための重要な情報を選択し、不クリティカルな情報を抑え、融合モジュールを使用して異なるスケールの特徴マップを融合させ、アルゴリズムの検出精度を向上させる。
さらに,ソフトNMSと完全IoU(CloU)戦略を候補フレームスクリーニングに適用し,隠蔽対象の検出アルゴリズムの精度を向上させる。
本論文では,MS COCO2017オブジェクト検出タスクのアブレーション実験を行い,小型物体検出のためのいくつかのモジュールの有効性を実証した。
MS COCO2017、VOC2007、VOC2012データセットの実験結果は、平均精度(AP)が16.5%、8.71%、9.68%がYOLOv3よりも高いことを示している。 Small object detection has important application value in the fields of autonomous driving and drone scene analysis. As one of the most advanced object detection algorithms, YOLOv3 suffers some challenges when detecting small objects, such as the problem of detection failure of small objects and occluded objects. To solve these problems, an improved YOLOv3 algorithm for small object detection is proposed. In the proposed method, the dilated convolutions mish (DCM) module is introduced into the backbone network of YOLOv3 to improve the feature expression ability by fusing the feature maps of different receptive fields. In the neck network of YOLOv3, the convolutional block attention module (CBAM) and multi-level fusion module are introduced to select the important information for small object detection in the shallow network, suppress the uncritical information, and use the fusion module to fuse the feature maps of different scales, so as to improve the detection accuracy of the algorithm. In addition, the Soft-NMS and Complete-IoU (CloU) strategies are applied to candidate frame screening, which improves the accuracy of the algorithm for the detection of occluded objects. The ablation experiment of the MS COCO2017 object detection task proves the effectiveness of several modules introduced in this paper for small object detection. The experimental results on the MS COCO2017, VOC2007, and VOC2012 datasets show that the Average Precision (AP) of this method is 16.5%, 8.71%, and 9.68% higher than that of YOLOv3, respectively. | 翻訳日:2023-03-24 01:19:50 公開日:2023-03-22 |
# 汎用量子ネットワークのためのリモート状態の準備 Preparing Remote States for Genuine Quantum Networks ( http://arxiv.org/abs/2212.01965v2 ) ライセンス: Link先を確認 | Shih-Hsuan Chen, Chan Hsu, Yu-Chien Kao, Bing-Yuan Lee, Yuan-Sung Liu, Yueh-Nan Chen, Che-Ming Li | (参考訳) 光子を介する量子ネットワークは一般に量子チャネル、リピータ、終端ノードから構成される。
リモート状態準備(rsp)は、一方のエンドノードが他方のエンドノードの状態の遠隔準備を可能にする。
RSPはネットワーク通信のための決定論的単一光子源としても機能する。
本稿では,ネットワークRSPが,絡み合わずに古典的なエミュレーションをいかに超越しているかを理論的,実験的に検討する。
rsp機能と呼ばれる新しいタイプの量子リソースを導入し、量子チャネルやリピータといった非古典的状態の生成と伝達に必要な静的および動的要素をすべて検証します。
これは量子相関の静的な資源を超える。
偏光サニャック干渉計により生成した光子対のRSP能の測定を実験的に実証し、光子対の性質に応じて古典的かつ非古典的なRSPの遷移を含む。
我々の結果は、ネットワークRSPが果たす量子的優位性を明らかにするのに役立つ。 Photon-mediated quantum networks generally consist of quantum channels, repeaters, and end nodes. Remote state preparation (RSP) enables one of the end nodes to prepare the states of the other end nodes remotely. RSP also serves as a deterministic single-photon source for networking communications. Herein, we theoretically and experimentally investigate how networking RSP surpasses any classical emulation without entanglement and qubit unitaries. We introduce a new type of quantum resource, which we refer to as RSP capability, to validate all the static and dynamic elements required for nonclassical state preparation and transmission, such as quantum channels and repeaters. This goes beyond the static resources of quantum correlations. We experimentally demonstrate the RSP capability measurement of the photon pairs created by a polarization Sagnac interferometer, including the transition between classical and nonclassical RSP depending on the photon-pair qualities. Our results help reveal the quantum advantages arising when networking RSP plays a role. | 翻訳日:2023-03-24 01:19:22 公開日:2023-03-22 |
# StructVPR:視覚的位置認識のための重み付きサンプルを用いた構造知識 StructVPR: Distill Structural Knowledge with Weighting Samples for Visual Place Recognition ( http://arxiv.org/abs/2212.00937v4 ) ライセンス: Link先を確認 | Yanqing Shen, Sanping Zhou, Jingwen Fu, Ruotong Wang, Shitao Chen, and Nanning Zheng | (参考訳) 視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
既存のトレーニングフレームワークによって制限された多くのディープラーニングベースの研究は、RGBイメージから十分に安定したグローバルな特徴を抽出することができず、パフォーマンス向上のために空間構造情報を活用するために時間を要する再分類ステップに依存している。
本稿では,VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案し,RGBグローバル機能における構造的知識を高め,常に変化する環境における特徴安定性を向上させる。
具体的には、StructVPRは、CNNネットワークに入力される構造的知識のより決定的な源としてセグメンテーション画像を使用し、オンラインセグメンテーションやセグブランチの推論を避けるために知識蒸留を適用している。
全ての試料が高品質で有用な知識を含んでいるわけではなく、蒸留の性能を損なうものもあれば、試料を分割し、各試料の蒸留損失を測り、予想される知識を正確に増強する。
最後に、StructVPRは、グローバル検索のみを使用して、いくつかのベンチマークで印象的なパフォーマンスを実現し、さらに大きなマージンで多くの2段階アプローチを上回ります。
さらに,計算コストを低く抑えつつ,最先端の性能を実現する。 Visual place recognition (VPR) is usually considered as a specific image retrieval problem. Limited by existing training frameworks, most deep learning-based works cannot extract sufficiently stable global features from RGB images and rely on a time-consuming re-ranking step to exploit spatial structural information for better performance. In this paper, we propose StructVPR, a novel training architecture for VPR, to enhance structural knowledge in RGB global features and thus improve feature stability in a constantly changing environment. Specifically, StructVPR uses segmentation images as a more definitive source of structural knowledge input into a CNN network and applies knowledge distillation to avoid online segmentation and inference of seg-branch in testing. Considering that not all samples contain high-quality and helpful knowledge, and some even hurt the performance of distillation, we partition samples and weigh each sample's distillation loss to enhance the expected knowledge precisely. Finally, StructVPR achieves impressive performance on several benchmarks using only global retrieval and even outperforms many two-stage approaches by a large margin. After adding additional re-ranking, ours achieves state-of-the-art performance while maintaining a low computational cost. | 翻訳日:2023-03-24 01:18:43 公開日:2023-03-22 |
# Selective Query Recollectionによるクエリに基づくオブジェクト検出の強化 Enhanced Training of Query-Based Object Detection via Selective Query Recollection ( http://arxiv.org/abs/2212.07593v3 ) ライセンス: Link先を確認 | Fangyi Chen, Han Zhang, Kai Hu, Yu-kai Huang, Chenchen Zhu, Marios Savvides | (参考訳) 本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
トレーニングプロセスのレビューと、見過ごされた現象を、トレーニング強調の欠如と、デコードシーケンスからのエラーのカスケードの2つの制限とみなす。
我々は,問合せに基づく物体検出のための簡易かつ効果的な学習戦略であるsqrを設計・提示する。
復号段階が深まるにつれて中間クエリを累積的に収集し、シーケンシャル構造以外の下流ステージにクエリを選択的に転送する。
このように、SQRは後期ステージにトレーニングの重点を置いており、後期ステージは初期のステージから直接中間クエリを扱うことができる。
SQRは様々なクエリベースのオブジェクト検出器に簡単にプラグインでき、推論パイプラインをそのままにして性能を大幅に向上させることができる。
その結果,Adamixer,DAB-DETR,Deformable-DETRの各設定(バックボーン,クエリ数,スケジュール)にSQRを適用し,一貫した1.4-2.8AP改善を実現した。 This paper investigates a phenomenon where query-based object detectors mispredict at the last decoding stage while predicting correctly at an intermediate stage. We review the training process and attribute the overlooked phenomenon to two limitations: lack of training emphasis and cascading errors from decoding sequence. We design and present Selective Query Recollection (SQR), a simple and effective training strategy for query-based object detectors. It cumulatively collects intermediate queries as decoding stages go deeper and selectively forwards the queries to the downstream stages aside from the sequential structure. Such-wise, SQR places training emphasis on later stages and allows later stages to work with intermediate queries from earlier stages directly. SQR can be easily plugged into various query-based object detectors and significantly enhances their performance while leaving the inference pipeline unchanged. As a result, we apply SQR on Adamixer, DAB-DETR, and Deformable-DETR across various settings (backbone, number of queries, schedule) and consistently brings 1.4-2.8 AP improvement. | 翻訳日:2023-03-24 01:11:47 公開日:2023-03-22 |
# VINet:3次元物体検出のための軽量・スケーラブル・異種協調認識 VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception for 3D Object Detection ( http://arxiv.org/abs/2212.07060v2 ) ライセンス: Link先を確認 | Zhengwei Bai, Guoyuan Wu, Matthew J. Barth, Yongkang Liu, Emrah Akin Sisbot, Kentaro Oguchi | (参考訳) 人工知能(AI)の最新の進歩を利用して、コンピュータービジョンコミュニティは、あらゆる種類の知覚タスク、特に物体検出において、前例のない進化を目撃している。
複数の空間分離された知覚ノードに基づき、協調知覚(cp)は自動運転の知覚を著しく前進させる。
しかし, 現行の協調物体検出手法は, システム全体のコストを考慮せずに, エゴ車効率に重点を置いている。
本稿では、スケーラブルで軽量で異種な協調型3Dオブジェクト検出のための統合ディープラーニングベースのCPネットワークであるVINetを紹介する。
VINetは、大規模システムレベルの実装の観点から設計された最初のCPメソッドであり、3つの主要なフェーズに分けられる。
1) データをグローバルなスタイルに準備し,かつ,軽量な協力のために特徴を抽出するグローバル事前処理及び軽量特徴抽出
2)スケーラブルで異質な知覚ノードから特徴を融合する2ストリーム融合
3) 融合した特徴をさらに処理し, 協調検出結果を生成する中央特徴バックボーンと3D検出ヘッド。
CPデータセットの取得とモデル評価のために,オープンソースのデータ実験プラットフォームを設計・開発する。
実験解析の結果,vinetは3次元検出精度を向上させつつ,84%の計算コストと94%の通信コストを削減できることがわかった。 Utilizing the latest advances in Artificial Intelligence (AI), the computer vision community is now witnessing an unprecedented evolution in all kinds of perception tasks, particularly in object detection. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) has emerged to significantly advance the perception of automated driving. However, current cooperative object detection methods mainly focus on ego-vehicle efficiency without considering the practical issues of system-wide costs. In this paper, we introduce VINet, a unified deep learning-based CP network for scalable, lightweight, and heterogeneous cooperative 3D object detection. VINet is the first CP method designed from the standpoint of large-scale system-level implementation and can be divided into three main phases: 1) Global Pre-Processing and Lightweight Feature Extraction which prepare the data into global style and extract features for cooperation in a lightweight manner; 2) Two-Stream Fusion which fuses the features from scalable and heterogeneous perception nodes; and 3) Central Feature Backbone and 3D Detection Head which further process the fused features and generate cooperative detection results. An open-source data experimental platform is designed and developed for CP dataset acquisition and model evaluation. The experimental analysis shows that VINet can reduce 84% system-level computational cost and 94% system-level communication cost while improving the 3D detection accuracy. | 翻訳日:2023-03-24 01:10:56 公開日:2023-03-22 |
# セマンティック脳デコード:fMRIから概念的に類似した視覚刺激のイメージ再構成へ Semantic Brain Decoding: from fMRI to conceptually similar image reconstruction of visual stimuli ( http://arxiv.org/abs/2212.06726v2 ) ライセンス: Link先を確認 | Matteo Ferrante, Tommaso Boccato, Nicola Toschi | (参考訳) 脳復号(Brain Decoding)は、計測可能な脳活動を用いて精神状態や知覚入力の内部表現を推測する計算神経科学の分野である。
そこで本研究では,意味的および文脈的類似性にも依存する新しい脳デコード手法を提案する。
自然画像ビジョンのfmriデータセットを用いて,ボトムアッププロセスとトップダウンプロセスの両方の存在に触発された深層学習復号パイプラインを作成する。
我々は、前訓練された畳み込みニューラルネットワークの最後の畳み込み層で表される空間に視覚情報を投影し、概念間の類似点や相違点を要約し強調する様々な意味的特徴を収集する、線形脳-機能モデルを用いて、fMRI活動特徴を視覚刺激特徴にマッピングする。
これらの特徴は最寄り戦略を用いて潜在空間で分類され、その結果は生成的潜在拡散モデルを条件付けして新しい画像を作成する。
fmriデータのみから、元のコンテンツに非常によくマッチする視覚刺激の再構成を意味レベルで作成し、それまでの文献における芸術の状態を上回っています。
本研究は,定量的な意味尺度(平均値0.57のWordNetレキシコン上のWu-Palmer類似度測定値)を用いて評価を行い,画像類似度評価におけるヒトの基準の乗算性に応じて,評価結果の正しさを示す評価実験を行った。 Brain decoding is a field of computational neuroscience that uses measurable brain activity to infer mental states or internal representations of perceptual inputs. Therefore, we propose a novel approach to brain decoding that also relies on semantic and contextual similarity. We employ an fMRI dataset of natural image vision and create a deep learning decoding pipeline inspired by the existence of both bottom-up and top-down processes in human vision. We train a linear brain-to-feature model to map fMRI activity features to visual stimuli features, assuming that the brain projects visual information onto a space that is homeomorphic to the latent space represented by the last convolutional layer of a pretrained convolutional neural network, which typically collects a variety of semantic features that summarize and highlight similarities and differences between concepts. These features are then categorized in the latent space using a nearest-neighbor strategy, and the results are used to condition a generative latent diffusion model to create novel images. From fMRI data only, we produce reconstructions of visual stimuli that match the original content very well on a semantic level, surpassing the state of the art in previous literature. We evaluate our work and obtain good results using a quantitative semantic metric (the Wu-Palmer similarity metric over the WordNet lexicon, which had an average value of 0.57) and perform a human evaluation experiment that resulted in correct evaluation, according to the multiplicity of human criteria in evaluating image similarity, in over 80% of the test set. | 翻訳日:2023-03-24 01:10:31 公開日:2023-03-22 |
# 引退:高次元でのロバストな期待回帰 Retire: Robust Expectile Regression in High Dimensions ( http://arxiv.org/abs/2212.05562v2 ) ライセンス: Link先を確認 | Rebeka Man, Kean Ming Tan, Zian Wang, and Wen-Xin Zhou | (参考訳) 高次元データは、ヘテロシドスティックな分散や不均質な共変量効果によって、しばしば異質性を示す。
ペナルタライズド量子量分解法と期待回帰法は、高次元データのヘテロシステディティを検出する有用なツールを提供する。
前者はチェック損失の非滑らかな性質のため計算的に困難であり、後者は重み付き誤差分布に敏感である。
本稿では,繰り返し重み付けされた$\ell_1$-penalization に着目し,$\ell_1$-penalization から推定バイアスを低減し,oracle のプロパティに繋がる,(ペナライズされた)堅牢な期待回帰 (retire) を提案し,検討する。
理論的には、退職推定子の統計特性を2つの条件の下で定めている。
(i)$d \ll n$という低次元のレジーム
(ii)$s\ll n\ll d$が$s$で重要な予測器の数を示す高次元のレジーム。
高次元設定では, 繰り返し再重み付けされた$\ell_1$-penalized retirement estimationの解経路を, 折り畳み凹凸正則化のための局所線形近似アルゴリズムを用いて慎重に特徴づける。
穏やかな最小信号強度条件下では、$\log(\log d)$の反復を繰り返すと、最終イテレートがoracleの収束率を享受することを示している。
各イテレーションにおいて、重み付き$\ell_1$-penalized convexプログラムをセミムートニュートン座標降下アルゴリズムによって効率的に解くことができる。
数値解析により,提案手法の競合性能を,非ロバストあるいは量子回帰に基づく方法と比較した。 High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives. | 翻訳日:2023-03-24 01:10:02 公開日:2023-03-22 |
# PanopticPartFormer++: Panoptic Part Segmentationの統一された分離ビュー PanopticPartFormer++: A Unified and Decoupled View for Panoptic Part Segmentation ( http://arxiv.org/abs/2301.00954v3 ) ライセンス: Link先を確認 | Xiangtai Li, Shilin Xu, Yibo Yang, Haobo Yuan, Guangliang Cheng, Yunhai Tong, Zhouchen Lin, Ming-Hsuan Yang, Dacheng Tao | (参考訳) Panoptic Part Segmentation (PPS)は、パノプティクスとパートセグメンテーションをひとつのタスクに統合する。
以前の作業では、共有計算やタスクアソシエーションを必要とせず、物、物、部品の予測を扱うための別のアプローチが使用されている。
アーキテクチャレベルでこれらのタスクを統一し、最初のエンドツーエンド統合フレームワークであるPanoptic-PartFormerを設計することを目指しています。
さらに、以前の測定値PartPQはPQに偏っている。
両方の問題に対処するために、私たちはまず、機能の一部を分離するメタアーキテクチャを設計します。
私たちはオブジェクトクエリとして物、物、部品をモデル化し、マスクの予測と分類の統一的な問題として3種類の予測を最適化する直接学習します。
私たちはこのモデルをPanoptic-PartFormerと呼びます。
第2に,この課題をピクセル領域とパートwholeの観点からよりよく測定できる,新しい測定値であるpwqを提案する。
また、部分セグメンテーションとpanopticセグメンテーションのエラーを分離する。
第3に,mask2formerにインスパイアされたメタアーキテクチャに基づいて,panoptic-partformer++を提案し,パートセグメンテーション品質をさらに高めるために,パートwhole cross-attentionスキームを新たに設計する。
マスク付きクロスアテンションを用いた新しいパートホールインタラクション手法を設計する。
最後に,Panoptic-PartFormerおよびPanoptic-PartFormer++の有効性について検討した。
以前のPanoptic-PartFormerと比較して、Panoptic-PartFormer++は、Cityscapes PPSデータセットの2% PartPQと3% PWQの改善、Pascal Context PPSデータセットの5% PartPQを実現しています。
両方のデータセット上で、Panoptic-PartFormer++は、新しい最先端の結果を達成する。
私たちのモデルは強力なベースラインとなり、ppsにおける将来の研究を支援することができます。
ソースコードとトレーニングされたモデルは、~\url{https://github.com/lxtGH/Panoptic-PartFormer}で入手できる。 Panoptic Part Segmentation (PPS) unifies panoptic and part segmentation into one task. Previous works utilize separate approaches to handle things, stuff, and part predictions without shared computation and task association. We aim to unify these tasks at the architectural level, designing the first end-to-end unified framework, Panoptic-PartFormer. Moreover, we find the previous metric PartPQ biases to PQ. To handle both issues, we first design a meta-architecture that decouples part features and things/stuff features, respectively. We model things, stuff, and parts as object queries and directly learn to optimize all three forms of prediction as a unified mask prediction and classification problem. We term our model as Panoptic-PartFormer. Second, we propose a new metric Part-Whole Quality (PWQ), better to measure this task from pixel-region and part-whole perspectives. It also decouples the errors for part segmentation and panoptic segmentation. Third, inspired by Mask2Former, based on our meta-architecture, we propose Panoptic-PartFormer++ and design a new part-whole cross-attention scheme to boost part segmentation qualities further. We design a new part-whole interaction method using masked cross attention. Finally, extensive ablation studies and analysis demonstrate the effectiveness of both Panoptic-PartFormer and Panoptic-PartFormer++. Compared with previous Panoptic-PartFormer, our Panoptic-PartFormer++ achieves 2% PartPQ and 3% PWQ improvements on the Cityscapes PPS dataset and 5% PartPQ on the Pascal Context PPS dataset. On both datasets, Panoptic-PartFormer++ achieves new state-of-the-art results. Our models can serve as a strong baseline and aid future research in PPS. The source code and trained models will be available at~\url{https://github.com/lxtGH/Panoptic-PartFormer}. | 翻訳日:2023-03-24 00:51:57 公開日:2023-03-22 |
# SparseGPT: 大規模言語モデルはワンショットで正確に処理できる SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot ( http://arxiv.org/abs/2301.00774v3 ) ライセンス: Link先を確認 | Elias Frantar, Dan Alistarh | (参考訳) 大規模な生成事前学習型トランスフォーマー(GPT)ファミリーモデルでは,1ショットで少なくとも50%の間隔で再学習することなく,精度の低下を最小限に抑えることができた。
これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
最大で利用可能なオープンソースモデルである opt-175b と bloom-176b で 4.5 時間以内で sparsegpt を実行することができ、パープレキシティの増大によって 60% の非構造的スパーシティに到達できる。
SparseGPTは半構造化(2:4および4:8)パターンに一般化し、重み量子化アプローチと互換性がある。
コードはhttps://github.com/ist-daslab/sparsegpt。 We show for the first time that large-scale generative pretrained transformer (GPT) family models can be pruned to at least 50% sparsity in one-shot, without any retraining, at minimal loss of accuracy. This is achieved via a new pruning method called SparseGPT, specifically designed to work efficiently and accurately on massive GPT-family models. We can execute SparseGPT on the largest available open-source models, OPT-175B and BLOOM-176B, in under 4.5 hours, and can reach 60% unstructured sparsity with negligible increase in perplexity: remarkably, more than 100 billion weights from these models can be ignored at inference time. SparseGPT generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with weight quantization approaches. The code is available at: https://github.com/IST-DASLab/sparsegpt. | 翻訳日:2023-03-24 00:51:23 公開日:2023-03-22 |
# 一般化非エルミートsshモデルにおける局在と位相遷移 Localization and topological transitions in generalized non-Hermitian SSH models ( http://arxiv.org/abs/2212.12288v3 ) ライセンス: Link先を確認 | X. Q. Sun and C. S. Liu | (参考訳) 複素準周期ホッピングと非相互ホッピングによって非ハーミティティーが導入された一般化された非エルミティアンSSHモデルの局所化と位相遷移について検討する。
我々は、モデルの普遍性と、それらにマップできるモデルの数を解明する。
開境界条件下では、アンダーソン局在と非自明なエッジ状態からの境界局在と非エルミート皮膚効果との競合により、2つの非局在遷移が認められる。
周期的境界条件下では、非エルミート皮膚効果の消失により1つの非局在化遷移のみが見つかる。
エネルギーの回転数と解析形式のリアプノフ指数は、2つのデロアクリザテオン遷移を正確に特徴付けるために得られる。
脱局所化遷移は位相遷移を伴わないことが分かる。
さらに、大きなオンサイト非休眠性と大きな非相互ホッピングは、すべてトポロジカルな遷移に有害である。
しかし、大きな非相互ホッピングはアンダーソン局在を強化する。
以上の解析は,エネルギーギャップと参加率の逆を数値的に計算して検証する。 We study the localization and topological transitions of the generalized non-Hermitian SSH models, where the non-Hermiticities are introduced by the complex quasiperiodic hopping and the nonreciprocal hopping. We elucidate the universality of the models and how many models can be mapped to them. Under the open boundary condition, two delocalization transitions are found due to the competition between the Anderson localization and the boundary localization from the nontrivial edge states and the non-Hermitian skin effect. Under the periodic boundary condition, only one delocalization transition is found due to the disappearance of the non-Hermitian skin effect. The winding numbers of energy and the Lyapunov exponents in analytical form are obtained to exactly characterize the two deloaclizateon transitions. It finds that the delocalization transitions don't accompany the topological transition. Furthermore, the large on-site non-Hermiticity and the large nonreciprocal hopping are all detrimental to the topological transitions. However, the large nonreciprocal hopping enhances the Anderson localizations. The above analyses are verified by calculating the energy gap and the inverse of the participation ratio numerically. | 翻訳日:2023-03-24 00:49:47 公開日:2023-03-22 |
# 因果性に基づくドメイン一般化のための双対性学習フレームワーク Causality-based Dual-Contrastive Learning Framework for Domain Generalization ( http://arxiv.org/abs/2301.09120v2 ) ライセンス: Link先を確認 | Zining Chen, Weiqiu Wang, Zhicheng Zhao, Aidong Men | (参考訳) ドメイン一般化(Domain Generalization, DG)とは、複数のソースドメインからモデルを訓練し、未知のターゲットドメインに一般化する、配布外一般化のサブブランチである。
近年、いくつかのドメイン一般化アルゴリズムが登場しているが、そのほとんどは変換不能な複雑なアーキテクチャで設計されている。
さらに、対照的な学習はDGの単純さと効率性にとって有望な解決策となっている。
しかし、既存のコントラスト学習は、深刻なモデル混乱を引き起こしたドメインシフトを無視した。
本稿では,機能とプロトタイプのコントラストに関するdcl(dual-contrastive learning)モジュールを提案する。
さらに,新たなcausal fusion attention(cfa)モジュールを設計し,単一画像の多様なビューを融合してプロトタイプを実現する。
さらに,類似度に基づくハードペアマイニング(shm)戦略を導入し,ダイバーシティシフトの情報を活用する。
本手法は3つのDGデータセット上で最先端のアルゴリズムより優れていることを示す。
提案アルゴリズムはドメインラベルを使わずにプラグアンドプレイモジュールとしても機能する。 Domain Generalization (DG) is essentially a sub-branch of out-of-distribution generalization, which trains models from multiple source domains and generalizes to unseen target domains. Recently, some domain generalization algorithms have emerged, but most of them were designed with non-transferable complex architecture. Additionally, contrastive learning has become a promising solution for simplicity and efficiency in DG. However, existing contrastive learning neglected domain shifts that caused severe model confusions. In this paper, we propose a Dual-Contrastive Learning (DCL) module on feature and prototype contrast. Moreover, we design a novel Causal Fusion Attention (CFA) module to fuse diverse views of a single image to attain prototype. Furthermore, we introduce a Similarity-based Hard-pair Mining (SHM) strategy to leverage information on diversity shift. Extensive experiments show that our method outperforms state-of-the-art algorithms on three DG datasets. The proposed algorithm can also serve as a plug-and-play module without usage of domain labels. | 翻訳日:2023-03-24 00:32:16 公開日:2023-03-22 |
# シーケンス類似性によるシーケンス生成:理論とUAV識別への応用 Sequence Generation via Subsequence Similarity: Theory and Application to UAV Identification ( http://arxiv.org/abs/2301.08403v2 ) ライセンス: Link先を確認 | Amir Kazemi, Salar Basiri, Volodymyr Kindratenko, Srinivasa Salapaka | (参考訳) 合成シーケンスを生成する能力は、幅広いアプリケーションにとって不可欠であり、ディープラーニングアーキテクチャと生成フレームワークの最近の進歩は、このプロセスを大きく促進した。
特に、条件のないワンショット生成モデルは、単一の画像やビデオの内部情報をキャプチャして、類似した内容のサンプルを生成することに焦点を当てた、魅力的な研究のラインを構成する。
これらのワンショットモデルの多くは、効率的で非深度なアプローチに移行しているため、データセット全体を拡張するためのワンショット生成モデルの汎用性を検討する。
本研究では,サブシーケンスレベルでの類似度がシーケンスレベルでの類似性にどのように影響するかに着目し,対応するサブシーケンスの類似度に基づいて,実列および生成されたシーケンスの最適輸送に基づく境界を導出する。
単発生成モデルを用いて, 周波数制限信号を用いた無人航空機(uav)の識別問題に適用することにより, 個々のシーケンス近傍からサンプルを採取し, サブシーケンス類似のものを生成し, 本手法の改良を実証する。
UAV識別の文脈では、RFフィンガープリントは正当なデバイスと悪意のあるデバイスを区別する効果的な方法であるが、異種環境やチャネル障害はデータの不足を課し、分類モデルの性能に影響を与える可能性がある。
トレーニングデータセットの少ない比率(5%~20%)でrfデータのシーケンスを増強するためにサブシーケンス類似性を用いることで、精度、精度、リコール、f1スコアなどのパフォーマンス指標を大幅に改善する。 The ability to generate synthetic sequences is crucial for a wide range of applications, and recent advances in deep learning architectures and generative frameworks have greatly facilitated this process. Particularly, unconditional one-shot generative models constitute an attractive line of research that focuses on capturing the internal information of a single image or video to generate samples with similar contents. Since many of those one-shot models are shifting toward efficient non-deep and non-adversarial approaches, we examine the versatility of a one-shot generative model for augmenting whole datasets. In this work, we focus on how similarity at the subsequence level affects similarity at the sequence level, and derive bounds on the optimal transport of real and generated sequences based on that of corresponding subsequences. We use a one-shot generative model to sample from the vicinity of individual sequences and generate subsequence-similar ones and demonstrate the improvement of this approach by applying it to the problem of Unmanned Aerial Vehicle (UAV) identification using limited radio-frequency (RF) signals. In the context of UAV identification, RF fingerprinting is an effective method for distinguishing legitimate devices from malicious ones, but heterogenous environments and channel impairments can impose data scarcity and affect the performance of classification models. By using subsequence similarity to augment sequences of RF data with a low ratio (5%-20%) of training dataset, we achieve significant improvements in performance metrics such as accuracy, precision, recall, and F1 score. | 翻訳日:2023-03-24 00:31:34 公開日:2023-03-22 |
# 画像セグメンテーション参照のための言語クエリ誘導マスク生成 Linguistic Query-Guided Mask Generation for Referring Image Segmentation ( http://arxiv.org/abs/2301.06429v3 ) ライセンス: Link先を確認 | Zhichao Wei, Xiaohao Chen, Mingqiang Chen, Siyu Zhu | (参考訳) 参照画像分割は、典型的なマルチモーダルタスクである所定の言語表現に従って、関心のある画像領域を分割することを目的としている。
既存の方法は、ピクセル分類に基づくか、マスク生成のための学習可能なクエリベースのフレームワークを採用しており、どちらもパラメトリックプロトタイプの固定数で様々なテキストイメージペアを扱うには不十分である。
本稿では,LGFormerと呼ばれる言語クエリガイドマスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
任意の入力画像-テキストペアの特別なプロトタイプを生成するために、言語的特徴をクエリとして捉え、より一貫性のあるセグメンテーション結果を生成する。
さらに,エンコーダとデコーダの両方に複数の相互モーダル相互作用モジュール(VLBA)を設計し,より優れた相互モーダルアライメントを実現する。 Referring image segmentation aims to segment the image region of interest according to the given language expression, which is a typical multi-modal task. Existing methods either adopt the pixel classification-based or the learnable query-based framework for mask generation, both of which are insufficient to deal with various text-image pairs with a fix number of parametric prototypes. In this work, we propose an end-to-end framework built on transformer to perform Linguistic query-Guided mask generation, dubbed LGFormer. It views the linguistic features as query to generate a specialized prototype for arbitrary input image-text pair, thus generating more consistent segmentation results. Moreover, we design several cross-modal interaction modules (\eg, vision-language bidirectional attention module, VLBA) in both encoder and decoder to achieve better cross-modal alignment. | 翻訳日:2023-03-24 00:30:49 公開日:2023-03-22 |
# DeepAstroUDA: クロスサーベイ銀河形態分類と異常検出のための半教師付きユニバーサルドメイン適応 DeepAstroUDA: Semi-Supervised Universal Domain Adaptation for Cross-Survey Galaxy Morphology Classification and Anomaly Detection ( http://arxiv.org/abs/2302.02005v2 ) ライセンス: Link先を確認 | A. \'Ciprijanovi\'c, A. Lewis, K. Pedro, S. Madireddy, B. Nord, G. N. Perdue, S. M. Wild | (参考訳) 人工知能の手法は、大きな天文学的なデータセットでの作業の品質とスピードを高める上で大きな可能性を秘めているが、これらの手法の複雑さは、データセット固有の非破壊的な特徴の抽出につながる。
したがって、そのような手法は複数のデータセットにわたってうまく一般化しない。
この課題を克服するためのアプローチとして,ユニバーサルドメイン適応法である \textit{deepastrouda} を提案する。
このアルゴリズムは半教師付きドメイン適応を実行し、異なるデータ分布とクラスオーバーラップを持つデータセットに適用することができる。
重複しないクラスは2つのデータセット(ラベル付きソースドメイン、ラベルなしターゲットドメイン)のいずれかに存在し、メソッドは未知のクラスの存在下でも使用できる。
本稿では,3種類の銀河形態分類タスク(3$クラス,10$クラス)を,異常検出を伴う3つの例に適用する。
1)1回の調査から異なる数の観測年を経て作成されたデータセット(1ドルのモックデータと10ドルの観測年数)。
2)異なる調査(SDSS及びDECLS)のデータ及び
3)1回のサーベイ(ワイドフィールドとストライプ82深視野sds)で異なる深度の観測フィールドからのデータ。
今回我々は,非常に異なる観測データセット間でのドメイン適応の利用を初めて実証した。
\textit{deepastrouda} は、2つの天文調査の間のギャップを橋渡しし、両領域の分類精度を高め(ラベルなしのデータで最大$40\%)、モデルのパフォーマンスをデータセット間で一貫性を持たせることができる。
さらに,この手法は異常検出アルゴリズムとしても機能し,ラベルなしのターゲットデータセットにおいても未知のクラスサンプルの収集に成功している。 Artificial intelligence methods show great promise in increasing the quality and speed of work with large astronomical datasets, but the high complexity of these methods leads to the extraction of dataset-specific, non-robust features. Therefore, such methods do not generalize well across multiple datasets. We present a universal domain adaptation method, \textit{DeepAstroUDA}, as an approach to overcome this challenge. This algorithm performs semi-supervised domain adaptation and can be applied to datasets with different data distributions and class overlaps. Non-overlapping classes can be present in any of the two datasets (the labeled source domain, or the unlabeled target domain), and the method can even be used in the presence of unknown classes. We apply our method to three examples of galaxy morphology classification tasks of different complexities ($3$-class and $10$-class problems), with anomaly detection: 1) datasets created after different numbers of observing years from a single survey (LSST mock data of $1$ and $10$ years of observations); 2) data from different surveys (SDSS and DECaLS); and 3) data from observing fields with different depths within one survey (wide field and Stripe 82 deep field of SDSS). For the first time, we demonstrate the successful use of domain adaptation between very discrepant observational datasets. \textit{DeepAstroUDA} is capable of bridging the gap between two astronomical surveys, increasing classification accuracy in both domains (up to $40\%$ on the unlabeled data), and making model performance consistent across datasets. Furthermore, our method also performs well as an anomaly detection algorithm and successfully clusters unknown class samples even in the unlabeled target dataset. | 翻訳日:2023-03-24 00:24:22 公開日:2023-03-22 |
# 非エルミートハミルトニアンによる波動関数崩壊の力学モデル A dynamical model for wavefunction collapse via non-Hermitian Hamiltonian ( http://arxiv.org/abs/2302.01898v2 ) ライセンス: Link先を確認 | Gurpahul Singh, Ritesh Kumar Singh and Soumitro Banerjee (Indian Institute of Science Education and Research Kolkata) | (参考訳) 量子力学の定式化以来、波動関数の崩壊過程についてはほとんど理解されていない。
我々は,量子力学の測定仮定をエミュレートする力学モデルを提案した。
我々は、非エルミートハミルトニアンが測定の過程で作用し、任意の状態が引き寄せる平衡状態へと進化し、「崩壊」を模倣すると仮定する。
これを2レベルシステムを用いて実証し,nレベルシステムに拡張する。
2レベル系に対して、リンドブラッド・マスター方程式によって生成される力学は、2つの非エルミート的ハミルトニアンによる進化の不整合和として再現できることを示した。 Ever since the formulation of quantum mechanics, there is very little understanding of the process of the collapse of a wavefunction. We have proposed a dynamical model to emulate the measurement postulates of quantum mechanics. We postulate that a non-Hermitian Hamiltonian operates during the process of measurement, which evolves any state to an attracting equilibrium state, thus, mimicking a "collapse". We demonstrate this using a 2-level system and then extend it to an N-level system. For a 2-level system, we also demonstrate that the dynamics generated by the Lindblad master equation can be replicated as an incoherent sum of the evolution by two separate non-Hermitian Hamiltonians. | 翻訳日:2023-03-24 00:23:51 公開日:2023-03-22 |
# ユニバーサルコンストラクションとしてのCSSコード手術 CSS code surgery as a universal construction ( http://arxiv.org/abs/2301.13738v5 ) ライセンス: Link先を確認 | Alexander Cowtan and Simon Burton | (参考訳) チェーンコンプレックス間のマップを用いて,calderbank-shor-steane (css) コード間のコードマップを定義し,チェーンコンプレックスのカテゴリにおける特定のコリミットを用いたコード操作を記述する。
手術の動作を記述するだけでなく、新しいコードの一般的なレシピも提供する。
アプリケーションでは、ゲージ固定とコード距離に関する特定の技術的な条件が満たされている限り、任意のCSSコード間の共有$\overline{X}$または$\overline{Z}$演算子で‘merge’と‘split’を記述します。
このようなLDPC符号の合併と分割は、LDPC自体のコードを生成することを証明している。 We define code maps between Calderbank-Shor-Steane (CSS) codes using maps between chain complexes, and describe code surgery between such codes using a specific colimit in the category of chain complexes. As well as describing a surgery operation, this gives a general recipe for new codes. As an application we describe how to `merge' and `split' along a shared $\overline{X}$ or $\overline{Z}$ operator between arbitrary CSS codes in a fault-tolerant manner, so long as certain technical conditions concerning gauge fixing and code distance are satisfied. We prove that such merges and splits on LDPC codes yield codes which are themselves LDPC. | 翻訳日:2023-03-24 00:23:36 公開日:2023-03-22 |
# アクションフリーオフライン事前トレーニングによるオンライン強化学習の指導 Guiding Online Reinforcement Learning with Action-Free Offline Pretraining ( http://arxiv.org/abs/2301.12876v2 ) ライセンス: Link先を確認 | Deyao Zhu, Yuhui Wang, J\"urgen Schmidhuber, Mohamed Elhoseiny | (参考訳) オフラインRL法は、オフライン収集エピソードを用いたトレーニングエージェントによる環境相互作用の必要性を低減することが示されている。
しかし、これらの手法は一般的に、データ収集中にログされるアクション情報を必要とする。
本稿では,アクションフリーオフラインプリトレーニング(afp-rl)を用いて,オンライン強化学習を改善するために,アクションフリーオフラインデータセットを使用する可能性について検討する。
我々は、アクションフリーオフラインデータセットから知識を抽出し、オンライントレーニングをガイドするAction-Free Guide(AF-Guide)を紹介する。
AF-Guide は Upside-Down Reinforcement Learning の変種を実装した Action-Free Decision Transformer (AFDT) で構成されている。
オフラインデータセットから次の状態を計画することや、afdtのガイダンスでオンライン学習を行う、soft actor-critic (guided sac)のガイドから学ぶ。
AF-Guideは、アクションフリーオフラインデータセットからの知識により、オンライントレーニングにおけるサンプル効率とパフォーマンスを向上させることができることを示す。
コードはhttps://github.com/Vision-CAIR/AF-Guide.comから入手できる。 Offline RL methods have been shown to reduce the need for environment interaction by training agents using offline collected episodes. However, these methods typically require action information to be logged during data collection, which can be difficult or even impossible in some practical cases. In this paper, we investigate the potential of using action-free offline datasets to improve online reinforcement learning, name this problem Reinforcement Learning with Action-Free Offline Pretraining (AFP-RL). We introduce Action-Free Guide (AF-Guide), a method that guides online training by extracting knowledge from action-free offline datasets. AF-Guide consists of an Action-Free Decision Transformer (AFDT) implementing a variant of Upside-Down Reinforcement Learning. It learns to plan the next states from the offline dataset, and a Guided Soft Actor-Critic (Guided SAC) that learns online with guidance from AFDT. Experimental results show that AF-Guide can improve sample efficiency and performance in online training thanks to the knowledge from the action-free offline dataset. Code is available at https://github.com/Vision-CAIR/AF-Guide. | 翻訳日:2023-03-24 00:22:52 公開日:2023-03-22 |
# 拡散モデルに対する会員推測攻撃 Membership Inference Attacks against Diffusion Models ( http://arxiv.org/abs/2302.03262v2 ) ライセンス: Link先を確認 | Tomoya Matsumoto and Takayuki Miura and Naoto Yanai | (参考訳) 近年、拡散モデルが革新的生成モデルとして注目を集めている。
本稿では,機械学習モデルのプライバシー漏洩を評価するメンバシップ推論攻撃に対して,拡散モデルが耐性があるかどうかを検討する。
本稿では,従来の拡散モデルと拡散モデルに特有のハイパーパラメータ,すなわち時間ステップ,サンプリングステップ,サンプリング分散として,GANとの比較の観点から,拡散モデルについて論じる。
拡散モデルとしてDDIM, GANとしてDCGAN, CelebA, CIFAR-10データセットをホワイトボックスおよびブラックボックス設定で広範囲に実験し, GANとしての会員推論攻撃に対して拡散モデルが許容できるかどうかを確認する。
次に、時間ステップの影響が重要であり、ノイズスケジュールにおける中間ステップが攻撃に対して最も脆弱であることを示す。
さらに分析によって2つの重要な洞察を得た。
まず、DDIMは低いFIDを達成する代わりに、小さなサンプルサイズの攻撃に対して脆弱であることを示す。
第二に、ハイパーパラメータのサンプリングステップは攻撃に対する抵抗に重要であるが、サンプリングのばらつきの影響は極めて限られている。 Diffusion models have attracted attention in recent years as innovative generative models. In this paper, we investigate whether a diffusion model is resistant to a membership inference attack, which evaluates the privacy leakage of a machine learning model. We primarily discuss the diffusion model from the standpoints of comparison with a generative adversarial network (GAN) as conventional models and hyperparameters unique to the diffusion model, i.e., time steps, sampling steps, and sampling variances. We conduct extensive experiments with DDIM as a diffusion model and DCGAN as a GAN on the CelebA and CIFAR-10 datasets in both white-box and black-box settings and then confirm if the diffusion model is comparably resistant to a membership inference attack as GAN. Next, we demonstrate that the impact of time steps is significant and intermediate steps in a noise schedule are the most vulnerable to the attack. We also found two key insights through further analysis. First, we identify that DDIM is vulnerable to the attack for small sample sizes instead of achieving a lower FID. Second, sampling steps in hyperparameters are important for resistance to the attack, whereas the impact of sampling variances is quite limited. | 翻訳日:2023-03-24 00:13:29 公開日:2023-03-22 |
# dyadicインタラクション設定における複数の適切な顔反応生成:何、なぜ、どのように? Multiple Appropriate Facial Reaction Generation in Dyadic Interaction Settings: What, Why and How? ( http://arxiv.org/abs/2302.06514v3 ) ライセンス: Link先を確認 | Siyang Song, Micol Spitale, Yiming Luo, Batuhan Bal, Hatice Gunes | (参考訳) Stimulus Organism Response (SOR) 理論によれば、人間の行動反応はすべて、受信した刺激を処理し、適切な反応を生成するコンテキストによって刺激される。
これは、ある入力刺激の特定の文脈において、人は内部の状態や他の文脈要因に応じて異なる反応をすることができることを意味する。
同様に、ディヤド相互作用では、人間は言語的および非言語的手がかりを使ってコミュニケーションし、リスナーの非言語的反応の幅広いスペクトルが特定の話者の行動に反応するのに適切である。
すでに、与えられた入力に対して適切な反応を自動的に生成する問題を調査する作業体が存在する。
しかしながら、ダイアド相互作用の文脈で複数の適切な反応を自動生成し、客観的尺度を用いてそれらの反応の適切性を評価する試みは行われなかった。
本稿は, 論文の中で初めて顔多元反応生成(fMARG)タスクを定義し, 生成した反応の適切性を評価するための新たな客観的評価指標を提案する。
その後、複数の適切な顔反応を予測、生成、評価するための枠組みを導入する。 According to the Stimulus Organism Response (SOR) theory, all human behavioral reactions are stimulated by context, where people will process the received stimulus and produce an appropriate reaction. This implies that in a specific context for a given input stimulus, a person can react differently according to their internal state and other contextual factors. Analogously, in dyadic interactions, humans communicate using verbal and nonverbal cues, where a broad spectrum of listeners' non-verbal reactions might be appropriate for responding to a specific speaker behaviour. There already exists a body of work that investigated the problem of automatically generating an appropriate reaction for a given input. However, none attempted to automatically generate multiple appropriate reactions in the context of dyadic interactions and evaluate the appropriateness of those reactions using objective measures. This paper starts by defining the facial Multiple Appropriate Reaction Generation (fMARG) task for the first time in the literature and proposes a new set of objective evaluation metrics to evaluate the appropriateness of the generated reactions. The paper subsequently introduces a framework to predict, generate, and evaluate multiple appropriate facial reactions. | 翻訳日:2023-03-24 00:05:47 公開日:2023-03-22 |
# 多変量正規分布間のフィッシャー・ラオ距離の数値近似法 A numerical approximation method for the Fisher-Rao distance between multivariate normal distributions ( http://arxiv.org/abs/2302.08175v5 ) ライセンス: Link先を確認 | Frank Nielsen | (参考訳) 本稿では,正規分布を結合する離散化曲線に基づく多変量正規分布間のラオ距離を近似し,ジェフリーズ発散の平方根による曲線上の連続する近傍正規分布間のラオ距離を近似する簡易な方法を提案する。
正規分布の常・自然・期待パラメータ化における線形補間曲線を実験的に検討し、これらの曲線とカルボ・オラーの等距離正規多様体のFisher-Rao $d$-variate を$(d+1)\times (d+1)$ symmetric positive-definite matrices [Journal of multivariate analysis 35.2 (1990): 223-242] の錐に埋め込む曲線と比較する。
我々は, 数値近似を下界と上界の両方と比較し, 近似手法の質評価を行った。
最後に、カルボとオルラーの等尺埋め込みに関するいくつかの情報幾何学的性質を示す。 We present a simple method to approximate Rao's distance between multivariate normal distributions based on discretizing curves joining normal distributions and approximating Rao's distances between successive nearby normal distributions on the curves by the square root of Jeffreys divergence, the symmetrized Kullback-Leibler divergence. We consider experimentally the linear interpolation curves in the ordinary, natural and expectation parameterizations of the normal distributions, and compare these curves with a curve derived from the Calvo and Oller's isometric embedding of the Fisher-Rao $d$-variate normal manifold into the cone of $(d+1)\times (d+1)$ symmetric positive-definite matrices [Journal of multivariate analysis 35.2 (1990): 223-242]. We report on our experiments and assess the quality of our approximation technique by comparing the numerical approximations with both lower and upper bounds. Finally, we present several information-geometric properties of the Calvo and Oller's isometric embedding. | 翻訳日:2023-03-23 23:56:36 公開日:2023-03-22 |
# l_1$-norm pcaの補間を伴う非欲アルゴリズムと近位交互最小化法の有限ステップ収束について On Finite-Step Convergence of the Non-Greedy Algorithm and Proximal Alternating Minimization Method with Extrapolation for $L_1$-Norm PCA ( http://arxiv.org/abs/2302.07712v3 ) ライセンス: Link先を確認 | Yuning Yang | (参考訳) 古典的非利他的アルゴリズム(nga)と最近提案された補間付き近交互最小化法(pame)を再び検討し,その有限ステップ収束について検討した。
まず, NGA を条件付き次亜次法あるいは交互最大化法と解釈できることを示した。
これを条件次数として認識することにより、あるフルランクの仮定の下でアルゴリズムによって生成される反復点が有限個のステップで一定となることを証明し、射影次元が 1 であるときにそのような仮定を除去することができる。
アルゴリズムを交互に最大化として扱うことにより、目的値が少なくとも$\left\lceil\frac{F^{\max}}{\tau_0} \right\rceil$ stepsの後に固定されることが証明される。
そして, 収束特性が向上したNGAの微修正を解析した。
修正アルゴリズムによって生成された反復点は、最大$\left\lceil\frac{2f^{\max}}{\tau} \right\rceil$ ステップの後には変化しないことが示された。
pameの場合、符号変数は有限個のステップの後に定数であり、アルゴリズムはパラメータが十分小さくフルランクの仮定を満たす場合、一定の最適条件を満たす点を出力することができることが証明される。
さらに、プロジェクション行列関連の部分プロブレムに近項が存在しない場合、この修正アルゴリズムによって生成される反復点は、少なくとも$\left\lceil \frac{4F^{\max}}{\tau(1-\gamma)} \right\rceil$ steps 以降は変化せず、停止点も特定の最適条件を満たす。
射影次元が 1 の場合、全ランク仮定は取り除くことができる。 The classical non-greedy algorithm (NGA) and the recently proposed proximal alternating minimization method with extrapolation (PAMe) for $L_1$-norm PCA are revisited and their finite-step convergence are studied. It is first shown that NGA can be interpreted as a conditional subgradient or an alternating maximization method. By recognizing it as a conditional subgradient, we prove that the iterative points generated by the algorithm will be constant in finitely many steps under a certain full-rank assumption; such an assumption can be removed when the projection dimension is one. By treating the algorithm as an alternating maximization, we then prove that the objective value will be fixed after at most $\left\lceil\frac{F^{\max}}{\tau_0} \right\rceil$ steps, where the stopping point satisfies certain optimality conditions. Then, a slight modification of NGA with improved convergence properties is analyzed. It is shown that the iterative points generated by the modified algorithm will not change after at most $\left\lceil\frac{2F^{\max}}{\tau} \right\rceil$ steps; furthermore, the stopping point satisfies certain optimality conditions if the proximal parameter $\tau$ is small enough. For PAMe, it is proved that the sign variable will remain constant after finitely many steps and the algorithm can output a point satisfying certain optimality condition, if the parameters are small enough and a full rank assumption is satisfied. Moreover, if there is no proximal term on the projection matrix related subproblem, then the iterative points generated by this modified algorithm will not change after at most $\left\lceil \frac{4F^{\max}}{\tau(1-\gamma)} \right\rceil$ steps and the stopping point also satisfies certain optimality conditions, provided similar assumptions as those for PAMe. The full rank assumption can be removed when the projection dimension is one. | 翻訳日:2023-03-23 23:55:17 公開日:2023-03-22 |
# ランダム事前ネットワークを用いた高次元出力によるスケーラブルベイズ最適化 Scalable Bayesian optimization with high-dimensional outputs using randomized prior networks ( http://arxiv.org/abs/2302.07260v2 ) ライセンス: Link先を確認 | Mohamed Aziz Bhouri and Michael Joly and Robert Yu and Soumalya Sarkar and Paris Perdikaris | (参考訳) 科学と工学におけるいくつかの基本的な問題は、制御可能な変数の集合を高価な実験の結果にマッピングする未知の高次元(ブラックボックス)関数を含む大域的な最適化タスクである。
ベイズ最適化(BO)技術は、相対的に少数の目的関数評価を用いて大域的最適化問題に取り組むのに有効であることが知られているが、その性能は高次元出力を扱う際に損なわれる。
本稿では、次元性の大きな課題を克服するために、BOのためのディープラーニングフレームワークと、ランダム化前のニューラルネットワークの自己ストラップ型アンサンブルに基づくシーケンシャル意思決定を提案する。
適切なアーキテクチャの選択を用いて,提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合であっても,設計変数と関心量の関数関係を近似できることを示した。
BOの文脈では,マルチポイント(並列)取得関数の再パラメータ化モンテカルロ近似と,ブラックボックス制約やマルチファイダリティ情報ソースを調節するための方法論拡張を用いて,確率的サロゲートを提案する。
提案手法をBOの最先端手法に対して検証し,ターボ機械におけるローターブレードの形状最適化を伴う制約付き最適化タスクを含む,高次元出力の課題に対して優れた性能を示す。 Several fundamental problems in science and engineering consist of global optimization tasks involving unknown high-dimensional (black-box) functions that map a set of controllable variables to the outcomes of an expensive experiment. Bayesian Optimization (BO) techniques are known to be effective in tackling global optimization problems using a relatively small number objective function evaluations, but their performance suffers when dealing with high-dimensional outputs. To overcome the major challenge of dimensionality, here we propose a deep learning framework for BO and sequential decision making based on bootstrapped ensembles of neural architectures with randomized priors. Using appropriate architecture choices, we show that the proposed framework can approximate functional relationships between design variables and quantities of interest, even in cases where the latter take values in high-dimensional vector spaces or even infinite-dimensional function spaces. In the context of BO, we augmented the proposed probabilistic surrogates with re-parameterized Monte Carlo approximations of multiple-point (parallel) acquisition functions, as well as methodological extensions for accommodating black-box constraints and multi-fidelity information sources. We test the proposed framework against state-of-the-art methods for BO and demonstrate superior performance across several challenging tasks with high-dimensional outputs, including a constrained optimization task involving shape optimization of rotor blades in turbo-machinery. | 翻訳日:2023-03-23 23:53:36 公開日:2023-03-22 |
# 超伝導トランスモン量子ビットを用いた量子誤り訂正のための全マイクロ波リーク低減ユニット All-microwave leakage reduction units for quantum error correction with superconducting transmon qubits ( http://arxiv.org/abs/2302.09876v2 ) ライセンス: Link先を確認 | J. F. Marques, H. Ali, B. M. Varbanov, M. Finkel, H. M. Veen, S. L. M. van der Meer, S. Valles-Sanclemente, N. Muthusubramanian, M. Beekman, N. Haider, B. M. Terhal, L. DiCarlo | (参考訳) 量子回路を量子ビットとして使用する場合、計算状態からの漏洩を最小化することは課題である。
Battistelらによって提案された回路QEDアーキテクチャにおいて,トランスモンの量子ハードウエア効率,全マイクロ波リーク低減ユニット(LRU)を実現し,拡張する。
このlruは、キュービットのサブスペースへの影響を最小限に抑えつつ、最大$99\%$の220〜\mathrm{ns}$で、第2および第3のトランスモン状態におけるリークを効果的に低減する。
量子誤差補正における第1の応用として,重み2パリティ測定の50サイクル以上において,複数のlrusが誤り検出率を低減し,漏洩ビルドアップを1〜%$以内で抑制できることを実証する。 Minimizing leakage from computational states is a challenge when using many-level systems like superconducting quantum circuits as qubits. We realize and extend the quantum-hardware-efficient, all-microwave leakage reduction unit (LRU) for transmons in a circuit QED architecture proposed by Battistel et al. This LRU effectively reduces leakage in the second- and third-excited transmon states with up to $99\% $ efficacy in $220~\mathrm{ns}$, with minimum impact on the qubit subspace. As a first application in the context of quantum error correction, we demonstrate the ability of multiple simultaneous LRUs to reduce the error detection rate and to suppress leakage buildup within $1\%$ in data and ancilla qubits over 50 cycles of a weight-2 parity measurement. | 翻訳日:2023-03-23 23:45:34 公開日:2023-03-22 |
# ショットポイント交換による一般化アンサンブルにおける構成と経路空間の増強サンプリング Enhanced Sampling of Configuration and Path Space in a Generalized Ensemble by Shooting Point Exchange ( http://arxiv.org/abs/2302.08757v2 ) ライセンス: Link先を確認 | Sebastian Falkner, Alessandro Coretti and Christoph Dellago | (参考訳) 多くの分子過程の計算機シミュレーションは、長寿命状態間の稀な遷移によって引き起こされる長期スケールによって複雑である。
本稿では,遷移経路のサンプリングと構成空間の探索の強化を組み合わせた,このような稀な事象をシミュレートする新しい手法を提案する。
この方法は、一般化アンサンブルに基づいて実行される構成と軌道空間の交換移動に依存する。
この手法は遷移経路サンプリングシミュレーションの効率を、特に複数の遷移チャネルを持つ系において大幅に向上させ、そのダイナミクスを歪ませることなく、分子プロセスの熱力学、運動学、反応座標に関する情報を得る。
この方法は、KPTPテトラペプチドにおけるプロリンの異性化を用いて示される。 The computer simulation of many molecular processes is complicated by long time scales caused by rare transitions between long-lived states. Here, we propose a new approach to simulate such rare events, which combines transition path sampling with enhanced exploration of configuration space. The method relies on exchange moves between configuration and trajectory space, carried out based on a generalized ensemble. This scheme substantially enhances the efficiency of the transition path sampling simulations, particularly for systems with multiple transition channels, and yields information on thermodynamics, kinetics and reaction coordinates of molecular processes without distorting their dynamics. The method is illustrated using the isomerization of proline in the KPTP tetrapeptide. | 翻訳日:2023-03-23 23:44:11 公開日:2023-03-22 |
# Open-Vocabulary Semantic Segmentationのためのサイドアダプタネットワーク Side Adapter Network for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2302.12242v2 ) ライセンス: Link先を確認 | Mengde Xu, Zheng Zhang, Fangyun Wei, Han Hu and Xiang Bai | (参考訳) 本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
本手法は,セマンティクスセグメンテーションタスクを領域認識問題としてモデル化する。
サイドネットワークは、マスク提案を予測する2つのブランチと、CLIPモデルでマスクのクラスを認識するために適用される注意バイアスを予測する2つのブランチを持つ凍結CLIPモデルに取り付けられる。
この分離された設計は、マスク提案のクラスを認識するための利点がある。
付属するサイドネットワークはCLIP機能を再利用できるため、非常に軽量である。
さらに、ネットワーク全体がエンドツーエンドでトレーニングされ、サイドネットワークが凍結されたCLIPモデルに適合し、予測されたマスク提案がCLIPに認識される。
私たちのアプローチは高速で正確で、追加のトレーニング可能なパラメータを追加するだけです。
複数のセマンティックセグメンテーションベンチマークに対するアプローチを評価する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
当社のアプローチが確固たるベースラインとして機能し、オープン語彙セマンティックセグメンテーションの今後の研究を容易にすることを願っている。
コードはhttps://github.com/MendelXu/SANで入手できる。 This paper presents a new framework for open-vocabulary semantic segmentation with the pre-trained vision-language model, named Side Adapter Network (SAN). Our approach models the semantic segmentation task as a region recognition problem. A side network is attached to a frozen CLIP model with two branches: one for predicting mask proposals, and the other for predicting attention bias which is applied in the CLIP model to recognize the class of masks. This decoupled design has the benefit CLIP in recognizing the class of mask proposals. Since the attached side network can reuse CLIP features, it can be very light. In addition, the entire network can be trained end-to-end, allowing the side network to be adapted to the frozen CLIP model, which makes the predicted mask proposals CLIP-aware. Our approach is fast, accurate, and only adds a few additional trainable parameters. We evaluate our approach on multiple semantic segmentation benchmarks. Our method significantly outperforms other counterparts, with up to 18 times fewer trainable parameters and 19 times faster inference speed. We hope our approach will serve as a solid baseline and help ease future research in open-vocabulary semantic segmentation. The code will be available at https://github.com/MendelXu/SAN. | 翻訳日:2023-03-23 23:35:28 公開日:2023-03-22 |
# 効率的な2次元ビデオグラウンドティングのためのテキスト・ビジュアル・プロンプティング Text-Visual Prompting for Efficient 2D Temporal Video Grounding ( http://arxiv.org/abs/2303.04995v2 ) ライセンス: Link先を確認 | Yimeng Zhang, Xin Chen, Jinghan Jia, Sijia Liu, Ke Ding | (参考訳) 本稿では,長編未編集ビデオにおけるテキスト記述の開始時点と終了時点の予測を目的とした,時間的ビデオグラウンドリング(TVG)の問題について検討する。
細粒度の3D視覚的特徴を活かしたTVG技術は,近年,目覚ましい進歩を遂げている。
しかし、3D畳み込みニューラルネットワーク(CNN)の複雑さが高いため、高密度な3D視覚特徴の抽出には時間を要する。
そこで我々は,TVGモデルの視覚的入力とテキスト的特徴の両方に,最適化された摂動パターン("prompts"と呼ぶ)を組み込んだ,新しいテキスト視覚プロンプト(TVP)フレームワークを提案する。
3d cnnとは対照的に,2d tvgモデルでは視覚エンコーダと言語エンコーダを効果的に共訓練でき,低複雑さのスパース2d視覚機能のみを用いたクロスモーダル特徴融合の性能が向上することを示す。
さらに,TVGを効率的に学習するための時間距離IoU(TDIoU)損失を提案する。
2つのベンチマークデータセットであるCharades-STAとActivityNet Captionsデータセットの実験では、提案されたTVPが2D TVG(例えば、Charades-STAは9.79%改善、ActivityNet Captionsは30.77%改善)の性能を大幅に向上し、TVGよりも5倍の推論加速を実現している。
コードはOpen.Intelで入手できる。 In this paper, we study the problem of temporal video grounding (TVG), which aims to predict the starting/ending time points of moments described by a text sentence within a long untrimmed video. Benefiting from fine-grained 3D visual features, the TVG techniques have achieved remarkable progress in recent years. However, the high complexity of 3D convolutional neural networks (CNNs) makes extracting dense 3D visual features time-consuming, which calls for intensive memory and computing resources. Towards efficient TVG, we propose a novel text-visual prompting (TVP) framework, which incorporates optimized perturbation patterns (that we call 'prompts') into both visual inputs and textual features of a TVG model. In sharp contrast to 3D CNNs, we show that TVP allows us to effectively co-train vision encoder and language encoder in a 2D TVG model and improves the performance of crossmodal feature fusion using only low-complexity sparse 2D visual features. Further, we propose a Temporal-Distance IoU (TDIoU) loss for efficient learning of TVG. Experiments on two benchmark datasets, Charades-STA and ActivityNet Captions datasets, empirically show that the proposed TVP significantly boosts the performance of 2D TVG (e.g., 9.79% improvement on Charades-STA and 30.77% improvement on ActivityNet Captions) and achieves 5x inference acceleration over TVG using 3D visual features. Codes are available at Open.Intel. | 翻訳日:2023-03-23 23:09:00 公開日:2023-03-22 |
# 情報統合・自動化・分析・持続性に着目した次世代デジタル調達ワークスペース A Next-Generation Digital Procurement Workspace Focusing on Information Integration, Automation, Analytics, and Sustainability ( http://arxiv.org/abs/2303.03882v2 ) ライセンス: Link先を確認 | Jan-David St\"utz, Oliver Karras, Allard Oelen, and S\"oren Auer | (参考訳) 戦争、制裁、パンデミック、気候変動などの最近の出来事は、適切な供給ネットワーク管理の重要性を示している。
供給ネットワークを管理するための重要なステップは調達である。
本稿では,レジリエンスと持続可能性の促進を目的とした次世代調達作業空間を実現するためのアプローチを提案する。
これを実現するために、このアプローチは、新しい情報統合方法、自動化ツール、分析技術を含んでいる。
その結果、サプライチェーンに沿ってサステナビリティスコアを構成し、集約する環境影響の観点から、調達を見ることができる。
我々は,グローバルなFortune 500企業で使用されているアプローチの実装を提案し,提示する。
さらに,新規調達プラットフォームの利害関係者との詳細なインタビューを行い,その妥当性,ユーザビリティ,革新性を検証した経験的評価研究の結果を示す。 Recent events such as wars, sanctions, pandemics, and climate change have shown the importance of proper supply network management. A key step in managing supply networks is procurement. We present an approach for realizing a next-generation procurement workspace that aims to facilitate resilience and sustainability. To achieve this, the approach encompasses a novel way of information integration, automation tools as well as analytical techniques. As a result, the procurement can be viewed from the perspective of the environmental impact, comprising and aggregating sustainability scores along the supply chain. We suggest and present an implementation of our approach, which is meanwhile used in a global Fortune 500 company. We further present the results of an empirical evaluation study, where we performed in-depth interviews with the stakeholders of the novel procurement platform to validate its adequacy, usability, and innovativeness. | 翻訳日:2023-03-23 23:07:44 公開日:2023-03-22 |
# WDiscOOD:白線分別分析による分布外検出 WDiscOOD: Out-of-Distribution Detection via Whitened Linear Discriminant Analysis ( http://arxiv.org/abs/2303.07543v3 ) ライセンス: Link先を確認 | Yiye Chen, Yunzhi Lin, Ruinian Xu, Patricio A. Vela | (参考訳) ディープニューラルネットワークは、既知の概念を超えたデータで提示された場合、自信過剰だが誤った予測を生じやすい。
この課題は、オープンワールドにおけるアウト・オブ・ディストリビューション(OOD)サンプルの検出の重要性を浮き彫りにする。
本研究では,クラス固有情報とクラス非依存情報とを併用した特徴空間OOD検出スコアを提案する。
具体的には,idクラスが最大に分離され,密にクラスタ化される2つの部分空間(識別部分空間と残留部分空間)に特徴を投影するために,ホワイトド線形判別分析を利用する。
OODスコアは、入力データからのずれと、両方のサブスペース内のID分布とを組み合わせて決定される。
提案手法の有効性は,大規模なImageNet-1kベンチマークで検証され,6つのOODデータセットが分散シフトをカバーしている。
wdiscoodはcnnやvision transformerなど、さまざまなバックボーンアーキテクチャを備えた深い分類器で優れたパフォーマンスを示している。
さらに,本手法は,教師付きコントラスト損失やマルチモダリティコントラスト損失を含む,コントラスト目標で訓練された表現空間における新たな概念をより効果的に検出できることを示す。 Deep neural networks are susceptible to generating overconfident yet erroneous predictions when presented with data beyond known concepts. This challenge underscores the importance of detecting out-of-distribution (OOD) samples in the open world. In this work, we propose a novel feature-space OOD detection score that jointly reasons with both class-specific and class-agnostic information. Specifically, our approach utilizes Whitened Linear Discriminant Analysis to project features into two subspaces - the discriminative and residual subspaces - in which the ID classes are maximally separated and closely clustered, respectively. The OOD score is then determined by combining the deviation from the input data to the ID distribution in both subspaces. The efficacy of our method, named WDiscOOD, is verified on the large-scale ImageNet-1k benchmark, with six OOD datasets that covers a variety of distribution shifts. WDiscOOD demonstrates superior performance on deep classifiers with diverse backbone architectures, including CNN and vision transformer. Furthermore, we also show that our method can more effectively detect novel concepts in representation space trained with contrastive objectives, including supervised contrastive loss and multi-modality contrastive loss. | 翻訳日:2023-03-23 22:50:21 公開日:2023-03-22 |
# nerflix: 分解駆動型視点間ミキサー学習による高品質ニューラルビュー合成 NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXer ( http://arxiv.org/abs/2303.06919v2 ) ライセンス: Link先を確認 | Kun Zhou, Wenbo Li, Yi Wang, Tao Hu, Nianjuan Jiang, Xiaoguang Han, Jiangbo Lu | (参考訳) ニューラルレイディアンス場(NeRF)は、新規なビュー合成において大きな成功を収めた。
しかし, 実世界の場面では, 音源画像から高品質なディテールを復元することは, 既存のnrfベースの手法では依然として困難であり, 不完全なキャリブレーション情報やシーン表現の不正確性が指摘されている。
高品質なトレーニングフレームであっても、NeRFモデルで作られた合成ノベルビューは、ノイズやぼやけなどの顕著なレンダリングアーティファクトに悩まされている。
nerfベースの手法の合成品質を向上させるために,分解駆動型視点間ミキサーを学習し,一般的なnerf非依存リカバリパラダイムであるnerflixを提案する。
特に, nerf型劣化モデリング手法を設計, 大規模トレーニングデータを構築し, 既存のディープニューラルネットワークに対して, nerfネイティブレンダリングアーティファクトを効果的に除去することを可能にする。
さらに, 劣化除去以外にも, 高画質トレーニング画像の融合が可能な視点間集約フレームワークを提案し, 最先端のnrfモデルの性能を全く新しいレベルに押し上げ, 高度にフォトリアリスティックな合成ビューを生成する。 Neural radiance fields (NeRF) show great success in novel view synthesis. However, in real-world scenes, recovering high-quality details from the source images is still challenging for the existing NeRF-based approaches, due to the potential imperfect calibration information and scene representation inaccuracy. Even with high-quality training frames, the synthetic novel views produced by NeRF models still suffer from notable rendering artifacts, such as noise, blur, etc. Towards to improve the synthesis quality of NeRF-based approaches, we propose NeRFLiX, a general NeRF-agnostic restorer paradigm by learning a degradation-driven inter-viewpoint mixer. Specially, we design a NeRF-style degradation modeling approach and construct large-scale training data, enabling the possibility of effectively removing NeRF-native rendering artifacts for existing deep neural networks. Moreover, beyond the degradation removal, we propose an inter-viewpoint aggregation framework that is able to fuse highly related high-quality training images, pushing the performance of cutting-edge NeRF models to entirely new levels and producing highly photo-realistic synthetic views. | 翻訳日:2023-03-23 22:49:06 公開日:2023-03-22 |
# videofusion:高品質ビデオ生成のための分解拡散モデル VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation ( http://arxiv.org/abs/2303.08320v3 ) ライセンス: Link先を確認 | Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan | (参考訳) データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。
最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。
従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。
各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。
さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。 A diffusion probabilistic model (DPM), which constructs a forward diffusion process by gradually adding noise to data points and learns the reverse denoising process to generate new samples, has been shown to handle complex data distribution. Despite its recent success in image synthesis, applying DPMs to video generation is still challenging due to high-dimensional data spaces. Previous methods usually adopt a standard diffusion process, where frames in the same video clip are destroyed with independent noises, ignoring the content redundancy and temporal correlation. This work presents a decomposed diffusion process via resolving the per-frame noise into a base noise that is shared among all frames and a residual noise that varies along the time axis. The denoising pipeline employs two jointly-learned networks to match the noise decomposition accordingly. Experiments on various datasets confirm that our approach, termed as VideoFusion, surpasses both GAN-based and diffusion-based alternatives in high-quality video generation. We further show that our decomposed formulation can benefit from pre-trained image diffusion models and well-support text-conditioned video creation. | 翻訳日:2023-03-23 22:41:51 公開日:2023-03-22 |
# UPRISE: ゼロショット評価を改善するユニバーサルプロンプト検索 UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation ( http://arxiv.org/abs/2303.08518v2 ) ライセンス: Link先を確認 | Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Furu Wei, Denvy Deng, Qi Zhang | (参考訳) 大きな言語モデル(LLM)はその優れた能力で人気があるが、モデル固有の微調整やタスク固有のプロンプトエンジニアリングの必要性は、その一般化を妨げる可能性がある。
本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取得する軽量で多目的なレトリバーをチューニングするUPRISE(Universal Prompt Retrieval for Improving zero-Shot Evaluation)を提案する。
具体的には、クロスタスクおよびクロスモデルシナリオにおいて普遍性を実証する: 検索者は多様なタスクセットに基づいてチューニングされるが、見知らぬタスクタイプでテストされる; 小さな凍結LDM, GPT-Neo-2.7Bを使用して、検索をチューニングするが、BLOOM-7.1B, OPT-66B, GPT3-175B など、はるかに大きなスケールで検索する。
さらに, UPRISEはChatGPT実験において幻覚障害を緩和し, 最強のLDMでも改善する可能性が示唆された。
私たちのモデルとコードはhttps://github.com/microsoft/LMOps.comで公開されています。 Large Language Models (LLMs) are popular for their impressive abilities, but the need for model-specific fine-tuning or task-specific prompt engineering can hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation), which tunes a lightweight and versatile retriever that automatically retrieves prompts for a given zero-shot task input. Specifically, we demonstrate universality in a cross-task and cross-model scenario: the retriever is tuned on a diverse set of tasks, but tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for tuning the retriever, but test the retriever on different LLMs of much larger scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that UPRISE mitigates the hallucination problem in our experiments with ChatGPT, suggesting its potential to improve even the strongest LLMs. Our model and code are available at https://github.com/microsoft/LMOps. | 翻訳日:2023-03-23 22:30:59 公開日:2023-03-22 |
# 一度だけスキャンする: 長時間ビデオの高速時間グラウンドのためのエンドツーエンドフレームワーク Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos ( http://arxiv.org/abs/2303.08345v2 ) ライセンス: Link先を確認 | Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao | (参考訳) video temporal groundingは、クエリ記述にマッチするビデオセグメントをピンポイントすることを目的としている。
短いビデオ(例えば、数分で)の進歩にもかかわらず、長いビデオ(例えば、数時間で)での時間的接地は、まだ初期段階にある。
この課題に対処するため、一般的なプラクティスはスライディングウィンドウを使うことであるが、ウィンドウ内のフレーム数が限られているため、非効率で柔軟性がない。
そこで本研究では,ネットワーク実行時に1時間単位の映像をモデル化できる高速時空間接地のためのエンド・ツー・エンドのフレームワークを提案する。
パイプラインは粗大な方法で定式化され、まず、オーバーラップされていないビデオクリップ(\textit{i.e.}、アンカー)からコンテキスト知識を抽出し、クエリに詳細なコンテンツ知識で応答するアンカーを補う。
パイプライン効率が著しく高いことに加えて,映像全体をモデル化することで,長距離時間相関を捉えることが可能であり,より正確な地盤形成が容易になるというメリットもある。
実験結果から,MAD と Ego4d の長大なビデオデータセットにおいて,本手法は最先端技術よりも優れており,それぞれ高効率で \textbf{14.6$\times$} / \textbf{102.8$\times$} を実現することが示唆された。
プロジェクトは \url{https://github.com/afcedf/SOONet.git} で見ることができる。 Video temporal grounding aims to pinpoint a video segment that matches the query description. Despite the recent advance in short-form videos (\textit{e.g.}, in minutes), temporal grounding in long videos (\textit{e.g.}, in hours) is still at its early stage. To address this challenge, a common practice is to employ a sliding window, yet can be inefficient and inflexible due to the limited number of frames within the window. In this work, we propose an end-to-end framework for fast temporal grounding, which is able to model an hours-long video with \textbf{one-time} network execution. Our pipeline is formulated in a coarse-to-fine manner, where we first extract context knowledge from non-overlapped video clips (\textit{i.e.}, anchors), and then supplement the anchors that highly response to the query with detailed content knowledge. Besides the remarkably high pipeline efficiency, another advantage of our approach is the capability of capturing long-range temporal correlation, thanks to modeling the entire video as a whole, and hence facilitates more accurate grounding. Experimental results suggest that, on the long-form video datasets MAD and Ego4d, our method significantly outperforms state-of-the-arts, and achieves \textbf{14.6$\times$} / \textbf{102.8$\times$} higher efficiency respectively. Project can be found at \url{https://github.com/afcedf/SOONet.git}. | 翻訳日:2023-03-23 22:29:55 公開日:2023-03-22 |
# 分割定数近似を超える形状パルスのシミュレーションと設計 Simulation and design of shaped pulses beyond the piecewise-constant approximation ( http://arxiv.org/abs/2303.09458v2 ) ライセンス: Link先を確認 | Uluk Rasulov, Anupama Acharya, Marina Carravetta, Ilya Kuprov | (参考訳) 共振回路の応答関数は、入力が急速に変化するとリングアーティファクトを生成する。
電磁分光学の物理的限界を探索すると、2種類の問題が発生する。
まず、シミュレーション: システムは応答のトランジェントごとに正確に伝達されなければならず、計算コストがかかる。
第二に、最適制御:回路応答を考慮に入れなければならない;そのような歪みに耐性のあるパルスを設計することが有利である。
両問題の根底には制御シーケンスのピースワイズ・コンスタント近似(英語版)があり、磁気共鳴では初期の頃から継続し、市販のハードウェアに定着している。
本稿では,ハードウェアレベルで(回転フレーム内で)分割線形な制御シーケンスをシミュレートし最適化する最近のリーグループ手法を用いたシミュレーションと最適制御ルーチンの実装とベンチマークについて報告する。 Response functions of resonant circuits create ringing artefacts if their input changes rapidly. When physical limits of electromagnetic spectroscopies are explored, this creates two types of problems. Firstly, simulation: the system must be propagated accurately through every response transient, this may be computationally expensive. Secondly, optimal control: circuit response must be taken into account; it may be advantageous to design pulses that are resilient to such distortions. At the root of both problems is the popular piecewise-constant approximation for control sequences; in magnetic resonance it has persisted since the earliest days and has become entrenched in the commercially available hardware. In this paper, we report an implementation and benchmarks for simulation and optimal control routines that use recent Lie-group methods that simulate and optimise control sequences that are piecewise-linear (in the rotating frame) at the hardware level. | 翻訳日:2023-03-23 22:23:31 公開日:2023-03-22 |
# 大規模容量拡大問題に対する時空間の学習 Learning Spatio-Temporal Aggregations for Large-Scale Capacity Expansion Problems ( http://arxiv.org/abs/2303.08996v2 ) ライセンス: Link先を確認 | Aron Brenner, Rahman Khorramfar, Saurabh Amin | (参考訳) 効果的な投資計画決定は、サイバー物理インフラが長期にわたるパフォーマンス要件を満たすために不可欠である。
これらの決定を計算するには、しばしば能力拡張問題(CEP)を解決する必要がある。
地域規模のエネルギーシステムでは、ネットワークサイズが大きく、ノード特性が異質であり、多数の運用期間があるため、これらの問題を解決するのに非常に費用がかかる。
トラクタビリティを維持するため、従来のアプローチでは、ネットワークノードを集約したり、代表時間のセットを選択したりする。
多くの場合、これらの削減はCEPのコストと制約に重大な影響を及ぼす供給需要の変動を捉えず、最適以下の決定につながる。
本稿では、ヘテロジニアスノード(CEPHN)を持つ汎用CEPの時空間アグリゲーションのための新しいグラフ畳み込みオートエンコーダ手法を提案する。
我々のアーキテクチャはグラフプーリングを利用して類似した特徴を持つノードを識別し、多目的損失関数を最小化する。
この損失関数は、可搬性と最適性に関して望ましい空間的および時間的集約を誘導するために調整される。
特に、グラフプーリングの出力は、低次元の符号化表現をクラスタリングしながら、空間的なアグリゲーションを提供する。
我々は,ニューイングランドにおける88ノード発電と天然ガスシステムを組み合わせた発電拡張計画にアプローチを適用した。
その結果、6つのノードからなるより単純なcephnと、1年間から選ばれた少数の代表日が得られた。
本研究では,損失関数を規定する超パラメータの範囲での集計結果を評価し,その結果の上限値とベンチマーク法で得られた値を比較した。
本手法は,ベンチマーク空間的(時間的)アグリゲーションアプローチより33%低い上限(約10%)を提供することを示す。 Effective investment planning decisions are crucial to ensure cyber-physical infrastructures satisfy performance requirements over an extended time horizon. Computing these decisions often requires solving Capacity Expansion Problems (CEPs). In the context of regional-scale energy systems, these problems are prohibitively expensive to solve due to large network sizes, heterogeneous node characteristics, and a large number of operational periods. To maintain tractability, traditional approaches aggregate network nodes and/or select a set of representative time periods. Often, these reductions do not capture supply-demand variations that crucially impact CEP costs and constraints, leading to suboptimal decisions. Here, we propose a novel graph convolutional autoencoder approach for spatio-temporal aggregation of a generic CEP with heterogeneous nodes (CEPHN). Our architecture leverages graph pooling to identify nodes with similar characteristics and minimizes a multi-objective loss function. This loss function is tailored to induce desirable spatial and temporal aggregations with regard to tractability and optimality. In particular, the output of the graph pooling provides a spatial aggregation while clustering the low-dimensional encoded representations yields a temporal aggregation. We apply our approach to generation expansion planning of a coupled 88-node power and natural gas system in New England. The resulting aggregation leads to a simpler CEPHN with 6 nodes and a small set of representative days selected from one year. We evaluate aggregation outcomes over a range of hyperparameters governing the loss function and compare resulting upper bounds on the original problem with those obtained using benchmark methods. We show that our approach provides upper bounds that are 33% (resp. 10%) lower those than obtained from benchmark spatial (resp. temporal) aggregation approaches. | 翻訳日:2023-03-23 22:21:33 公開日:2023-03-22 |
# GPTはGPTである:大規模言語モデルの労働市場影響の早期調査 GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models ( http://arxiv.org/abs/2303.10130v3 ) ライセンス: Link先を確認 | Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock | (参考訳) 本稿では,米国労働市場におけるGPTモデルとその関連技術の可能性について検討する。
新たなルーブリックを用いて,GPT-4の専門知識と分類の両面を取り入れ,GPT機能との対応に基づく職業評価を行った。
その結果、米国の労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を、労働者の約19%は、その仕事の少なくとも50%が影響を受けていることがわかった。
この影響は全ての賃金水準に及んでおり、高所得の雇用はより大きな露出に直面する可能性がある。
特にこの影響は、最近の生産性が向上している業界に限ったものではない。
我々は,ジェネレーティブ・プレトレーニング・トランスフォーマーは汎用技術(GPT)の特徴を示し,これらのモデルが経済的,社会的,政策的な意味を持つ可能性が示唆された。 We investigate the potential implications of Generative Pre-trained Transformer (GPT) models and related technologies on the U.S. labor market. Using a new rubric, we assess occupations based on their correspondence with GPT capabilities, incorporating both human expertise and classifications from GPT-4. Our findings indicate that approximately 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of GPTs, while around 19% of workers may see at least 50% of their tasks impacted. The influence spans all wage levels, with higher-income jobs potentially facing greater exposure. Notably, the impact is not limited to industries with higher recent productivity growth. We conclude that Generative Pre-trained Transformers exhibit characteristics of general-purpose technologies (GPTs), suggesting that these models could have notable economic, social, and policy implications. | 翻訳日:2023-03-23 22:14:31 公開日:2023-03-22 |
# TBP-Former:視覚中心自律運転における同時知覚と予測のための時間鳥の視点ピラミッド学習 TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving ( http://arxiv.org/abs/2303.09998v2 ) ライセンス: Link先を確認 | Shaoheng Fang, Zi Wang, Yiqi Zhong, Junhao Ge, Siheng Chen, Yanfeng Wang | (参考訳) 視覚中心の関節知覚と予測(PnP)は自律運転研究の新たなトレンドとなっている。
生のRGB画像から周辺環境における交通参加者の今後の状況を予測する。
しかしながら、不可避な幾何学的歪みにより、複数のカメラビューとタイムスタンプで得られた特徴を同期させることは依然として重要な課題であり、これらの空間的-時間的特徴をさらに活用する。
この問題に対処するために,2つの新しいデザインを含む視覚中心型PnPのための時間鳥眼視ピラミッドトランス (TBP-Former) を提案する。
まず、ポーズ同期型BEVエンコーダを提案し、任意のカメラポーズで生画像入力を任意のタイミングで共有同期型BEV空間にマッピングし、時空間同期性を向上する。
第二に、空間的時間的ピラミッド変換器を導入して、マルチスケールのBEV特徴を包括的に抽出し、空間的時間的事前支援により将来のBEV状態を予測する。
nuscenesデータセットに関する広範囲な実験により,提案するフレームワーク全体が,最先端のビジョンに基づく予測手法よりも優れていることが示された。 Vision-centric joint perception and prediction (PnP) has become an emerging trend in autonomous driving research. It predicts the future states of the traffic participants in the surrounding environment from raw RGB images. However, it is still a critical challenge to synchronize features obtained at multiple camera views and timestamps due to inevitable geometric distortions and further exploit those spatial-temporal features. To address this issue, we propose a temporal bird's-eye-view pyramid transformer (TBP-Former) for vision-centric PnP, which includes two novel designs. First, a pose-synchronized BEV encoder is proposed to map raw image inputs with any camera pose at any time to a shared and synchronized BEV space for better spatial-temporal synchronization. Second, a spatial-temporal pyramid transformer is introduced to comprehensively extract multi-scale BEV features and predict future BEV states with the support of spatial-temporal priors. Extensive experiments on nuScenes dataset show that our proposed framework overall outperforms all state-of-the-art vision-based prediction methods. | 翻訳日:2023-03-23 22:14:16 公開日:2023-03-22 |
# ai制御fes-rerestoration of movement--強化学習によるサイクリング刺激パターンの学習 Towards AI-controlled FES-restoration of movements: Learning cycling stimulation pattern with reinforcement learning ( http://arxiv.org/abs/2303.09986v2 ) ライセンス: Link先を確認 | Nat Wannawas, A. Aldo Faisal | (参考訳) 機能的電気刺激(fes)はロボットを含む他のリハビリデバイスと統合されつつある。
FESサイクリングはリハビリテーションにおける一般的なFES応用の1つであり、特定のパターンで脚の筋肉を刺激することによって行われる。
適切なパターンは個人によって異なり、個々のユーザにとって時間と困難を伴う手動チューニングが必要になる。
ここでは、余分なハードウェアやセンサーを必要としないパターンを見つけるためのAIベースの手法を提案する。
本手法は強化学習と詳細な筋骨格モデルを用いたモデルベースパターンの探索から始める2つのフェーズを有する。
モデルはオープンソースソフトウェアを使って構築されており、私たちの自動化されたスクリプトでカスタマイズすることができます。
次に,実際のサイクリングデータを用いてパターンを微調整する。
シミュレーションと実験の両方を定常三輪車でテストします。
シミュレーションテストでは,異なるサイクリング構成のモデルに基づくパターンを頑健に提供することができる。
実験により,本手法はEMGパターンよりも高速なサイクリング速度を誘導するモデルに基づくパターンを見つけることができることがわかった。
100秒のサイクリングデータを使用することで、より優れたサイクリングパフォーマンスを実現するための微調整パターンを提供できる。
FESサイクリング以外にも、この研究は実世界のリハビリテーションにおける人間のループ内AIの可能性と可能性を示す展示会である。 Functional electrical stimulation (FES) has been increasingly integrated with other rehabilitation devices, including robots. FES cycling is one of the common FES applications in rehabilitation, which is performed by stimulating leg muscles in a certain pattern. The appropriate pattern varies across individuals and requires manual tuning which can be time-consuming and challenging for the individual user. Here, we present an AI-based method for finding the patterns, which requires no extra hardware or sensors. Our method has two phases, starting with finding model-based patterns using reinforcement learning and detailed musculoskeletal models. The models, built using open-source software, can be customised through our automated script and can be therefore used by non-technical individuals without extra cost. Next, our method fine-tunes the pattern using real cycling data. We test our both in simulation and experimentally on a stationary tricycle. In the simulation test, our method can robustly deliver model-based patterns for different cycling configurations. The experimental evaluation shows that our method can find a model-based pattern that induces higher cycling speed than an EMG-based pattern. By using just 100 seconds of cycling data, our method can deliver a fine-tuned pattern that gives better cycling performance. Beyond FES cycling, this work is a showcase, displaying the feasibility and potential of human-in-the-loop AI in real-world rehabilitation. | 翻訳日:2023-03-23 22:13:54 公開日:2023-03-22 |
# mednext: 医用画像セグメンテーションのためのconvnetのトランスフォーマー駆動スケーリング MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ( http://arxiv.org/abs/2303.09975v2 ) ライセンス: Link先を確認 | Saikat Roy, Gregor Koehler, Constantin Ulrich, Michael Baumgartner, Jens Petersen, Fabian Isensee, Paul F. Jaeger, Klaus Maier-Hein | (参考訳) 医療画像セグメンテーションのためにTransformerベースのアーキテクチャを採用することへの関心は爆発的に高まっている。
しかし、大規模な注釈付き医療データセットの欠如により、自然画像のそれと同等のパフォーマンスを達成することは困難である。
対照的に畳み込みネットワークは誘導バイアスが高く、その結果、高い性能で容易に訓練できる。
近年、convnextアーキテクチャはトランスフォーマーブロックをミラーリングすることで標準convnetの近代化を試みた。
そこで本研究では, 医療現場の課題に合わせてカスタマイズした, 現代的でスケーラブルな畳み込み型アーキテクチャの設計を改良した。
トランスフォーマーにインスパイアされた大規模カーネルセグメンテーションネットワークであるMedNeXtを導入し,1)医療画像セグメンテーションのための完全なConvNeXt 3Dエンコーダデコーダネットワークを導入する。
2) 規模にまたがる意味的豊かさを維持するため,残留ConvNeXtのアップアンドダウンサンプリングブロック。
3)小規模カーネルネットワークのアップサンプリングによるカーネルサイズを反復的に増加させ,限られた医療データの性能飽和を防止する新手法
4)MedNeXtの複数レベルの複合スケーリング(深さ,幅,カーネルサイズ)。
これにより、CTとMRIの4つのタスクにおける最先端のパフォーマンスと、さまざまなデータセットサイズが実現され、医療画像セグメンテーションのための近代化されたディープアーキテクチャが表される。 There has been exploding interest in embracing Transformer-based architectures for medical image segmentation. However, the lack of large-scale annotated medical datasets make achieving performances equivalent to those in natural images challenging. Convolutional networks, in contrast, have higher inductive biases and consequently, are easily trainable to high performance. Recently, the ConvNeXt architecture attempted to modernize the standard ConvNet by mirroring Transformer blocks. In this work, we improve upon this to design a modernized and scalable convolutional architecture customized to challenges of data-scarce medical settings. We introduce MedNeXt, a Transformer-inspired large kernel segmentation network which introduces - 1) A fully ConvNeXt 3D Encoder-Decoder Network for medical image segmentation, 2) Residual ConvNeXt up and downsampling blocks to preserve semantic richness across scales, 3) A novel technique to iteratively increase kernel sizes by upsampling small kernel networks, to prevent performance saturation on limited medical data, 4) Compound scaling at multiple levels (depth, width, kernel size) of MedNeXt. This leads to state-of-the-art performance on 4 tasks on CT and MRI modalities and varying dataset sizes, representing a modernized deep architecture for medical image segmentation. | 翻訳日:2023-03-23 22:13:33 公開日:2023-03-22 |
# 分散3dlidarを用いたプライバシー保護歩行者追跡 Privacy-preserving Pedestrian Tracking using Distributed 3D LiDARs ( http://arxiv.org/abs/2303.09915v3 ) ライセンス: Link先を確認 | Masakazu Ohno, Riki Ukyo, Tatsuya Amano, Hamada Rizk and Hirozumi Yamaguchi | (参考訳) インテリジェントな環境への需要の高まりは、個人の生活をより快適で安全にするプライバシーに配慮したアプリケーションという異常なサイクルを生み出します。
これらの応用例としては、広範囲の歩行者追跡システムがある。
カメラベースのシステムが多用されているが、歩行者のプライバシーを漏洩する脆弱性があるため、望ましい解決策ではない。
本稿では,複数分散LiDARを用いたスマート環境における歩行者追跡のための新しいプライバシ保護システムを提案する。
このシステムは、LiDARデバイスを利用して部分的に覆われたエリアの歩行者を追跡するように設計されている。
そこで本システムは,異なるLiDARによって捕捉された点雲を用いて,歩行者マッチングのための距離学習モデルを訓練するために使用される識別的特徴を抽出する。
システムのロバスト性を高めるために,個人の動的移動パターンをモデル化し,適応するために確率論的アプローチを活用する。
70個の無色のライダーを搭載した大規模テストベッドにシステムを配置し,3種類の実験を行った。
入場者評価の結果は、ゼロカバーエリアでも0.98Fで歩行者を正確に追跡する能力を確認している。
この結果から,スマート環境における次世代のプライバシ保護トラッキング手段としてのシステムの実現が期待できる。 The growing demand for intelligent environments unleashes an extraordinary cycle of privacy-aware applications that makes individuals' life more comfortable and safe. Examples of these applications include pedestrian tracking systems in large areas. Although the ubiquity of camera-based systems, they are not a preferable solution due to the vulnerability of leaking the privacy of pedestrians. In this paper, we introduce a novel privacy-preserving system for pedestrian tracking in smart environments using multiple distributed LiDARs of non-overlapping views. The system is designed to leverage LiDAR devices to track pedestrians in partially covered areas due to practical constraints, e.g., occlusion or cost. Therefore, the system uses the point cloud captured by different LiDARs to extract discriminative features that are used to train a metric learning model for pedestrian matching purposes. To boost the system's robustness, we leverage a probabilistic approach to model and adapt the dynamic mobility patterns of individuals and thus connect their sub-trajectories. We deployed the system in a large-scale testbed with 70 colorless LiDARs and conducted three different experiments. The evaluation result at the entrance hall confirms the system's ability to accurately track the pedestrians with a 0.98 F-measure even with zero-covered areas. This result highlights the promise of the proposed system as the next generation of privacy-preserving tracking means in smart environments. | 翻訳日:2023-03-23 22:13:08 公開日:2023-03-22 |
# 2次元トーキングヘッドアニメーションのためのスタイル転送 Style Transfer for 2D Talking Head Animation ( http://arxiv.org/abs/2303.09799v2 ) ライセンス: Link先を確認 | Trong-Thang Pham, Nhat Le, Tuong Do, Hung Nguyen, Erman Tjiputra, Quang D. Tran, Anh Nguyen | (参考訳) 音声駆動音声ヘッドアニメーションは多くの現実世界のアプリケーションで難しい研究トピックである。
最近の作品では、写真リアリスティックな2Dアニメーションの作成に焦点が当てられているが、異なる話し方や歌唱スタイルを学ぶことは未解決の問題である。
本稿では,学習可能なスタイル参照を用いた対話型ヘッドアニメーション生成手法を提案する。
スタイル参照フレームのセットが与えられた場合、このフレームワークは、単一の入力画像とオーディオストリームに基づいて、2D音声ヘッドアニメーションを再構成することができる。
提案手法はまず音声ストリームから顔のランドマークの動きを生成し,スタイル参照画像から中間スタイルパターンを構築する。
そして、両方の出力をスタイル対応の画像生成器に入力し、写真リアルで忠実な2Dアニメーションを生成する。
実際に,本フレームワークは,特定の文字のスタイル情報を抽出し,対話型ヘッドアニメーションのための任意の静止画像に転送することができる。
集中実験の結果,最近の最先端手法よりも質的,定量的に優れた結果が得られた。 Audio-driven talking head animation is a challenging research topic with many real-world applications. Recent works have focused on creating photo-realistic 2D animation, while learning different talking or singing styles remains an open problem. In this paper, we present a new method to generate talking head animation with learnable style references. Given a set of style reference frames, our framework can reconstruct 2D talking head animation based on a single input image and an audio stream. Our method first produces facial landmarks motion from the audio stream and constructs the intermediate style patterns from the style reference images. We then feed both outputs into a style-aware image generator to generate the photo-realistic and fidelity 2D animation. In practice, our framework can extract the style information of a specific character and transfer it to any new static image for talking head animation. The intensive experimental results show that our method achieves better results than recent state-of-the-art approaches qualitatively and quantitatively. | 翻訳日:2023-03-23 22:12:49 公開日:2023-03-22 |
# Min-SNR重み付けによる効率的な拡散訓練 Efficient Diffusion Training via Min-SNR Weighting Strategy ( http://arxiv.org/abs/2303.09556v2 ) ライセンス: Link先を確認 | Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, Baining Guo | (参考訳) 減音拡散モデルは画像生成の主流の手法であるが、これらのモデルの訓練はしばしば収束の遅さに苦しむ。
本稿では,時間ステップ間の最適化方向の矛盾による収束が遅いことを発見した。
この問題に対処するため,拡散学習をマルチタスク学習問題として扱うとともに,Min-SNR-$\gamma$と呼ばれるシンプルなアプローチを導入する。
本手法は,信号対雑音比に基づいて時間ステップの損失重みを適応させ,時間ステップ間の競合を効果的にバランスさせる。
その結果,収束速度が大幅に向上し,従来の重み付け戦略よりも3.4$\times$が速くなった。
また、imagenetの256\times256$ベンチマークで、以前の最先端アーキテクチャよりも小さなアーキテクチャを使用して、新しい記録fidスコアを2.06で達成した方が、より効果的である。
コードはhttps://github.com/TiankaiHang/Min-SNR-Diffusion-Trainingで公開されている。 Denoising diffusion models have been a mainstream approach for image generation, however, training these models often suffers from slow convergence. In this paper, we discovered that the slow convergence is partly due to conflicting optimization directions between timesteps. To address this issue, we treat the diffusion training as a multi-task learning problem, and introduce a simple yet effective approach referred to as Min-SNR-$\gamma$. This method adapts loss weights of timesteps based on clamped signal-to-noise ratios, which effectively balances the conflicts among timesteps. Our results demonstrate a significant improvement in converging speed, 3.4$\times$ faster than previous weighting strategies. It is also more effective, achieving a new record FID score of 2.06 on the ImageNet $256\times256$ benchmark using smaller architectures than that employed in previous state-of-the-art. The code is available at https://github.com/TiankaiHang/Min-SNR-Diffusion-Training. | 翻訳日:2023-03-23 22:12:35 公開日:2023-03-22 |
# SemDeDup:セマンティック重複によるWebスケールのデータ効率学習 SemDeDup: Data-efficient learning at web-scale through semantic deduplication ( http://arxiv.org/abs/2303.09540v3 ) ライセンス: Link先を確認 | Amro Abbas, Kushal Tirumala, D\'aniel Simig, Surya Ganguli, Ari S. Morcos | (参考訳) 機械学習の進歩の大部分は、データの大幅な増加によるものだ。
しかしながら、laionのような大規模なwebスケールのデータセットは、正確な重複の検索以上のものが多く、冗長性が失われる可能性がある。
本稿では,semdedupについて紹介する。semdedupは,事前学習したモデルからの埋め込みを利用して意味的重複を識別し除去する手法である。
セマンティクスの重複を取り除くことは、パフォーマンスを保ち、学習をスピードアップする。
LAIONのサブセットを分析して、SemDeDupがパフォーマンス損失を最小限に抑え、トレーニング時間を半減できることを示す。
さらに、性能は分布から向上する。
また、部分的にキュレートされたデータセットであるc4でトレーニングされた言語モデルを分析することで、semdedupが以前のアプローチよりも改善され、効率が向上することを示した。
semdedupは、より少ないデータでモデルの学習を速くするために、品質埋め込みを利用する簡単な方法の例を提供する。 Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially leaving much redundancy. Here, we introduce SemDeDup, a method which leverages embeddings from pre-trained models to identify and remove semantic duplicates: data pairs which are semantically similar, but not exactly identical. Removing semantic duplicates preserves performance and speeds up learning. Analyzing a subset of LAION, we show that SemDeDup can remove 50% of the data with minimal performance loss, effectively halving training time. Moreover, performance increases out of distribution. Also, analyzing language models trained on C4, a partially curated dataset, we show that SemDeDup improves over prior approaches while providing efficiency gains. SemDeDup provides an example of how simple ways of leveraging quality embeddings can be used to make models learn faster with less data. | 翻訳日:2023-03-23 22:11:57 公開日:2023-03-22 |
# ChatGPTがコンピュータサイエンス実験に参加 ChatGPT Participates in a Computer Science Exam ( http://arxiv.org/abs/2303.09461v2 ) ライセンス: Link先を確認 | Sebastian Bordt, Ulrike von Luxburg | (参考訳) われわれはChatGPTに、'algorithms and Data Structures'の学部コンピュータサイエンス試験への参加を依頼した。
プログラムは学生に課せられた試験全体について評価された。
その答案を試験用紙に手作業で写し、その後、200名の学生と一緒に盲目設定にされた。
結果,ChatGPTは40点中20.5点を獲得した。
この素晴らしいパフォーマンスは、ChatGPTが大学試験のような挑戦的なタスクに成功できることを示している。
同時に、我々の試験の質問は、他の試験の質問と構造的に類似しており、宿題の問題が解決され、オンラインで見ることができ、chatgptのトレーニングデータの一部であった可能性がある教材である。
したがって、この実験からChatGPTがコンピュータ科学の知識を持っていると結論付けるのは不適切であろう。
また, GPT-4による改善も評価した。
その結果, GPT-4 は GPT-3.5 よりも約 17 % 高い試験値を得た。
ChatGPT との会話の書き起こしは \url{https://github.com/tml-tuebingen/chatgpt-algorithm-exam} で入手できる。 We asked ChatGPT to participate in an undergraduate computer science exam on ''Algorithms and Data Structures''. The program was evaluated on the entire exam as posed to the students. We hand-copied its answers onto an exam sheet, which was subsequently graded in a blind setup alongside those of 200 participating students. We find that ChatGPT narrowly passed the exam, obtaining 20.5 out of 40 points. This impressive performance indicates that ChatGPT can indeed succeed in challenging tasks like university exams. At the same time, the questions in our exam are structurally similar to those of other exams, solved homework problems, and teaching materials that can be found online and might have been part of ChatGPT's training data. Therefore, it would be inadequate to conclude from this experiment that ChatGPT has any understanding of computer science. We also assess the improvements brought by GPT-4. We find that GPT-4 would have obtained about 17\% more exam points than GPT-3.5, reaching the performance of the average student. The transcripts of our conversations with ChatGPT are available at \url{https://github.com/tml-tuebingen/chatgpt-algorithm-exam}, and the entire graded exam is in the appendix of this paper. | 翻訳日:2023-03-23 22:11:38 公開日:2023-03-22 |
# データ表現強化のための生成モデルの潜在空間におけるバイナリ概念の符号化 Encoding Binary Concepts in the Latent Space of Generative Models for Enhancing Data Representation ( http://arxiv.org/abs/2303.12255v1 ) ライセンス: Link先を確認 | Zizhao Hu, Mohammad Rostami | (参考訳) 二項の概念は、人間が効率的に一般化するために経験的に使われる。
そしてそれらは、情報のビルディングブロックであるBernoulli分布に基づいている。
これらの概念は、"large vs small"や"a neuron is active or inactive"のような低レベルと高レベルの両方にまたがる。
バイナリの概念はユビキタスな機能であり、モデル一般化を改善するための知識の伝達に使用できる。
自動エンコーダにおけるデータ生成の質を向上させるために,バイナリ概念の学習を容易にする新しい2値化正規化を提案する。
データ生成における双対化ハイパーパラメータ$r$を導入し、潜在空間を対称に切り離す。
本手法は,既存の変分オートエンコーダ (vae) 変種に対して容易に適用でき, 対称な絡み合いの促進, 再構成品質の向上, 計算オーバーヘッドを伴わずに後方崩壊を防止できることを示す。
また,本手法は既存のモデルを強化し,より伝達可能な表現を学習し,連続的な学習環境下での再生再生による破滅的な忘れを軽減できる入力分布の代表サンプルを生成することを実証する。 Binary concepts are empirically used by humans to generalize efficiently. And they are based on Bernoulli distribution which is the building block of information. These concepts span both low-level and high-level features such as "large vs small" and "a neuron is active or inactive". Binary concepts are ubiquitous features and can be used to transfer knowledge to improve model generalization. We propose a novel binarized regularization to facilitate learning of binary concepts to improve the quality of data generation in autoencoders. We introduce a binarizing hyperparameter $r$ in data generation process to disentangle the latent space symmetrically. We demonstrate that this method can be applied easily to existing variational autoencoder (VAE) variants to encourage symmetric disentanglement, improve reconstruction quality, and prevent posterior collapse without computation overhead. We also demonstrate that this method can boost existing models to learn more transferable representations and generate more representative samples for the input distribution which can alleviate catastrophic forgetting using generative replay under continual learning settings. | 翻訳日:2023-03-23 15:49:02 公開日:2023-03-22 |
# 深層学習コンピュータビジョンシステムのための最新技術による物理対人攻撃 State-of-the-art optical-based physical adversarial attacks for deep learning computer vision systems ( http://arxiv.org/abs/2303.12249v1 ) ライセンス: Link先を確認 | Junbin Fang, You Jiang, Canjian Jiang, Zoe L. Jiang, Siu-Ming Yiu, Chuanyi Liu | (参考訳) 敵対的攻撃は、人間の目には認識できない入力に小さな摂動を埋め込むことで、深層学習モデルに誤った予測をさせ、深層学習に基づくコンピュータビジョンシステムに大きなセキュリティ脅威をもたらす。
物理的敵攻撃は、より現実的なものであり、デジタル敵攻撃に比べて視覚システム内のバイナリ画像に変換される前に、入力に摂動を導入するためである。
本稿では,身体的敵意攻撃に着目し,さらに侵襲的かつ非侵襲的に分類する。
光ベースの物理的敵対攻撃技術(例えば、光照射を用いる)は非侵襲的なカテゴリーに属する。
摂動は人間が容易に無視できるので、摂動は現実世界の自然環境によって生じる影響と非常によく似ている。
それらは非常に可視性が高く実行可能であり、実際のシステムに重大な、あるいは致命的な脅威をもたらす可能性がある。
本稿では,コンピュータビジョンシステムのための光学系物理対向攻撃技術に注目し,光学系物理対向攻撃技術の導入と議論に焦点をあてる。 Adversarial attacks can mislead deep learning models to make false predictions by implanting small perturbations to the original input that are imperceptible to the human eye, which poses a huge security threat to the computer vision systems based on deep learning. Physical adversarial attacks, which is more realistic, as the perturbation is introduced to the input before it is being captured and converted to a binary image inside the vision system, when compared to digital adversarial attacks. In this paper, we focus on physical adversarial attacks and further classify them into invasive and non-invasive. Optical-based physical adversarial attack techniques (e.g. using light irradiation) belong to the non-invasive category. As the perturbations can be easily ignored by humans as the perturbations are very similar to the effects generated by a natural environment in the real world. They are highly invisibility and executable and can pose a significant or even lethal threats to real systems. This paper focuses on optical-based physical adversarial attack techniques for computer vision systems, with emphasis on the introduction and discussion of optical-based physical adversarial attack techniques. | 翻訳日:2023-03-23 15:48:42 公開日:2023-03-22 |
# 差分プライバシーにおける視覚プロンプトのメリットを探る Exploring the Benefits of Visual Prompting in Differential Privacy ( http://arxiv.org/abs/2303.12247v1 ) ライセンス: Link先を確認 | Yizhe Li, Yu-Lin Tsai, Xuebin Ren, Chia-Mu Yu, Pin-Yu Chen | (参考訳) ビジュアルプロンプト(vp)は、よく訓練された凍結したソースモデルによって下流タスクへのサンプル効率の高い適応を可能にする、新興かつ強力な技術である。
本稿では,差分プライバシー(dp)を用いた説得力のあるニューラルネットワーク分類器の構築におけるvpのメリットについて検討する。
vp を正準 dp トレーニング手法に統合し,その単純性と効率性を示す。
特に,教師のアンサンブルからの知識伝達を活用する,最先端のDPトレーニング手法であるPATEと接するVPが,プライバシー予算の最小支出で最先端のプライバシユーティリティトレードオフを実現することを発見した。
さらに,DPにおけるVPの利点を明らかにするために,十分な領域ギャップを持つ領域間画像分類のさらなる実験を行った。
最後に,dpを考慮したvpの有効性と貢献を検証するため,広範なアブレーション研究を行う。 Visual Prompting (VP) is an emerging and powerful technique that allows sample-efficient adaptation to downstream tasks by engineering a well-trained frozen source model. In this work, we explore the benefits of VP in constructing compelling neural network classifiers with differential privacy (DP). We explore and integrate VP into canonical DP training methods and demonstrate its simplicity and efficiency. In particular, we discover that VP in tandem with PATE, a state-of-the-art DP training method that leverages the knowledge transfer from an ensemble of teachers, achieves the state-of-the-art privacy-utility trade-off with minimum expenditure of privacy budget. Moreover, we conduct additional experiments on cross-domain image classification with a sufficient domain gap to further unveil the advantage of VP in DP. Lastly, we also conduct extensive ablation studies to validate the effectiveness and contribution of VP under DP consideration. | 翻訳日:2023-03-23 15:48:26 公開日:2023-03-22 |
# 統計的保証による物体ポーズ推定:共形鍵点検出と幾何学的不確かさ伝播 Object Pose Estimation with Statistical Guarantees: Conformal Keypoint Detection and Geometric Uncertainty Propagation ( http://arxiv.org/abs/2303.12246v1 ) ライセンス: Link先を確認 | Heng Yang, Marco Pavone | (参考訳) 2段階のオブジェクトポーズ推定パラダイムは、まず画像上のセマンティックキーポイントを検出し、再投影誤差を最小限にして6Dポーズを推定する。
標準ベンチマークでよく機能するにもかかわらず、既存の手法は評価の品質と不確実性に関する証明可能な保証を提供していない。
本稿では、2段階のパラダイムに2つの基本的変化、すなわち共形キーポイント検出と幾何不確実性伝播を注入し、計算可能な最悪のエラー境界を持つ推定値を与える最初のポーズ推定器を提案する。
一方、共形キーポイント検出は、帰納的共形予測の統計機構を適用して、ヒューリスティックなキーポイント検出を、ユーザーが特定した限界確率(例えば90%)で基底キーポイントをカバーする円形または楕円的な予測セットに変換する。
一方、幾何学的不確実性伝播は、キーポイント上の幾何学的制約を6次元オブジェクトのポーズに伝播させ、同じ確率で基底のポーズのカバレッジを保証するPose UnceRtainty SEt (PURSE) へと導く。
しかし、PURSEは非凸集合であり、推定されたポーズや不確実性に直接導かない。
そこで, 平均ポーズを計算し, 平均ポーズと基底の最悪のエラーを上界に半定緩和するrandom SAmple averaGing (RANSAG) を開発した。
LineMOD Occlusion データセットについて
i) PURSEは,その基盤を有効な確率で覆っている。
(ii)最悪のエラー境界は、正確な不確実性定量化を提供する。
(iii)平均ポーズは、スパースキーポイントに基づく代表方法とよく似た精度を達成する。 The two-stage object pose estimation paradigm first detects semantic keypoints on the image and then estimates the 6D pose by minimizing reprojection errors. Despite performing well on standard benchmarks, existing techniques offer no provable guarantees on the quality and uncertainty of the estimation. In this paper, we inject two fundamental changes, namely conformal keypoint detection and geometric uncertainty propagation, into the two-stage paradigm and propose the first pose estimator that endows an estimation with provable and computable worst-case error bounds. On one hand, conformal keypoint detection applies the statistical machinery of inductive conformal prediction to convert heuristic keypoint detections into circular or elliptical prediction sets that cover the groundtruth keypoints with a user-specified marginal probability (e.g., 90%). Geometric uncertainty propagation, on the other, propagates the geometric constraints on the keypoints to the 6D object pose, leading to a Pose UnceRtainty SEt (PURSE) that guarantees coverage of the groundtruth pose with the same probability. The PURSE, however, is a nonconvex set that does not directly lead to estimated poses and uncertainties. Therefore, we develop RANdom SAmple averaGing (RANSAG) to compute an average pose and apply semidefinite relaxation to upper bound the worst-case errors between the average pose and the groundtruth. On the LineMOD Occlusion dataset we demonstrate: (i) the PURSE covers the groundtruth with valid probabilities; (ii) the worst-case error bounds provide correct uncertainty quantification; and (iii) the average pose achieves better or similar accuracy as representative methods based on sparse keypoints. | 翻訳日:2023-03-23 15:48:09 公開日:2023-03-22 |
# 物理に変形したニューラルネットワークの2次動的pdes近似のための誤差解析 Error Analysis of Physics-Informed Neural Networks for Approximating Dynamic PDEs of Second Order in Time ( http://arxiv.org/abs/2303.12245v1 ) ライセンス: Link先を確認 | Yanxia Qian, Yongchao Zhang, Yunqing Huang, Suchuan Dong | (参考訳) 物理学的インフォームド・ニューラル・ネットワーク(pinn)アプローチにより、時間的に2階の動的偏微分方程式(pde)のクラスを近似し、波方程式、サイン・ゴルドン方程式、線形エラストダイナミック方程式に対するピンの誤差解析を提供する。
解析の結果,2つの隠れ層と$\tanh$アクティベーション関数を持つフィードフォワードニューラルネットワークでは,解場のピン近似誤差,時間微分とその勾配場は,トレーニング損失とトレーニングデータ点数(量子点)によって効果的に境界化できることがわかった。
さらに, 誤差推定に不可欠であるが, 正規のPINN損失定式化に欠かせない残差を含む訓練損失関数の新たな形式を提案する。
損失関数にこれらの新しい形式を採用すると、異種PINNアルゴリズムが現れる。
本稿では, 波動方程式に対するpinnアルゴリズム, 正弦ゴドン方程式, 線形エラストダイナミック方程式を用いて, 解をうまく捉えることができることを示す。 We consider the approximation of a class of dynamic partial differential equations (PDE) of second order in time by the physics-informed neural network (PINN) approach, and provide an error analysis of PINN for the wave equation, the Sine-Gordon equation and the linear elastodynamic equation. Our analyses show that, with feed-forward neural networks having two hidden layers and the $\tanh$ activation function, the PINN approximation errors for the solution field, its time derivative and its gradient field can be effectively bounded by the training loss and the number of training data points (quadrature points). Our analyses further suggest new forms for the training loss function, which contain certain residuals that are crucial to the error estimate but would be absent from the canonical PINN loss formulation. Adopting these new forms for the loss function leads to a variant PINN algorithm. We present ample numerical experiments with the new PINN algorithm for the wave equation, the Sine-Gordon equation and the linear elastodynamic equation, which show that the method can capture the solution well. | 翻訳日:2023-03-23 15:47:41 公開日:2023-03-22 |
# 直接コントラスト学習による不完全多視点クラスタリングの次元崩壊防止 Preventing Dimensional Collapse of Incomplete Multi-View Clustering via Direct Contrastive Learning ( http://arxiv.org/abs/2303.12241v1 ) ライセンス: Link先を確認 | Kaiwu Zhang, Shiqiang Du, Baokai Liu, and Shengxia Gao | (参考訳) 不完全なマルチビュークラスタリング(IMVC)は教師なしの手法であり、その優れた性能から対照的な学習によるIMVCが注目されている。
従来の方法には次のような問題がある。
1) クラスタリング中の低次元部分空間でのみ潜在特徴が有効である次元崩壊問題を解く場合の投影ヘッドの過剰依存性。
しかし、プロジェクションヘッドの多くのパラメータは不要である。
2) 回収されたビューには, 一貫性のない個人情報が含まれ, 役に立たないプライベート情報は, 一貫性のある学習と再構成学習により, 共通意味論の学習を誤解させる。
上記の問題に対処するため、我々は新しい不完全なマルチビューコントラストクラスタリングフレームワークを提案する。
このフレームワークは潜在機能部分空間を直接最適化し、学習した特徴ベクトルとその部分ベクトルを再構成学習と一貫性学習に利用し、投影ヘッドに頼ることなく効果的に次元崩壊を回避する。
異なる特徴に対して復元損失とコントラスト損失を行うため、無駄なプライベート情報の悪影響を低減させる。
不完全データについては、クロスビュー予測機構により不足情報を復元し、異なるビューからの矛盾情報を最小条件エントロピーにより破棄し、プライベート情報の影響をさらに回避する。
5つの公開データセットに対する手法の大規模な実験結果から,本手法が最先端のクラスタリング結果を実現することを示す。 Incomplete multi-view clustering (IMVC) is an unsupervised approach, among which IMVC via contrastive learning has received attention due to its excellent performance. The previous methods have the following problems: 1) Over-reliance on additional projection heads when solving the dimensional collapse problem in which latent features are only valid in lower-dimensional subspaces during clustering. However, many parameters in the projection heads are unnecessary. 2) The recovered view contain inconsistent private information and useless private information will mislead the learning of common semantics due to consistent learning and reconstruction learning on the same feature. To address the above issues, we propose a novel incomplete multi-view contrastive clustering framework. This framework directly optimizes the latent feature subspace, utilizes the learned feature vectors and their sub-vectors for reconstruction learning and consistency learning, thereby effectively avoiding dimensional collapse without relying on projection heads. Since reconstruction loss and contrastive loss are performed on different features, the adverse effect of useless private information is reduced. For the incomplete data, the missing information is recovered by the cross-view prediction mechanism and the inconsistent information from different views is discarded by the minimum conditional entropy to further avoid the influence of private information. Extensive experimental results of the method on 5 public datasets show that the method achieves state-of-the-art clustering results. | 翻訳日:2023-03-23 15:47:21 公開日:2023-03-22 |
# 重音を用いた確率的非平滑凸最適化 Stochastic Nonsmooth Convex Optimization with Heavy-Tailed Noises ( http://arxiv.org/abs/2303.12277v1 ) ライセンス: Link先を確認 | Zijian Liu, Zhengyuan Zhou | (参考訳) 近年、確率的最適化問題を考える研究がいくつかあるが、重み付きノイズレジーム、すなわち、確率的勾配と真の勾配の差は、(例えば、いくつかの$\sigma\geq0$ に対して$\sigma^{p}$ で上限されるような)有限の$p$-th モーメント(例えば、$p\in(1,2]$)を持つと仮定される。
この挑戦的な仮定の下では、凸問題や非凸問題に対して多くの新しい進歩がなされてきたが、そのほとんどは滑らかな目的しか考慮していない。
対照的に、関数が不眠である場合、人々はこの問題を十分に探求し、よく理解していない。
本稿では,重み付き雑音を用いた確率的非滑らか凸最適化の包括的解析により,この重要なギャップを埋めることを目的とする。
単純なクリッピングに基づくアルゴリズムを再検討するが、これは期待値に収束するだけでなく、さらに強い凸性仮定の下でも証明される。
パラメータの適切な選択の下では、凸関数と強凸関数の両方に対して、最初の高確率率を確立するだけでなく、既存の研究と比較して洗練された内部予測境界を与える。
驚くべきことに、すべての結果は、事前に$t$が不明であっても、時間軸$t$に関して最適(または対数係数までほぼ最適)である。
さらに、$\sigma$に対してアルゴリズムをパラメータフリーにする方法を示し、言い換えれば、$\sigma$の事前知識なしでも収束を保証することができる。 Recently, several studies consider the stochastic optimization problem but in a heavy-tailed noise regime, i.e., the difference between the stochastic gradient and the true gradient is assumed to have a finite $p$-th moment (say being upper bounded by $\sigma^{p}$ for some $\sigma\geq0$) where $p\in(1,2]$, which not only generalizes the traditional finite variance assumption ($p=2$) but also has been observed in practice for several different tasks. Under this challenging assumption, lots of new progress has been made for either convex or nonconvex problems, however, most of which only consider smooth objectives. In contrast, people have not fully explored and well understood this problem when functions are nonsmooth. This paper aims to fill this crucial gap by providing a comprehensive analysis of stochastic nonsmooth convex optimization with heavy-tailed noises. We revisit a simple clipping-based algorithm, whereas, which is only proved to converge in expectation but under the additional strong convexity assumption. Under appropriate choices of parameters, for both convex and strongly convex functions, we not only establish the first high-probability rates but also give refined in-expectation bounds compared with existing works. Remarkably, all of our results are optimal (or nearly optimal up to logarithmic factors) with respect to the time horizon $T$ even when $T$ is unknown in advance. Additionally, we show how to make the algorithm parameter-free with respect to $\sigma$, in other words, the algorithm can still guarantee convergence without any prior knowledge of $\sigma$. | 翻訳日:2023-03-23 15:39:35 公開日:2023-03-22 |
# スピンボーソン模型における時間外コリレータの忠実性 Fidelity Out-of-Time-Order Correlator in the Spin-Boson Model ( http://arxiv.org/abs/2303.12276v1 ) ライセンス: Link先を確認 | Ruofan Chen | (参考訳) 本稿では, 数値的に正確な時間進化行列積演算子法を用いて, 非バイアススピン-ボソンモデルにおける時間外相関器(FOTOC)の温度0。
FOTOCの初期指数的成長の後、系力学の情報はFOTOCに結合することが判明した。
これにより、fotocはシステムダイナミクスの先進的なエピトームとなり、すなわち、fotocは短い時間間隔内でシステムダイナミクスと類似した振る舞いを示す。
結局のところ、FOTOCの進歩はシステムダイナミクスよりも先行しており、システムダイナミクスの予測を提供することができる。 In this article, using the numerically exact time-evolving matrix product operators method, we study the fidelity out-of-time-order correlator (FOTOC) in the unbiased spin-boson model at zero temperature. It is found that after the initial exponential growth of FOTOC, the information of the system dynamics will adulterate into the FOTOC. This makes the FOTOC an advanced epitome of the system dynamics, i.e., the FOTOC shows similar behavior to that of system dynamics within a shorter time interval. Eventually the progress of the FOTOC is ahead of the system dynamics, which can provide a prediction of the system dynamics. | 翻訳日:2023-03-23 15:39:06 公開日:2023-03-22 |
# マルチエージェント軌道予測のための階層型ハイブリッド学習フレームワーク A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory Prediction ( http://arxiv.org/abs/2303.12274v1 ) ライセンス: Link先を確認 | Yujun Jiao, Mingze Miao, Zhishuai Yin, Chunyuan Lei, Xu Zhu, Linzhen Nie and Bo Tao | (参考訳) 近隣のエージェントの正確な軌道予測は、複雑な場面で走行する自動運転車にとって重要である。
近年提案されている手法の多くは,複雑な相互作用のエンコーディングの強みから,深層学習に基づくものである。
しかし、過去の観測に重きを置き、スパースサンプルからの過渡的および偶発的相互作用を効果的に捉えることができないため、賞賛できない予測がしばしば発生する。
本稿では,マルチエージェント軌道予測のための階層型ハイブリッド・フレームワークである深層学習(DL)と強化学習(RL)を提案し,マルチスケール相互作用によって形成される動きを予測することの課題に対処する。
DL段階では、トラフィックシーンは、中間レベルとグローバルレベルの異種相互作用をエンコードするためにTransformerスタイルのGNNを採用する複数の中間スケール異種グラフに分割される。
rlステージでは、dlステージで予測される重要な将来ポイントを利用して、トラフィックシーンをローカルなサブシーンに分割する。
運動計画手順をエミュレートし、軌道予測を生成するため、車載キネマティクスモデルに組み込んだトランスフォーマーベースのPPO(Pximal Policy Optimization)を設計し、微視的相互作用の圧倒的な影響下で動作を計画する。
多目的報酬はエージェント中心の精度とシーンワイド互換性のバランスをとるように設計されている。
実験の結果,本提案手法はargoverse forecasting benchmarkの最先端技術に適合することがわかった。
また、階層的な学習フレームワークがマルチスケールのインタラクションをキャプチャし、予測されたトラジェクトリの実現性とコンプライアンスを改善することも可視化された結果から明らかになった。 Accurate and robust trajectory prediction of neighboring agents is critical for autonomous vehicles traversing in complex scenes. Most methods proposed in recent years are deep learning-based due to their strength in encoding complex interactions. However, unplausible predictions are often generated since they rely heavily on past observations and cannot effectively capture the transient and contingency interactions from sparse samples. In this paper, we propose a hierarchical hybrid framework of deep learning (DL) and reinforcement learning (RL) for multi-agent trajectory prediction, to cope with the challenge of predicting motions shaped by multi-scale interactions. In the DL stage, the traffic scene is divided into multiple intermediate-scale heterogenous graphs based on which Transformer-style GNNs are adopted to encode heterogenous interactions at intermediate and global levels. In the RL stage, we divide the traffic scene into local sub-scenes utilizing the key future points predicted in the DL stage. To emulate the motion planning procedure so as to produce trajectory predictions, a Transformer-based Proximal Policy Optimization (PPO) incorporated with a vehicle kinematics model is devised to plan motions under the dominant influence of microscopic interactions. A multi-objective reward is designed to balance between agent-centric accuracy and scene-wise compatibility. Experimental results show that our proposal matches the state-of-the-arts on the Argoverse forecasting benchmark. It's also revealed by the visualized results that the hierarchical learning framework captures the multi-scale interactions and improves the feasibility and compliance of the predicted trajectories. | 翻訳日:2023-03-23 15:38:53 公開日:2023-03-22 |
# EBSR:画像超解像のための拡張バイナリニューラルネットワーク EBSR: Enhanced Binary Neural Network for Image Super-Resolution ( http://arxiv.org/abs/2303.12270v1 ) ライセンス: Link先を確認 | Renjie Wei, Shuwen Zhang, Zechun Liu, Meng Li, Yuchen Fan, Runsheng Wang, Ru Huang | (参考訳) 画像超解像(SR)のためのディープ畳み込みニューラルネットワークの性能は大幅に改善されているが、メモリと計算要求の急速な増加は、リソース制約されたデバイスへの展開を妨げる。
SRのための量子ネットワーク、特にバイナリニューラルネットワーク(BNN)は、モデル推論効率を大幅に改善するが、大きな性能劣化に悩まされている。
srネットワークのアクティベーション分布を観察した結果、非常に大きな画素-画素間、チャネル間、画像間変動が示され、高性能srでは重要となるが、バイナリ化では失われる。
この問題に対処するために、より空間的・チャネル的に情報を保持することによりバイナリ畳み込みを増大させる、空間的再スケーリングとチャネル的シフトと再スケーリングの2つの効果的な方法を提案する。
EBSRと呼ばれる提案モデルは,異なるデータセットと異なるモデルサイズにまたがって,定量的かつ質的に先行技術よりも優れた性能を示す。
具体的には、set5 と Urban100 上の x4 SR に対して、EBSRlight は SRResNet-E2FIF と比較して PSNR 0.31 dB と 0.28 dB を改善し、EBSR は EDSR-E2FIF 0.29 dB と 0.32 dB PSNR をそれぞれ上回っている。 While the performance of deep convolutional neural networks for image super-resolution (SR) has improved significantly, the rapid increase of memory and computation requirements hinders their deployment on resource-constrained devices. Quantized networks, especially binary neural networks (BNN) for SR have been proposed to significantly improve the model inference efficiency but suffer from large performance degradation. We observe the activation distribution of SR networks demonstrates very large pixel-to-pixel, channel-to-channel, and image-to-image variation, which is important for high performance SR but gets lost during binarization. To address the problem, we propose two effective methods, including the spatial re-scaling as well as channel-wise shifting and re-scaling, which augments binary convolutions by retaining more spatial and channel-wise information. Our proposed models, dubbed EBSR, demonstrate superior performance over prior art methods both quantitatively and qualitatively across different datasets and different model sizes. Specifically, for x4 SR on Set5 and Urban100, EBSRlight improves the PSNR by 0.31 dB and 0.28 dB compared to SRResNet-E2FIF, respectively, while EBSR outperforms EDSR-E2FIF by 0.29 dB and 0.32 dB PSNR, respectively. | 翻訳日:2023-03-23 15:38:28 公開日:2023-03-22 |
# AUTO:オンラインテスト時間OOD検出のための適応出力最適化 AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection ( http://arxiv.org/abs/2303.12267v1 ) ライセンス: Link先を確認 | Puning Yang, Jian Liang, Jie Cao, Ran He | (参考訳) out-of-distribution (ood)検出は、機械学習モデルをオープンワールドアプリケーションにデプロイする上で重要な側面である。
実験的な証拠は、補助的外れ値による訓練がOODの検出を大幅に改善することを示している。
しかしながら、このような外れ値は通常、テストoodデータと比較して分布ギャップを示し、可能なすべてのテストoodシナリオをカバーできない。
さらに、これらのアウトレイラを組み込むことで、追加のトレーニング負荷がもたらされる。
本稿では,未ラベルオンラインデータをテスト時に直接利用してOOD検出性能を向上させる,テスト時OOD検出という新しいパラダイムを提案する。
このパラダイムは効率的だが、破滅的な忘れなどの課題も提示する。
これらの課題に対処するために,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
AUTOは、テストデータから擬似IDと擬似OODサンプルを適応的にマイニングし、推論中にリアルタイムでネットワークを最適化する。
CIFAR-10, CIFAR-100, ImageNetベンチマークの結果, AUTOはOOD検出性能を大幅に向上することが示された。 Out-of-distribution (OOD) detection is a crucial aspect of deploying machine learning models in open-world applications. Empirical evidence suggests that training with auxiliary outliers substantially improves OOD detection. However, such outliers typically exhibit a distribution gap compared to the test OOD data and do not cover all possible test OOD scenarios. Additionally, incorporating these outliers introduces additional training burdens. In this paper, we introduce a novel paradigm called test-time OOD detection, which utilizes unlabeled online data directly at test time to improve OOD detection performance. While this paradigm is efficient, it also presents challenges such as catastrophic forgetting. To address these challenges, we propose adaptive outlier optimization (AUTO), which consists of an in-out-aware filter, an ID memory bank, and a semantically-consistent objective. AUTO adaptively mines pseudo-ID and pseudo-OOD samples from test data, utilizing them to optimize networks in real time during inference. Extensive results on CIFAR-10, CIFAR-100, and ImageNet benchmarks demonstrate that AUTO significantly enhances OOD detection performance. | 翻訳日:2023-03-23 15:37:57 公開日:2023-03-22 |
# 円偏光レーザー光の存在下での水素様原子の動的スタークシフト Dynamic Stark shift of Hydrogen-like atoms in the presence of circularly polarized laser light ( http://arxiv.org/abs/2303.12266v1 ) ライセンス: Link先を確認 | Behnam Nikoobakht | (参考訳) 円偏光レーザー光の存在下での水素エネルギー準位の動的スタークシフトの解析的導出について述べる。
古典的枠組みを用いて,レーザーと原子の相互作用について検討し,2次量子化レーザーと原子双極子相互作用ハミルトニアンを用いた時間非依存摂動理論にアプローチする。
そこで我々は, 円偏光レーザー光の存在下で, 原子水素の励起過程や, 原子価の低い水素様イオンの励起過程について検討した。
これら2つの方法を用いた水素エネルギー準位の動的交流スタークシフトの導出式は、大きな光子数の極限において同じであることが示されている。 The analytic derivation of the dynamic Stark shift of hydrogenic energy levels in the presence of the circularly polarized laser light is presented. We use the classical framework with considering an adiabatically damped laser+atom interaction and an approach relies on time-independent perturbation theory with a second-quantized laser+atom dipole interaction Hamiltonian. We thus investigate the excitation process in atomic hydrogen or in a hydrogen like ion with low nuclear charge number in the presence of the circularly polarized laser light. The derived formula for the dynamic AC Stark shift of hydrogenic energy levels using these two methods are shown to be same in the limit of large photon numbers. | 翻訳日:2023-03-23 15:37:40 公開日:2023-03-22 |
# マウス頭蓋窓作成のための自律型ロボットドリルシステム:卵モデルによる評価 Autonomous Robotic Drilling System for Mice Cranial Window Creation: An Evaluation with an Egg Model ( http://arxiv.org/abs/2303.12265v1 ) ライセンス: Link先を確認 | Enduo Zhao and Murilo M. Marinho and Kanako Harada | (参考訳) 生命科学における実験操作のためのロボット支援は、科学者のスキルに関係なく、貴重なサンプルの正確な操作を可能にすることが期待されている。
生命科学の実験的な標本は個々の変動と変形の対象となるため、自律的なロボット制御が必要である。
一例として,マウスの頭蓋窓の設置について検討している。
この手術では、厚さ約300mの頭蓋骨を直径8mmの円形に切断する必要があるが、マウスの頭蓋骨の形状は、マウス、性別、週の歪みによって異なる。
頭蓋骨の厚さは均一ではなく、一部の領域は薄く、他の領域は厚くなっている。
また、マウスの頭蓋骨が操作毎に同じ位置に保持されることを保証することも困難である。
これらの特徴をすべて測定し、個々のマウスに対してロボット軌道を事前にプログラムすることは現実的には不可能である。
そこで本稿では,自律型ロボット掘削法を提案する。
提案手法は,掘削軌道計画と画像に基づくタスク完了レベル認識からなる。
軌道計画では、各離散点におけるタスク完了レベルに応じてドリルのz位置を調整し、オーバーシュートを避けながら拘束された立方体スプライン補間を介して3次元ドリルパスを形成する。
タスク完了レベル認識は、DSSDにインスパイアされたディープラーニングモデルを使用して、各離散点のタスク完了レベルを推定する。
卵は、形状、厚み、機械的特性の点でマウス頭蓋骨と類似する特性を有するため、卵殻を損傷することなく除去することがシミュレーションタスクとして選択された。
提案手法はドリルを装着した6-DOFロボットアームを用いて評価し,20回中80%の成功率を達成した。 Robotic assistance for experimental manipulation in the life sciences is expected to enable precise manipulation of valuable samples, regardless of the skill of the scientist. Experimental specimens in the life sciences are subject to individual variability and deformation, and therefore require autonomous robotic control. As an example, we are studying the installation of a cranial window in a mouse. This operation requires the removal of the skull, which is approximately 300 um thick, to cut it into a circular shape 8 mm in diameter, but the shape of the mouse skull varies depending on the strain of mouse, sex and week of age. The thickness of the skull is not uniform, with some areas being thin and others thicker. It is also difficult to ensure that the skulls of the mice are kept in the same position for each operation. It is not realistically possible to measure all these features and pre-program a robotic trajectory for individual mice. The paper therefore proposes an autonomous robotic drilling method. The proposed method consists of drilling trajectory planning and image-based task completion level recognition. The trajectory planning adjusts the z-position of the drill according to the task completion level at each discrete point, and forms the 3D drilling path via constrained cubic spline interpolation while avoiding overshoot. The task completion level recognition uses a DSSD-inspired deep learning model to estimate the task completion level of each discrete point. Since an egg has similar characteristics to a mouse skull in terms of shape, thickness and mechanical properties, removing the egg shell without damaging the membrane underneath was chosen as the simulation task. The proposed method was evaluated using a 6-DOF robotic arm holding a drill and achieved a success rate of 80% out of 20 trials. | 翻訳日:2023-03-23 15:37:28 公開日:2023-03-22 |
# マルチスケール計算モデルにおける機械学習の課題と機会 Challenges and opportunities for machine learning in multiscale computational modeling ( http://arxiv.org/abs/2303.12261v1 ) ライセンス: Link先を確認 | Phong C.H. Nguyen, Joseph B. Choi, H.S. Udaykumar, Stephen Baek | (参考訳) 多くの機械工学的応用は、マルチスケールの計算モデリングとシミュレーションを求めている。
しかし、複雑なマルチスケールシステムの解法は、解空間の高次元性のために計算的に一様である。
近年、機械学習(ML)は、従来の数値手法の代用、加速、拡張の可能な、有望なソリューションとして登場した。
パイオネリングの研究は、MLが直接数値法で得られるものと同等の精度で方程式のシステムを管理するためのソリューションを提供するが、計算速度は大幅に高速であることを示した。
これらの高速高忠実度推定は、従来の解法により良い初期解を提供することにより、複雑なマルチスケールシステムの解決を容易にする。
本稿では、複雑なマルチスケールモデリングとシミュレーションにMLを使う機会と課題について述べる。
まず,マルチスケールシステムをシミュレートするための最先端mlアプローチを概説し,ランドマーク開発のいくつかを強調する。
次に、データと離散化依存、解釈可能性、データ共有と協調プラットフォーム開発といったマルチスケール計算モデリングにおけるmlの現在の課題について論じる。
最後に,今後の研究の方向性について提案する。 Many mechanical engineering applications call for multiscale computational modeling and simulation. However, solving for complex multiscale systems remains computationally onerous due to the high dimensionality of the solution space. Recently, machine learning (ML) has emerged as a promising solution that can either serve as a surrogate for, accelerate or augment traditional numerical methods. Pioneering work has demonstrated that ML provides solutions to governing systems of equations with comparable accuracy to those obtained using direct numerical methods, but with significantly faster computational speed. These high-speed, high-fidelity estimations can facilitate the solving of complex multiscale systems by providing a better initial solution to traditional solvers. This paper provides a perspective on the opportunities and challenges of using ML for complex multiscale modeling and simulation. We first outline the current state-of-the-art ML approaches for simulating multiscale systems and highlight some of the landmark developments. Next, we discuss current challenges for ML in multiscale computational modeling, such as the data and discretization dependence, interpretability, and data sharing and collaborative platform development. Finally, we suggest several potential research directions for the future. | 翻訳日:2023-03-23 15:36:59 公開日:2023-03-22 |
# 非定常流れのデータ駆動推定のための情報ベースセンサ配置 Information-Based Sensor Placement for Data-Driven Estimation of Unsteady Flows ( http://arxiv.org/abs/2303.12260v1 ) ライセンス: Link先を確認 | John Graff, Albert Medina, and Francis Lagor | (参考訳) 飛行車両周辺の非定常流れ場の推定は、流れの相互作用を改善し、車両の性能を向上させる可能性がある。
流れ場表現は非常に高次元であるが、それらの力学は低次表現を持ち、適切に配置されたいくつかの測定値を用いて推定することができる。
本稿では,データ駆動フロー場推定のためのセンサ選択フレームワークを提案する。
このフレームワークは、データ駆動モデリング、定常カルマンフィルタ設計、およびセンサーの逐次選択のためのスパーシフィケーション技術を組み合わせる。
また,センサ選択フレームワークを用いて,様々な操作条件で良好な動作が可能なセンサアレイを設計する。
数値データを用いた流速推定の結果, 組込み圧力センサを用いて, 後方の流れと翼の流場推定に極めて有効であるアレイを高速に生成できることが示唆された。
流れ場の解析により, 流れの流下期間中に翼面に停滞点を衝突させる経路が, 圧力センサの配置に非常に有意義な位置であることが判明した。 Estimation of unsteady flow fields around flight vehicles may improve flow interactions and lead to enhanced vehicle performance. Although flow-field representations can be very high-dimensional, their dynamics can have low-order representations and may be estimated using a few, appropriately placed measurements. This paper presents a sensor-selection framework for the intended application of data-driven, flow-field estimation. This framework combines data-driven modeling, steady-state Kalman Filter design, and a sparsification technique for sequential selection of sensors. This paper also uses the sensor selection framework to design sensor arrays that can perform well across a variety of operating conditions. Flow estimation results on numerical data show that the proposed framework produces arrays that are highly effective at flow-field estimation for the flow behind and an airfoil at a high angle of attack using embedded pressure sensors. Analysis of the flow fields reveals that paths of impinging stagnation points along the airfoil's surface during a shedding period of the flow are highly informative locations for placement of pressure sensors. | 翻訳日:2023-03-23 15:36:41 公開日:2023-03-22 |
# ゴムの手の錯覚を再現する脳誘発自己知覚モデル Brain-inspired bodily self-perception model that replicates the rubber hand illusion ( http://arxiv.org/abs/2303.12259v1 ) ライセンス: Link先を確認 | Yuxuan Zhao, Enmeng Lu, Yi Zeng | (参考訳) 身体的自意識の核心は、自分の身体の所有に対する認識である。
近年、脳の自己のエンコーディングのメカニズムをより深く理解しようとする試みは、関連する行動と神経生理学的現象を説明するための統一的な理論的枠組みを開発する様々な試みにつながった。
説明すべき中心的な問題は、ゴムの手の錯覚のような身体錯覚が実際にどのように起こるかである。
身体的自己意識のメカニズムと関連する脳領域の概念的な記述にもかかわらず、既存の理論モデルは、脳が身体の知覚をエンコードする計算メカニズムと、私たちの主観的に知覚される身体の錯覚がニューラルネットワークによってどのように生成されるかの説明をまだ欠いている。
ここでは、身体自己意識の生物学的な知見を統合し、脳に触発された身体自己受容モデルを提案し、身体自己の知覚を監督信号なしで自律的に構築する。
我々は,icubヒューマノイドロボットやシミュレーション環境を含むプラットフォーム上での6つのゴムハンドイリュージョン実験により,計算モデルの有効性を検証した。
実験結果から, サルの行動と神経のデータを生物学的実験で十分に再現できるだけでなく, 生物学的解釈の優位性から, 神経レベルでのゴムの手の錯覚の原因と結果が合理的に説明でき, ゴムの手の錯覚の発生の根底にある計算と神経機構の解明に寄与することが示唆された。 At the core of bodily self-consciousness is the perception of the ownership of one's body. Recent efforts to gain a deeper understanding of the mechanisms behind the brain's encoding of the self-body have led to various attempts to develop a unified theoretical framework to explain related behavioral and neurophysiological phenomena. A central question to be explained is how body illusions such as the rubber hand illusion actually occur. Despite the conceptual descriptions of the mechanisms of bodily self-consciousness and the possible relevant brain areas, the existing theoretical models still lack an explanation of the computational mechanisms by which the brain encodes the perception of one's body and how our subjectively perceived body illusions can be generated by neural networks. Here we integrate the biological findings of bodily self-consciousness to propose a Brain-inspired bodily self-perception model, by which perceptions of bodily self can be autonomously constructed without any supervision signals. We successfully validated our computational model with six rubber hand illusion experiments on platforms including a iCub humanoid robot and simulated environments. The experimental results show that our model can not only well replicate the behavioral and neural data of monkeys in biological experiments, but also reasonably explain the causes and results of the rubber hand illusion from the neuronal level due to advantages in biological interpretability, thus contributing to the revealing of the computational and neural mechanisms underlying the occurrence of the rubber hand illusion. | 翻訳日:2023-03-23 15:36:25 公開日:2023-03-22 |
# フェデレーションラーニングを支援するPrototype - より高速な収束を目指す Prototype Helps Federated Learning: Towards Faster Convergence ( http://arxiv.org/abs/2303.12296v1 ) ライセンス: Link先を確認 | Yu Qiao, Seong-Bae Park, Sun Moo Kang, and Choong Seon Hong | (参考訳) Federated Learning(FL)は、複数のクライアントが協力して、生データを交換することなく、共有モデルをトレーニングする分散機械学習技術である。
しかし、クライアント間のデータ分散の不均一性は通常、モデル推論の貧弱につながる。
本稿では,典型的なフェデレーション学習プロセスの最後のグローバルイテレーションにわずかな変更を加えるだけで,よりよい推論性能を実現するための,プロトタイプベースのフェデレーション学習フレームワークを提案する。
前回のイテレーションでは、サーバは分散クライアントから送信されたプロトタイプを集約し、各モデル推論のためにローカルクライアントに送信する。
2つのベースラインデータセットにおける実験により、異なる不均一な設定下での2つの一般的なベースラインよりも高い精度(少なくとも1%)と、比較的効率的な通信が可能となった。 Federated learning (FL) is a distributed machine learning technique in which multiple clients cooperate to train a shared model without exchanging their raw data. However, heterogeneity of data distribution among clients usually leads to poor model inference. In this paper, a prototype-based federated learning framework is proposed, which can achieve better inference performance with only a few changes to the last global iteration of the typical federated learning process. In the last iteration, the server aggregates the prototypes transmitted from distributed clients and then sends them back to local clients for their respective model inferences. Experiments on two baseline datasets show that our proposal can achieve higher accuracy (at least 1%) and relatively efficient communication than two popular baselines under different heterogeneous settings. | 翻訳日:2023-03-23 15:30:36 公開日:2023-03-22 |
# 漢字命名におけるトランスフォーマーモデルの評価と人間の行動 Evaluating Transformer Models and Human Behaviors on Chinese Character Naming ( http://arxiv.org/abs/2303.12294v1 ) ライセンス: Link先を確認 | Xiaomeng Ma and Lingyu Gao | (参考訳) ニューラルネットワークモデルは、多くのアルファベット言語に対する人間のグラファイム・音素マッピングプロセスを説明するために提案されている。
これらのモデルは、文字文字列とその発音の対応をうまく学習しただけでなく、人間の振る舞いを言葉命名タスクで捉えた。
ニューラルネットワークは、非アルファベット言語(例えば中国語)の未知文字タスクに対してどのように機能するか?
モデルはどの程度人間の行動を捉えますか?
本研究では,一連のトランスフォーマーモデルを評価し,その性能を未知の漢字命名課題における人間の行動と比較する。
モデルと人間は同じような振る舞いをしており、各キャラクタに類似した精度分布を持ち、回答にかなりの重複があることが判明した。
さらに、モデルの回答は人間の回答と非常に相関している。
これらの結果はトランスモデルが人間のキャラクタ命名行動をうまく捉えていることを示唆している。 Neural network models have been proposed to explain the grapheme-phoneme mapping process in humans for many alphabet languages. These models not only successfully learned the correspondence of the letter strings and their pronunciation, but also captured human behavior in nonce word naming tasks. How would the neural models perform for a non-alphabet language (e.g., Chinese) unknown character task? How well would the model capture human behavior? In this study, we evaluate a set of transformer models and compare their performances with human behaviors on an unknown Chinese character naming task. We found that the models and humans behaved very similarly, that they had similar accuracy distribution for each character, and had a substantial overlap in answers. In addition, the models' answers are highly correlated with humans' answers. These results suggested that the transformer models can well capture human's character naming behavior. | 翻訳日:2023-03-23 15:30:22 公開日:2023-03-22 |
# メタバースをデザインする: 倫理的意味に関する現在の研究成果を地図化するスコーピングレビュー Designing the Metaverse: A Scoping Review to Map Current Research Effort on Ethical Implications ( http://arxiv.org/abs/2303.12293v1 ) ライセンス: Link先を確認 | Matteo Zallio, Takumi Ohashi, P. John Clarkson | (参考訳) メタバースとデジタルの仮想環境は、人々が社交し、仕事をし、ゲームをする時間を過ごすことができる場所として、最近の歴史の一部となっている。
しかし、これらのデジタル仮想環境の開発の初期段階には、まだ完全には描かれていない課題がいくつかある。
本稿では、デジタル、仮想環境、メタバースの設計を可能にするために、現在どのような原則、ガイドライン、法律、ポリシー、およびプラクティスが使われているかを明らかにするために、現在利用可能な知識と科学的努力を特定し、マッピングする。
本研究では, 社会学, 人類学, 文化学, 経験的観点から, メタバース研究分野における既存の文献と知識のギャップを体系的に調査することを目的とした。
本研究の目的は,(1)様々な角度からメタバースを研究する文献の焦点を検討すること,(2)倫理的デジタル仮想環境の設計・開発に関する研究課題を定式化することである。
本稿では,デジタル,仮想環境,メタバースの設計に関する実験と研究を詳述した作品と論文を整理した。
2022年には出版物が増えました。
この発見は、倫理、文化、社会の領域に焦点を絞った記事がほんの少ししかないという事実と合わせて、安全で安全で包括的なデジタル環境、仮想環境、メタバースを設計するのに役立つ認識、原則、政策を作成するために、まだやるべき作業がたくさんあることを示している。 The metaverse and digital, virtual environments have been part of recent history as places in which people can socialize, work and spend time playing games. However, the infancy of the development of these digital, virtual environments brings some challenges that are still not fully depicted. With this article, we seek to identify and map the currently available knowledge and scientific effort to discover what principles, guidelines, laws, policies, and practices are currently in place to allow for the design of digital, virtual environments, and the metaverse. Through a scoping review, we aimed to systematically survey the existing literature and discern gaps in knowledge within the domain of metaverse research from sociological, anthropological, cultural, and experiential perspectives. The objective of this review was twofold: (1) to examine the focus of the literature studying the metaverse from various angles and (2) to formulate a research agenda for the design and development of ethical digital, virtual environments. With this paper, we identified several works and articles detailing experiments and research on the design of digital, virtual environments and metaverses. We found an increased number of publications in the year 2022. This finding, together with the fact that only a few articles were focused on the domain of ethics, culture and society shows that there is still a vast amount of work to be done to create awareness, principles and policies that could help to design safe, secure and inclusive digital, virtual environments and metaverses. | 翻訳日:2023-03-23 15:30:08 公開日:2023-03-22 |
# fairnessは、ラベル付きロングテールデータから学習を改善する Fairness Improves Learning from Noisily Labeled Long-Tailed Data ( http://arxiv.org/abs/2303.12291v1 ) ライセンス: Link先を確認 | Jiaheng Wei, Zhaowei Zhu, Gang Niu, Tongliang Liu, Sijia Liu, Masashi Sugiyama, and Yang Liu | (参考訳) 長い尾とノイズの多いラベル付きデータは、現実世界のアプリケーションに頻繁に現れ、学習に重大な課題を課す。
ほとんどの先行研究は、どちらの問題も孤立した方法で扱い、両者のカップリング効果を明示的に考慮していない。
我々の経験的観察により、データセットにラベルノイズが長い場合、そのようなソリューションは学習を継続的に改善しないことが明らかになった。
さらに、ラベルノイズの存在下では、既存の手法では、異なるサブ人口間での普遍的な改善は見られず、言い換えれば、一部のサブ人口は、他人を傷つけるコストで精度を向上する利点を享受している。
これらの観測に基づいて,2つのサブ集団間のパフォーマンスギャップを正規化することから着想を得たFairness Regularizer(FR)を導入する。
導入したフェアネス正則化器は,尾部のサブポピュレーションと全体的な学習性能を向上することを示す。
大規模実験により,既存のロバストあるいはクラスバランス手法を補完する場合に提案手法の有効性が実証された。 Both long-tailed and noisily labeled data frequently appear in real-world applications and impose significant challenges for learning. Most prior works treat either problem in an isolated way and do not explicitly consider the coupling effects of the two. Our empirical observation reveals that such solutions fail to consistently improve the learning when the dataset is long-tailed with label noise. Moreover, with the presence of label noise, existing methods do not observe universal improvements across different sub-populations; in other words, some sub-populations enjoyed the benefits of improved accuracy at the cost of hurting others. Based on these observations, we introduce the Fairness Regularizer (FR), inspired by regularizing the performance gap between any two sub-populations. We show that the introduced fairness regularizer improves the performances of sub-populations on the tail and the overall learning performance. Extensive experiments demonstrate the effectiveness of the proposed solution when complemented with certain existing popular robust or class-balanced methods. | 翻訳日:2023-03-23 15:29:42 公開日:2023-03-22 |
# 強化学習を用いた自律走行車とペデストリアンの相互作用改善のための適応道路構成 Adaptive Road Configurations for Improved Autonomous Vehicle-Pedestrian Interactions using Reinforcement Learning ( http://arxiv.org/abs/2303.12289v1 ) ライセンス: Link先を確認 | Qiming Ye, Yuxiang Feng, Jose Javier Escribano Macias, Marc Stettler, Panagiotis Angeloudis | (参考訳) 自律走行車(AV)の配備は、将来の都市道路インフラの設計と管理にかなりの課題とユニークな機会をもたらす。
このディスラプティブ・トランスフォーメーションに照らして、道路空間のRight-Of-Way (ROW) 構成は更新される可能性がある。
この問題に対処するために設計アプローチとインテリジェント制御モデルが提案されているが、リアルタイム需要に応じてavや歩行者の行計画を動的に生成できる運用フレームワークが欠如している。
微視的交通シミュレーションに基づき,ROW合成を進化させる強化学習法(RL)について検討した。
道路網構成の動的制御を個別に行うために,集中型パラダイムと分散学習パラダイムを実装した。
実験の結果,このアルゴリズムは交通流効率を向上し,歩行者により多くの空間を割り当てる可能性が示唆された。
さらに、分散学習アルゴリズムは、計算コスト(49.55\%)、ベンチマーク報酬(25.35\%)、最高累積報酬(24.58\%)、最適行動(13.49\%)、収束率に関する中央集中型学習アルゴリズムよりも優れている。
この新しい道路管理技術は、AVs時代の流動適応的で活発なモビリティに寄与する可能性がある。 The deployment of Autonomous Vehicles (AVs) poses considerable challenges and unique opportunities for the design and management of future urban road infrastructure. In light of this disruptive transformation, the Right-Of-Way (ROW) composition of road space has the potential to be renewed. Design approaches and intelligent control models have been proposed to address this problem, but we lack an operational framework that can dynamically generate ROW plans for AVs and pedestrians in response to real-time demand. Based on microscopic traffic simulation, this study explores Reinforcement Learning (RL) methods for evolving ROW compositions. We implement a centralised paradigm and a distributive learning paradigm to separately perform the dynamic control on several road network configurations. Experimental results indicate that the algorithms have the potential to improve traffic flow efficiency and allocate more space for pedestrians. Furthermore, the distributive learning algorithm outperforms its centralised counterpart regarding computational cost (49.55\%), benchmark rewards (25.35\%), best cumulative rewards (24.58\%), optimal actions (13.49\%) and rate of convergence. This novel road management technique could potentially contribute to the flow-adaptive and active mobility-friendly streets in the AVs era. | 翻訳日:2023-03-23 15:29:25 公開日:2023-03-22 |
# マルコフゲームにおける独立学習のハードネスとスパース均衡計算 Hardness of Independent Learning and Sparse Equilibrium Computation in Markov Games ( http://arxiv.org/abs/2303.12287v1 ) ライセンス: Link先を確認 | Dylan J. Foster, Noah Golowich, Sham M. Kakade | (参考訳) マルコフゲームにおける分散マルチエージェント強化学習の問題を考える。
基本的な問題は、すべてのエージェントによって採用され、分散された方法で独立して実行されるアルゴリズムが存在する場合、各プレイヤーがノーレグレットに繋がるアルゴリズムが存在するかどうかである。
近年の研究では、制限された設定のためにそのようなアルゴリズムが存在することが示されている(特にマルコフのポリシーへの偏見に関して後悔が定義される)が、標準マルコフゲームフレームワークで独立した非回帰学習が達成できるかどうかという疑問が開かれた。
計算と統計の両方の観点から、この問題を決定的に否定的に解決する。
PPAD-ハード問題は多項式時間では解けないという広く信じられている仮定の下では、全てのプレイヤーが独立に実行した場合に一般のマルコフゲームにおいて、ゲームがアルゴリズムデザイナーに知られ、プレイヤー数が少なくても、多項式時間アルゴリズムは存在しない。
-ゲームが未知の場合には、計算効率に関係なく、プレイヤー数に指数関数的なエピソードを数回観察することなく、いかなるアルゴリズムもノンリグレットを達成できない。
おそらく意外なことに、我々の下限は、すべてのエージェントが中央集権的なアルゴリズムで制御されるような、一見簡単な設定であっても保持される。
それらは、我々がスパーセッセ(sparsecce)と呼ぶより単純な問題に対する下限を通じて証明され、それは、少量の製品ポリシーの混合として表現できるという意味で、粗い相関均衡を計算することを目的としている。
本手法の要点は,オンライン学習における集約手法の新たな応用であり,SparseCCE問題に対する任意のアルゴリズムを用いて,非ゼロ和正規形式ゲームに対する近似ナッシュ平衡を計算することができることを示す。 We consider the problem of decentralized multi-agent reinforcement learning in Markov games. A fundamental question is whether there exist algorithms that, when adopted by all agents and run independently in a decentralized fashion, lead to no-regret for each player, analogous to celebrated convergence results in normal-form games. While recent work has shown that such algorithms exist for restricted settings (notably, when regret is defined with respect to deviations to Markovian policies), the question of whether independent no-regret learning can be achieved in the standard Markov game framework was open. We provide a decisive negative resolution this problem, both from a computational and statistical perspective. We show that: - Under the widely-believed assumption that PPAD-hard problems cannot be solved in polynomial time, there is no polynomial-time algorithm that attains no-regret in general-sum Markov games when executed independently by all players, even when the game is known to the algorithm designer and the number of players is a small constant. - When the game is unknown, no algorithm, regardless of computational efficiency, can achieve no-regret without observing a number of episodes that is exponential in the number of players. Perhaps surprisingly, our lower bounds hold even for seemingly easier setting in which all agents are controlled by a a centralized algorithm. They are proven via lower bounds for a simpler problem we refer to as SparseCCE, in which the goal is to compute a coarse correlated equilibrium that is sparse in the sense that it can be represented as a mixture of a small number of product policies. The crux of our approach is a novel application of aggregation techniques from online learning, whereby we show that any algorithm for the SparseCCE problem can be used to compute approximate Nash equilibria for non-zero sum normal-form games. | 翻訳日:2023-03-23 15:29:02 公開日:2023-03-22 |
# 機械学習による大気汚染の低減 Reducing Air Pollution through Machine Learning ( http://arxiv.org/abs/2303.12285v1 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Leonard Boussioux, Cynthia Zeng | (参考訳) 本稿では, 産業プラントの大気汚染が周辺都市に与える影響を, 運用上の決定と気象条件を結びつけることによって緩和する手法を提案する。
本手法は,予測モデルと規範的機械学習モデルを組み合わせることで,短期風速と方向を予測し,工場の生産を減少または停止させる運用判断を推奨する。
環境影響の低減と生産活動の維持との間には,いくつかのトレードオフがある。
我々のフレームワークの予測コンポーネントは、時系列予測に勾配ブーストツリーベースモデルやアンサンブル手法など、さまざまな機械学習モデルを採用している。
規定コンポーネントは、解釈可能な最適政策ツリーを使用して、危険な排出を33~47%削減し、不要なコストを40~63%削減するなど、複数のトレードオフを提案する。
導入したモデルでは,12時間未満で38~52%,12~48時間で14~46%の予測誤差が,公式の天気予報と比較して有意に減少した。
我々は,モロッコ最大の化学工業プラントであるocp safiサイトにおいて,予測コンポーネントの実装に成功した。
本フレームワークは,データ駆動型気象に基づく運用決定による汚染・産業活動のトレードオフを排除し,工場の最適化と持続可能性を大幅に向上させることにより,持続可能な産業開発を可能にする。
環境調和を維持しつつ、工場計画と資源配分を近代化する。
予測成分は生産効率を高め、コスト削減と大気汚染の最小化による環境影響の低減につながった。 This paper presents a data-driven approach to mitigate the effects of air pollution from industrial plants on nearby cities by linking operational decisions with weather conditions. Our method combines predictive and prescriptive machine learning models to forecast short-term wind speed and direction and recommend operational decisions to reduce or pause the industrial plant's production. We exhibit several trade-offs between reducing environmental impact and maintaining production activities. The predictive component of our framework employs various machine learning models, such as gradient-boosted tree-based models and ensemble methods, for time series forecasting. The prescriptive component utilizes interpretable optimal policy trees to propose multiple trade-offs, such as reducing dangerous emissions by 33-47% and unnecessary costs by 40-63%. Our deployed models significantly reduced forecasting errors, with a range of 38-52% for less than 12-hour lead time and 14-46% for 12 to 48-hour lead time compared to official weather forecasts. We have successfully implemented the predictive component at the OCP Safi site, which is Morocco's largest chemical industrial plant, and are currently in the process of deploying the prescriptive component. Our framework enables sustainable industrial development by eliminating the pollution-industrial activity trade-off through data-driven weather-based operational decisions, significantly enhancing factory optimization and sustainability. This modernizes factory planning and resource allocation while maintaining environmental compliance. The predictive component has boosted production efficiency, leading to cost savings and reduced environmental impact by minimizing air pollution. | 翻訳日:2023-03-23 15:28:30 公開日:2023-03-22 |
# 拡散モデルを用いた混合型変数の合成健康関連縦断データ Synthetic Health-related Longitudinal Data with Mixed-type Variables Generated using Diffusion Models ( http://arxiv.org/abs/2303.12281v1 ) ライセンス: Link先を確認 | Nicholas I-Hsien Kuo, Louisa Jorm, Sebastiano Barbieri | (参考訳) 本稿では拡散確率モデル(DPM)を用いた電子健康記録(EHR)のシミュレーション手法を提案する。
具体的には、数値変数、二項変数、カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
私たちの知る限り、これはdpmsをこの目的に初めて使うことを表している。
ヒト免疫不全ウイルス (art for hiv) と急性低血圧の2つの臨床応用について, dpmシミュレーションデータセットとgans(generative adversarial network)を用いた先行研究結果を比較した。
DPMにおける同様の研究が欠如していることを踏まえると、我々の研究の中核となるコンポーネントは、幅広い側面でDPMを採用する利点と欠点を探究することである。
また,合成データセットのリアリズムの評価に加えて,合成データに対する強化学習(rl)エージェントを訓練し,下流機械学習モデルの開発を支援するための有用性を評価した。
最後に、我々のDPMシミュレーションデータセットは安全であり、公開アクセスのリスクが低いと推定した。 This paper presents a novel approach to simulating electronic health records (EHRs) using diffusion probabilistic models (DPMs). Specifically, we demonstrate the effectiveness of DPMs in synthesising longitudinal EHRs that capture mixed-type variables, including numeric, binary, and categorical variables. To our knowledge, this represents the first use of DPMs for this purpose. We compared our DPM-simulated datasets to previous state-of-the-art results based on generative adversarial networks (GANs) for two clinical applications: acute hypotension and human immunodeficiency virus (ART for HIV). Given the lack of similar previous studies in DPMs, a core component of our work involves exploring the advantages and caveats of employing DPMs across a wide range of aspects. In addition to assessing the realism of the synthetic datasets, we also trained reinforcement learning (RL) agents on the synthetic data to evaluate their utility for supporting the development of downstream machine learning models. Finally, we estimated that our DPM-simulated datasets are secure and posed a low patient exposure risk for public access. | 翻訳日:2023-03-23 15:28:05 公開日:2023-03-22 |
# NLOS-NeuS:非線形ニューラルインプシット表面 NLOS-NeuS: Non-line-of-sight Neural Implicit Surface ( http://arxiv.org/abs/2303.12280v1 ) ライセンス: Link先を確認 | Yuki Fujimura, Takahiro Kushida, Takuya Funatomi, Yasuhiro Mukaigawa | (参考訳) 非視線イメージング(NLOS)は、間接的な光から見える物体に見えないシーンを推測するために行われる。
ニューラル・トランジェント・フィールド(NeTF)は,NLOSシーンにおけるシーンをニューラル・ラディアンス・フィールドとして表現するために提案された。
我々は,NLOSシーンの3次元表面を再構成するために,符号付き距離関数(SDF)でNeTFを神経暗示面に拡張するNLOSニューラル暗示面(NLOS-NeuS)を提案する。
SDFを正しく学習するための損失関数として2つの制約を導入する。
また、第1反転光子の幾何に基づくSDFの下界制約も導入する。
実験結果から,これらの制約はNLOSシーンにおける正しいSDF学習に不可欠であることが示唆された。
NLOS-NeuSを離散化表現法と比較すると,NLOSシーンの細部を保存しながら,滑らかな面を再構成することができる。
我々の知る限りでは、NLOSシーンにおけるボリュームレンダリングを伴うニューラル暗黙の表面に関する最初の研究である。 Non-line-of-sight (NLOS) imaging is conducted to infer invisible scenes from indirect light on visible objects. The neural transient field (NeTF) was proposed for representing scenes as neural radiance fields in NLOS scenes. We propose NLOS neural implicit surface (NLOS-NeuS), which extends the NeTF to neural implicit surfaces with a signed distance function (SDF) for reconstructing three-dimensional surfaces in NLOS scenes. We introduce two constraints as loss functions for correctly learning an SDF to avoid non-zero level-set surfaces. We also introduce a lower bound constraint of an SDF based on the geometry of the first-returning photons. The experimental results indicate that these constraints are essential for learning a correct SDF in NLOS scenes. Compared with previous methods with discretized representation, NLOS-NeuS with the neural continuous representation enables us to reconstruct smooth surfaces while preserving fine details in NLOS scenes. To the best of our knowledge, this is the first study on neural implicit surfaces with volume rendering in NLOS scenes. | 翻訳日:2023-03-23 15:27:44 公開日:2023-03-22 |
# Prompt ProgrammingとGPT-3を使ってラベル付きトレーニングデータを生成する。
Big Five Personality 分類の一例 Generate labeled training data using Prompt Programming and GPT-3. An example of Big Five Personality Classification ( http://arxiv.org/abs/2303.12279v1 ) ライセンス: Link先を確認 | Eason Chen | (参考訳) GPT-3におけるプロンプトプログラミングを用いて,ビッグファイブパーソナリティ特性をラベル付けした25,000の会話を生成する。
そして、これらのデータを用いてBig Five分類モデルをトレーニングし、生成した対話データと人間のアノテーションによってBig Fiveにラベル付けされた実際の会話データセットから2500データで評価する。
その結果,本手法は効果的なトレーニングデータ作成に有効であることが示唆された。
そして、異なるトレーニングアプローチとモデルでパフォーマンスを比較します。
この結果から,事前学習したRoBERTa感情分析モデルから,Adapter-Transformer とTransfer Learning を用いることで,生成したデータを最大限に活用できることが示唆された。
我々の最良のモデルは、生成データで 0.71、実データで 0.65 の精度を得た。
最後に、このアプローチの潜在的な限界と信頼度について論じる。 We generated 25000 conversations labeled with Big Five Personality traits using prompt programming at GPT-3. Then we train Big Five classification models with these data and evaluate them with 2500 data from generated dialogues and real conversational datasets labeled in Big Five by human annotators. The results indicated that this approach is promising for creating effective training data. We then compare the performance by different training approaches and models. Our results suggest that using Adapter-Transformers and transfer learning from pre-trained RoBERTa sentiment analysis model will perform best with the generated data. Our best model obtained an accuracy of 0.71 in generated data and 0.65 in real datasets. Finally, we discuss this approach's potential limitations and confidence metric. | 翻訳日:2023-03-23 15:27:23 公開日:2023-03-22 |
# 教師なし領域適応セグメンテーションのための分布配向拡散とプロトタイプ誘導ネットワーク Distribution Aligned Diffusion and Prototype-guided network for Unsupervised Domain Adaptive Segmentation ( http://arxiv.org/abs/2303.12313v1 ) ライセンス: Link先を確認 | Haipeng Zhou, Lei Zhu, Yuyin Zhou | (参考訳) 拡散確率モデル(DPM)はコンピュータビジョンの分野で非常に効果的な生成モデルとして登場した。
中間潜在ベクトルはリッチなセマンティック情報を提供し、セグメンテーションや検出といった下流タスクには魅力的な選択肢である。
その可能性をさらに探究するため、我々は一歩前進し、医療画像領域、特に教師なし適応条件下でのより複雑なシナリオを検討した。
そこで本研究では,非教師付きドメイン適応セグメンテーションのための拡散型およびプロトタイプ誘導型ネットワーク(DP-Net)を提案する。
具体的には、DP-Netは2つの段階から構成される。
1)DPMが生成する中間特徴の差を最小限に抑え、ドメイン間分布を整合させるために、ドメイン識別器を訓練することを含む分布調整拡散(DADiff)
2) 機能センタロイドをプロトタイプとして用いたpcl(prototype-guided consistency learning)は,セグメンタがソース領域とターゲット領域の両方から一貫性のあるコンテントを学習することを保証する。
本手法は,提案手法の性能が信頼性が高く,最先端手法よりも優れていることを示す一連の実験を通じて,基礎データセット上で評価される。
本研究は, 複雑な医用画像シナリオにおけるdpmの利用に有望な方向性を示し, 医用画像研究の新たな可能性を開く。 The Diffusion Probabilistic Model (DPM) has emerged as a highly effective generative model in the field of computer vision. Its intermediate latent vectors offer rich semantic information, making it an attractive option for various downstream tasks such as segmentation and detection. In order to explore its potential further, we have taken a step forward and considered a more complex scenario in the medical image domain, specifically, under an unsupervised adaptation condition. To this end, we propose a Diffusion-based and Prototype-guided network (DP-Net) for unsupervised domain adaptive segmentation. Concretely, our DP-Net consists of two stages: 1) Distribution Aligned Diffusion (DADiff), which involves training a domain discriminator to minimize the difference between the intermediate features generated by the DPM, thereby aligning the inter-domain distribution; and 2) Prototype-guided Consistency Learning (PCL), which utilizes feature centroids as prototypes and applies a prototype-guided loss to ensure that the segmentor learns consistent content from both source and target domains. Our approach is evaluated on fundus datasets through a series of experiments, which demonstrate that the performance of the proposed method is reliable and outperforms state-of-the-art methods. Our work presents a promising direction for using DPM in complex medical image scenarios, opening up new possibilities for further research in medical imaging. | 翻訳日:2023-03-23 15:21:32 公開日:2023-03-22 |
# ecgゼロショット学習を支援する凍結言語モデル Frozen Language Model Helps ECG Zero-Shot Learning ( http://arxiv.org/abs/2303.12311v1 ) ライセンス: Link先を確認 | Jun Li, Che Liu, Sibo Cheng, Rossella Arcucci, Shenda Hong | (参考訳) 心電図 (ECG) は、心臓疾患の臨床的診断を支援する非侵襲的で便利な医療モニタリングツールの1つである。
近年、深層学習(DL)技術、特に自己教師付き学習(SSL)は、心電図の分類において大きな可能性を示している。
SSL事前トレーニングは、微調整後に少量の注釈付きデータで競合性能を達成した。
しかし、現在のSSLメソッドはアノテーション付きデータの可用性に依存しており、微調整データセットに存在しないラベルを予測できない。
この課題に対処するため、我々は、自動生成臨床報告を利用してECG SSL事前トレーニングをガイドするMultimodal ECG-Text Self-supervised Pre-training (METS)を提案する。
トレーニング可能なECGエンコーダと凍結言語モデルを用いて,ペアのECGを組込み,自動で臨床報告を行う。
SSLの目的は、ペア化されたECGと自動生成されたレポートの類似性を最大化し、ECGと他のレポートの類似性を最小化することである。
下流の分類タスクにおいて、METSは、アノテーション付きデータに依存する他の教師付きおよびSSLベースラインと比較して、ゼロショット分類によるアノテーション付きデータを使用することなく、約10%のパフォーマンス改善を達成する。
さらに、MIT-BIHはトレーニング済みのデータセットと比較して、ECGの異なるクラスを含むにもかかわらず、METSはMIT-BIHデータセット上で最高のリコールとF1スコアを達成する。
広範な実験により、一般化可能性、有効性、効率性の観点からecg-text multimodal self-supervised learningの利点が実証された。 The electrocardiogram (ECG) is one of the most commonly used non-invasive, convenient medical monitoring tools that assist in the clinical diagnosis of heart diseases. Recently, deep learning (DL) techniques, particularly self-supervised learning (SSL), have demonstrated great potential in the classification of ECG. SSL pre-training has achieved competitive performance with only a small amount of annotated data after fine-tuning. However, current SSL methods rely on the availability of annotated data and are unable to predict labels not existing in fine-tuning datasets. To address this challenge, we propose Multimodal ECG-Text Self-supervised pre-training (METS), the first work to utilize the auto-generated clinical reports to guide ECG SSL pre-training. We use a trainable ECG encoder and a frozen language model to embed paired ECG and automatically machine-generated clinical reports separately. The SSL aims to maximize the similarity between paired ECG and auto-generated report while minimize the similarity between ECG and other reports. In downstream classification tasks, METS achieves around 10% improvement in performance without using any annotated data via zero-shot classification, compared to other supervised and SSL baselines that rely on annotated data. Furthermore, METS achieves the highest recall and F1 scores on the MIT-BIH dataset, despite MIT-BIH containing different classes of ECG compared to the pre-trained dataset. The extensive experiments have demonstrated the advantages of using ECG-Text multimodal self-supervised learning in terms of generalizability, effectiveness, and efficiency. | 翻訳日:2023-03-23 15:21:08 公開日:2023-03-22 |
# 雑音量子コンピュータによる局所化の観測 Observation of localization using a noisy quantum computer ( http://arxiv.org/abs/2303.12309v1 ) ライセンス: Link先を確認 | Kazue Kudo | (参考訳) 強非秩序な量子多体系の量子力学は、局在特性を示す。
初期状態メモリは、システムがローカライズされた状態にあるときに緩やかな緩和のために維持される。
本研究は,量子スピンチェーンの磁化とねじれの重ね合わせを短時間進化の後に評価することにより,ノイズ量子コンピュータにおいて局在を探究する方法を示す。
正確な時間進化と量子回路シミュレーションから得られた量は、障害強度に明らかに依存している。
同様の挙動が実デバイス計算で観測され、短時間の量子力学は熱的挙動と局所的振る舞いを区別できることを示している。 Quantum dynamics in a strongly-disordered quantum many-body system show localization properties. The initial state memory is maintained due to slow relaxation when the system is in the localized regime. This work demonstrates how localization can be probed in a noisy quantum computer by evaluating the magnetization and twist overlap in a quantum spin chain after a short-time evolution. Those quantities obtained from the exact time evolution and quantum-circuit simulation show apparent dependence on the disorder strength. Similar behavior is observed in real-device computation, indicating that short-time quantum dynamics can distinguish between thermal and localized behavior. | 翻訳日:2023-03-23 15:20:40 公開日:2023-03-22 |
# XWikiGen:低リソース言語における百科事典テキスト生成のための言語間要約 XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages ( http://arxiv.org/abs/2303.12308v1 ) ライセンス: Link先を確認 | Dhaval Taunk, Shivprasad Sagare, Anupam Patil, Shivansh Subramanian, Manish Gupta and Vasudeva Varma | (参考訳) 百科事典のテキストコントリビュータの不足、特にウィキペディアでは、 \emph{low resource (LR)言語の自動テキスト生成が重要な問題となっている。
ウィキペディアのテキスト生成に関する既存の研究は、英語の参考記事が要約され、英語のウィキペディアページを生成することに焦点を当てている。
しかし、低リソース言語の場合、参照記事の不足は、この問題を解決する上でモノリンガル要約を効果的にしない。
そこで本研究では,様々な言語で記述された複数の参照記事からのテキストのクロスリンガル・マルチドキュメント要約のタスクである \task{} を提案し,wikipedia 形式のテキストを生成する。
したがって、5つのドメインと8つの言語をカバーする$\sim$69kのwikipediaの記事にまたがるベンチマークデータセットである \data{} をコントリビュートします。
このデータセットを用いて、入力が引用とセクションタイトルのセットであり、出力がセクション固有のLR要約である2段階システムのトレーニングを行う。
提案手法は,ニューラルネットワークによる非教師付き抽出要約という新たなアイデアに基づいて,有能な情報を粗く同定し,その後に神経抽象モデルを用いてセクション固有テキストを生成する。
大規模な実験により、マルチドメイントレーニングは、平均的なマルチ言語設定よりも優れていることが示された。 Lack of encyclopedic text contributors, especially on Wikipedia, makes automated text generation for \emph{low resource (LR) languages} a critical problem. Existing work on Wikipedia text generation has focused on \emph{English only} where English reference articles are summarized to generate English Wikipedia pages. But, for low-resource languages, the scarcity of reference articles makes monolingual summarization ineffective in solving this problem. Hence, in this work, we propose \task{}, which is the task of cross-lingual multi-document summarization of text from multiple reference articles, written in various languages, to generate Wikipedia-style text. Accordingly, we contribute a benchmark dataset, \data{}, spanning $\sim$69K Wikipedia articles covering five domains and eight languages. We harness this dataset to train a two-stage system where the input is a set of citations and a section title and the output is a section-specific LR summary. The proposed system is based on a novel idea of neural unsupervised extractive summarization to coarsely identify salient information followed by a neural abstractive model to generate the section-specific text. Extensive experiments show that multi-domain training is better than the multi-lingual setup on average. | 翻訳日:2023-03-23 15:20:31 公開日:2023-03-22 |
# 長尾分類のための曲率バランス特徴多様体学習 Curvature-Balanced Feature Manifold Learning for Long-Tailed Classification ( http://arxiv.org/abs/2303.12307v1 ) ライセンス: Link先を確認 | Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu and Lingling Li | (参考訳) 長い尾の分類の課題に対処するために、研究者はモデルバイアスを減らすいくつかのアプローチを提案しており、そのほとんどはサンプルが少ないクラスが弱いクラスであると仮定している。
しかし、最近の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスデータセットではモデルバイアスが観察されており、モデルバイアスに影響を与える他の要因の存在が示唆されている。
本研究では,深層ニューラルネットワークにおける知覚多様体の幾何的測定を体系的に提案し,また,知覚多様体の幾何学的特性が分類難易度および学習形態の知覚多様体の幾何学的特性に与える影響について検討する。
予期せぬ発見は、授業中はクラス精度と知覚多様体の分離度との相関が徐々に減少し、一方曲率との負の相関は徐々に増大し、曲率の不均衡がモデルバイアスにつながることを示唆している。
そこで本研究では, 曲率バランスと平らな知覚多様体の学習を容易にするために, 曲率正規化を提案する。
複数の長い尾のデータセットと非長い尾のデータセットの評価は、我々のアプローチの優れたパフォーマンスとエキサイティングな一般性を示している。
我々の研究は、モデルバイアスに関する幾何学的分析の視点を開き、非長い尾とサンプルバランスのデータセットのモデルバイアスに注意を払うよう研究者に促す。
コードとモデルは公開される予定だ。 To address the challenges of long-tailed classification, researchers have proposed several approaches to reduce model bias, most of which assume that classes with few samples are weak classes. However, recent studies have shown that tail classes are not always hard to learn, and model bias has been observed on sample-balanced datasets, suggesting the existence of other factors that affect model bias. In this work, we systematically propose a series of geometric measurements for perceptual manifolds in deep neural networks, and then explore the effect of the geometric characteristics of perceptual manifolds on classification difficulty and how learning shapes the geometric characteristics of perceptual manifolds. An unanticipated finding is that the correlation between the class accuracy and the separation degree of perceptual manifolds gradually decreases during training, while the negative correlation with the curvature gradually increases, implying that curvature imbalance leads to model bias. Therefore, we propose curvature regularization to facilitate the model to learn curvature-balanced and flatter perceptual manifolds. Evaluations on multiple long-tailed and non-long-tailed datasets show the excellent performance and exciting generality of our approach, especially in achieving significant performance improvements based on current state-of-the-art techniques. Our work opens up a geometric analysis perspective on model bias and reminds researchers to pay attention to model bias on non-long-tailed and even sample-balanced datasets. The code and model will be made public. | 翻訳日:2023-03-23 15:20:09 公開日:2023-03-22 |
# 知識グラフ推論のためのグラフニューラルネットワークの論理表現性 Logical Expressiveness of Graph Neural Network for Knowledge Graph Reasoning ( http://arxiv.org/abs/2303.12306v1 ) ライセンス: Link先を確認 | Haiquan Qiu, Yongqi Zhang, Yong Li, Quanming Yao | (参考訳) グラフニューラルネットワーク(GNN)は、知識グラフ(KG)から学習するために最近導入され、KG推論における最先端のパフォーマンスを達成した。
しかし、その優れた経験的業績に対する理論的証明はいまだ欠落している。
さらに、KGの論理は帰納的かつ解釈可能な推論において重要であるが、既存のGNNベースの手法は、論理表現性の限られた知識でデータ分布に適合するように設計されている。
本稿では,上記のギャップを埋めることを提案する。
具体的には、理論的にGNNを論理表現性から分析し、KGからどのような論理規則を捕捉できるかを明らかにする。
この結果から,GNN の論理的ルールを段階的モーダル論理から抽出し,KG 推論のための GNN の表現性を解析するための新たな理論ツールを提供すること,およびクエリラベリングトリックにより GNN が論理的ルールを捕捉しやすくし,なぜ SOTA 手法が主にラベリング手法に基づいているのかを説明する。
最後に、我々の理論からの洞察は、難しい論理規則をキャプチャするエンティティラベリングメソッドの開発を動機付ける。
実験結果は理論的結果と一致し,提案手法の有効性を検証した。 Graph Neural Networks (GNNs) have been recently introduced to learn from knowledge graph (KG) and achieved state-of-the-art performance in KG reasoning. However, a theoretical certification for their good empirical performance is still absent. Besides, while logic in KG is important for inductive and interpretable inference, existing GNN-based methods are just designed to fit data distributions with limited knowledge of their logical expressiveness. We propose to fill the above gap in this paper. Specifically, we theoretically analyze GNN from logical expressiveness and find out what kind of logical rules can be captured from KG. Our results first show that GNN can capture logical rules from graded modal logic, providing a new theoretical tool for analyzing the expressiveness of GNN for KG reasoning; and a query labeling trick makes it easier for GNN to capture logical rules, explaining why SOTA methods are mainly based on labeling trick. Finally, insights from our theory motivate the development of an entity labeling method for capturing difficult logical rules. Experimental results are consistent with our theoretical results and verify the effectiveness of our proposed method. | 翻訳日:2023-03-23 15:19:43 公開日:2023-03-22 |
# SiamTHN: 視線追跡のためのシームズターゲットハイライトネットワーク SiamTHN: Siamese Target Highlight Network for Visual Tracking ( http://arxiv.org/abs/2303.12304v1 ) ライセンス: Link先を確認 | Jiahao Bao, Kaiqiang Chen, Xian Sun, Liangjin Zhao, Wenhui Diao, Menglong Yan | (参考訳) 近年,シームズネットワークベースのトラッカーは視覚的物体追跡の分野で急速に発展している。
現在使用されているシアムネットワークベースのトラッカーの大半は、バックボーンネットワークが生成した特徴マップ内の各チャネルを等しく扱い、類似性応答マップを背景の影響に敏感にし、したがってターゲット領域に集中することが困難である。
さらに、これらのトラッカーの分類と回帰の分岐には構造的なリンクはなく、2つの分岐はトレーニング中に個別に最適化される。
したがって、分類と回帰分枝の間には不一致があり、正確な追跡結果が得られない。
本稿では,生成した類似度応答マップが対象領域により焦点を合わせるのを支援するために,ターゲット光モジュールを提案する。
誤調整を低減し、より正確な追跡結果を得るため、モデルをトレーニングするための補正損失を提案する。
モデルの2つの分岐は、より信頼性の高い予測結果を得るために補正損失を用いて共同調整される。
5つの挑戦的なベンチマークデータセットの実験では、このメソッドが現在のモデルよりもパフォーマンスが優れており、38fpsで動作し、その有効性と効率が証明されている。 Siamese network based trackers develop rapidly in the field of visual object tracking in recent years. The majority of siamese network based trackers now in use treat each channel in the feature maps generated by the backbone network equally, making the similarity response map sensitive to background influence and hence challenging to focus on the target region. Additionally, there are no structural links between the classification and regression branches in these trackers, and the two branches are optimized separately during training. Therefore, there is a misalignment between the classification and regression branches, which results in less accurate tracking results. In this paper, a Target Highlight Module is proposed to help the generated similarity response maps to be more focused on the target region. To reduce the misalignment and produce more precise tracking results, we propose a corrective loss to train the model. The two branches of the model are jointly tuned with the use of corrective loss to produce more reliable prediction results. Experiments on 5 challenging benchmark datasets reveal that the method outperforms current models in terms of performance, and runs at 38 fps, proving its effectiveness and efficiency. | 翻訳日:2023-03-23 15:19:20 公開日:2023-03-22 |
# 量子互換離散深部生成モデルによる航空データの異常検出 Anomaly Detection in Aeronautics Data with Quantum-compatible Discrete Deep Generative Model ( http://arxiv.org/abs/2303.12302v1 ) ライセンス: Link先を確認 | Thomas Templin (1), Milad Memarzadeh (2), Walter Vinci (3), P. Aaron Lott (4), Ata Akbari Asanjan (2), Anthony Alexiades Armenakas (4 and 5) and Eleanor Rieffel (6) ((1) Data Sciences Group, NASA Ames Research Center, Moffett Field, CA, USA, (2) Universities Space Research Association, Data Sciences Group, NASA Ames Research Center, Moffett Field, CA, USA, (3) HP SCDS, Le\'on, Spain, (4) Universities Space Research Association, Quantum Artificial Intelligence Laboratory, NASA Ames Research Center, Moffett Field, CA, USA, (5) Department of Physics, Harvard University, Cambridge, MA, USA, (6) Quantum Artificial Intelligence Laboratory, NASA Ames Research Center, Moffett Field, CA, USA) | (参考訳) 深層生成学習は,入力データから得られた統計的特徴を持つ新たなデータを生成するだけでなく,その再構成品質に基づいて固有インスタンスと異常インスタンスを分離することで異常検出にも利用できない。
本稿では,多変量時系列による商用飛行の飛行動作データにおける異常の検出において,ガウス型,ベルヌーイ型,ボルツマン型3種類の変分オートエンコーダ(vaes)の性能について検討する。
我々は、離散潜在変数(DVAE)を持つ2つのVAEモデルを考案した。1つは、Bernoulli前と制限されたボルツマンマシン(RBM)を持つ1つは、機械学習アプリケーションにおける離散変数モデルの需要と、2レベル量子システムに基づく量子デバイスの統合が要求されるためである。
RBM以前のDVAEは、RBMの負相の進化のための比較的単純で古典的または量子力学的に拡張可能なサンプリング技術を使用しており、ベルヌーイのDVAEよりも優れており、連続的な潜在空間を持つガウスモデルと同等である。
本研究は, 異常検出タスクにおいて, ガウス対応の離散的深部生成モデルの競合性を示すものである。
さらに、RBM以前のDVAEモデルは、生成過程を量子アニールまたはゲートモデルデバイスから得られる量子状態の測定にアウトソーシングすることで、量子サンプリングと容易に統合することができる。 Deep generative learning cannot only be used for generating new data with statistical characteristics derived from input data but also for anomaly detection, by separating nominal and anomalous instances based on their reconstruction quality. In this paper, we explore the performance of three unsupervised deep generative models -- variational autoencoders (VAEs) with Gaussian, Bernoulli, and Boltzmann priors -- in detecting anomalies in flight-operations data of commercial flights consisting of multivariate time series. We devised two VAE models with discrete latent variables (DVAEs), one with a factorized Bernoulli prior and one with a restricted Boltzmann machine (RBM) as prior, because of the demand for discrete-variable models in machine-learning applications and because the integration of quantum devices based on two-level quantum systems requires such models. The DVAE with RBM prior, using a relatively simple -- and classically or quantum-mechanically enhanceable -- sampling technique for the evolution of the RBM's negative phase, performed better than the Bernoulli DVAE and on par with the Gaussian model, which has a continuous latent space. Our studies demonstrate the competitiveness of a discrete deep generative model with its Gaussian counterpart on anomaly-detection tasks. Moreover, the DVAE model with RBM prior can be easily integrated with quantum sampling by outsourcing its generative process to measurements of quantum states obtained from a quantum annealer or gate-model device. | 翻訳日:2023-03-23 15:19:00 公開日:2023-03-22 |
# ハイブリッドCTC/アテンションアーキテクチャと多機能融合ネットワークによるトルコ語音声認識の探索 Exploring Turkish Speech Recognition via Hybrid CTC/Attention Architecture and Multi-feature Fusion Network ( http://arxiv.org/abs/2303.12300v1 ) ライセンス: Link先を確認 | Zeyu Ren, Nurmement Yolwas, Huiru Wang, Wushour Slamu | (参考訳) 近年,ディープラーニングに基づくエンドツーエンド音声認識技術が急速に進歩している。
トルコ語音声データが不足しているため、トルコ語音声認識システムの性能は低調である。
本稿では,まず,一連の音声認識チューニング技術について検討する。
その結果、速度摂動とノイズ付加を組み合わせたデータ拡張技術を採用し、ビーム探索幅を16に設定した場合、モデルの性能が最も良いことがわかった。
次に,効率的な特徴情報の利用を最大化し,特徴抽出の精度を向上させるために,新たな特徴抽出器LSPCを提案する。
LSPCとLiGRUネットワークを結合して共有エンコーダ構造を形成し、モデル圧縮を実現する。
その結果,Fbank機能のみを用いた場合,LSPCの性能はMSPCとVGGnetより優れており,WERは1.01%,2.53%向上した。
最後に、上記の2点に基づいて、エンコーダの主構造として、新しい多機能核融合ネットワークを提案する。
その結果,LSPCを用いた単一特徴量抽出(Fbank特徴量とSpectrogram特徴量)と比較して,LSPCに基づく機能融合ネットワークのWERは0.82%,1.94%向上した。
私たちのモデルは、高度なエンドツーエンドモデルに匹敵するパフォーマンスを実現します。 In recent years, End-to-End speech recognition technology based on deep learning has developed rapidly. Due to the lack of Turkish speech data, the performance of Turkish speech recognition system is poor. Firstly, this paper studies a series of speech recognition tuning technologies. The results show that the performance of the model is the best when the data enhancement technology combining speed perturbation with noise addition is adopted and the beam search width is set to 16. Secondly, to maximize the use of effective feature information and improve the accuracy of feature extraction, this paper proposes a new feature extractor LSPC. LSPC and LiGRU network are combined to form a shared encoder structure, and model compression is realized. The results show that the performance of LSPC is better than MSPC and VGGnet when only using Fbank features, and the WER is improved by 1.01% and 2.53% respectively. Finally, based on the above two points, a new multi-feature fusion network is proposed as the main structure of the encoder. The results show that the WER of the proposed feature fusion network based on LSPC is improved by 0.82% and 1.94% again compared with the single feature (Fbank feature and Spectrogram feature) extraction using LSPC. Our model achieves performance comparable to that of advanced End-to-End models. | 翻訳日:2023-03-23 15:18:31 公開日:2023-03-22 |
# ランク1行列センシングの一般解法 A General Algorithm for Solving Rank-one Matrix Sensing ( http://arxiv.org/abs/2303.12298v1 ) ライセンス: Link先を確認 | Lianke Qin, Zhao Song, Ruizhe Zhang | (参考訳) マトリックスセンシングは、システム制御、距離埋め込み、コンピュータビジョンなど、科学や工学において多くの実世界の応用がある。
行列センシングの目標は、行列 $A_\star \in \mathbb{R}^{n \times n}$ を $(u_i,b_i) \in \mathbb{R}^{n} \times \mathbb{R}$ の列に基づいて、$u_i^\top A_\star u_i = b_i$ とする。
以前の作業 [ZJD15] では、行列 $A_{\star}$ が小さなランク、例えば rank-$k$ を持つシナリオに焦点を当てていた。
それらの解析はRIP仮定に大きく依存しており、高階行列への一般化方法が不明である。
本稿では,このランク$k$仮定を緩和し,より一般的な行列センシング問題を解く。
精度パラメータが $\delta \in (0,1)$ であれば、$A \in \mathbb{R}^{n \times n}$ in $\widetilde{O}(m^{3/2} n^2 \delta^{-1} )$ を計算でき、$ |u_i^\top A u_i - b_i| \leq \delta$ for all $i \in [m]$ である。
この問題に対して確率勾配勾配を用いた証明可能な収束保証付き効率的なアルゴリズムを設計する。 Matrix sensing has many real-world applications in science and engineering, such as system control, distance embedding, and computer vision. The goal of matrix sensing is to recover a matrix $A_\star \in \mathbb{R}^{n \times n}$, based on a sequence of measurements $(u_i,b_i) \in \mathbb{R}^{n} \times \mathbb{R}$ such that $u_i^\top A_\star u_i = b_i$. Previous work [ZJD15] focused on the scenario where matrix $A_{\star}$ has a small rank, e.g. rank-$k$. Their analysis heavily relies on the RIP assumption, making it unclear how to generalize to high-rank matrices. In this paper, we relax that rank-$k$ assumption and solve a much more general matrix sensing problem. Given an accuracy parameter $\delta \in (0,1)$, we can compute $A \in \mathbb{R}^{n \times n}$ in $\widetilde{O}(m^{3/2} n^2 \delta^{-1} )$, such that $ |u_i^\top A u_i - b_i| \leq \delta$ for all $i \in [m]$. We design an efficient algorithm with provable convergence guarantees using stochastic gradient descent for this problem. | 翻訳日:2023-03-23 15:18:13 公開日:2023-03-22 |
# 熱光による実用量子センシング Practical Quantum Sensing with Thermal Light ( http://arxiv.org/abs/2303.12338v1 ) ライセンス: Link先を確認 | Peng Kian Tan, Xi Jie Yeo, Alvin Zhen Wei Leow, Lijiong Shen, Christian Kurtsiefer | (参考訳) 多くの量子センシング提案は、パラメトリックダウンコンバージョンによって生成される光子対の時間的相関に依存する。
本研究では, 熱光子統計値と光の時間相関が等しく有用であることを示す。
サブスレッショルドレーザーダイオードを超高輝度の熱光源として使用し、最大1.8kmの距離の光レンジを実証した。 Many quantum sensing suggestions rely on temporal correlations found in photon pairs generated by parametric down-conversion. In this work, we show that the temporal correlations in light with a thermal photon statistics can be equally useful for such applications. Using a sub-threshold laser diode as an ultrabright source of thermal light, we demonstrate optical range finding to a distance of up to 1.8 km. | 翻訳日:2023-03-23 15:12:11 公開日:2023-03-22 |
# 音楽駆動グループ振付 Music-Driven Group Choreography ( http://arxiv.org/abs/2303.12337v1 ) ライセンス: Link先を確認 | Nhat Le, Thang Pham, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen | (参考訳) 音楽駆動振付は様々な産業用途において難しい問題である。
近年,シングルダンサーのためのダンス動作を合成する手法が数多く提案されている。
しかし、グループのためのダンスモーションの生成は、まだ未解決の問題である。
本稿では,グループダンス生成のための大規模データセットである$\rm AIOZ-GDANCE$を提案する。
単一ダンスのみをサポートする既存のデータセットとは異なり、新しいデータセットにはグループダンスビデオが含まれており、グループ振付の研究をサポートする。
本研究では,人間をループに乗せた半自律的なラベリング手法を提案し,データセットの3次元基底真理を求める。
提案されたデータセットは、ペアリング音楽の16.7ドルの時間と、野生のビデオからの3dモーションから成り、75ドルのダンススタイルと16ドルの音楽ジャンルをカバーしている。
グループダンスを創り出すための単一ダンス生成手法は,不整合運動や踊り手同士の衝突など,不十分な結果をもたらす可能性がある。
そこで本研究では,入力音楽のシーケンスとダンサーの3次元位置のセットを用いて,複数のグループコヒーレントな振り付けを効率的に生成する新しい手法を提案する。
グループダンスの質を測定するための新しい評価指標を提案し,本手法の有効性を示すために集中的な実験を行う。 Music-driven choreography is a challenging problem with a wide variety of industrial applications. Recently, many methods have been proposed to synthesize dance motions from music for a single dancer. However, generating dance motion for a group remains an open problem. In this paper, we present $\rm AIOZ-GDANCE$, a new large-scale dataset for music-driven group dance generation. Unlike existing datasets that only support single dance, our new dataset contains group dance videos, hence supporting the study of group choreography. We propose a semi-autonomous labeling method with humans in the loop to obtain the 3D ground truth for our dataset. The proposed dataset consists of $16.7$ hours of paired music and 3D motion from in-the-wild videos, covering $7$ dance styles and $16$ music genres. We show that naively applying single dance generation technique to creating group dance motion may lead to unsatisfactory results, such as inconsistent movements and collisions between dancers. Based on our new dataset, we propose a new method that takes an input music sequence and a set of 3D positions of dancers to efficiently produce multiple group-coherent choreographies. We propose new evaluation metrics for measuring group dance quality and perform intensive experiments to demonstrate the effectiveness of our method. | 翻訳日:2023-03-23 15:12:04 公開日:2023-03-22 |
# オンデマンド配車サービス運用のための多機能シミュレーションプラットフォーム A multi-functional simulation platform for on-demand ride service operations ( http://arxiv.org/abs/2303.12336v1 ) ライセンス: Link先を確認 | Siyuan Feng, Taijie Chen, Yuhao Zhang, Jintao Ke and Hai Yang | (参考訳) オンデマンドの配車サービスや配車サービスはこの10年間で急速に発展してきた。
様々な数学的モデルと最適化アルゴリズムが開発され、より効率的な運用戦略の設計を支援する。
しかし、コストと信頼性の問題(実運用のための未熟なアルゴリズムの実装はシステムの乱れを引き起こす可能性がある)のため、これらのモデルを検証し、実際のライドソーシングプラットフォームでこれらの最適化アルゴリズムを訓練・テストすることは一般的に不可能である。
有意義なテストベッドとして機能し、トレイルやエラーを通じてアルゴリズムのトレーニング/テストやモデルの検証を行う上で、ライドソーシングシステムのシミュレーションプラットフォームが非常に重要です。
以前の研究では、それぞれのタスクのための様々なシミュレータが確立されていたが、異なる研究者によって提案されたモデルやアルゴリズムを比較するための公正でパブリックなプラットフォームが欠如している。
さらに、既存のシミュレーターは、その近さから実際の配車システムの環境、実装可能なさまざまなタスクの完全性まで、多くの課題に直面している。
そこで本研究では,実交通ネットワーク上での各種エージェントの行動や動きをシミュレートする多機能・オープンソースの配車システムのためのシミュレーションプラットフォームを提案する。
オンデマンドマッチング、アイドル車の再配置、動的価格設定など、さまざまなタスクに対して、さまざまな最適化アルゴリズム、特に強化学習アルゴリズムをトレーニングし、テストするためのいくつかのアクセス可能なポータルを提供する。
さらに、理論モデルがシミュレーションの結果をいかによく近似しているかをテストするのに使うことができる。
本シミュレータは実世界のデータベース実験で評価され,オンデマンド配車業務に関わる各種タスクに対して効率的かつ効果的なテストベッドであることが実証された。 On-demand ride services or ride-sourcing services have been experiencing fast development in the past decade. Various mathematical models and optimization algorithms have been developed to help ride-sourcing platforms design operational strategies with higher efficiency. However, due to cost and reliability issues (implementing an immature algorithm for real operations may result in system turbulence), it is commonly infeasible to validate these models and train/test these optimization algorithms within real-world ride sourcing platforms. Acting as a useful test bed, a simulation platform for ride-sourcing systems will be very important to conduct algorithm training/testing or model validation through trails and errors. While previous studies have established a variety of simulators for their own tasks, it lacks a fair and public platform for comparing the models or algorithms proposed by different researchers. In addition, the existing simulators still face many challenges, ranging from their closeness to real environments of ride-sourcing systems, to the completeness of different tasks they can implement. To address the challenges, we propose a novel multi-functional and open-sourced simulation platform for ride-sourcing systems, which can simulate the behaviors and movements of various agents on a real transportation network. It provides a few accessible portals for users to train and test various optimization algorithms, especially reinforcement learning algorithms, for a variety of tasks, including on-demand matching, idle vehicle repositioning, and dynamic pricing. In addition, it can be used to test how well the theoretical models approximate the simulated outcomes. Evaluated on real-world data based experiments, the simulator is demonstrated to be an efficient and effective test bed for various tasks related to on-demand ride service operations. | 翻訳日:2023-03-23 15:11:43 公開日:2023-03-22 |
# Snippet-Feature Affinityの推測による時間的行動位置推定 Weakly-Supervised Temporal Action Localization by Inferring Snippet-Feature Affinity ( http://arxiv.org/abs/2303.12332v1 ) ライセンス: Link先を確認 | Wulian Yun, Mengshi Qi, Chuanming Wang, Huadong Ma | (参考訳) 弱い教師付き時間的アクションローカライズ(weaklysupervised temporal action localization)は、アクション領域の特定と、未トリミングビデオ内のアクションカテゴリの特定を目的としている。
疑似ラベル生成は課題を解決するための有望な戦略であるが、既存の手法のほとんどは、生成を導くためにスニペットワイズ分類結果を使うことに制限されており、ビデオの自然な時間構造もまた、そのような生成プロセスを支援するためにリッチな情報を提供できることを無視している。
本稿では,スニペット特徴の親和性を推定する新しい弱教師付き時間的行動定位法を提案する。
まず,時間近傍スニペット間の親和性関係を利用して初期粗い擬似ラベルを生成する親和性推論モジュールを設計する。
次に,スニペット特徴の識別性を高め,映像内および映像間関係を探索することで粗いラベルを洗練する情報対話モジュールを提案する。
最後に、情報対話モジュールから生成された高忠実度擬似ラベルを用いて、アクションローカライゼーションネットワークのトレーニングを監督する。
THUMOS14とActivityNet v1.3の2つの公開データセットに対する大規模な実験により、提案手法は最先端の手法と比較して大幅に改善されていることを示す。 Weakly-supervised temporal action localization aims to locate action regions and identify action categories in untrimmed videos, only taking video-level labels as the supervised information. Pseudo label generation is a promising strategy to solve the challenging problem, but most existing methods are limited to employing snippet-wise classification results to guide the generation, and they ignore that the natural temporal structure of the video can also provide rich information to assist such a generation process. In this paper, we propose a novel weakly-supervised temporal action localization method by inferring snippet-feature affinity. First, we design an affinity inference module that exploits the affinity relationship between temporal neighbor snippets to generate initial coarse pseudo labels. Then, we introduce an information interaction module that refines the coarse labels by enhancing the discriminative nature of snippet-features through exploring intra- and inter-video relationships. Finally, the high-fidelity pseudo labels generated from the information interaction module are used to supervise the training of the action localization network. Extensive experiments on two publicly available datasets, i.e., THUMOS14 and ActivityNet v1.3, demonstrate our proposed method achieves significant improvements compared to the state-of-the-art methods. | 翻訳日:2023-03-23 15:11:12 公開日:2023-03-22 |
# 自由拡大する量子理想気体のボルツマンエントロピー Boltzmann entropy of a freely expanding quantum ideal gas ( http://arxiv.org/abs/2303.12330v1 ) ライセンス: Link先を確認 | Saurav Pandey, Junaid Majeed Bhat, Abhishek Dhar, Sheldon Goldstein, David A. Huse, Manas Kulkarni, Anupam Kundu, Joel L. Lebowitz | (参考訳) 一次元の量子イデアル気体の非平衡自由膨張における微小状態のボルツマンエントロピーの時間発展について研究する。
この量子ボルツマンエントロピーである$S_B$は、本質的に独立な波動関数(ミクロ状態)の「数」を数え、特定のマクロ状態を引き起こす。
これは一般に、系の非平衡マクロ状態を指定する粗粒度の種類や量などのマクロ変数の選択に依存するが、その広範な部分は熱平衡マクロ状態の熱力学的エントロピーと一致する。
u$-macrovariables は位置空間における局所観測可能であり、$f$-macrovariables は運動量空間の構造も含む。
量子気体の場合、$f$-Macrovariablesの非古典的な選択を用いる。
両方の選択に対して、対応するエントロピー$s_B^f$と$s_B^U$は成長し、最終的に飽和する。
古典的な場合と同様に、s_B^f$の成長率は運動量粗粒度に依存する。
ガスが最初に平衡状態にあり、最初に2倍の体積を占めるように放出されると、粒子当たりのエントロピーは$f$-macrostate, $\Delta s_B^f$, satisfies $\log{2}\leq\Delta s_B^f\leq 2\log{2}$, $0\leq\Delta s_B^f\leq\log{2}$となる。
同じ初期条件において、u$-macrostate に対するエントロピー $\delta s_b^u$ の変化は、最後の定常状態が熱平衡でない場合、ガスが量子状態にある場合、$\delta s_b^f$ よりも大きい。 We study the time evolution of the Boltzmann entropy of a microstate during the non-equilibrium free expansion of a one-dimensional quantum ideal gas. This quantum Boltzmann entropy, $S_B$, essentially counts the "number" of independent wavefunctions (microstates) giving rise to a specified macrostate. It generally depends on the choice of macrovariables, such as the type and amount of coarse-graining, specifying a non-equilibrium macrostate of the system, but its extensive part agrees with the thermodynamic entropy in thermal equilibrium macrostates. We examine two choices of macrovariables: the $U$-macrovariables are local observables in position space, while the $f$-macrovariables also include structure in momentum space. For the quantum gas, we use a non-classical choice of the $f$-macrovariables. For both choices, the corresponding entropies $s_B^f$ and $s_B^U$ grow and eventually saturate. As in the classical case, the growth rate of $s_B^f$ depends on the momentum coarse-graining scale. If the gas is initially at equilibrium and is then released to expand to occupy twice the initial volume, the per-particle increase in the entropy for the $f$-macrostate, $\Delta s_B^f$, satisfies $\log{2}\leq\Delta s_B^f\leq 2\log{2}$ for fermions, and $0\leq\Delta s_B^f\leq\log{2}$ for bosons. For the same initial conditions, the change in the entropy $\Delta s_B^U$ for the $U$-macrostate is greater than $\Delta s_B^f$ when the gas is in the quantum regime where the final stationary state is not at thermal equilibrium. | 翻訳日:2023-03-23 15:10:48 公開日:2023-03-22 |
# 3次元ganインバージョンにおけるエンコーダの形状とオクルージョンアウェアエンコーディング Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding ( http://arxiv.org/abs/2303.12326v1 ) ライセンス: Link先を確認 | Ziyang Yuan, Yiming Zhu, Yu Li, Hongyu Liu, Chun Yuan | (参考訳) 3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。
しかし、既存の3D GANインバージョン手法は各ケースの時間的最適化に依存している。
本稿では,最も広く使われている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。
我々は,EG3Dの潜在空間の性質を利用して,識別器と背景深度正規化を設計する。
これにより、入力画像を対応する潜在コードに変換することができる幾何認識エンコーダをトレーニングできる。
さらに, EG3Dの特徴空間を探求し, 細かなテクスチャの再現性を高めるために, EG3Dの特徴の表現能力を向上させる適応改良段階を開発する。
最後に,未観測領域の歪みを防止するため,オクルージョン対応核融合操作を提案する。
提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する優れた結果が得られる。
私たちのフレームワークはセマンティック編集のようなアプリケーションに適している。 3D GAN inversion aims to achieve high reconstruction fidelity and reasonable 3D geometry simultaneously from a single image input. However, existing 3D GAN inversion methods rely on time-consuming optimization for each individual case. In this work, we introduce a novel encoder-based inversion framework based on EG3D, one of the most widely-used 3D GAN models. We leverage the inherent properties of EG3D's latent space to design a discriminator and a background depth regularization. This enables us to train a geometry-aware encoder capable of converting the input image into corresponding latent code. Additionally, we explore the feature space of EG3D and develop an adaptive refinement stage that improves the representation ability of features in EG3D to enhance the recovery of fine-grained textural details. Finally, we propose an occlusion-aware fusion operation to prevent distortion in unobserved regions. Our method achieves impressive results comparable to optimization-based methods while operating up to 500 times faster. Our framework is well-suited for applications such as semantic editing. | 翻訳日:2023-03-23 15:10:14 公開日:2023-03-22 |
# GrapeQA: GRaphの拡張と質問応答の強化 GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering ( http://arxiv.org/abs/2303.12320v1 ) ライセンス: Link先を確認 | Dhaval Taunk, Lakshya Khanna, Pavan Kandru, Vasudeva Varma, Charu Sharma and Makarand Tapaswi | (参考訳) Commonsense Question-Awering (QA)メソッドは、事前訓練された言語モデル(LM)のパワーと知識グラフ(KG)が提供する推論を組み合わせる。
典型的なアプローチでは、QAペアに関連するノードをKGから収集してワーキンググラフ(WG)を生成し、続いてグラフニューラルネットワーク(GNN)を使用する。
これは2つの大きな課題に直面します。
(i)WGにおけるQAからの情報を全て把握することは困難であり、
(ii) WG は KG から無関係なノードを含む。
これらの問題に対処するため、我々は2つの簡単な改良を加えたGrapeQAを提案する。
一 グラフ増強のための重要エンティティは、QA対から関連するテキストチャンクを特定し、かつ、LMから対応する潜在表現でWGを増強し、
(ii) Context-Aware Node Pruningは、QAペアに関連のないノードを削除する。
我々は,OpenBookQA,CommonsenseQA,MedQA-USMLEの成果を評価し,GrapeQAがLM+KG以前のもの(特にQA-GNN)よりも一貫した改善とOpenBookQAの大幅な改善を示した。 Commonsense question-answering (QA) methods combine the power of pre-trained Language Models (LM) with the reasoning provided by Knowledge Graphs (KG). A typical approach collects nodes relevant to the QA pair from a KG to form a Working Graph (WG) followed by reasoning using Graph Neural Networks(GNNs). This faces two major challenges: (i) it is difficult to capture all the information from the QA in the WG, and (ii) the WG contains some irrelevant nodes from the KG. To address these, we propose GrapeQA with two simple improvements on the WG: (i) Prominent Entities for Graph Augmentation identifies relevant text chunks from the QA pair and augments the WG with corresponding latent representations from the LM, and (ii) Context-Aware Node Pruning removes nodes that are less relevant to the QA pair. We evaluate our results on OpenBookQA, CommonsenseQA and MedQA-USMLE and see that GrapeQA shows consistent improvements over its LM + KG predecessor (QA-GNN in particular) and large improvements on OpenBookQA. | 翻訳日:2023-03-23 15:09:57 公開日:2023-03-22 |
# クラス間多様性に基づくフェデレーションアクティブラーニングの再考 Re-thinking Federated Active Learning based on Inter-class Diversity ( http://arxiv.org/abs/2303.12317v1 ) ライセンス: Link先を確認 | SangMook Kim, Sangmin Bae, Hwanjun Song, Se-Young Yun | (参考訳) 連合学習は先進的な進歩を遂げているが、多くの研究はクライアントのデータは完全にラベル付けされていると仮定している。
しかし、現実のシナリオでは、すべてのクライアントがかなりの量のラベルのないインスタンスを持っているかもしれません。
ラベルなしデータを利用する様々なアプローチの中で、連合型アクティブラーニングフレームワークが有望なソリューションとして登場した。
分散環境では、利用可能な問合せセレクタモデルには「グローバル」と「ローカルのみ」の2種類があるが、その性能支配とその原因を論じる文献はほとんどない。
本研究では、2つのセレクタモデルの優越性がグローバルおよび局所的なクラス間の多様性に依存することを示す。
さらに, グローバルモデルとローカルモデルが, それぞれの不均衡解消の鍵であることを確認した。
そこで本研究では,異なる局所不均一性レベルとグローバル不均衡比に頑健なfalサンプリング戦略であるlogoを提案する。
LoGoは、38の実験的な設定の合計で、6つのアクティブな学習戦略を一貫して上回っている。 Although federated learning has made awe-inspiring advances, most studies have assumed that the client's data are fully labeled. However, in a real-world scenario, every client may have a significant amount of unlabeled instances. Among the various approaches to utilizing unlabeled data, a federated active learning framework has emerged as a promising solution. In the decentralized setting, there are two types of available query selector models, namely 'global' and 'local-only' models, but little literature discusses their performance dominance and its causes. In this work, we first demonstrate that the superiority of two selector models depends on the global and local inter-class diversity. Furthermore, we observe that the global and local-only models are the keys to resolving the imbalance of each side. Based on our findings, we propose LoGo, a FAL sampling strategy robust to varying local heterogeneity levels and global imbalance ratio, that integrates both models by two steps of active selection scheme. LoGo consistently outperforms six active learning strategies in the total number of 38 experimental settings. | 翻訳日:2023-03-23 15:09:39 公開日:2023-03-22 |
# tsshap: 時系列予測のためのロバストモデル非依存特徴量に基づく説明可能性 TsSHAP: Robust model agnostic feature-based explainability for time series forecasting ( http://arxiv.org/abs/2303.12316v1 ) ライセンス: Link先を確認 | Vikas C. Raykar, Arindam Jati, Sumanta Mukherjee, Nupur Aggarwal, Kanthi Sarpatwar, Giridhar Ganapavarapu, Roman Vaculin | (参考訳) 信頼できる機械学習モデルは、説明できるだけでなく正確であるべきです。
モデルがある決定を下す理由を理解することは説明可能性の概念を定義する。
分類や回帰といった教師あり学習パラダイムにおいて、様々な説明可能性のフレーバーがよく研究されているが、時系列予測の説明可能性に関する文献は比較的少ない。
本稿では,ブラックボックス予測モデルの予測を記述可能な機能ベースの説明可能性アルゴリズムTsSHAPを提案する。
この方法は予測モデルに非依存であり、ユーザが事前に定義した解釈可能な特徴の観点から予測の説明を提供することができる。
それらの説明は、解釈可能な特徴空間とブラックボックスモデルの予測の間のマッピングを学習する代理モデルにTreeSHAPアルゴリズムを適用したSHAP値から得られるものである。
さらに,いくつかのシナリオにおいて有用な時系列予測の文脈において,局所的,半局所的,大域的説明の概念を定式化する。
複数のデータセットに対する広範な実験により,TsSHAPの有効性とロバスト性を検証した。 A trustworthy machine learning model should be accurate as well as explainable. Understanding why a model makes a certain decision defines the notion of explainability. While various flavors of explainability have been well-studied in supervised learning paradigms like classification and regression, literature on explainability for time series forecasting is relatively scarce. In this paper, we propose a feature-based explainability algorithm, TsSHAP, that can explain the forecast of any black-box forecasting model. The method is agnostic of the forecasting model and can provide explanations for a forecast in terms of interpretable features defined by the user a prior. The explanations are in terms of the SHAP values obtained by applying the TreeSHAP algorithm on a surrogate model that learns a mapping between the interpretable feature space and the forecast of the black-box model. Moreover, we formalize the notion of local, semi-local, and global explanations in the context of time series forecasting, which can be useful in several scenarios. We validate the efficacy and robustness of TsSHAP through extensive experiments on multiple datasets. | 翻訳日:2023-03-23 15:09:22 公開日:2023-03-22 |
# ファウショット一般化のためのメタグラディエント正規化を用いた自己教師型メタプロンプト学習 Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization for Few-shot Generalization ( http://arxiv.org/abs/2303.12314v1 ) ライセンス: Link先を確認 | Kaihang Pan, Juncheng Li, Hongye Song, Jun Lin, Xiaozhong Liu, Siliang Tang | (参考訳) プロンプトチューニングはパラメータ効率のよい手法であり、ソフトプロンプトと条件凍結言語モデルを学び、特定の下流タスクを実行する。
効果はあるものの、数ショット設定でのプロンプトチューニングはソフトプロンプトの優れた初期化に大きく依存している。
一方で、オーバーフィッティングが発生する可能性がある。
既存の作業では、事前学習や教師付きメタ学習を利用してソフトプロンプトを初期化するが、データ効率で下流のタスクに一般化することはできない。
上記の問題に対処するため,本論文では,数ショットの一般化のためのメタ段階的正規化(SUPMER)を備えた自己改善メタプロンプト学習フレームワークを提案する。
まず,タスク形式が異なる自己教師付きアンカーメタトレーニングタスクのセットを設計し,カリキュラムベースのタスク拡張によるタスク分散をさらに強化する。
そして、メタプロンプト学習に新しいメタ段階正規化手法を統合する。
数ショット学習中に生の勾配をドメイン一般化可能な方向に変換することで、オーバーフィットの問題を緩和する。
大規模な実験により、SUPMERは、異なる数ショットダウンストリームタスクに対してより良いパフォーマンスを実現し、さらに強力なドメイン一般化能力を示すことが示された。 Prompt tuning is a parameter-efficient method, which learns soft prompts and conditions frozen language models to perform specific downstream tasks. Though effective, prompt tuning under few-shot settings on the one hand heavily relies on a good initialization of soft prompts. On the other hand, it can easily result in overfitting. Existing works leverage pre-training or supervised meta-learning to initialize soft prompts but they cannot data-efficiently generalize to unseen downstream tasks. To address the above problems, this paper proposes a novel Self-sUpervised meta-Prompt learning framework with meta-gradient Regularization for few-shot generalization (SUPMER). We first design a set of self-supervised anchor meta-training tasks with different task formats and further enrich the task distribution with curriculum-based task augmentation. Then a novel meta-gradient regularization method is integrated into meta-prompt learning. It meta-learns to transform the raw gradients during few-shot learning into a domain-generalizable direction, thus alleviating the problem of overfitting. Extensive experiments show that SUPMER achieves better performance for different few-shot downstream tasks, and also exhibits a stronger domain generalization ability. | 翻訳日:2023-03-23 15:09:07 公開日:2023-03-22 |
# クリーンルームからマシンルームへ--第1世代脳スケールwafer-scaleニューロモルフィックシステムのコミッション From Clean Room to Machine Room: Commissioning of the First-Generation BrainScaleS Wafer-Scale Neuromorphic System ( http://arxiv.org/abs/2303.12359v1 ) ライセンス: Link先を確認 | Hartmut Schmidt, Jos\'e Montes, Andreas Gr\"ubl, Maurice G\"uttler, Dan Husmann, Joscha Ilmberger, Jakob Kaiser, Christian Mauch, Eric M\"uller, Lars Sterzenbach, Johannes Schemmel, Sebastian Schmitt | (参考訳) BrainScaleSの第一世代(BrainScaleS-1)は、スパイキングニューロンの大規模なネットワークをエミュレートする神経型システムである。
物理モデリング」の原則に従って、VLSI回路は生物学的例の力学をエミュレートするために設計されており、アナログ回路はニューロンを実装し、電子部品の固有の性質から生じる時間定数を持つシナプスを合成する。
連続的に動作し、力学は典型的には生物学的な状態と比較して10000の加速因子と一致する。
フォールトトレラント設計は、避けられないアナログ変数とコンポーネントの障害にもかかわらず、ウェハスケールの統合を実現する。
本稿では,brainscales-1 ウェハモジュールのコミッションプロセスについて述べるとともに,システムの物理的構成要素を簡潔に記述し,組み立て時のステップとそれを操作するための対策について述べる。
さらに,本システムの開発プロセスと,その機能の実証から得られた教訓を考察し,ウェーハスケールの同期発火チェーンをエミュレートし,アナログコンポーネントと個々のシナプスを駆使した最大のスパイキングネットワークエミュレーションを行った。 The first-generation of BrainScaleS, also referred to as BrainScaleS-1, is a neuromorphic system for emulating large-scale networks of spiking neurons. Following a "physical modeling" principle, its VLSI circuits are designed to emulate the dynamics of biological examples: analog circuits implement neurons and synapses with time constants that arise from their electronic components' intrinsic properties. It operates in continuous time, with dynamics typically matching an acceleration factor of 10000 compared to the biological regime. A fault-tolerant design allows it to achieve wafer-scale integration despite unavoidable analog variability and component failures. In this paper, we present the commissioning process of a BrainScaleS-1 wafer module, providing a short description of the system's physical components, illustrating the steps taken during its assembly and the measures taken to operate it. Furthermore, we reflect on the system's development process and the lessons learned to conclude with a demonstration of its functionality by emulating a wafer-scale synchronous firing chain, the largest spiking network emulation ran with analog components and individual synapses to date. | 翻訳日:2023-03-23 15:02:33 公開日:2023-03-22 |
# 一変時系列データにおけるwasserstein逆例 Wasserstein Adversarial Examples on Univariant Time Series Data ( http://arxiv.org/abs/2303.12357v1 ) ライセンス: Link先を確認 | Wenjie Wang, Li Xiong, Jian Lou | (参考訳) 逆の例は、よく訓練されたディープラーニングモデルを騙して誤分類するために、通常の例に識別不能な摂動を加えることで作成される。
コンピュータビジョンの文脈では、この区別不能の概念は一般に$L_{\infty}$または他のノルムによって制限される。
しかし,これらの基準は時系列データの識別不可能性を測定するには適していない。
本研究では、時系列データに対するワッサーシュタイン空間の逆例を提案し、ワッサーシュタイン距離を用いて通常の例と逆例の間の摂動を束縛する。
本稿では,一変時系列データの摂動に対する逆攻撃法であるwasserstein projected gradient descent (wpgd)を提案する。
我々は1次元空間におけるワッサーシュタイン距離の閉形式解を利用して、勾配降下法によるWPGDの投影ステップを効率的に計算する。
さらに,ワッサースタイン空間における逆例の探索をユークリッドノルムによって導かれ,制約され,より効果的かつ不可視な摂動が得られるように,二段階射影を提案する。
我々は,医療領域における時系列データセットに対する提案攻撃を実証的に評価する。
その結果、ワッサースタイン攻撃は強力であり、攻撃成功率の高い標的分類器のほとんどを攻撃できることが示された。
また,wassersteinadversarial例の性質をよりよく研究するために,wasserstein smoothingという強力な防御機構を認定されたロバスト性防御のために評価した。
防御はある程度の精度向上を達成できるが、多くの場合に制限があり、一変時系列データ上のワッサーシュタイン対逆例に対する強力な証明された堅牢性法を開発するための空間を残している。 Adversarial examples are crafted by adding indistinguishable perturbations to normal examples in order to fool a well-trained deep learning model to misclassify. In the context of computer vision, this notion of indistinguishability is typically bounded by $L_{\infty}$ or other norms. However, these norms are not appropriate for measuring indistinguishiability for time series data. In this work, we propose adversarial examples in the Wasserstein space for time series data for the first time and utilize Wasserstein distance to bound the perturbation between normal examples and adversarial examples. We introduce Wasserstein projected gradient descent (WPGD), an adversarial attack method for perturbing univariant time series data. We leverage the closed-form solution of Wasserstein distance in the 1D space to calculate the projection step of WPGD efficiently with the gradient descent method. We further propose a two-step projection so that the search of adversarial examples in the Wasserstein space is guided and constrained by Euclidean norms to yield more effective and imperceptible perturbations. We empirically evaluate the proposed attack on several time series datasets in the healthcare domain. Extensive results demonstrate that the Wasserstein attack is powerful and can successfully attack most of the target classifiers with a high attack success rate. To better study the nature of Wasserstein adversarial example, we evaluate a strong defense mechanism named Wasserstein smoothing for potential certified robustness defense. Although the defense can achieve some accuracy gain, it still has limitations in many cases and leaves space for developing a stronger certified robustness method to Wasserstein adversarial examples on univariant time series data. | 翻訳日:2023-03-23 15:02:13 公開日:2023-03-22 |
# 量子鍵分布系保護のための光パワーリミッタのセキュリティ境界 Security boundaries of an optical power limiter for protecting quantum key distribution systems ( http://arxiv.org/abs/2303.12355v1 ) ライセンス: Link先を確認 | Qingquan Peng, Binwu Gao, Konstantin Zaitsev, Ying Guo, Anqi Huang and Junjie Wu | (参考訳) 無認可光注入は、量子鍵分布(QKD)システムの実用的セキュリティにとって、常に重要な脅威である。
熱・光デフォーカス効果に基づく光パワーリミッタ (opl) を提案し, 注入されたハッキング光を制限した。
ハードウェア対策として、様々な光注入攻撃によるOPLの性能試験を行い、広く展開される前にセキュリティ境界を明らかにする。
量子暗号におけるOPLのセキュリティバウンダリを調べるため、連続波(c.w.)光注入攻撃とパルス繰り返し率0.5Hz,40MHz,1GHzのパルス照射攻撃下でのOPLの挙動を総合的に検証し分析した。
テスト結果は、OPLのセキュリティ境界を照らし、ユースケースでOPLを適切に利用することを可能にする。
ここで提案する試験と解析の方法論は,QKDシステムにおける他のパワーリミテーションコンポーネントに適用可能である。 Unauthorized light injection has always been a vital threat to the practical security of a quantum key distribution (QKD) system. An optical power limiter (OPL) based on the thermo-optical defocusing effect has been proposed and implemented, limiting the injected hacking light. As a hardware countermeasure, the performance of the OPL under various light-injection attacks shall be tested to clarify the security boundary before being widely deployed. To investigate the OPL's security boundary in quantum cryptography, we comprehensively test and analyse the behavior of OPL under continuous-wave (c.w.) light-injection attacks and pulse illumination attacks with pulses' repetition rate at 0.5-Hz,40-MHz, and 1-GHz. The testing results illuminate the security boundary of the OPL, which allows one to properly employ the OPL in the use cases. The methodology of testing and analysis proposed here is applicable to other power-limitation components in a QKD system. | 翻訳日:2023-03-23 15:01:47 公開日:2023-03-22 |
# 動的環境における局所性強化ナビゲーションのための深層強化学習 Deep Reinforcement Learning for Localizability-Enhanced Navigation in Dynamic Human Environments ( http://arxiv.org/abs/2303.12354v1 ) ライセンス: Link先を確認 | Yuan Chen, Quecheng Qiu, Xiangyu Liu, Guangda Chen, Shunyi Yao, Jie Peng, Jianmin Ji and Yanyong Zhang | (参考訳) 自律的なロボットが効率的に安全に移動するためには、信頼性の高い位置決めが不可欠である。
いくつかのナビゲーション手法は、高いローカライズ可能なパス(信頼性のあるローカライゼーションを取得する能力を記述する)を計画することができる。
これらの経路に従うことで、ロボットはセンサーストリームにアクセスでき、ローカライゼーションアルゴリズムによりより正確な位置推定結果が得られる。
しかし、これらの手法の多くは事前の知識を必要とし、目に見えないシナリオや動的な変化に適応するのに苦労する。
これらの制約を克服するために,動的環境下での深層強化学習による局所化可能性向上ナビゲーション手法を提案する。
提案するプランナーは,局所化に有用な2次元レーザーデータから幾何学的特徴を自動的に抽出する。
プランナーは幾何学的特徴に異なる重要性を割り当てることを学び、レーザーローカライゼーションに役立つ領域をロボットにナビゲートするよう促す。
プランナーの学習を容易にするために,(1)動的変化と局所化結果の信頼性を考慮し,より情報を提供し,ロボットがより良い判断を下すことができる強化状態表現,(2)局所化精度に影響を与える行動に対する疎度と密度の両方のフィードバックを提供することができる報酬指標,の2つの手法を提案する。
従来は見られなかった環境下では, 損失率と到着率に大きな改善が見られた。 Reliable localization is crucial for autonomous robots to navigate efficiently and safely. Some navigation methods can plan paths with high localizability (which describes the capability of acquiring reliable localization). By following these paths, the robot can access the sensor streams that facilitate more accurate location estimation results by the localization algorithms. However, most of these methods require prior knowledge and struggle to adapt to unseen scenarios or dynamic changes. To overcome these limitations, we propose a novel approach for localizability-enhanced navigation via deep reinforcement learning in dynamic human environments. Our proposed planner automatically extracts geometric features from 2D laser data that are helpful for localization. The planner learns to assign different importance to the geometric features and encourages the robot to navigate through areas that are helpful for laser localization. To facilitate the learning of the planner, we suggest two techniques: (1) an augmented state representation that considers the dynamic changes and the confidence of the localization results, which provides more information and allows the robot to make better decisions, (2) a reward metric that is capable to offer both sparse and dense feedback on behaviors that affect localization accuracy. Our method exhibits significant improvements in lost rate and arrival rate when tested in previously unseen environments. | 翻訳日:2023-03-23 15:01:31 公開日:2023-03-22 |
# 量子アニールを用いた多層パーセプトロンの訓練 Training Multilayer Perceptrons by Sampling with Quantum Annealers ( http://arxiv.org/abs/2303.12352v1 ) ライセンス: Link先を確認 | Frances Fengyi Yang and Michele Sasdelli and Tat-Jun Chin | (参考訳) 量子アニーリングの機械学習への成功例としては、制限ボルツマンマシン(rbm)の訓練がある。
しかし、視覚応用のための多くのニューラルネットワークは、多層パーセプトロン(MLP)のようなフィードフォワード構造である。
バックプロパゲーションは現在、教師あり学習のためにMDPを訓練する最も効果的な手法である。
本稿では,量子アニールを用いたMLPのトレーニングを前方視することを目的とする。
我々は,最大条件付き確率目標のrbmの変動であるmlpとエネルギーベースモデル(ebm)の等価性を利用する。
これにより、サンプリングエンジンとして量子アニールを用いてMLPをトレーニングする戦略が導かれる。
我々は、sgmoidアクティベーション関数と1つの隠れ層を持つmlpのセットアップを証明し、d-wave quantum annealerを用いたmnistおよびfashion-mnistデータセットの小さなサブセット上のバイナリイメージ分類器のトレーニングを実証した。
現在のアニーラーで実現可能な問題のサイズは限られているが、我々のアイデアを検証する実行可能なインスタンスに関する総合的な結果を得た。
我々の研究は、MLPのトレーニングのための量子コンピューティングの可能性を確立する。 A successful application of quantum annealing to machine learning is training restricted Boltzmann machines (RBM). However, many neural networks for vision applications are feedforward structures, such as multilayer perceptrons (MLP). Backpropagation is currently the most effective technique to train MLPs for supervised learning. This paper aims to be forward-looking by exploring the training of MLPs using quantum annealers. We exploit an equivalence between MLPs and energy-based models (EBM), which are a variation of RBMs with a maximum conditional likelihood objective. This leads to a strategy to train MLPs with quantum annealers as a sampling engine. We prove our setup for MLPs with sigmoid activation functions and one hidden layer, and demonstrated training of binary image classifiers on small subsets of the MNIST and Fashion-MNIST datasets using the D-Wave quantum annealer. Although problem sizes that are feasible on current annealers are limited, we obtained comprehensive results on feasible instances that validate our ideas. Our work establishes the potential of quantum computing for training MLPs. | 翻訳日:2023-03-23 15:01:09 公開日:2023-03-22 |
# 人工知能と二重契約 Artificial Intelligence and Dual Contract ( http://arxiv.org/abs/2303.12350v1 ) ライセンス: Link先を確認 | Wuming Fu and Qian Qi | (参考訳) 近年の人工知能アルゴリズムの劇的な進歩により、アルゴリズムはすぐに契約設計など様々な分野で人間の意思決定者を置き換えることが期待されている。
本研究では,二元原理エージェント問題に対するワークホース \emph{dual contract}モデルにおいて,人工知能(マルチエージェントq-learning)を用いたアルゴリズムの動作を実験的に検討することで,その可能性を分析する。
aiアルゴリズムは、外部のガイダンスやコミュニケーションなしにインセンティブ互換の契約を自律的に設計することを学びます。
異なるAIアルゴリズムを駆使したプリンシパルは、共謀や競争のような混合サム動作をすることができることを強調する。
より知的なプリンシパルは協力的になりがちであり、知的でないプリンシパルは内在性ミオピアであり、競争力を持つ傾向にある。
最適な契約の下では、エージェントに対する低い契約インセンティブは、プリンシパル間の協調戦略によって持続される。
この発見は、主要な不均一性、契約に関わるプレイヤーの数の変化、および様々な不確実性に対して堅牢である。 With the dramatic progress of artificial intelligence algorithms in recent times, it is hoped that algorithms will soon supplant human decision-makers in various fields, such as contract design. We analyze the possible consequences by experimentally studying the behavior of algorithms powered by Artificial Intelligence (Multi-agent Q-learning) in a workhorse \emph{dual contract} model for dual-principal-agent problems. We find that the AI algorithms autonomously learn to design incentive-compatible contracts without external guidance or communication among themselves. We emphasize that the principal, powered by distinct AI algorithms, can play mixed-sum behavior such as collusion and competition. We find that the more intelligent principals tend to become cooperative, and the less intelligent principals are endogenizing myopia and tend to become competitive. Under the optimal contract, the lower contract incentive to the agent is sustained by collusive strategies between the principals. This finding is robust to principal heterogeneity, changes in the number of players involved in the contract, and various forms of uncertainty. | 翻訳日:2023-03-23 15:00:50 公開日:2023-03-22 |
# NUWA-XL:eXtremely Long Video Generationのための拡散拡散 NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation ( http://arxiv.org/abs/2303.12346v1 ) ライセンス: Link先を確認 | Shengming Yin, Chenfei Wu, Huan Yang, Jianfeng Wang, Xiaodong Wang, Minheng Ni, Zhengyuan Yang, Linjie Li, Shuguang Liu, Fan Yang, Jianlong Fu, Gong Ming, Lijuan Wang, Zicheng Liu, Houqiang Li, Nan Duan | (参考訳) 本稿では,eXtremely Longビデオ生成のためのDiffusion over DiffusionアーキテクチャであるNUWA-XLを提案する。
現在のほとんどの作品は、連続的に長いビデオセグメントを生成するが、これは通常、短いビデオのトレーニングと長いビデオの推測の間にギャップを生じさせ、シーケンシャルな生成は非効率である。
その代わりに、我々のアプローチでは、ビデオが同じ粒度で並列に生成される‘粗い’プロセスを採用しています。
全時間範囲にわたってキーフレームを生成するために大域拡散モデルが適用され、周辺フレーム間のコンテンツを局所拡散モデルが再帰的に埋める。
このシンプルで効果的な戦略により、長いビデオ(3376フレーム)を直接トレーニングすることで、トレーニングと推論のギャップを減らし、すべてのセグメントを並列に生成することが可能になります。
このモデルを評価するために、長いビデオ生成のための新しいベンチマークであるFlintstonesHDデータセットを構築した。
実験により,本モデルは,グローバルおよびローカルのコヒーレンスを持つ高品質なロングビデオを生成するだけでなく,同じハードウェア環境において,平均推定時間を7.55minから26s(94.26\%)に短縮することを示した。
ホームページリンクは \url{https://msra-nuwa.azurewebsites.net/} In this paper, we propose NUWA-XL, a novel Diffusion over Diffusion architecture for eXtremely Long video generation. Most current work generates long videos segment by segment sequentially, which normally leads to the gap between training on short videos and inferring long videos, and the sequential generation is inefficient. Instead, our approach adopts a ``coarse-to-fine'' process, in which the video can be generated in parallel at the same granularity. A global diffusion model is applied to generate the keyframes across the entire time range, and then local diffusion models recursively fill in the content between nearby frames. This simple yet effective strategy allows us to directly train on long videos (3376 frames) to reduce the training-inference gap, and makes it possible to generate all segments in parallel. To evaluate our model, we build FlintstonesHD dataset, a new benchmark for long video generation. Experiments show that our model not only generates high-quality long videos with both global and local coherence, but also decreases the average inference time from 7.55min to 26s (by 94.26\%) at the same hardware setting when generating 1024 frames. The homepage link is \url{https://msra-nuwa.azurewebsites.net/} | 翻訳日:2023-03-23 15:00:33 公開日:2023-03-22 |
# LD-ZNet:テキストベース画像分割のための遅延拡散手法 LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation ( http://arxiv.org/abs/2303.12343v1 ) ライセンス: Link先を確認 | Koutilya Pnvr, Bharat Singh, Pallabi Ghosh, Behjat Siddiquie, David Jacobs | (参考訳) 本稿では,インターネットスケールデータセット上で学習した潜在拡散モデル(ldms)を用いた実画像とai画像の分割手法を提案する。
まず,テキストベース画像セグメンテーションのためのRGB画像やCLIPエンコーディングなどの他の特徴表現と比較して,LDMの潜時空間(z空間)が入力表現に優れていることを示す。
異なる形式のアート、漫画、イラスト、写真など、複数のドメインにまたがる圧縮表現を生成する潜在的なz空間上でセグメンテーションモデルをトレーニングすることで、実画像とai生成画像の間のドメインギャップを橋渡しすることができる。
本報告では, LDMの内部特徴が豊富な意味情報を含んでいることを示すとともに, LD-ZNet方式でテキストセグメンテーションの性能をさらに向上させる手法を提案する。
総じて、自然画像上のテキストから画像へのセグメンテーションの標準ベースラインよりも6%改善しています。
AI生成画像では、最先端技術と比較して20%近く改善されている。 We present a technique for segmenting real and AI-generated images using latent diffusion models (LDMs) trained on internet-scale datasets. First, we show that the latent space of LDMs (z-space) is a better input representation compared to other feature representations like RGB images or CLIP encodings for text-based image segmentation. By training the segmentation models on the latent z-space, which creates a compressed representation across several domains like different forms of art, cartoons, illustrations, and photographs, we are also able to bridge the domain gap between real and AI-generated images. We show that the internal features of LDMs contain rich semantic information and present a technique in the form of LD-ZNet to further boost the performance of text-based segmentation. Overall, we show up to 6% improvement over standard baselines for text-to-image segmentation on natural images. For AI-generated imagery, we show close to 20% improvement compared to state-of-the-art techniques. | 翻訳日:2023-03-23 15:00:07 公開日:2023-03-22 |
# スペクトル偏差関係学習によるハイパースペクトル異常検出のためのワンステップ検出パラダイム One-Step Detection Paradigm for Hyperspectral Anomaly Detection via Spectral Deviation Relationship Learning ( http://arxiv.org/abs/2303.12342v1 ) ライセンス: Link先を確認 | Jingtao Li, Xinyu Wang, Shaoyu Wang, Hengwei Zhao, Liangpei Zhang, Yanfei Zhong | (参考訳) ハイパースペクトル異常検出(英: Hyperspectral Anomaly Detection、HAD)は、事前の知識なしに、周囲からスペクトルを逸脱するターゲットを特定することである。
近年,その強力な空間スペクトル特徴抽出能力により,深層学習に基づく手法が主流となっている。
しかし、現在の深部検出モデルは、異常検出を直接達成するのではなく、背景復元や生成といったプロキシタスク(二段階パラダイム)を完了するために最適化されている。
これにより、最適以下の結果が得られ、転送性が低下する。つまり、深層モデルは同じイメージ上でトレーニングされ、テストされる。
本稿では,非教師なし直接検出(tdd)モデルを提案し,異常検出タスク(ワンステップパラダイム)に対して直接最適化し,転送性を有する。
特にtddモデルは、異常定義に従ってスペクトル偏差関係を識別するために最適化されています。
多くのモデルが行う特定の背景分布の学習と比較して、スペクトル偏差関係は異なる画像に対して普遍的であり、モデル転送可能性を保証する。
教師なしの方法でTDDモデルをトレーニングするために,多数の異常サンプルを生成するための異常サンプルシミュレーション戦略を提案する。
さらに、グローバルな自己注意モジュールとローカルな自己意識モジュールは、モデルが「視線を逸脱する」関係に焦点を合わせるのに役立つように設計されている。
TDDモデルは4つの公開HADデータセットで検証された。
その結果、提案するtddモデルは、従来のモデルのトレーニングとテストの制限を単一のイメージ上でうまく克服でき、強力な検出能力と優れた転送能力を有していることが分かりました。 Hyperspectral anomaly detection (HAD) involves identifying the targets that deviate spectrally from their surroundings, without prior knowledge. Recently, deep learning based methods have become the mainstream HAD methods, due to their powerful spatial-spectral feature extraction ability. However, the current deep detection models are optimized to complete a proxy task (two-step paradigm), such as background reconstruction or generation, rather than achieving anomaly detection directly. This leads to suboptimal results and poor transferability, which means that the deep model is trained and tested on the same image. In this paper, an unsupervised transferred direct detection (TDD) model is proposed, which is optimized directly for the anomaly detection task (one-step paradigm) and has transferability. Specially, the TDD model is optimized to identify the spectral deviation relationship according to the anomaly definition. Compared to learning the specific background distribution as most models do, the spectral deviation relationship is universal for different images and guarantees the model transferability. To train the TDD model in an unsupervised manner, an anomaly sample simulation strategy is proposed to generate numerous pairs of anomaly samples. Furthermore, a global self-attention module and a local self-attention module are designed to help the model focus on the "spectrally deviating" relationship. The TDD model was validated on four public HAD datasets. The results show that the proposed TDD model can successfully overcome the limitation of traditional model training and testing on a single image, and the model has a powerful detection ability and excellent transferability. | 翻訳日:2023-03-23 14:59:53 公開日:2023-03-22 |
# EasyDGL: 継続的動的グラフ学習のためのエンコード、トレーニング、解釈 EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning ( http://arxiv.org/abs/2303.12341v1 ) ライセンス: Link先を確認 | Chao Chen, Haoyu Geng, Nianzu Yang, Xiaokang Yang and Junchi Yan | (参考訳) 動的グラフは様々な実世界のアプリケーションで発生し、柔軟性のために連続時間領域で直接ダイナミクスをモデル化することがしばしば歓迎される。
本稿では,dglツールキットによる実装により,使い易いパイプライン(easydglとも呼ばれる)を,強適合性と解釈性を兼ね備えた3つのキーモジュールで構成することを目的とした。
具体的には、エンコーディング、トレーニング、解釈を含むパイプラインを提案する。
一 エッジ付加イベントを伴う観測グラフの時空間的ダイナミックスを組み合わした連続時間分解を実現するための時間的点過程(TPP)
二 グラフ上の観測された事象に基づくタスク非依存なtpp後方最大化と、ダイナミックリンク予測、動的ノード分類、ノードトラフィック予測を含む動的グラフ上のマスキング戦略によるタスクアウェアロスとからなる原則的損失。
三 学習モデルの挙動をより包括的に反映することができるグラフフーリエ領域における、スケーラブルな摂動に基づく定量的解析によるモデル出力(例えば、表現及び予測)の解釈
特に,モデルがグラフデータから学習する周波数コンテンツの予測パワーを,easydglが効果的に定量化できることを実証する。 Dynamic graphs arise in various real-world applications, and it is often welcomed to model the dynamics directly in continuous time domain for its flexibility. This paper aims to design an easy-to-use pipeline (termed as EasyDGL which is also due to its implementation by DGL toolkit) composed of three key modules with both strong fitting ability and interpretability. Specifically the proposed pipeline which involves encoding, training and interpreting: i) a temporal point process (TPP) modulated attention architecture to endow the continuous-time resolution with the coupled spatiotemporal dynamics of the observed graph with edge-addition events; ii) a principled loss composed of task-agnostic TPP posterior maximization based on observed events on the graph, and a task-aware loss with a masking strategy over dynamic graph, where the covered tasks include dynamic link prediction, dynamic node classification and node traffic forecasting; iii) interpretation of the model outputs (e.g., representations and predictions) with scalable perturbation-based quantitative analysis in the graph Fourier domain, which could more comprehensively reflect the behavior of the learned model. Extensive experimental results on public benchmarks show the superior performance of our EasyDGL for time-conditioned predictive tasks, and in particular demonstrate that EasyDGL can effectively quantify the predictive power of frequency content that a model learn from the evolving graph data. | 翻訳日:2023-03-23 14:59:26 公開日:2023-03-22 |
# 部分的自動化による外乱インジェクション:長期ホリゾン課題に対するロバスト模倣学習 Disturbance Injection under Partial Automation: Robust Imitation Learning for Long-horizon Tasks ( http://arxiv.org/abs/2303.12375v1 ) ライセンス: Link先を確認 | Hirotaka Tahara, Hikaru Sasaki, Hanbit Oh, Edgar Anarossi, and Takamitsu Matsubara | (参考訳) 知的支援システムを備えた部分自動化(PA)が産業機械や先進自動車に導入され、長時間の人的作業の負担を軽減している。
paでは、オペレータは手動操作(アクション提供)と自動/手動モード(モードスイッチング)に切り替える操作を行う。
PAは手動操作の総時間を削減するので、これらの2つの動作とモードスイッチング操作は、高いサンプル効率で模倣学習によって複製することができる。
そこで本稿では,新しい模倣学習フレームワークとして部分自動化(dipa)による外乱注入を提案する。
DIPAでは、モードとアクション(手動モード)は各状態で観測可能であると仮定され、アクションとモードスイッチングの両方のポリシーを学ぶために使用される。
上記の学習は、pa下の共変量シフトを最小化するために、操作者の動作に外乱を注入して外乱のレベルを最適化することで強化される。
本手法の有効性を2つのシミュレーションと実ロボット環境において実験的に検証し,本手法が従来の手法よりも優れ,実証作業の負担を軽減できることを確認した。 Partial Automation (PA) with intelligent support systems has been introduced in industrial machinery and advanced automobiles to reduce the burden of long hours of human operation. Under PA, operators perform manual operations (providing actions) and operations that switch to automatic/manual mode (mode-switching). Since PA reduces the total duration of manual operation, these two action and mode-switching operations can be replicated by imitation learning with high sample efficiency. To this end, this paper proposes Disturbance Injection under Partial Automation (DIPA) as a novel imitation learning framework. In DIPA, mode and actions (in the manual mode) are assumed to be observables in each state and are used to learn both action and mode-switching policies. The above learning is robustified by injecting disturbances into the operator's actions to optimize the disturbance's level for minimizing the covariate shift under PA. We experimentally validated the effectiveness of our method for long-horizon tasks in two simulations and a real robot environment and confirmed that our method outperformed the previous methods and reduced the demonstration burden. | 翻訳日:2023-03-23 14:53:39 公開日:2023-03-22 |
# P^{3}O$: プロンプトによる強化学習のための視覚表現の転送 $P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting ( http://arxiv.org/abs/2303.12371v1 ) ライセンス: Link先を確認 | Guoliang You, Xiaomeng Chu, Yifan Duan, Jie Peng, Jianmin Ji, Yu Zhang and Yanyong Zhang | (参考訳) 深層強化学習(DRL)アルゴリズムは、学習したポリシーを異なる視覚的入力を持つ新しい環境に移すことが重要である。
本稿では,プロンプトを適用することにより,対象からソース環境へ視覚表現を転送する3段階のdrlアルゴリズムであるprompate based proximal policy optimization (p^{3}o$)を提案する。
p^{3}o$のプロセスは、事前トレーニング、プロンプト、予測という3つのステージで構成される。
特に,表現変換のためのプロンプト変換器を特定し,対象環境に対してプロンプト変換器をトレーニングするための2段階のトレーニングプロセスを提案する。
私たちは、$p^{3}o$を実装し、openaiのカーレースゲームで評価します。
実験の結果,$P^{3}O$は最先端の視覚伝達方式よりも優れていた。
特に、$p^{3}o$は、異なる視覚入力を持つ環境で学習されたポリシーがうまく機能することを可能にする。 It is important for deep reinforcement learning (DRL) algorithms to transfer their learned policies to new environments that have different visual inputs. In this paper, we introduce Prompt based Proximal Policy Optimization ($P^{3}O$), a three-stage DRL algorithm that transfers visual representations from a target to a source environment by applying prompting. The process of $P^{3}O$ consists of three stages: pre-training, prompting, and predicting. In particular, we specify a prompt-transformer for representation conversion and propose a two-step training process to train the prompt-transformer for the target environment, while the rest of the DRL pipeline remains unchanged. We implement $P^{3}O$ and evaluate it on the OpenAI CarRacing video game. The experimental results show that $P^{3}O$ outperforms the state-of-the-art visual transferring schemes. In particular, $P^{3}O$ allows the learned policies to perform well in environments with different visual inputs, which is much more effective than retraining the policies in these environments. | 翻訳日:2023-03-23 14:53:20 公開日:2023-03-22 |
# シーケンスビデオのためのアンアライメントテキストを用いた弱教師付きビデオ表現学習 Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos ( http://arxiv.org/abs/2303.12370v1 ) ライセンス: Link先を確認 | Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian, Shenghua Gao | (参考訳) シーケンシャルビデオ理解は、新たなビデオ理解タスクとして、ゴール指向の性質から多くの研究者の注目を集めている。
本稿では,正確なタイムスタンプレベルのテキスト・ビデオアライメントが提供されないような逐次的ビデオ理解について検討する。
私たちはこの課題をCLIPからアイデアを借りて解決する。
具体的には,映像表現のためのフレームレベル特徴の集約にトランスフォーマを使用して,予め学習したテキストエンコーダを使用して,各アクションとビデオ全体に対応するテキストをエンコードする。
テキストと映像の対応をモデル化するために,ビデオ・パラグラフのコントラストロスが全映像と全スクリプトのマッチングを強制し,細粒度フレーム・センスのコントラストロスが各アクションとその記述とのマッチングを強制する多粒度損失を提案する。
フレーム・センテンス対応が利用できないため、ビデオアクションが時間領域内で順次発生するという事実を利用して疑似フレーム・センテンス対応を生成し、ネットワークトレーニングを疑似ラベルで監督する。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの大規模な実験により,提案手法はベースラインを大きなマージンで上回り,提案手法の有効性を検証した。
コードはhttps://github.com/svip-lab/WeakSVRで入手できる。 Sequential video understanding, as an emerging video understanding task, has driven lots of researchers' attention because of its goal-oriented nature. This paper studies weakly supervised sequential video understanding where the accurate time-stamp level text-video alignment is not provided. We solve this task by borrowing ideas from CLIP. Specifically, we use a transformer to aggregate frame-level features for video representation and use a pre-trained text encoder to encode the texts corresponding to each action and the whole video, respectively. To model the correspondence between text and video, we propose a multiple granularity loss, where the video-paragraph contrastive loss enforces matching between the whole video and the complete script, and a fine-grained frame-sentence contrastive loss enforces the matching between each action and its description. As the frame-sentence correspondence is not available, we propose to use the fact that video actions happen sequentially in the temporal domain to generate pseudo frame-sentence correspondence and supervise the network training with the pseudo labels. Extensive experiments on video sequence verification and text-to-video matching show that our method outperforms baselines by a large margin, which validates the effectiveness of our proposed approach. Code is available at https://github.com/svip-lab/WeakSVR | 翻訳日:2023-03-23 14:53:03 公開日:2023-03-22 |
# 弱教師付きビデオ異常検出のための非バイアス多重学習 Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2303.12369v1 ) ライセンス: Link先を確認 | Hui Lv, Zhongqi Yue, Qianru Sun, Bin Luo, Zhen Cui, Hanwang Zhang | (参考訳) バイナリ異常ラベルはビデオレベルでのみ付与されるが、出力にはスニペットレベルの予測が必要であるため、弱い監視ビデオ異常検出(WSVAD)は難しい。
したがって、WSVADではMIL(Multiple Instance Learning)が普及しています。
しかし、MILは多くの誤報に悩まされているのは、スニペットレベルの検出器が単純な文脈で容易に異常なスニペットに偏り、同じバイアスで正常さに混乱し、異なるパターンで異常を欠いているためである。
この目的のために、我々はwsvadを改善するバイアスのない異常機能を学ぶための新しいmilフレームワーク、unbiased mil(umil)を提案します。
それぞれのミルトレーニングイテレーションでは、現在の検出器を使用して、サンプルを異なるコンテキストバイアスを持つ2つのグループに分割します。
そして、2つのサンプル群にまたがる不変な特徴を求めることで、不変コンテキストバイアスを取り除くことができる。
UCF-Crime と TAD のベンチマーク実験により,UMIL の有効性が示された。
私たちのコードはhttps://github.com/ktr-hubrt/UMILで提供されます。 Weakly Supervised Video Anomaly Detection (WSVAD) is challenging because the binary anomaly label is only given on the video level, but the output requires snippet-level predictions. So, Multiple Instance Learning (MIL) is prevailing in WSVAD. However, MIL is notoriously known to suffer from many false alarms because the snippet-level detector is easily biased towards the abnormal snippets with simple context, confused by the normality with the same bias, and missing the anomaly with a different pattern. To this end, we propose a new MIL framework: Unbiased MIL (UMIL), to learn unbiased anomaly features that improve WSVAD. At each MIL training iteration, we use the current detector to divide the samples into two groups with different context biases: the most confident abnormal/normal snippets and the rest ambiguous ones. Then, by seeking the invariant features across the two sample groups, we can remove the variant context biases. Extensive experiments on benchmarks UCF-Crime and TAD demonstrate the effectiveness of our UMIL. Our code is provided at https://github.com/ktr-hubrt/UMIL. | 翻訳日:2023-03-23 14:52:26 公開日:2023-03-22 |
# MAIR:3次元空間変動照明推定によるマルチビューアテンション逆レンダリング MAIR: Multi-view Attention Inverse Rendering with 3D Spatially-Varying Lighting Estimation ( http://arxiv.org/abs/2303.12368v1 ) ライセンス: Link先を確認 | JunYong Choi and SeokYeong Lee and Haesol Park and Seung-Won Jung and Ig-Jae Kim and Junghyun Cho | (参考訳) マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
マルチビュー画像はシーンに関する様々な情報を提供するため、オブジェクトレベルの逆レンダリングにおけるマルチビュー画像は当然のことだ。
しかし、マルチビューhdr合成データセットがないため、シーンレベルの逆レンダリングは主にシングルビュー画像を用いて研究されている。
我々は,OpenRoomsデータセットを拡張し,多視点画像を扱うための効率的なパイプラインを設計し,空間的に変化する照明を分割することで,シーンレベルの逆レンダリングを実現した。
提案手法は,シングルビュー方式よりも優れた性能を実現するだけでなく,実世界のシーンにおいて頑健な性能が得られることを示す。
また、空間的に変化する光量によって、どんな3D位置でも写実的な物体を挿入することができる。 We propose a scene-level inverse rendering framework that uses multi-view images to decompose the scene into geometry, a SVBRDF, and 3D spatially-varying lighting. Because multi-view images provide a variety of information about the scene, multi-view images in object-level inverse rendering have been taken for granted. However, owing to the absence of multi-view HDR synthetic dataset, scene-level inverse rendering has mainly been studied using single-view image. We were able to successfully perform scene-level inverse rendering using multi-view images by expanding OpenRooms dataset and designing efficient pipelines to handle multi-view images, and splitting spatially-varying lighting. Our experiments show that the proposed method not only achieves better performance than single-view-based methods, but also achieves robust performance on unseen real-world scene. Also, our sophisticated 3D spatially-varying lighting volume allows for photorealistic object insertion in any 3D location. | 翻訳日:2023-03-23 14:51:53 公開日:2023-03-22 |
# AIIPot:IoTデバイスのための適応型インテリジェントインタラクションHoneypot AIIPot: Adaptive Intelligent-Interaction Honeypot for IoT Devices ( http://arxiv.org/abs/2303.12367v1 ) ライセンス: Link先を確認 | Volviane Saphir Mfogo, Alain Zemkoho, Laurent Njilla, Marcellin Nkenlifack, Charles Kamhoua | (参考訳) IoT(Internet of Things)の普及により、コネクテッドデバイスのセキュリティに対する懸念が高まっている。
攻撃者が侵入する機会をつかむ前に、IoTデバイスの脆弱性に対処するために、適切なコスト効率の方法を開発する必要がある。
偽造技術は、IoTシステムのセキュリティ姿勢を改善するための顕著なアプローチである。
Honeypotは、リアルタイムでのインタラクションを模倣し、無許可のユーザー(アタッカー)に攻撃を仕掛ける一般的な詐欺テクニックである。
IoTデバイスの多さと異質性のため、手動で低反応のハニーポットを作るのは手頃ではない。
これにより、研究者はIoTデバイス用のハニーポットを構築する革新的な方法を模索せざるを得なくなった。
本稿では、機械学習技術を用いて攻撃者の学習と対話を自動的に行うIoTデバイス用ハニーポットを提案する。
提案モデルの評価から,攻撃者によるセッション長の向上とIoTネットワークに対する攻撃の増大が示唆された。 The proliferation of the Internet of Things (IoT) has raised concerns about the security of connected devices. There is a need to develop suitable and cost-efficient methods to identify vulnerabilities in IoT devices in order to address them before attackers seize opportunities to compromise them. The deception technique is a prominent approach to improving the security posture of IoT systems. Honeypot is a popular deception technique that mimics interaction in real fashion and encourages unauthorised users (attackers) to launch attacks. Due to the large number and the heterogeneity of IoT devices, manually crafting the low and high-interaction honeypots is not affordable. This has forced researchers to seek innovative ways to build honeypots for IoT devices. In this paper, we propose a honeypot for IoT devices that uses machine learning techniques to learn and interact with attackers automatically. The evaluation of the proposed model indicates that our system can improve the session length with attackers and capture more attacks on the IoT network. | 翻訳日:2023-03-23 14:51:33 公開日:2023-03-22 |
# ExBEHRT:病気のサブタイプと進展を予測する電子健康記録用拡張トランス ExBEHRT: Extended Transformer for Electronic Health Records to Predict Disease Subtypes & Progressions ( http://arxiv.org/abs/2303.12364v1 ) ライセンス: Link先を確認 | Maurice Rupp, Oriane Peter, Thirupathi Pattipaka | (参考訳) 本研究では、BEHRTの拡張版であるExBEHRT(BERT)を紹介し、その結果を解釈するために異なるアルゴリズムを適用した。
BEHRTは、診断と患者年齢のみを考慮しているが、異なる特徴の周波数と時間次元を統一する新しい手法を適用して、特徴空間を複数のマルチモーダル記録(人口統計、臨床特徴、バイタルサイン、喫煙状態、診断、処置、薬品、検査検査)に拡張する。
さまざまな疾患におけるダウンストリームタスクのモデルパフォーマンスが大幅に向上することを示す。
頑健性を確保するため,従来EHRデータを用いたトランスフォーマーには適用されていなかった期待勾配の適応を用いてモデル予測を解釈し,特徴やトークンの重要度といった従来の手法よりも詳細な解釈を行う。
さらに,腫瘍患者のモデル表現をクラスタ化することにより,本モデルが疾患を暗黙的に理解し,同一型のがん患者を異なるリスクグループに分類できることを示す。
追加の特徴と解釈可能性を考えると、ExBEHRTは疾患の軌跡、診断、および様々な疾患の危険因子に関する情報的決定に役立てることができる。 In this study, we introduce ExBEHRT, an extended version of BEHRT (BERT applied to electronic health records), and apply different algorithms to interpret its results. While BEHRT considers only diagnoses and patient age, we extend the feature space to several multimodal records, namely demographics, clinical characteristics, vital signs, smoking status, diagnoses, procedures, medications, and laboratory tests, by applying a novel method to unify the frequencies and temporal dimensions of the different features. We show that additional features significantly improve model performance for various downstream tasks in different diseases. To ensure robustness, we interpret model predictions using an adaptation of expected gradients, which has not been previously applied to transformers with EHR data and provides more granular interpretations than previous approaches such as feature and token importances. Furthermore, by clustering the model representations of oncology patients, we show that the model has an implicit understanding of the disease and is able to classify patients with the same cancer type into different risk groups. Given the additional features and interpretability, ExBEHRT can help make informed decisions about disease trajectories, diagnoses, and risk factors of various diseases. | 翻訳日:2023-03-23 14:51:15 公開日:2023-03-22 |
# モデルロバストネスに対する分布制限型ソフトマックス損失 Distribution-restrained Softmax Loss for the Model Robustness ( http://arxiv.org/abs/2303.12363v1 ) ライセンス: Link先を確認 | Hao Wang, Chen Li, Jinzhe Jiang, Xin Zhang, Yaqian Zhao and Weifeng Gong | (参考訳) 近年, 深層学習モデルの堅牢性は注目され, 対戦訓練, モデルアーキテクチャの変更, 損失関数の設計, 認証防御など, モデルの堅牢性向上のための様々な手法が提案されている。
しかし、攻撃に対する堅牢性の原理はまだ完全には理解されておらず、関連する研究も不十分である。
そこで本研究では,非実ラベルサンプルのソフトマックス値の分布特性について,モデルのロバスト性に影響を与える重要な因子を同定した。
攻撃後の結果は分布特性と高い相関関係にあり,ソフトマックス分布の多様性を抑制するための損失関数を提案した。
多くの実験により,本手法は時間を要することなくロバスト性を向上させることが示されている。 Recently, the robustness of deep learning models has received widespread attention, and various methods for improving model robustness have been proposed, including adversarial training, model architecture modification, design of loss functions, certified defenses, and so on. However, the principle of the robustness to attacks is still not fully understood, also the related research is still not sufficient. Here, we have identified a significant factor that affects the robustness of models: the distribution characteristics of softmax values for non-real label samples. We found that the results after an attack are highly correlated with the distribution characteristics, and thus we proposed a loss function to suppress the distribution diversity of softmax. A large number of experiments have shown that our method can improve robustness without significant time consumption. | 翻訳日:2023-03-23 14:50:52 公開日:2023-03-22 |
# 量子非マルコフ性:概要と最近の展開 Quantum non-Markovianity: Overview and recent developments ( http://arxiv.org/abs/2303.12362v1 ) ライセンス: Link先を確認 | U. Shrikant and Prabha Mandayam | (参考訳) ノイズの多い中間スケール量子(nisq)デバイスの時代において、オープンシステムダイナミクスの理論の研究は重要な役割を担っている。
特に、量子システムにおけるメモリ効果の理解と定量化は、量子デバイスにおけるノイズの影響をよりよく扱うために重要である。
このレビューの主な焦点は、様々なアプローチからそのようなメモリ効果(広く量子非マルコビアン性と呼ばれる)を定義し、特徴づけるという根本的な問題に対処することである。
まず,オープンシステムのダイナミクスに対する2時間パラメータマップのアプローチについて論じ,このパラダイムで生じる量子非マルコフ性の概念を概観する。
次に、マルチ時間相関を考慮した量子コムフレームワークに基づく量子確率過程の代替的アプローチについて議論する。
これら2つのパラダイム間の相互関係と差異を議論し,量子非マルコフ性に対する必要条件と十分条件について考察した。 In the current era of noisy intermediate-scale quantum (NISQ) devices, research in the theory of open system dynamics has a crucial role to play. In particular, understanding and quantifying memory effects in quantum systems is critical to gain a better handle on the effects of noise in quantum devices. The main focus of this review is to address the fundamental question of defining and characterizing such memory effects -- broadly referred to as quantum non-Markovianity -- from various approaches. We first discuss the two-time-parameter maps approach to open system dynamics and review the various notions of quantum non-Markovianity that arise in this paradigm. We then discuss an alternate approach to quantum stochastic processes based on the quantum combs framework, which accounts for multi-time correlations. We discuss the interconnections and differences between these two paradigms, and conclude with a discussion on necessary and sufficient conditions for quantum non-Markovianity. | 翻訳日:2023-03-23 14:50:40 公開日:2023-03-22 |
# 微視的画像例による材料特性の自動予測 Automatically Predict Material Properties with Microscopic Image Example Polymer Compatibility ( http://arxiv.org/abs/2303.12360v1 ) ライセンス: Link先を確認 | Zhilong Liang, Zhenzhi Tan, Ruixin Hong, Wanli Ouyang, Jinying Yuan and Changshui Zhang | (参考訳) 多くの材料特性は形態学的外観に現れ、走査電子顕微鏡(SEM)のような顕微鏡像で特徴づけられる。
ポリマーの適合性は, 高分子材料の物理量として重要であり, SEM画像から一般的に直感的に判断される。
しかし、人間の観察と画像の判断は時間がかかり、労力がかかり、定量化が困難である。
機械学習によるコンピュータ画像認識は、人工判断の欠陥を補い、正確かつ定量的な判断を与えることができる。
畳み込みニューラルネットワークと転送学習を用いた自動互換性認識を実現し、最大94%の精度が得られる。
また, このモデルとポリマーの適合性に関する定量的基準も提示した。
提案手法は, 各種材料の微細構造および物性の定量的評価に広く応用可能である。 Many material properties are manifested in the morphological appearance and characterized with microscopic image, such as scanning electron microscopy (SEM). Polymer compatibility is a key physical quantity of polymer material and commonly and intuitively judged by SEM images. However, human observation and judgement for the images is time-consuming, labor-intensive and hard to be quantified. Computer image recognition with machine learning method can make up the defects of artificial judging, giving accurate and quantitative judgement. We achieve automatic compatibility recognition utilizing convolution neural network and transfer learning method, and the model obtains up to 94% accuracy. We also put forward a quantitative criterion for polymer compatibility with this model. The proposed method can be widely applied to the quantitative characterization of the microstructure and properties of various materials. | 翻訳日:2023-03-23 14:50:23 公開日:2023-03-22 |
# ニューロン認証によるエッジディープラーニングモデル保護 Edge Deep Learning Model Protection via Neuron Authorization ( http://arxiv.org/abs/2303.12397v1 ) ライセンス: Link先を確認 | Jinyin Chen, Tao Liu, Rongchang Li, Yao Cheng, Xuhong Zhang, Shouling Ji, and Haibin Zheng | (参考訳) ディープラーニングプロセッサとアクセラレータの開発により、ディープラーニングモデルはモノのインターネットの一部としてエッジデバイスに広くデプロイされてきた。
エッジデバイスモデルは一般的に、注意深い保護に値する貴重な知的財産と見なされる。
残念ながら、これらのモデルは盗まれたり違法にコピーされたりするリスクが大きい。
暗号アルゴリズムを用いた既存のモデル保護は、エッジデバイスでの計算能力の制限のため、高い計算オーバーヘッドに苦しめられている。
本研究では,エッジプロと呼ばれるニューロンレベルでの,軽量で実用的で汎用的なエッジデバイスモデルProテクション法を提案する。
具体的には、複数のニューロンを認可ニューロンとして選択し、その活性化値をロック値に設定し、トレーニング中のニューロン出力を"asswords"としてスケールする。
EdgeProは、モデル全体ではなく、"passwords"の情報の暗号化と保存を犠牲にして、"passwords"が満たされた場合にのみ正常に動作するようにすることで、モデルを保護します。
広範な実験結果は、edgeproが異なるモードのデータセットを保護するタスクでうまく機能することを示している。
EdgeProの推測時間の増加は最先端の手法の60%に過ぎず、精度の低下は1%未満である。
さらに、edgeproは微調整やプルーニングなどの適応攻撃に対して堅牢であり、現実のアプリケーションではより実用的です。
EdgeProはまた、将来の研究を促進するためにオープンソース化されている。 With the development of deep learning processors and accelerators, deep learning models have been widely deployed on edge devices as part of the Internet of Things. Edge device models are generally considered as valuable intellectual properties that are worth for careful protection. Unfortunately, these models have a great risk of being stolen or illegally copied. The existing model protections using encryption algorithms are suffered from high computation overhead which is not practical due to the limited computing capacity on edge devices. In this work, we propose a light-weight, practical, and general Edge device model Pro tection method at neuron level, denoted as EdgePro. Specifically, we select several neurons as authorization neurons and set their activation values to locking values and scale the neuron outputs as the "asswords" during training. EdgePro protects the model by ensuring it can only work correctly when the "passwords" are met, at the cost of encrypting and storing the information of the "passwords" instead of the whole model. Extensive experimental results indicate that EdgePro can work well on the task of protecting on datasets with different modes. The inference time increase of EdgePro is only 60% of state-of-the-art methods, and the accuracy loss is less than 1%. Additionally, EdgePro is robust against adaptive attacks including fine-tuning and pruning, which makes it more practical in real-world applications. EdgePro is also open sourced to facilitate future research: https://github.com/Leon022/Edg | 翻訳日:2023-03-23 14:44:03 公開日:2023-03-22 |
# 6次元物体位置推定のための剛性検出 Rigidity-Aware Detection for 6D Object Pose Estimation ( http://arxiv.org/abs/2303.12396v1 ) ライセンス: Link先を確認 | Yang Hai, Rui Song, Jiaojiao Li, Mathieu Salzmann, Yinlin Hu | (参考訳) 最近の6dオブジェクトポーズ推定手法では、まずオブジェクト検出を使用して、2dバウンディングボックスを取得する。
しかし、彼らが使用する一般的なオブジェクト検出手法は、乱雑なシーンを扱うのに不適しており、その後のポーズネットワークへの初期化が貧弱である。
そこで本研究では,6次元ポーズ推定において対象物体が剛体であることを利用した剛性認識手法を提案する。
これにより、物体が隠蔽される可能性がある境界箱中心からサンプルを鼻で引くのではなく、トレーニング中に可視対象領域全体から正の物体領域をサンプリングする手法を導入することができる。
したがって、全ての可視オブジェクトは最終境界ボックス予測に寄与し、より優れた検出ロバスト性をもたらす。
このアプローチの成功の鍵となるのは可視性マップであり、境界ボックス内の各ピクセルとボックス境界の間の最小障壁距離を用いて構築することを提案する。
7つの挑戦的6次元ポーズ推定データセットに対する結果から,本手法が一般的な検出フレームワークよりも高い性能を示した。
さらに、ポーズ回帰ネットワークと組み合わせて、挑戦的なBOPベンチマークで最先端のポーズ推定結果を得る。 Most recent 6D object pose estimation methods first use object detection to obtain 2D bounding boxes before actually regressing the pose. However, the general object detection methods they use are ill-suited to handle cluttered scenes, thus producing poor initialization to the subsequent pose network. To address this, we propose a rigidity-aware detection method exploiting the fact that, in 6D pose estimation, the target objects are rigid. This lets us introduce an approach to sampling positive object regions from the entire visible object area during training, instead of naively drawing samples from the bounding box center where the object might be occluded. As such, every visible object part can contribute to the final bounding box prediction, yielding better detection robustness. Key to the success of our approach is a visibility map, which we propose to build using a minimum barrier distance between every pixel in the bounding box and the box boundary. Our results on seven challenging 6D pose estimation datasets evidence that our method outperforms general detection frameworks by a large margin. Furthermore, combined with a pose regression network, we obtain state-of-the-art pose estimation results on the challenging BOP benchmark. | 翻訳日:2023-03-23 14:43:40 公開日:2023-03-22 |
# Open Learning Analytics: 体系的な文献レビューと今後の展望 Open Learning Analytics: A Systematic Literature Review and Future Perspectives ( http://arxiv.org/abs/2303.12395v1 ) ライセンス: Link先を確認 | Arham Muslim, Mohamed Amine Chatti, Mouadh Guesmi | (参考訳) open learning analytics(ola)は、生涯学習環境における学習効率と有効性を改善することを目的とした、新たな研究分野である。
OLAは、さまざまな学習環境やコンテキストから得られた幅広い教育データから価値を引き出すために、複数の方法を採用している。
研究分野はまだ比較的若いため、少数の技術プラットフォームしか利用できず、要件に対する共通の理解が欠落している。
本稿は,2011~2019年の学習分析文献で利用可能なツールの体系的な文献レビューを行い,オープンネスへの支援に注目した。
このレビューのベースとなるために、9つの学術データベースから137のツールが集められている。
選択したツールの分析は, 「データ, 環境, コンテキスト (What?)」「ステークホルダ (Who?)」「オブジェクト (Why?)」「メソッド (How?)」の4次元に基づいて行われる。
さらに、コミュニティでよく知られた5つのOLAフレームワークが体系的に比較されている。
レビューは、効果的なolaプラットフォームに対する主な要求を除外し、この新興分野における主要な課題と将来の作業ラインを特定することで締めくくっている。 Open Learning Analytics (OLA) is an emerging research area that aims at improving learning efficiency and effectiveness in lifelong learning environments. OLA employs multiple methods to draw value from a wide range of educational data coming from various learning environments and contexts in order to gain insight into the learning processes of different stakeholders. As the research field is still relatively young, only a few technical platforms are available and a common understanding of requirements is lacking. This paper provides a systematic literature review of tools available in the learning analytics literature from 2011-2019 with an eye on their support for openness. 137 tools from nine academic databases are collected to form the base for this review. The analysis of selected tools is performed based on four dimensions, namely 'Data, Environments, Context (What?)', 'Stakeholders (Who?)', 'Objectives (Why?)', and 'Methods (How?)'. Moreover, five well-known OLA frameworks available in the community are systematically compared. The review concludes by eliciting the main requirements for an effective OLA platform and by identifying key challenges and future lines of work in this emerging field. | 翻訳日:2023-03-23 14:43:19 公開日:2023-03-22 |
# 衛星画像と部分道路地図を用いた道路抽出 Road Extraction with Satellite Images and Partial Road Maps ( http://arxiv.org/abs/2303.12394v1 ) ライセンス: Link先を確認 | Qianxiong Xu, Cheng Long, Liang Yu, Chen Zhang | (参考訳) 道路抽出は、主に衛星画像から道路地図を自動的に生成するプロセスである。
既存のモデルは、道路地図が未完成であるにもかかわらず(例えばopenstreetmap)、公に利用可能であり、道路抽出に役立つにもかかわらず、すべてスクラッチから道路を生成することを目標としている。
本稿では,衛星画像と部分道路地図に基づく道路抽出手法を提案する。
次に、Gated Self-Attention Module (GSAM) と Missing Part (MP) の2つの重要なコンポーネントを持つタスクのための2分岐部分ネットワーク(P2CNet)を提案する。
GSAMはチャネルワイドのセルフアテンションモジュールとゲートモジュールを活用して、長距離セマンティクスをキャプチャし、無駄な情報をフィルタリングし、2つのブランチから機能を融合する。
MP損失は部分的な道路地図から導かれ、部分的な道路地図に存在しない道路画素により多くの注意を払っている。
例えば、P2CNetは、SpaceNetとOSMデータセットでそれぞれ70.71%と75.52%のIoUスコアで最先端のパフォーマンスを達成する。 Road extraction is a process of automatically generating road maps mainly from satellite images. Existing models all target to generate roads from the scratch despite that a large quantity of road maps, though incomplete, are publicly available (e.g. those from OpenStreetMap) and can help with road extraction. In this paper, we propose to conduct road extraction based on satellite images and partial road maps, which is new. We then propose a two-branch Partial to Complete Network (P2CNet) for the task, which has two prominent components: Gated Self-Attention Module (GSAM) and Missing Part (MP) loss. GSAM leverages a channel-wise self-attention module and a gate module to capture long-range semantics, filter out useless information, and better fuse the features from two branches. MP loss is derived from the partial road maps, trying to give more attention to the road pixels that do not exist in partial road maps. Extensive experiments are conducted to demonstrate the effectiveness of our model, e.g. P2CNet achieves state-of-the-art performance with the IoU scores of 70.71% and 75.52%, respectively, on the SpaceNet and OSM datasets. | 翻訳日:2023-03-23 14:42:59 公開日:2023-03-22 |
# 可観測物の絡み合い:量子条件確率アプローチ Entanglement of observables: Quantum conditional probability approach ( http://arxiv.org/abs/2303.12393v1 ) ライセンス: Link先を確認 | Andrei Khrennikov and Irina Basieva | (参考訳) 本稿では, 量子観測可能なa と b の確率的依存によって生じる制約として, テンソル積構造から分離し, エンタングルメントの概念を解明することに注力し, 固定観測可能な a と b を指させずにエンタングルメントについて語ることは意味のないので, アブエンタングルメントである。
量子観測可能性の依存は条件付き確率の非結合として定式化される。
この確率的定義から始め, 振幅非分解的状態としてab-エンタングル状態のヒルベルト空間キャラクタリゼーションを実現する。
テンソル積の場合、$ab$-エンタングルメントは標準エンタングルメントを意味するが、逆バースは含まない。
dichotomous observablesのab-entanglementは、それらの相関と等価である。
ユニタリ作用素の族 (u) に対して A_u B_u-絡み合う量子状態のクラスを記述する。
最後に、観測可能な絡み合いは古典的確率論における確率変数の依存性と比較される。 This paper is devoted to clarification of the notion of entanglement through decoupling it from the tensor product structure and treating as a constraint posed by probabilistic dependence of quantum observable A and B. In our framework, it is meaningless to speak about entanglement without pointing to the fixed observables A and B, so this is AB-entanglement. Dependence of quantum observables is formalized as non-coincidence of conditional probabilities. Starting with this probabilistic definition, we achieve the Hilbert space characterization of the AB-entangled states as amplitude non-factorisable states. In the tensor product case, $AB$-entanglement implies standard entanglement, but not vice verse. AB-entanglement for dichotomous observables is equivalent to their correlation. We describe the class of quantum states that are A_u B_u-entangled for a family of unitary operators (u). Finally, observables entanglement is compared with dependence of random variables in classical probability theory. | 翻訳日:2023-03-23 14:42:37 公開日:2023-03-22 |
# lava model: 学習分析がビジュアル分析と合致する The LAVA Model: Learning Analytics Meets Visual Analytics ( http://arxiv.org/abs/2303.12392v1 ) ライセンス: Link先を確認 | Mohamed Amine Chatti, Arham Muslim, Manpriya Guliani, Mouadh Guesmi | (参考訳) 人間中心学習分析(Human-Centered Learning Analytics、HCLA)は、学習分析におけるヒューマンファクタを強調し、ユーザニーズを真に満たすアプローチである。
学習分析の設計、分析、評価のあらゆる段階におけるユーザの関与は、価値を高め、学習分析の受け入れと導入を促進するための鍵である。
視覚分析は、人間中心のアプローチに従う多分野のデータ科学研究分野であり、学習分析の受容を促進する可能性がある。
様々なドメインがすでにビジュアル分析を利用しているが、学習分析に関してはあまり考慮されていない。
本稿では,視覚分析の概念を学習分析プロセスに組み込むことの利点について考察する。
(a)ループ内の人間による学習分析プロセスの強化として学習分析と視覚分析(lava)モデルを提案すること。
(b)オープンラーニング分析プラットフォーム(openlap)に溶岩モデルを適用して人間中心のインジケータ設計を支援すること
(c) 技術受容モデル(TAM)に基づき,学習分析と視覚分析のブレンドが学習分析の受容と導入を促進するかを評価する。 Human-Centered learning analytics (HCLA) is an approach that emphasizes the human factors in learning analytics and truly meets user needs. User involvement in all stages of the design, analysis, and evaluation of learning analytics is the key to increase value and drive forward the acceptance and adoption of learning analytics. Visual analytics is a multidisciplinary data science research field that follows a human-centered approach and thus has the potential to foster the acceptance of learning analytics. Although various domains have already made use of visual analytics, it has not been considered much with respect to learning analytics. This paper explores the benefits of incorporating visual analytics concepts into the learning analytics process by (a) proposing the Learning Analytics and Visual Analytics (LAVA) model as enhancement of the learning analytics process with human in the loop, (b) applying the LAVA model in the Open Learning Analytics Platform (OpenLAP) to support humancentered indicator design, and (c) evaluating how blending learning analytics and visual analytics can enhance the acceptance and adoption of learning analytics, based on the technology acceptance model (TAM). | 翻訳日:2023-03-23 14:42:22 公開日:2023-03-22 |
# 理論駆動分析による自己統制型学習アプリケーションの設計 Designing Theory-Driven Analytics-Enhanced Self-Regulated Learning Applications ( http://arxiv.org/abs/2303.12388v1 ) ライセンス: Link先を確認 | Mohamed Amine Chatti, Volkan Y\"ucepur, Arham Muslim, Mouadh Guesmi, Shoeb Joarder | (参考訳) 自己統制学習(SRL)を促進するための学習分析(LA)の適用に対する関心が高まっている。
計画、認識、自己回帰、自己監視、フィードバックなど、さまざまな重要なSRLプロセスをサポートするために、LAのダッシュボードとインジケータが提案された。
しかしながら、これらのダッシュボードとインジケータの設計は、科学、ヒューマンコンピュータインタラクション(HCI)、情報可視化(InfoVis)の理論に言及しないことが多い。
さらに、LAダッシュボードと指標を足場SRLに体系的に設計・開発するための理論的に健全なフレームワークが欠如している。
本章は,la-enhanced srlアプリケーションの設計の理論的基礎を探究し,学習科学,hci,インフォビスの分野から考察する。
まず,学習者を対象とした理論駆動型SRLアプリケーション構築のためのSCLA-SRL方法論について述べる。
そこで我々は、初心者プログラマのSRLを高等教育の文脈で支援するLA指標を設計・開発することで、この方法論を実践した。 There is an increased interest in the application of learning analytics (LA) to promote self-regulated learning (SRL). A variety of LA dashboards and indicators were proposed to support different crucial SRL processes, such as planning, awareness, self-reflection, self-monitoring, and feedback. However, the design of these dashboards and indicators is often without reference to theories in learning science, human-computer interaction (HCI), and information visualization (InfoVis). Moreover, there is a lack of theoretically sound frameworks to guide the systematic design and development of LA dashboards and indicators to scaffold SRL. This chapter seeks to explore theoretical underpinnings of the design of LA-enhanced SRL applications, drawing from the fields of learning science, HCI, and InfoVis. We first present the Student-Centered Learning Analytics-enhanced Self-Regulated Learning (SCLA-SRL) methodology for building theory-driven LA-enhanced SRL applications for and with learners. We then put this methodology into practice by designing and developing LA indicators to support novice programmers' SRL in a higher education context. | 翻訳日:2023-03-23 14:42:05 公開日:2023-03-22 |
# regformer:大規模ポイントクラウド登録のための効率的なプロジェクションアウェアトランスフォーマネットワーク RegFormer: An Efficient Projection-Aware Transformer Network for Large-Scale Point Cloud Registration ( http://arxiv.org/abs/2303.12384v1 ) ライセンス: Link先を確認 | Jiuming Liu, Guangming Wang, Zhe Liu, Chaokang Jiang, Marc Pollefeys, Hesheng Wang | (参考訳) ポイントクラウドの登録は、オブジェクトレベルのシーンや屋内シーンで著しい進歩を遂げているが、大規模な登録方法が探求されることはほとんどない。
課題は主に、屋外LiDARスキャンの巨大な点数、複雑な分布、外れ値から生じる。
さらに、既存の登録作業の多くは一般的に2段階のパラダイムを採用しており、まず識別可能な局所的な特徴を抽出することで対応を見つけ、その後、よく設計された記述子と後処理の選択に大きく依存する外れ値のフィルタリングに推定子(例えばransac)を利用する。
そこで本研究では,大規模ポイントクラウドアライメントのためのエンドツーエンドトランスフォーマーネットワーク (regformer) を提案する。
具体的には, 射影型階層変換器を提案し, 点特徴をグローバルに抽出することにより, 長距離依存を捕捉し, アウトレーヤをフィルタする。
変圧器は線形複雑であり,大規模シーンにおいても高い効率性が保証される。
さらに、ミスマッチを効果的に低減するために、初期変換を遅らせるために、客観的アソシエーション変換器を設計する。
KITTIとNuScenesのデータセットに関する大規模な実験により、我々のRegFormerは精度と効率の両面で最先端のパフォーマンスを実現しています。 Although point cloud registration has achieved remarkable advances in object-level and indoor scenes, large-scale registration methods are rarely explored. Challenges mainly arise from the huge point number, complex distribution, and outliers of outdoor LiDAR scans. In addition, most existing registration works generally adopt a two-stage paradigm: They first find correspondences by extracting discriminative local features, and then leverage estimators (eg. RANSAC) to filter outliers, which are highly dependent on well-designed descriptors and post-processing choices. To address these problems, we propose an end-to-end transformer network (RegFormer) for large-scale point cloud alignment without any further post-processing. Specifically, a projection-aware hierarchical transformer is proposed to capture long-range dependencies and filter outliers by extracting point features globally. Our transformer has linear complexity, which guarantees high efficiency even for large-scale scenes. Furthermore, to effectively reduce mismatches, a bijective association transformer is designed for regressing the initial transformation. Extensive experiments on KITTI and NuScenes datasets demonstrate that our RegFormer achieves state-of-the-art performance in terms of both accuracy and efficiency. | 翻訳日:2023-03-23 14:41:45 公開日:2023-03-22 |
# gsqas: グラフ自己教師付き量子アーキテクチャ検索 GSQAS: Graph Self-supervised Quantum Architecture Search ( http://arxiv.org/abs/2303.12381v1 ) ライセンス: Link先を確認 | Zhimin He, Maijie Deng, Shenggen Zheng, Lvzhou Li, Haozhen Situ | (参考訳) 量子アーキテクチャ探索(QAS)は、変分量子アルゴリズム(VQA)のための量子回路を設計するための有望なアプローチである。
しかし、既存のQASアルゴリズムは、探索プロセス中に多数の量子回路を評価する必要があり、これにより、大規模量子回路への応用を計算的に要求し制限する。
近年、予測器に基づくQASは、ラベル付き量子回路のセットでトレーニングされた予測器を用いて、その構造に応じて回路の性能を直接推定することでこの問題を軽減するために提案されている。
しかし、この予測器は純粋に教師付き学習によって訓練され、ラベル付きトレーニング回路が不足すると一般化能力が低下する。
量子回路のゲートパラメータを収束するまで最適化する必要があるため、多数のラベル付き量子回路を得るのは非常に時間がかかる。
これらの制限を克服するために,自己教師付き学習に基づく予測器を訓練するグラフ自己教師型QASであるGSQASを提案する。
具体的には,よく設計されたプリテキストタスクを用いて,多数のラベルなし量子回路上でグラフエンコーダを事前学習し,有意義な回路表現を生成する。
その後、下流予測器は少数の量子回路の表現とそのラベルに基づいて訓練される。
エンコーダがトレーニングされると、さまざまなダウンストリームタスクに適用される。
空間トポロジ情報をより良くエンコードし、大規模量子回路の特徴ベクトルの巨大な次元を避けるために、量子回路をグラフとしてエンコードするスキームを設計する。
変分量子固有ソルバと量子状態分類の回路構造を探索するシミュレーションの結果、gsqasは最先端の予測器ベースのqasよりも優れており、ラベル付き回路の少ない性能を実現している。 Quantum Architecture Search (QAS) is a promising approach to designing quantum circuits for variational quantum algorithms (VQAs). However, existing QAS algorithms require to evaluate a large number of quantum circuits during the search process, which makes them computationally demanding and limits their applications to large-scale quantum circuits. Recently, predictor-based QAS has been proposed to alleviate this problem by directly estimating the performances of circuits according to their structures with a predictor trained on a set of labeled quantum circuits. However, the predictor is trained by purely supervised learning, which suffers from poor generalization ability when labeled training circuits are scarce. It is very time-consuming to obtain a large number of labeled quantum circuits because the gate parameters of quantum circuits need to be optimized until convergence to obtain their ground-truth performances. To overcome these limitations, we propose GSQAS, a graph self-supervised QAS, which trains a predictor based on self-supervised learning. Specifically, we first pre-train a graph encoder on a large number of unlabeled quantum circuits using a well-designed pretext task in order to generate meaningful representations of circuits. Then the downstream predictor is trained on a small number of quantum circuits' representations and their labels. Once the encoder is trained, it can apply to different downstream tasks. In order to better encode the spatial topology information and avoid the huge dimension of feature vectors for large-scale quantum circuits, we design a scheme to encode quantum circuits as graphs. Simulation results on searching circuit structures for variational quantum eigensolver and quantum state classification show that GSQAS outperforms the state-of-the-art predictor-based QAS, achieving better performance with fewer labeled circuits. | 翻訳日:2023-03-23 14:41:21 公開日:2023-03-22 |
# VMCML: クロスプラットフォームによるビデオと音楽のマッチング VMCML: Video and Music Matching via Cross-Modality Lifting ( http://arxiv.org/abs/2303.12379v1 ) ライセンス: Link先を確認 | Yi-Shan Lee, Wei-Cheng Tseng, Fu-En Wang, Min Sun | (参考訳) ビデオと背景音楽のマッチングのためのコンテンツベースシステムを提案する。
このシステムは、新しいユーザーのための音楽レコメンデーションや、短いビデオを提供する新しい音楽の課題に対処することを目的としている。
この目的のために,ビデオと音楽の表現に共通する埋め込み空間を求めるクロスモーダルフレームワークVMCMLを提案する。
両表現で埋め込み空間を効果的に共有できるようにするため,余剰コサイン類似度損失に基づくCosFace損失を利用する。
さらに,msvdと呼ばれる大規模データセットを確立し,それぞれ390曲の楽曲とマッチングした15万本のビデオを提供する。
Youtube-8MとMSVDデータセットについて広範な実験を行った。
提案手法の有効性を定量的・定性的に検証し,現状の映像と音楽のマッチング性能を実現する。 We propose a content-based system for matching video and background music. The system aims to address the challenges in music recommendation for new users or new music give short-form videos. To this end, we propose a cross-modal framework VMCML that finds a shared embedding space between video and music representations. To ensure the embedding space can be effectively shared by both representations, we leverage CosFace loss based on margin-based cosine similarity loss. Furthermore, we establish a large-scale dataset called MSVD, in which we provide 390 individual music and the corresponding matched 150,000 videos. We conduct extensive experiments on Youtube-8M and our MSVD datasets. Our quantitative and qualitative results demonstrate the effectiveness of our proposed framework and achieve state-of-the-art video and music matching performance. | 翻訳日:2023-03-23 14:40:53 公開日:2023-03-22 |
# ビデオキャプションのための知識グラフ拡張トランスフォーマー付きテキスト Text with Knowledge Graph Augmented Transformer for Video Captioning ( http://arxiv.org/abs/2303.12423v1 ) ライセンス: Link先を確認 | Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen | (参考訳) ビデオキャプションは、自然言語を用いてビデオの内容を記述することを目的としている。
大幅な進展はあったが、主に長い単語の難しさのために、現実世界のアプリケーションの性能を改善する余地がまだたくさんある。
本稿では,ビデオキャプションのための知識グラフ付テキスト変換器(TextKG)を提案する。
特にTextKGは、外部ストリームと内部ストリームによって形成される2ストリームトランスフォーマーである。
外部ストリームは、事前構築された知識グラフなどの追加知識とビデオの内蔵情報、例えば、有能なオブジェクト領域、音声書き起こし、ビデオキャプションの間の相互作用をモデル化し、長い尾の単語の課題を軽減するために、追加知識を吸収するように設計されている。
一方、内部ストリームは、ビデオ中のマルチモダリティ情報(例えば、ビデオフレーム、音声転写、ビデオキャプションの出現)を利用して、キャプション結果の品質を保証するように設計されている。
また、2つのストリーム間の情報共有には、クロスアテンション機構も使用されている。
このようにして、2つのストリームは互いにより正確な結果を得るのに役立つ。
YouCookII, ActivityNet Captions, MSRVTT, MSVD の4つの挑戦的ビデオキャプションデータセットを用いた大規模な実験により,提案手法が最先端の手法に対して良好に動作することを示す。
具体的には、提案したTextKG法は、YouCookIIデータセットの18.7%の絶対CIDErスコアを改善して、最高の結果よりも優れている。 Video captioning aims to describe the content of videos using natural language. Although significant progress has been made, there is still much room to improve the performance for real-world applications, mainly due to the long-tail words challenge. In this paper, we propose a text with knowledge graph augmented transformer (TextKG) for video captioning. Notably, TextKG is a two-stream transformer, formed by the external stream and internal stream. The external stream is designed to absorb additional knowledge, which models the interactions between the additional knowledge, e.g., pre-built knowledge graph, and the built-in information of videos, e.g., the salient object regions, speech transcripts, and video captions, to mitigate the long-tail words challenge. Meanwhile, the internal stream is designed to exploit the multi-modality information in videos (e.g., the appearance of video frames, speech transcripts, and video captions) to ensure the quality of caption results. In addition, the cross attention mechanism is also used in between the two streams for sharing information. In this way, the two streams can help each other for more accurate results. Extensive experiments conducted on four challenging video captioning datasets, i.e., YouCookII, ActivityNet Captions, MSRVTT, and MSVD, demonstrate that the proposed method performs favorably against the state-of-the-art methods. Specifically, the proposed TextKG method outperforms the best published results by improving 18.7% absolute CIDEr scores on the YouCookII dataset. | 翻訳日:2023-03-23 14:35:47 公開日:2023-03-22 |
# 適応重み付き低ランク分解に基づく画像インペインティングの領域的マッチング Region-wise matching for image inpainting based on adaptive weighted low-rank decomposition ( http://arxiv.org/abs/2303.12421v1 ) ライセンス: Link先を確認 | Shenghai Liao, Xuya Liu, Ruyi Han, Shujun Fu, Yuanfeng Zhou and Yuliang Li | (参考訳) デジタル画像インパインティングは補間問題であり、欠落した(未知)領域の内容が既知の領域データと一致して、補間結果が事前の知識を満たすように推論される。
低位と非局所的な自己相似性は、画像インパインティングの重要な2つの優先事項である。
非局所的自己相似性仮定に基づき、画像は重複した正方形ターゲットパッチ(サブマトリックス)に分割され、任意のターゲットパッチの類似パッチはベクトルとして再形成され、パッチマトリックスに積み重ねられる。
このようなパッチ行列は通常、低い階数またはほぼ低い階数の特性を楽しみ、その欠落したエントリはローランク行列近似(LRMA)アルゴリズムによって回復される。
伝統的に、n$ 近辺の類似のパッチはターゲットパッチを中心にしたローカルウィンドウ内で検索される。
しかし、ラインが不足している画像の場合、生成されたパッチマトリックスは、下流のローランクモデルがうまく再構成できないような完全に欠落した行を持つ傾向がある。
この問題に対処するために,対象パッチの近傍を複数のサブリージョンに分割し,各サブリージョン内で最も類似した領域を探索するrwmアルゴリズムを提案する。
LRMAのための非凸重み付き低ランク分解(NC-WLRD)モデルも提案され、RwMアルゴリズムによってグループ化されたすべての劣化パッチ行列を再構成する。
本稿では,乗算器の交互方向法(ADMM)により提案したNC-WLRDモデルを解くとともに,収束度を詳細に解析する。
ラインインペインティングに関する数多くの実験(エンドレスロー/カラム欠落)は、他の競合インペインティングアルゴリズムよりも優れた方法を示している。
他の低ランク行列補完法や塗装アルゴリズムとは異なり、提案したNC-WLRDは無作為なインパルスノイズや構造ノイズ(ストリップ)の除去にも有効である。 Digital image inpainting is an interpolation problem, inferring the content in the missing (unknown) region to agree with the known region data such that the interpolated result fulfills some prior knowledge. Low-rank and nonlocal self-similarity are two important priors for image inpainting. Based on the nonlocal self-similarity assumption, an image is divided into overlapped square target patches (submatrices) and the similar patches of any target patch are reshaped as vectors and stacked into a patch matrix. Such a patch matrix usually enjoys a property of low rank or approximately low rank, and its missing entries are recoveried by low-rank matrix approximation (LRMA) algorithms. Traditionally, $n$ nearest neighbor similar patches are searched within a local window centered at a target patch. However, for an image with missing lines, the generated patch matrix is prone to having entirely-missing rows such that the downstream low-rank model fails to reconstruct it well. To address this problem, we propose a region-wise matching (RwM) algorithm by dividing the neighborhood of a target patch into multiple subregions and then search the most similar one within each subregion. A non-convex weighted low-rank decomposition (NC-WLRD) model for LRMA is also proposed to reconstruct all degraded patch matrices grouped by the proposed RwM algorithm. We solve the proposed NC-WLRD model by the alternating direction method of multipliers (ADMM) and analyze the convergence in detail. Numerous experiments on line inpainting (entire-row/column missing) demonstrate the superiority of our method over other competitive inpainting algorithms. Unlike other low-rank-based matrix completion methods and inpainting algorithms, the proposed model NC-WLRD is also effective for removing random-valued impulse noise and structural noise (stripes). | 翻訳日:2023-03-23 14:35:21 公開日:2023-03-22 |
# BiCro:双方向クロスモーダル類似性を用いたマルチモーダルデータのノイズ対応整流 BiCro: Noisy Correspondence Rectification for Multi-modality Data via Bi-directional Cross-modal Similarity Consistency ( http://arxiv.org/abs/2303.12419v1 ) ライセンス: Link先を確認 | Shuo Yang, Zhaopan Xu, Kai Wang, Yang You, Hongxun Yao, Tongliang Liu, Min Xu | (参考訳) マルチモーダル学習における最も基本的な手法の1つとして、クロスモーダルマッチングは、様々な感覚モーダルを共有特徴空間に投影することを目的としている。
これを実現するために、モデルトレーニングには大規模で正しく整合したデータペアが必要である。
しかし、ユニモーダルデータセットとは異なり、マルチモーダルデータセットの収集と注釈付けは非常に困難である。
代替として、インターネットから収集された共起データペア(画像とテキストのペアなど)がこの地域で広く活用されている。
残念ながら、安価に収集されたデータセットには、モデルのパフォーマンスに有害であることが証明された多くのミスマッチしたデータペアが必然的に含まれている。
そこで本研究では,既存のクロスモーダルマッチングモデルと容易に統合できるbicro(bidirectional cross-modal similarity consistency)という汎用フレームワークを提案する。
特にbicroは、ノイズの多いデータペアのソフトラベルを推定し、真の対応度を反映することを目指している。
bicroの基本的な考え方は -- イメージテキストマッチングを例にとれば -- 類似したイメージは、同様のテキスト記述を持つべきであり、その逆も然るべきである。
そして、これら2つの類似性の整合性を推定ソフトラベルとして再キャストし、マッチングモデルをトレーニングする。
3つのポピュラーなクロスモーダルマッチングデータセットを用いた実験により,提案手法が様々なマッチングモデルのノイズロバスト性を大幅に改善し,最先端技術を上回ることを示した。 As one of the most fundamental techniques in multimodal learning, cross-modal matching aims to project various sensory modalities into a shared feature space. To achieve this, massive and correctly aligned data pairs are required for model training. However, unlike unimodal datasets, multimodal datasets are extremely harder to collect and annotate precisely. As an alternative, the co-occurred data pairs (e.g., image-text pairs) collected from the Internet have been widely exploited in the area. Unfortunately, the cheaply collected dataset unavoidably contains many mismatched data pairs, which have been proven to be harmful to the model's performance. To address this, we propose a general framework called BiCro (Bidirectional Cross-modal similarity consistency), which can be easily integrated into existing cross-modal matching models and improve their robustness against noisy data. Specifically, BiCro aims to estimate soft labels for noisy data pairs to reflect their true correspondence degree. The basic idea of BiCro is motivated by that -- taking image-text matching as an example -- similar images should have similar textual descriptions and vice versa. Then the consistency of these two similarities can be recast as the estimated soft labels to train the matching model. The experiments on three popular cross-modal matching datasets demonstrate that our method significantly improves the noise-robustness of various matching models, and surpass the state-of-the-art by a clear margin. | 翻訳日:2023-03-23 14:34:47 公開日:2023-03-22 |
# CLIP^2: 実世界のクラウドデータからのコントラスト言語イメージポイント事前学習 CLIP^2: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data ( http://arxiv.org/abs/2303.12417v1 ) ライセンス: Link先を確認 | Yihan Zeng, Chenhan Jiang, Jiageng Mao, Jianhua Han, Chaoqiang Ye, Qingqiu Huang, Dit-Yan Yeung, Zhen Yang, Xiaodan Liang, Hang Xu | (参考訳) 大規模な未ラベルのテキストイメージペアの恩恵を受けるコントラスト言語-画像事前学習は、オープンワールドの視覚理解タスクにおいて優れたパフォーマンスを示している。
しかし、テキスト3Dデータペアが限られているため、VLM(2D Vision-Language Models)の成功を3D空間に適用することは未解決の問題である。
3d理解にvlmを利用する既存の作品は、一般的には3dデータの中間的な2d表現を構築するが、3dジオメトリ情報を失うコストがかかる。
オープンワールドの3dビジョン理解に向けて、新しいプロキシアライメント機構を用いて、現実のシナリオで転送可能な3dポイントクラウド表現を直接学習するために、コントラスト型言語-イメージポイントクラウドプリトレーニング(clip^2)を提案する。
具体的には、自然に存在する2dおよび3dシナリオの対応を活用し、これらの複雑なシナリオから、適切に整合し、インスタンスベースのテキストイメージポイントプロキシを構築する。
さらに,セマンティクスとインスタンスレベルのアラインポイントクラウド表現を学ぶための,クロスモーダルなコントラスト目標を提案する。
室内および屋外の両方のシナリオにおける実験結果から、学習した3D表現は、ゼロショットや少数ショットの3D認識を含む下流タスクにおいて大きな伝達能力を持つことが示された。
さらに,実シナリオにおける異なる表現の能力の分析を行い,オプショナルアンサンブルスキームを提案する。 Contrastive Language-Image Pre-training, benefiting from large-scale unlabeled text-image pairs, has demonstrated great performance in open-world vision understanding tasks. However, due to the limited Text-3D data pairs, adapting the success of 2D Vision-Language Models (VLM) to the 3D space remains an open problem. Existing works that leverage VLM for 3D understanding generally resort to constructing intermediate 2D representations for the 3D data, but at the cost of losing 3D geometry information. To take a step toward open-world 3D vision understanding, we propose Contrastive Language-Image-Point Cloud Pretraining (CLIP^2) to directly learn the transferable 3D point cloud representation in realistic scenarios with a novel proxy alignment mechanism. Specifically, we exploit naturally-existed correspondences in 2D and 3D scenarios, and build well-aligned and instance-based text-image-point proxies from those complex scenarios. On top of that, we propose a cross-modal contrastive objective to learn semantic and instance-level aligned point cloud representation. Experimental results on both indoor and outdoor scenarios show that our learned 3D representation has great transfer ability in downstream tasks, including zero-shot and few-shot 3D recognition, which boosts the state-of-the-art methods by large margins. Furthermore, we provide analyses of the capability of different representations in real scenarios and present the optional ensemble scheme. | 翻訳日:2023-03-23 14:34:21 公開日:2023-03-22 |
# 遅延アウェア階層型連合学習 Delay-Aware Hierarchical Federated Learning ( http://arxiv.org/abs/2303.12414v1 ) ライセンス: Link先を確認 | Frank Po-Chen Lin, Seyyedali Hosseinalipour, Christopher Brinton, Nicol\`o Michelusi | (参考訳) フェデレーション学習は、ワイヤレスエッジに分散したトレーニングモデルとして人気を集めている。
本稿では、エッジとクラウド間の通信遅延に対処することにより、分散機械学習(ML)モデルのトレーニング効率を向上させるために、遅延認識フェデレーション学習(DFL)を提案する。
DFLは、各グローバルアグリゲーションインターバル中にデバイスデータセットに複数の確率勾配降下イテレーションを導入し、ローカルサブネットワーク内のエッジサーバを介してモデルパラメータを間欠的に集約する。
クラウドサーバは、グローバル同期時にローカルグローバルコンビネータを介して計算されるグローバルデプロイモデルとローカルモデルを同期する。
DFLの収束挙動は、一般化されたデータ不均一性計量の下で理論的に研究される。
一連の条件が得られ、o(1/k) の部分線形収束率を達成する。
これらの知見に基づき, DFL の適応制御アルゴリズムを開発し, サブ線形収束率を目標として, エネルギー消費とエッジ-クラウド通信遅延を緩和するポリシーを実装した。
数値評価により、dflは、既存のflアルゴリズムよりも高速なグローバルモデル収束、リソース消費の低減、通信遅延に対する堅牢性において優れた性能を示す。
要約すると,提案手法は凸損失関数と非凸損失関数の両方を扱う際の効率と満足度の向上をもたらす。 Federated learning has gained popularity as a means of training models distributed across the wireless edge. The paper introduces delay-aware federated learning (DFL) to improve the efficiency of distributed machine learning (ML) model training by addressing communication delays between edge and cloud. DFL employs multiple stochastic gradient descent iterations on device datasets during each global aggregation interval and intermittently aggregates model parameters through edge servers in local subnetworks. The cloud server synchronizes the local models with the global deployed model computed via a local-global combiner at global synchronization. The convergence behavior of DFL is theoretically investigated under a generalized data heterogeneity metric. A set of conditions is obtained to achieve the sub-linear convergence rate of O(1/k). Based on these findings, an adaptive control algorithm is developed for DFL, implementing policies to mitigate energy consumption and edge-to-cloud communication latency while aiming for a sublinear convergence rate. Numerical evaluations show DFL's superior performance in terms of faster global model convergence, reduced resource consumption, and robustness against communication delays compared to existing FL algorithms. In summary, this proposed method offers improved efficiency and satisfactory results when dealing with both convex and non-convex loss functions. | 翻訳日:2023-03-23 14:33:51 公開日:2023-03-22 |
# EDGI: Embodied Agents を用いた計画のための等変拡散 EDGI: Equivariant Diffusion for Planning with Embodied Agents ( http://arxiv.org/abs/2303.12410v1 ) ライセンス: Link先を確認 | Johann Brehmer, Joey Bose, Pim de Haan, Taco Cohen | (参考訳) 身体的エージェントは構造化された世界で動作し、しばしば空間的、時間的、置換対称性を持つタスクを解く。
計画とモデルベース強化学習(MBRL)のためのほとんどのアルゴリズムは、このリッチな幾何学的構造を考慮に入れておらず、サンプルの非効率性と一般化が不十分である。
我々は、MBRL のアルゴリズムである Equivariant Diffuser for Generating Interactions (EDGI) を導入し、空間対称性群 $\mathrm{SE(3)}$、離散時間変換群 $\mathbb{Z}$、オブジェクト置換群 $\mathrm{S}_n$ の積に対して同値な計画を立てる。
EDGIはDiffuserフレームワーク(Janner et al. 2022)に従い、世界モデルを学習し、それを条件付き生成モデリング問題として計画し、オフライン軌跡データセット上で拡散モデルを訓練する。
複数の表現をサポートする新しい $\mathrm{SE(3)} \times \mathbb{Z} \times \mathrm{S}_n$-equivariant 拡散モデルを導入する。
我々は、このモデルを計画ループに統合し、条件付けと分類器に基づくガイダンスにより、必要に応じて特定のタスクの対称性をソフトに破ることができる。
ナビゲーションおよびオブジェクト操作タスクでは、EDGIはサンプル効率と一般化を改善している。 Embodied agents operate in a structured world, often solving tasks with spatial, temporal, and permutation symmetries. Most algorithms for planning and model-based reinforcement learning (MBRL) do not take this rich geometric structure into account, leading to sample inefficiency and poor generalization. We introduce the Equivariant Diffuser for Generating Interactions (EDGI), an algorithm for MBRL and planning that is equivariant with respect to the product of the spatial symmetry group $\mathrm{SE(3)}$, the discrete-time translation group $\mathbb{Z}$, and the object permutation group $\mathrm{S}_n$. EDGI follows the Diffuser framework (Janner et al. 2022) in treating both learning a world model and planning in it as a conditional generative modeling problem, training a diffusion model on an offline trajectory dataset. We introduce a new $\mathrm{SE(3)} \times \mathbb{Z} \times \mathrm{S}_n$-equivariant diffusion model that supports multiple representations. We integrate this model in a planning loop, where conditioning and classifier-based guidance allow us to softly break the symmetry for specific tasks as needed. On navigation and object manipulation tasks, EDGI improves sample efficiency and generalization. | 翻訳日:2023-03-23 14:33:33 公開日:2023-03-22 |
# エゴセントリックビュー合成のための平衡球面格子 Balanced Spherical Grid for Egocentric View Synthesis ( http://arxiv.org/abs/2303.12408v1 ) ライセンス: Link先を確認 | Changwoon Choi, Sang Min Kim, Young Min Kim | (参考訳) egonerfは,vr資産のための大規模実環境を再構築するための実用的なソリューションである。
カジュアルにキャプチャされた360度ビデオの数秒を与えられたEgoNeRFは、ニューラルラジアンスフィールドを効率的に構築し、新しい視点から高品質なレンダリングを可能にする。
特徴格子を用いた最近のNeRF加速により,従来のカルト座標の代わりに球面座標を採用する。
カーテシアン・フィーチャー・グリッドは、視聴者からの距離に関係なく空間的に均一な解像度を持つため、大規模な境界のないシーンを表現するのに非効率である。
球面パラメタライゼーションは、エゴ中心画像の光線との整合性が良く、性能向上のための分解が可能である。
しかし、na\\\ 球面格子は2つの極における不規則性に悩まされており、非有界な場面も表現できない。
極近傍の特異点を避けるため、2つの平衡格子を結合し、準一様角格子となる。
また、指数関数的にラジアルグリッドを分割し、無限大の環境マップを非有界シーンを表す。
さらに,グリッド方式の再サンプリング手法により,NeRFボリュームのトレーニングに有効なサンプル数を増やすことができる。
今回紹介した合成および実世界エゴセントリック360度ビデオデータセットにおいて,本手法を広範囲に評価し,最先端の性能を一貫して達成した。 We present EgoNeRF, a practical solution to reconstruct large-scale real-world environments for VR assets. Given a few seconds of casually captured 360 video, EgoNeRF can efficiently build neural radiance fields which enable high-quality rendering from novel viewpoints. Motivated by the recent acceleration of NeRF using feature grids, we adopt spherical coordinate instead of conventional Cartesian coordinate. Cartesian feature grid is inefficient to represent large-scale unbounded scenes because it has a spatially uniform resolution, regardless of distance from viewers. The spherical parameterization better aligns with the rays of egocentric images, and yet enables factorization for performance enhancement. However, the na\"ive spherical grid suffers from irregularities at two poles, and also cannot represent unbounded scenes. To avoid singularities near poles, we combine two balanced grids, which results in a quasi-uniform angular grid. We also partition the radial grid exponentially and place an environment map at infinity to represent unbounded scenes. Furthermore, with our resampling technique for grid-based methods, we can increase the number of valid samples to train NeRF volume. We extensively evaluate our method in our newly introduced synthetic and real-world egocentric 360 video datasets, and it consistently achieves state-of-the-art performance. | 翻訳日:2023-03-23 14:33:06 公開日:2023-03-22 |
# ランゲヴィン型モンテカルロアルゴリズムの非漸近解析 Non-asymptotic analysis of Langevin-type Monte Carlo algorithms ( http://arxiv.org/abs/2303.12407v1 ) ライセンス: Link先を確認 | Shogo Nakakita | (参考訳) 我々はgibbs分布に対するランジュバン型アルゴリズムの研究を行い、ポテンシャルが散逸し、その弱い勾配が連続性の有限モジュラーを持つことを示した。
我々の主な結果は、ギブス分布と一般ランゲヴィン型アルゴリズムの法則の間の2-ワッサーシュタイン距離の漸近的でない上界であり、リプサー-シリャエフ理論と機能的不等式に基づいている。
このバウンドを適用して、ポテンシャルの不一致性と$\alpha>1/3$の勾配の連続性が、パラメータを適切に制御したランジュバンモンテカルロアルゴリズムの収束に十分であることを示す。
また、凸性や連続微分性のないポテンシャルに対して球面平滑化を持つランゲヴィン型アルゴリズムを提案する。 We study the Langevin-type algorithms for Gibbs distributions such that the potentials are dissipative and their weak gradients have the finite moduli of continuity. Our main result is a non-asymptotic upper bound of the 2-Wasserstein distance between the Gibbs distribution and the law of general Langevin-type algorithms based on the Liptser--Shiryaev theory and functional inequalities. We apply this bound to show that the dissipativity of the potential and the $\alpha$-H\"{o}lder continuity of the gradient with $\alpha>1/3$ are sufficient for the convergence of the Langevin Monte Carlo algorithm with appropriate control of the parameters. We also propose Langevin-type algorithms with spherical smoothing for potentials without convexity or continuous differentiability. | 翻訳日:2023-03-23 14:32:42 公開日:2023-03-22 |
# UMC: バンド幅効率とマルチレゾリューションに基づく協調知覚フレームワーク UMC: A Unified Bandwidth-efficient and Multi-resolution based Collaborative Perception Framework ( http://arxiv.org/abs/2303.12400v1 ) ライセンス: Link先を確認 | Tianhang Wang, Guang Chen, Kai Chen, Zhengfa Liu, Bo Zhang, Alois Knoll, Changjun Jiang | (参考訳) マルチエージェント協調知覚(MCP)は近年注目されている。
共有のためのコミュニケーション、インテグレーションのためのコラボレーション、さまざまなダウンストリームタスクの再構築という3つの重要なプロセスが含まれている。
既存の手法は、協調プロセスを単独で設計し、本質的な相互作用を無視し、最適以下のパフォーマンスをもたらす。
対照的に,マルチレゾリューション技術を用いてコミュニケーション,コラボレーション,再構築のプロセスを最適化する,統一協調認識フレームワーク UMC を提案する。
通信は、新しいトレーニング可能なマルチレゾリューションと選択的領域(MRSR)機構を導入し、より高い品質と低い帯域幅を実現する。
次に、MRSRを適応させるために各解像度でグラフベースのコラボレーションを提案する。
最後に、レコンストラクションはダウンストリームタスクのマルチレゾリューション協調機能を統合する。
総合評価基準は, MCPによる性能向上を体系的に反映できないため, 異なる視点から評価する新たな評価基準を導入する。
このアルゴリズムを検証するために,V2X-SimおよびOPV2Vデータセットの実験を行った。
定量的・定性的な実験により,提案するumcが最先端の協調的知覚アプローチを大きく上回っていることを証明した。 Multi-agent collaborative perception (MCP) has recently attracted much attention. It includes three key processes: communication for sharing, collaboration for integration, and reconstruction for different downstream tasks. Existing methods pursue designing the collaboration process alone, ignoring their intrinsic interactions and resulting in suboptimal performance. In contrast, we aim to propose a Unified Collaborative perception framework named UMC, optimizing the communication, collaboration, and reconstruction processes with the Multi-resolution technique. The communication introduces a novel trainable multi-resolution and selective-region (MRSR) mechanism, achieving higher quality and lower bandwidth. Then, a graph-based collaboration is proposed, conducting on each resolution to adapt the MRSR. Finally, the reconstruction integrates the multi-resolution collaborative features for downstream tasks. Since the general metric can not reflect the performance enhancement brought by MCP systematically, we introduce a brand-new evaluation metric that evaluates the MCP from different perspectives. To verify our algorithm, we conducted experiments on the V2X-Sim and OPV2V datasets. Our quantitative and qualitative experiments prove that the proposed UMC greatly outperforms the state-of-the-art collaborative perception approaches. | 翻訳日:2023-03-23 14:32:25 公開日:2023-03-22 |
# 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション Multiscale Attention via Wavelet Neural Operators for Vision Transformers ( http://arxiv.org/abs/2303.12398v1 ) ライセンス: Link先を確認 | Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani, Morteza Mardani | (参考訳) トランスフォーマーはコンピュータビジョンで広く成功を収めた。
彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。
標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。
近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。
しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。
配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。
vit の注意を mwa に置き換え,cifar と imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注意よりも大幅な改善が見られた。 Transformers have achieved widespread success in computer vision. At their heart, there is a Self-Attention (SA) mechanism, an inductive bias that associates each token in the input with every other token through a weighted basis. The standard SA mechanism has quadratic complexity with the sequence length, which impedes its utility to long sequences appearing in high resolution vision. Recently, inspired by operator learning for PDEs, Adaptive Fourier Neural Operators (AFNO) were introduced for high resolution attention based on global convolution that is efficiently implemented via FFT. However, the AFNO global filtering cannot well represent small and moderate scale structures that commonly appear in natural images. To leverage the coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention (MWA) by leveraging wavelet neural operators which incurs linear complexity in the sequence size. We replace the attention in ViT with MWA and our experiments with CIFAR and ImageNet classification demonstrate significant improvement over alternative Fourier-based attentions such as AFNO and Global Filter Network (GFN). | 翻訳日:2023-03-23 14:32:07 公開日:2023-03-22 |
# 医用画像解析におけるラベル有効深層学習の課題と今後の方向性 Label-Efficient Deep Learning in Medical Image Analysis: Challenges and Future Directions ( http://arxiv.org/abs/2303.12484v1 ) ライセンス: Link先を確認 | Cheng Jin, Zhengrui Guo, Yi Lin, Luyang Luo, Hao Chen | (参考訳) ディープラーニングは近年急速に成長し、幅広いアプリケーションで最先端のパフォーマンスを達成している。
しかし、トレーニングモデルは通常、大量のラベル付きデータの高価で時間を要する。
これは医療画像解析(MIA)の分野において特に当てはまり、データに制限があり、ラベルを取得するのに費用がかかる。
これにより、ラベル付きデータとラベルなしデータと弱いラベル付きデータとを包括的に利用するためのラベル効率の高いディープラーニング手法が開発される。
本調査では,最近300以上の論文を網羅的に調査し,MIAにおけるラベル効率学習戦略の最近の進歩を概観した。
まず,ラベル効率の高い学習の背景を示し,そのアプローチを異なるスキームに分類する。
次に、各スキームを通して現在の最先端手法を詳細に検討する。
具体的には,カノニカルな半教師付き,自己教師付き,マルチインスタンスの学習スキームだけでなく,最近ではアクティブでアノテーション効率のよい学習戦略も紹介する。
さらに, この分野への総合的な貢献として, 調査手法の共通点や特徴を解明するだけでなく, 現状の課題を詳細に分析し, 今後の研究への道のりを示唆する。 Deep learning has seen rapid growth in recent years and achieved state-of-the-art performance in a wide range of applications. However, training models typically requires expensive and time-consuming collection of large quantities of labeled data. This is particularly true within the scope of medical imaging analysis (MIA), where data are limited and labels are expensive to be acquired. Thus, label-efficient deep learning methods are developed to make comprehensive use of the labeled data as well as the abundance of unlabeled and weak-labeled data. In this survey, we extensively investigated over 300 recent papers to provide a comprehensive overview of recent progress on label-efficient learning strategies in MIA. We first present the background of label-efficient learning and categorize the approaches into different schemes. Next, we examine the current state-of-the-art methods in detail through each scheme. Specifically, we provide an in-depth investigation, covering not only canonical semi-supervised, self-supervised, and multi-instance learning schemes, but also recently emerged active and annotation-efficient learning strategies. Moreover, as a comprehensive contribution to the field, this survey not only elucidates the commonalities and unique features of the surveyed methods but also presents a detailed analysis of the current challenges in the field and suggests potential avenues for future research. | 翻訳日:2023-03-23 14:25:08 公開日:2023-03-22 |
# DeepFoolを再考する: 一般化と改善 Revisiting DeepFool: generalization and improvement ( http://arxiv.org/abs/2303.12481v1 ) ライセンス: Link先を確認 | Alireza Abdollahpourrostam, Mahed Abroshan, Seyed-Mohsen Moosavi-Dezfooli | (参考訳) 深層ニューラルネットワークは敵の例に弱いことが知られており、入力はわずかに修正され、ネットワークを騙して誤った予測をする。
これにより、このような摂動に対するネットワークのロバスト性を評価する研究が盛んに行われている。
特に重要なロバスト性指標は、最小のl2逆摂動に対するロバスト性である。
しかし、このロバスト性指標を評価する既存の手法は計算コストが高いか、あまり正確ではない。
本稿では,実効性と計算効率のバランスをとる新たな敵対的攻撃の一群を提案する。
提案する攻撃はdeepfool(df)攻撃の一般化であり,その理解と実装は容易である。
我々の攻撃は、有効性と計算効率の両方の観点から、既存の手法よりも優れていることを示す。
提案手法は, 大規模モデルの強靭性評価にも適しており, 対人訓練(AT)を行い, 対人摂動を最小限に抑えることができる。 Deep neural networks have been known to be vulnerable to adversarial examples, which are inputs that are modified slightly to fool the network into making incorrect predictions. This has led to a significant amount of research on evaluating the robustness of these networks against such perturbations. One particularly important robustness metric is the robustness to minimal l2 adversarial perturbations. However, existing methods for evaluating this robustness metric are either computationally expensive or not very accurate. In this paper, we introduce a new family of adversarial attacks that strike a balance between effectiveness and computational efficiency. Our proposed attacks are generalizations of the well-known DeepFool (DF) attack, while they remain simple to understand and implement. We demonstrate that our attacks outperform existing methods in terms of both effectiveness and computational efficiency. Our proposed attacks are also suitable for evaluating the robustness of large models and can be used to perform adversarial training (AT) to achieve state-of-the-art robustness to minimal l2 adversarial perturbations. | 翻訳日:2023-03-23 14:24:48 公開日:2023-03-22 |
# ポスト選択量子状態のテレポーテーション Teleportation of Post-Selected Quantum States ( http://arxiv.org/abs/2303.12456v1 ) ライセンス: Link先を確認 | Daniel Collins | (参考訳) テレポーテーションにより、アリスは、事前共有された絡み合いと古典的なコミュニケーションのみを使用して、準備済みの量子状態をボブに送ることができる。
ここで、$\it{post}$-selectedである状態のテレポートが可能であることを示す。
状態の選択後$\phi$ は、アリスが実験を終えた後、彼女は測定を行い、測定結果が$\phi$である実験の実行だけを維持することを意味する。
また、事前および選択後の$\it{port}$-based Teleportationも紹介する。
最後に、これらのプロトコルを用いて、前・後選択系において瞬時非局所量子計算を行い、空間的に分離された前・後選択系の任意の非局所変数を瞬時に測定するための絡み合いを大幅に低減する。 Teleportation allows Alice to send a pre-prepared quantum state to Bob using only pre-shared entanglement and classical communication. Here we show that it is possible to teleport a state which is also $\it{post}$-selected. Post-selection of a state $\Phi$ means that after Alice has finished her experiment she performs a measurement and only keeps runs of the experiment where the measurement outcome is $\Phi$. We also demonstrate pre and post-selected $\it{port}$-based teleportation. Finally we use these protocols to perform instantaneous non-local quantum computation on pre and post-selected systems, and significantly reduce the entanglement required to instantaneously measure an arbitrary non-local variable of spatially separated pre and post-selected systems. | 翻訳日:2023-03-23 14:24:31 公開日:2023-03-22 |
# tensorflow勾配降下オプティマイザを用いた$\mathcal{c}^k$-continuous spline近似 $\mathcal{C}^k$-continuous Spline Approximation with TensorFlow Gradient Descent Optimizers ( http://arxiv.org/abs/2303.12454v1 ) ライセンス: Link先を確認 | Stefan Huber, Hannes Waclawek | (参考訳) 本研究では、産業最適化問題に対する機械学習最適化(ML)の「アウト・オブ・ボックス」アプリケーションを提案する。
我々は,cam近似設定で展開可能な$\mathcal{c}^k$-continuos関数に適合する分割多項式モデル(spline)を提案する。
次に、機械学習フレームワークTensorFlowが提供する勾配勾配勾配最適化コンテキストを用いて、近似品質と$\mathcal{C}^k$-continuityのモデルパラメータを最適化し、利用可能なオプティマイザを評価する。
実験の結果、TensorFlowグラデーションテープを用いて問題解が実現可能であり、AMSGradとSGDがTensorFlowオプティマイザの中で最良の結果を示すことがわかった。
さらに,SGD収束を改善するための新たな正規化手法を提案する。
実験の結果, 最適化後の不連続性は小さいが, 局所スプラインセグメントの導関数にのみ影響するアルゴリズムを用いて, これらの誤差を除去できることがわかった。 In this work we present an "out-of-the-box" application of Machine Learning (ML) optimizers for an industrial optimization problem. We introduce a piecewise polynomial model (spline) for fitting of $\mathcal{C}^k$-continuos functions, which can be deployed in a cam approximation setting. We then use the gradient descent optimization context provided by the machine learning framework TensorFlow to optimize the model parameters with respect to approximation quality and $\mathcal{C}^k$-continuity and evaluate available optimizers. Our experiments show that the problem solution is feasible using TensorFlow gradient tapes and that AMSGrad and SGD show the best results among available TensorFlow optimizers. Furthermore, we introduce a novel regularization approach to improve SGD convergence. Although experiments show that remaining discontinuities after optimization are small, we can eliminate these errors using a presented algorithm which has impact only on affected derivatives in the local spline segment. | 翻訳日:2023-03-23 14:24:17 公開日:2023-03-22 |
# CSRX:トラベリングセールスパーソン問題に適用された遺伝的アルゴリズムのためのクロスオーバー演算子 CSRX: A novel Crossover Operator for a Genetic Algorithm applied to the Traveling Salesperson Problem ( http://arxiv.org/abs/2303.12447v1 ) ライセンス: Link先を確認 | Martin Uray, Stefan Wintersteller, Stefan Huber | (参考訳) 本稿では,旅行セールスパーソン問題(tsp)に対する遺伝的アルゴリズム(ga)の適用を再検討し,先行技術に匹敵する新たなクロスオーバー演算子のファミリを紹介する。
新たなクロスオーバー作用素は、解空間における対称性を活用することを目的としており、より効果的に優れた個人、すなわち円周シフトに対する適合不変性や解の反転を保存できる。
これらの対称性は一般的なものであり、特にTSPに制限されない。 In this paper, we revisit the application of Genetic Algorithm (GA) to the Traveling Salesperson Problem (TSP) and introduce a family of novel crossover operators that outperform the previous state of the art. The novel crossover operators aim to exploit symmetries in the solution space, which allows us to more effectively preserve well-performing individuals, namely the fitness invariance to circular shifts and reversals of solutions. These symmetries are general and not limited to or tailored to TSP specifically. | 翻訳日:2023-03-23 14:23:57 公開日:2023-03-22 |
# 雑用課の外部性 Externalities in Chore Division ( http://arxiv.org/abs/2303.12446v1 ) ライセンス: Link先を確認 | Mohammad Azharuddin Sanpui | (参考訳) 雑用分割問題は、複数のエージェントの間で不均一な望ましくないリソースの公平な分割をシミュレートする。
公平分割問題では、各エージェントは自身のピースからのみ値を取得する。
しかし、エージェントは、他のエージェントに与えられたピースにも関心を持ち、これらの外部性は、当然公平な分割状況に現れる。
Branzei et ai
(Branzei et al., IJCAI 2013) は、古典的なモデルを拡張して外見を考慮しつつ、古典的な比例性や妬みのないアイデアを一般化している。 The chore division problem simulates the fair division of a heterogeneous undesirable resource among several agents. In the fair division problem, each agent only gains value from its own piece. Agents may, however, also be concerned with the pieces given to other agents; these externalities naturally appear in fair division situations. Branzei et ai. (Branzei et al., IJCAI 2013) generalize the classical ideas of proportionality and envy-freeness while extending the classical model to account for externalities. | 翻訳日:2023-03-23 14:23:47 公開日:2023-03-22 |
# MEDIMP: 腎移植表現学習のための医用画像とプロンプト MEDIMP: Medical Images and Prompts for renal transplant representation learning ( http://arxiv.org/abs/2303.12445v1 ) ライセンス: Link先を確認 | Leo Milecki, Vicky Kalogeiton, Sylvain Bodard, Dany Anglicheau, Jean-Michel Correas, Marc-Olivier Timsit, Maria Vakalopoulou | (参考訳) 腎移植は末期腎疾患の最も有効な解決策として出現する。
複雑な原因から発生し、慢性的な機能不全のかなりのリスクが持続し、移植片が失われる可能性がある。
医療画像は、臨床における腎移植モニタリングにおいて重要な役割を果たす。
しかし, 移植管理は, 腎学, 尿学, 放射線学の分野において多分野にまたがっており, このような高次元・複雑な診断データから堅牢なバイオマーカーを同定することは困難である。
本研究では,近年の大規模言語モデル(llms)の成功から着想を得て,腎移植におけるダイナミックコントラスト強調mri(dce mri)の有意義なマルチモーダル表現を学習するためのモデルであるmedimp -- 医療画像とプロンプト -- を提案する。
MEDIMPは、この困難なタスクを実行するために、ジョイントテキストイメージのペア埋め込みから対照的な学習に基づいている。
さらに,LSMから自動テキストデータ拡張を用いて医療用プロンプトを生成するフレームワークを提案する。
本研究の目的は, 腎移植後2年, 3年, 4年経過した患者の予後に興味深い, 利用可能なマルチモーダルデータを最も効率的に活用する, 腎移植dcemriの有意義な多様体を探索することである。
広範にわたる実験と、限られたデータによる他の腎移植表現学習法との比較は、関連する臨床環境におけるmedimpの有効性を証明し、医学的プロンプトへの新しい方向性を与える。
私たちのコードはhttps://github.com/leomlck/MEDIMPで利用可能です。 Renal transplantation emerges as the most effective solution for end-stage renal disease. Occurring from complex causes, a substantial risk of transplant chronic dysfunction persists and may lead to graft loss. Medical imaging plays a substantial role in renal transplant monitoring in clinical practice. However, graft supervision is multi-disciplinary, notably joining nephrology, urology, and radiology, while identifying robust biomarkers from such high-dimensional and complex data for prognosis is challenging. In this work, taking inspiration from the recent success of Large Language Models (LLMs), we propose MEDIMP -- Medical Images and Prompts -- a model to learn meaningful multi-modal representations of renal transplant Dynamic Contrast-Enhanced Magnetic Resonance Imaging (DCE MRI) by incorporating structural clinicobiological data after translating them into text prompts. MEDIMP is based on contrastive learning from joint text-image paired embeddings to perform this challenging task. Moreover, we propose a framework that generates medical prompts using automatic textual data augmentations from LLMs. Our goal is to learn meaningful manifolds of renal transplant DCE MRI, interesting for the prognosis of the transplant or patient status (2, 3, and 4 years after the transplant), fully exploiting the available multi-modal data in the most efficient way. Extensive experiments and comparisons with other renal transplant representation learning methods with limited data prove the effectiveness of MEDIMP in a relevant clinical setting, giving new directions toward medical prompts. Our code is available at https://github.com/leomlck/MEDIMP. | 翻訳日:2023-03-23 14:23:39 公開日:2023-03-22 |
# ロボット組立のためのヒューマンインスパイアされた力戦略の学習 Learning Human-Inspired Force Strategies for Robotic Assembly ( http://arxiv.org/abs/2303.12440v1 ) ライセンス: Link先を確認 | Stefan Scherzinger, Arne Roennau, R\"udiger Dillmann | (参考訳) ロボット組立タスクのプログラミングは、製造と自動化において重要な要素である。
しかし、力に敏感なアセンブリは、位置決めや予期せぬ部分ジャミングのわずかな変化に対処するために、しばしばリアクティブな戦略を必要とする。
このような戦略を人間のパフォーマンスから学ぶことは有望なアプローチだが、デモから捉えるのが難しい低い部分のクリアランスの扱いと、実際のハードウェアにアクセスせずに直感的な戦略をオフラインで学ぶという2つの一般的な課題に直面している。
ジョイスティックを用いた人間の実演からロボットレスシミュレーションによりオフラインで取得し易いデータから確率的力戦略を学ぶことにより,この2つの課題に対処した。
短期記憶(lstm)と混合密度ネットワーク(mdn)を組み合わせることで,学習戦略が実ハードウェアに容易に移行できるように,人間に触発された動作をモデル化する。
実験では、シミュレーションでのみ実証された100マイクロメートル未満のクリアランスでプラスチックの組み立てを完了するUR10eロボットが示されている。 The programming of robotic assembly tasks is a key component in manufacturing and automation. Force-sensitive assembly, however, often requires reactive strategies to handle slight changes in positioning and unforeseen part jamming. Learning such strategies from human performance is a promising approach, but faces two common challenges: the handling of low part clearances which is difficult to capture from demonstrations and learning intuitive strategies offline without access to the real hardware. We address these two challenges by learning probabilistic force strategies from data that are easily acquired offline in a robot-less simulation from human demonstrations with a joystick. We combine a Long Short Term Memory (LSTM) and a Mixture Density Network (MDN) to model human-inspired behavior in such a way that the learned strategies transfer easily onto real hardware. The experiments show a UR10e robot that completes a plastic assembly with clearances of less than 100 micrometers whose strategies were solely demonstrated in simulation. | 翻訳日:2023-03-23 14:23:09 公開日:2023-03-22 |
# 媒介相互作用の定量的非古典性 Quantitative non-classicality of mediated interactions ( http://arxiv.org/abs/2303.12428v1 ) ライセンス: Link先を確認 | Ray Ganardi, Ekta Panwar, Mahasweta Pandit, Bianka Wo{\l}oncewicz, Tomasz Paterek | (参考訳) 多くの物理的状況において、他の相互作用しないシステムを結合するシステムであるメディエーターを区別することができる。
しばしば、メディエーターは実験に直接アクセスできないが、非古典的性質を認めるかどうかを理解することは興味深い、時には不可欠である。
最近注目されているこの種の例として、重力場を介して結合された2つの量子質量がある。
質量間の量子の絡み合いの利得は三成分系全体の非古典的状態を示していると論じられている。
ここでは、関連する状態ではなく、関連する相互作用の非古典的性質に焦点を当てる。
我々は、仲介者を通して相互作用の非可換性と非可逆性(非可換ユニタリのオープンシステム一般化)を示す不等式を導出する。
導出は一般的な量子フォーマリズムの性質に基づいており、研究されたシステムについて最小主義的な仮定を行う。
さらに, メディエータを計測する必要がない条件を除いて, 結合系間の相関のみを用いる条件も提示する。
次に, 違反の量は, 適切に定義された非分解性の程度に低い値となることを示す。
これにより、手法は定量的かつ同時に実験の準備が整う。
重力相互作用の非古典性の検出と量子シミュレーションにおけるトロッター誤差のバウンドという2つの異なる分野の応用について述べる。 In plethora of physical situations one can distinguish a mediator -- a system that couples other, non-interacting systems. Often the mediator itself is not directly accessible to experimentation, yet it is interesting and sometimes crucial to understand if it admits non-classical properties. An example of this sort that recently enjoys considerable attention are two quantum masses coupled via gravitational field. It has been argued that the gain of quantum entanglement between the masses indicates non-classical states of the whole tripartite system. Here, we focus on non-classical properties of the involved interactions rather than the involved states. We derive inequalities whose violation indicates non-commutativity and non-decomposability (open system generalisation of non-commuting unitaries) of interactions through the mediators. The derivations are based on properties of general quantum formalism and make minimalistic assumptions about the studied systems, in particular the interactions can remain uncharacterised throughout the assessment. Furthermore, we also present conditions that solely use correlations between the coupled systems, excluding the need to measure the mediator. Next, we show that the amount of violation places a lower bound on suitably defined degree of non-decomposability. This makes the methods quantitative and at the same time experiment ready. We give applications of these techniques in two different fields: for detecting non-classicality of gravitational interaction and in bounding the Trotter error in quantum simulations. | 翻訳日:2023-03-23 14:22:52 公開日:2023-03-22 |
# コントラスト学習と非相関条件を用いたイベントベースネットワーク学習のための教師なしドメイン適応 Unsupervised Domain Adaptation for Training Event-Based Networks Using Contrastive Learning and Uncorrelated Conditioning ( http://arxiv.org/abs/2303.12424v1 ) ライセンス: Link先を確認 | Dayuan Jian, Mohammad Rostami | (参考訳) イベントベースのカメラは、高ダイナミックレンジ環境でのコンピュータビジョンタスクや高速モーション操作時の信頼性の高い計測を提供する。
しかし、イベントベースのビジョンにおけるディープラーニングの採用は、イベントカメラの信頼性による注釈付きデータの不足という課題に直面している。
従来のカメラアノテートデータから得られる知識を転送することは、この課題に対する実用的な解決策となる。
コントラスト学習と非相関条件を用いたイベントベースデータ画像分類のためのディープネットワークを訓練するための教師なし領域適応アルゴリズムを開発した。
この目的のために既存のアルゴリズムより優れている。 Event-based cameras offer reliable measurements for preforming computer vision tasks in high-dynamic range environments and during fast motion maneuvers. However, adopting deep learning in event-based vision faces the challenge of annotated data scarcity due to recency of event cameras. Transferring the knowledge that can be obtained from conventional camera annotated data offers a practical solution to this challenge. We develop an unsupervised domain adaptation algorithm for training a deep network for event-based data image classification using contrastive learning and uncorrelated conditioning of data. Our solution outperforms the existing algorithms for this purpose. | 翻訳日:2023-03-23 14:22:30 公開日:2023-03-22 |
# MEGA: 生成AIの多言語評価 MEGA: Multilingual Evaluation of Generative AI ( http://arxiv.org/abs/2303.12528v1 ) ライセンス: Link先を確認 | Kabir Ahuja and Rishav Hada and Millicent Ochieng and Prachi Jain and Harshita Diddee and Samuel Maina and Tanuja Ganu and Sameer Segal and Maxamed Axmed and Kalika Bali and Sunayana Sitaram | (参考訳) 生成AIモデルは、言語理解、推論、言語生成など、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。
今日のAIコミュニティから求められている最も重要な質問の1つは、これらのモデルの能力と限界についてであり、生成的AIを評価することが非常に難しいことは明らかである。
生成型大言語モデル(llm)の研究のほとんどは英語に限られており、これらのモデルが他言語をいかに理解し生成できるかは不明である。
そこで本研究では,標準NLPベンチマークのモデル評価を行うジェネレーティブLLMsMEGAの総合ベンチマークを行い,8つのタスクと33の言語を網羅した。
また, 生成型LLMの性能を, これらのタスクにおける非自己回帰モデル(SOTA)と比較し, 生成型LLMと比較して, 生成型モデルの性能について検討した。
本稿では, 言語間でのモデルの性能を徹底的に分析し, 生成LDMが現在すべての言語に最適でない理由について論じる。
我々は,多言語設定におけるジェネレーティブLLMの評価フレームワークを作成し,今後の発展に向けての方向性を提供する。 Generative AI models have impressive performance on many Natural Language Processing tasks such as language understanding, reasoning and language generation. One of the most important questions that is being asked by the AI community today is about the capabilities and limits of these models, and it is clear that evaluating generative AI is very challenging. Most studies on generative Large Language Models (LLMs) are restricted to English and it is unclear how capable these models are at understanding and generating other languages. We present the first comprehensive benchmarking of generative LLMs - MEGA, which evaluates models on standard NLP benchmarks, covering 8 diverse tasks and 33 typologically diverse languages. We also compare the performance of generative LLMs to State of the Art (SOTA) non-autoregressive models on these tasks to determine how well generative models perform compared to the previous generation of LLMs. We present a thorough analysis of the performance of models across languages and discuss some of the reasons why generative LLMs are currently not optimal for all languages. We create a framework for evaluating generative LLMs in the multilingual setting and provide directions for future progress in the field. | 翻訳日:2023-03-23 14:16:53 公開日:2023-03-22 |
# Split-Et-Impera: 分散ディープラーニングアプリケーション設計のためのフレームワーク Split-Et-Impera: A Framework for the Design of Distributed Deep Learning Applications ( http://arxiv.org/abs/2303.12524v1 ) ライセンス: Link先を確認 | Luigi Capogrosso, Federico Cunico, Michele Lora, Marco Cristani, Franco Fummi, Davide Quaglia | (参考訳) 最近のパターン認識アプリケーションは、センシングと計算ノードが通信ネットワークを介して相互に相互作用する複雑な分散アーキテクチャに依存している。
ディープニューラルネットワーク(DNN)はこのシナリオにおいて重要な役割を果たす。
その結果、強力な最先端DNNは様々な計算ノードに分割されることが多く、例えば、最初の部分は組み込みデバイスに留まり、残りはサーバに留まる。
DNNをどこで分割するかを決めることは、それ自体が課題であり、ディープラーニングアプリケーションの設計をさらに複雑にする。
そこで本稿では,新しい実践的枠組みであるsplit-et-imperaを提案する。
一 退屈な試行錯誤を行うことなく、ディープネットワークの解釈可能性原則に基づいてニューラルネットワークの最良の分割点の集合を決定すること。
二 異なるニューラルネットワークの再配置の迅速評価のための通信対応シミュレーションを行うこと。
iii) 正確性と待ち時間の観点から、アプリケーションのサービス要求の品質とパフォーマンスの最適な一致を示唆する。 Many recent pattern recognition applications rely on complex distributed architectures in which sensing and computational nodes interact together through a communication network. Deep neural networks (DNNs) play an important role in this scenario, furnishing powerful decision mechanisms, at the price of a high computational effort. Consequently, powerful state-of-the-art DNNs are frequently split over various computational nodes, e.g., a first part stays on an embedded device and the rest on a server. Deciding where to split a DNN is a challenge in itself, making the design of deep learning applications even more complicated. Therefore, we propose Split-Et-Impera, a novel and practical framework that i) determines the set of the best-split points of a neural network based on deep network interpretability principles without performing a tedious try-and-test approach, ii) performs a communication-aware simulation for the rapid evaluation of different neural network rearrangements, and iii) suggests the best match between the quality of service requirements of the application and the performance in terms of accuracy and latency time. | 翻訳日:2023-03-23 14:16:35 公開日:2023-03-22 |
# マルチパーティの絡み合いの証人としての超放射能 Superradiance as a witness to multipartite entanglement ( http://arxiv.org/abs/2303.12515v1 ) ライセンス: Link先を確認 | Frederik Lohof, Daniel Schumayer, David A. W. Hutchinson, Christopher Gies | (参考訳) 絡み合いの発生と検出は、ほとんどの量子情報技術の最前線にある。
量子状態に関する部分的な情報のみに基づいて絡み合いを明らかにする技術は数多くあり、特に絡み合いの目撃者を含む。
スーパーラジオアンス(Superradiance)は、個々の粒子間の相関によって引き起こされ、ディック自身によって多粒子の絡み合った状態の存在に繋がった、量子放出子の集合からの高同期光子放出現象である。
この関係を定量的に検討し,半導体ナノレーザからの超放射能のサインが自然放出時間の変化であることを示すか否かを,エミッタの基底状態における絡みを検出する証人として解釈することができる。 Generation and detection of entanglement is at the forefront of most quantum information technologies. There is a plethora of techniques that reveal entanglement on the basis of only partial information about the underlying quantum state including, in particular, entanglement witnesses. Superradiance refers to the phenomenon of highly synchronized photon emission from an ensemble of quantum emitters that is caused by correlations among the individual particles and has been connected by Dicke himself to the presence of multipartite entangled states. We investigate this connection in a quantitative way and discuss, whether or not signatures of superradiance from semiconductor nanolasers, manifesting themselves as a modification of the spontaneous-emission time, can be interpreted as a witness to detect entanglement in the underlying state of the emitters. | 翻訳日:2023-03-23 14:16:17 公開日:2023-03-22 |
# Sibling-Attack: 顔認識に対するトランスファー可能な敵攻撃を再考する Sibling-Attack: Rethinking Transferable Adversarial Attacks against Face Recognition ( http://arxiv.org/abs/2303.12512v1 ) ライセンス: Link先を確認 | Zexin Li, Bangjie Yin, Taiping Yao, Juefeng Guo, Shouhong Ding, Simin Chen, Cong Liu | (参考訳) 実用的な顔認識(FR)攻撃を開発する上で難しいのは、ターゲットFRモデルのブラックボックスの性質、すなわち攻撃者への到達不能勾配とパラメータ情報である。
最近の研究は、転送可能性を利用してブラックボックスFRモデルを攻撃するための重要な一歩を踏み出したが、その性能は依然として限られており、特に悲観的なオンライン商用FRシステム(例:平均で50%未満のASR攻撃の成功率)に対してである。
これに触発されたSibling-Attackは、新しいマルチタスク視点(複数関連タスクからの余分な情報を活用して攻撃の伝達性を高める)を初めて探求する新しいFR攻撃手法である。
直感的には、シブリング・アタックはFRと相関する一連のタスクを選択し、理論的および定量的分析に基づいてシブリング・アタックで使用されるタスクとして属性認識(AR)タスクを選択する。
次に兄弟攻撃は,(1)共通空間内に存在するクロスタスク機能を制限すること,(2)タスク間の勾配互換性を高めるジョイントタスクメタ最適化フレームワーク,(3)攻撃時の振動効果を緩和するクロスタスク勾配安定化手法を通じて,逆勾配情報を融合する最適化フレームワークを開発した。
シブリング・アタックは最先端のFR攻撃技術を非自明なマージンで上回り、最先端の訓練済みFRモデルと2つのよく知られた商用FRシステムで平均してASRを12.61%、55.77%向上させた。 A hard challenge in developing practical face recognition (FR) attacks is due to the black-box nature of the target FR model, i.e., inaccessible gradient and parameter information to attackers. While recent research took an important step towards attacking black-box FR models through leveraging transferability, their performance is still limited, especially against online commercial FR systems that can be pessimistic (e.g., a less than 50% ASR--attack success rate on average). Motivated by this, we present Sibling-Attack, a new FR attack technique for the first time explores a novel multi-task perspective (i.e., leveraging extra information from multi-correlated tasks to boost attacking transferability). Intuitively, Sibling-Attack selects a set of tasks correlated with FR and picks the Attribute Recognition (AR) task as the task used in Sibling-Attack based on theoretical and quantitative analysis. Sibling-Attack then develops an optimization framework that fuses adversarial gradient information through (1) constraining the cross-task features to be under the same space, (2) a joint-task meta optimization framework that enhances the gradient compatibility among tasks, and (3) a cross-task gradient stabilization method which mitigates the oscillation effect during attacking. Extensive experiments demonstrate that Sibling-Attack outperforms state-of-the-art FR attack techniques by a non-trivial margin, boosting ASR by 12.61% and 55.77% on average on state-of-the-art pre-trained FR models and two well-known, widely used commercial FR systems. | 翻訳日:2023-03-23 14:15:36 公開日:2023-03-22 |
# 2つの制御量子ビットによる最適位相推定 Optimum phase estimation with two control qubits ( http://arxiv.org/abs/2303.12503v1 ) ライセンス: Link先を確認 | Peyman Najafi, Pedro C.S. Costa and Dominic W. Berry | (参考訳) 位相推定は多くの量子アルゴリズム、特に量子系のエネルギー固有値を推定するために用いられる。
一つの量子ビットをプローブとして使う場合(固有値を推定したいユニタリを制御するために使用される)、最小平均二乗誤差で位相を測定することはできない。
標準的な方法では、この最小誤差を達成するために必要となる制御キュービットの対数(エラー)数が存在する。
ここでは、2つの制御量子ビットのみを用いてこの測定を行う方法を示し、量子アルゴリズムの量子ビット要求を小さくする。
本手法は,測定手順により同時に消費される一方,最適制御状態を1キュービットずつ作成することに対応する。 Phase estimation is used in many quantum algorithms, particularly in order to estimate energy eigenvalues for quantum systems. When using a single qubit as the probe (used to control the unitary we wish to estimate the eigenvalue of), it is not possible to measure the phase with a minimum mean-square error. In standard methods, there would be a logarithmic (in error) number of control qubits needed in order to achieve this minimum error. Here show how to perform this measurement using only two control qubits, thereby reducing the qubit requirements of the quantum algorithm. Our method corresponds to preparing the optimal control state one qubit at a time, while it is simultaneously consumed by the measurement procedure. | 翻訳日:2023-03-23 14:15:05 公開日:2023-03-22 |
# テキストと画像の人物検索のための相互関係推論とアライメント Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval ( http://arxiv.org/abs/2303.12501v1 ) ライセンス: Link先を確認 | Ding Jiang, Mang Ye | (参考訳) テキストから画像への人物検索は、与えられたテキスト記述クエリに基づいて対象人物を識別することを目的としている。
主な課題は、視覚とテキストのモダリティを共通の潜在空間にマッピングすることである。
先行研究は、視覚的およびテキスト的特徴を抽出するために、個別に訓練されたユニモーダルモデルを活用することで、この課題に対処しようとした。
しかし、これらのアプローチには、マルチモーダルデータに効果的に対応するために必要なアライメント機能がない。
さらに、これらの作品は事前情報を使用して明示的な部分アライメントを探索し、モダリティ内情報の歪みを引き起こす可能性がある。
これらの問題を緩和するため、IRRAは、局所的な視覚的・テクスチャトークン間の関係を学習し、追加の事前監視を必要とせず、グローバルな画像テキストマッチングを強化する。
具体的には、まず、マスク付き言語モデリングパラダイムでImplicit Relation Reasoningモジュールを設計する。
これにより、視覚手がかりをクロスモーダルマルチモーダルインタラクションエンコーダとテキストトークンに統合することで、クロスモーダルインタラクションを実現する。
次に,視覚とテキストの埋め込みをグローバルに調整するために,画像とテキストの類似度分布と正規化ラベルマッチング分布とのkl発散を最小限に抑えるために類似度分布マッチングを提案する。
提案手法は,3つの公開データセットすべてに対して,従来の手法に比べて約3%-9%の精度で新たな最先端結果が得られる。 Text-to-image person retrieval aims to identify the target person based on a given textual description query. The primary challenge is to learn the mapping of visual and textual modalities into a common latent space. Prior works have attempted to address this challenge by leveraging separately pre-trained unimodal models to extract visual and textual features. However, these approaches lack the necessary underlying alignment capabilities required to match multimodal data effectively. Besides, these works use prior information to explore explicit part alignments, which may lead to the distortion of intra-modality information. To alleviate these issues, we present IRRA: a cross-modal Implicit Relation Reasoning and Aligning framework that learns relations between local visual-textual tokens and enhances global image-text matching without requiring additional prior supervision. Specifically, we first design an Implicit Relation Reasoning module in a masked language modeling paradigm. This achieves cross-modal interaction by integrating the visual cues into the textual tokens with a cross-modal multimodal interaction encoder. Secondly, to globally align the visual and textual embeddings, Similarity Distribution Matching is proposed to minimize the KL divergence between image-text similarity distributions and the normalized label matching distributions. The proposed method achieves new state-of-the-art results on all three public datasets, with a notable margin of about 3%-9% for Rank-1 accuracy compared to prior methods. | 翻訳日:2023-03-23 14:14:54 公開日:2023-03-22 |
# 農業ロボットにおける効果的な意味認識のためのドメイン特化事前学習について On Domain-Specific Pre-Training for Effective Semantic Perception in Agricultural Robotics ( http://arxiv.org/abs/2303.12499v1 ) ライセンス: Link先を確認 | Gianmarco Roggiolani, Federico Magistri, Tiziano Guadagnino, Jan Weyler, Giorgio Grisetti, Cyrill Stachniss, Jens Behley | (参考訳) 農業用ロボットは、食品、飼料、繊維のより効率的で持続可能な農業生産を可能にする。
作物や雑草の知覚は、畑を監視し、植物と成長段階を自動的に評価することを目的とした農業ロボットの中心的な構成要素である。
セマンティック認識は主に教師付きアプローチによるディープラーニングに依存しており、時間と資格のある労働者がかなりの量のデータをラベル付けする必要がある。
本稿では,最終セグメンテーション性能を損なうことなく,ラベルの量を削減する問題を考察する。
現場で動作しているロボットにとって、教師付きで事前訓練されたネットワークは、必要なラベル付き画像の数を減らすための一般的な方法である。
対象ドメインのデータを用いて,自己指導型事前学習の可能性を検討する。
このデータを活用するために,我々はドメイン固有の拡張戦略を提案する。
セマンティックセグメンテーションとリーフインスタンスセグメンテーションの事前学習の評価を行った。
実験の結果,データ強化戦略と組み合わせたドメイン固有データとの事前学習は,一般的な事前学習よりも優れた性能をもたらすことが示唆された。
さらに、事前学習されたネットワークは、ラベル付きデータが少ない完全教師付きネットワークと同様の性能を得る。 Agricultural robots have the prospect to enable more efficient and sustainable agricultural production of food, feed, and fiber. Perception of crops and weeds is a central component of agricultural robots that aim to monitor fields and assess the plants as well as their growth stage in an automatic manner. Semantic perception mostly relies on deep learning using supervised approaches, which require time and qualified workers to label fairly large amounts of data. In this paper, we look into the problem of reducing the amount of labels without compromising the final segmentation performance. For robots operating in the field, pre-training networks in a supervised way is already a popular method to reduce the number of required labeled images. We investigate the possibility of pre-training in a self-supervised fashion using data from the target domain. To better exploit this data, we propose a set of domain-specific augmentation strategies. We evaluate our pre-training on semantic segmentation and leaf instance segmentation, two important tasks in our domain. The experimental results suggest that pre-training with domain-specific data paired with our data augmentation strategy leads to superior performance compared to commonly used pre-trainings. Furthermore, the pre-trained networks obtain similar performance to the fully supervised with less labeled data. | 翻訳日:2023-03-23 14:14:26 公開日:2023-03-22 |
# ベイズリスクに対する情報計測による低い境界 Lower Bound on the Bayesian Risk via Information Measure ( http://arxiv.org/abs/2303.12497v1 ) ライセンス: Link先を確認 | Amedeo Roberto Esposito, Adrien Vandenbroucque, Michael Gastpar | (参考訳) 本稿ではパラメータ推定に着目し,ベイズリスクを低く抑える新しい手法を提案する。
この方法は、r\'enyi の $\alpha$, $\varphi$-divergences や sibson の $\alpha$-mutual 情報を含む、事実上 \emph{any} 情報測度の使用を可能にする。
このアプローチは発散を測度の関数と見なし、測度の空間と関数の空間の間の双対性を利用する。
特に、マルコフの不等式を介して双対を上界にすることで、あらゆる情報測度でリスクを低くすることができることを示す。
したがって、ダイバージェンスが満足するデータ処理の不等式により、推定子非依存の不可能性結果を提供できる。
結果は、'Hide-and-Seek'問題を含む離散パラメータと連続パラメータの両方を含む関心の設定に適用され、最先端技術と比較される。
重要な観察は、サンプル数における下位境界の挙動が、情報尺度の選択によって影響を受けることである。
私たちはこれを、‘Hockey-Stick’のDiversergenceにインスパイアされた、すべての考慮された設定で最大の下位バウンドを提供するために、経験的に実証された新しい分散を導入することで活用します。
観察が民営化の対象となる場合、強いデータ処理の不等式によってより強い不可能性が得られる。
論文はまた、いくつかの一般化と代替方向についても論じている。 This paper focuses on parameter estimation and introduces a new method for lower bounding the Bayesian risk. The method allows for the use of virtually \emph{any} information measure, including R\'enyi's $\alpha$, $\varphi$-Divergences, and Sibson's $\alpha$-Mutual Information. The approach considers divergences as functionals of measures and exploits the duality between spaces of measures and spaces of functions. In particular, we show that one can lower bound the risk with any information measure by upper bounding its dual via Markov's inequality. We are thus able to provide estimator-independent impossibility results thanks to the Data-Processing Inequalities that divergences satisfy. The results are then applied to settings of interest involving both discrete and continuous parameters, including the ``Hide-and-Seek'' problem, and compared to the state-of-the-art techniques. An important observation is that the behaviour of the lower bound in the number of samples is influenced by the choice of the information measure. We leverage this by introducing a new divergence inspired by the ``Hockey-Stick'' Divergence, which is demonstrated empirically to provide the largest lower-bound across all considered settings. If the observations are subject to privatisation, stronger impossibility results can be obtained via Strong Data-Processing Inequalities. The paper also discusses some generalisations and alternative directions. | 翻訳日:2023-03-23 14:14:07 公開日:2023-03-22 |
# 結合した1次元量子気体の予熱 Prethermalization in coupled one-dimensional quantum gases ( http://arxiv.org/abs/2303.12490v1 ) ライセンス: Link先を確認 | Maciej {\L}ebek, Mi{\l}osz Panfil, Robert M.Konik | (参考訳) 密度-密度相互作用により互いに弱結合する1次元ボースガス管における定常状態の発達の問題を考察する。
我々はボルツマン衝突積分法を用いてこの発展を解析する。
衝突積分の先頭の順序が個々の気体中で単一粒子-ホール励起が生成される場合、ガスの状態は最初に非熱的固定点、すなわち予熱プラトーへと進化する。
この順序は、一対のチューブが異なる温度や異なる有効相互作用パラメータ、$\gamma$と等価でない場合に支配的である。
この非熱的予熱高原を特徴付け、この高原の存在を制御する準保存量と関連する一般化ギブスアンサンブルの両方を構成する。 We consider the problem of the development of steady states in one-dimensional Bose gas tubes that are weakly coupled to one another through a density-density interaction. We analyze this development through a Boltzmann collision integral approach. We argue that when the leading order of the collision integral, where single particle-hole excitations are created in individual gases, is dominant, the state of the gas evolves first to a non-thermal fixed point, i.e. a prethermalization plateau. This order is dominant when a pair of tubes are inequivalent with, say, different temperatures or different effective interaction parameters, $\gamma$. We characterize this non-thermal prethermalization plateau, constructing both the quasi-conserved quantities that control the existence of this plateau as well as the associated generalized Gibbs ensemble. | 翻訳日:2023-03-23 14:13:41 公開日:2023-03-22 |
# ワッサースタイン自動符号化MDP:多面的保証付き高効率蒸留RL政策の形式的検証 Wasserstein Auto-encoded MDPs: Formal Verification of Efficiently Distilled RL Policies with Many-sided Guarantees ( http://arxiv.org/abs/2303.12558v1 ) ライセンス: Link先を確認 | Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez | (参考訳) 深層強化学習(DRL)には多くの成功談があるが、安全クリティカルなシナリオにおけるこれらの高度な手法を通じて学んだ政策の大規模展開は、正式な保証の欠如によって妨げられている。
変分マルコフ決定過程(VAE-MDPs)は、任意のRLポリシーから正式な検証可能なコントローラを蒸留するための信頼性の高いフレームワークを提供する離散潜在空間モデルである。
関連する保証は、性能と安全性の満足度などの関連する実用的側面に対処するが、VAEアプローチは、主に遅延最適化をサポートするための抽象化や表現保証が欠如していることから、いくつかの学習欠陥(後方崩壊、遅い学習速度、低速なダイナミクス推定)に悩まされている。
本稿では, 元の政策を実行するエージェントの挙動と, 正式な保証が適用される蒸留政策との間の最適輸送のペナル化形式を最小化し, それらの問題を解決する潜在空間モデルであるWasserstein Auto-encoded MDP(WAE-MDP)を紹介する。
このアプローチは蒸留方針を学習しながらバイシミュレーションを保証し,抽象化と表現モデルの質を具体的に最適化する。
実験の結果, 蒸留法が10倍高速であるのに加えて, 潜水モデルの品質も高いことがわかった。
さらに, 潜在空間上での簡易な時間-損失検証アルゴリズムを用いて実験を行う。
このような簡単な検証手法が実現できたという事実は、その適用性を強調している。 Although deep reinforcement learning (DRL) has many success stories, the large-scale deployment of policies learned through these advanced techniques in safety-critical scenarios is hindered by their lack of formal guarantees. Variational Markov Decision Processes (VAE-MDPs) are discrete latent space models that provide a reliable framework for distilling formally verifiable controllers from any RL policy. While the related guarantees address relevant practical aspects such as the satisfaction of performance and safety properties, the VAE approach suffers from several learning flaws (posterior collapse, slow learning speed, poor dynamics estimates), primarily due to the absence of abstraction and representation guarantees to support latent optimization. We introduce the Wasserstein auto-encoded MDP (WAE-MDP), a latent space model that fixes those issues by minimizing a penalized form of the optimal transport between the behaviors of the agent executing the original policy and the distilled policy, for which the formal guarantees apply. Our approach yields bisimulation guarantees while learning the distilled policy, allowing concrete optimization of the abstraction and representation model quality. Our experiments show that, besides distilling policies up to 10 times faster, the latent model quality is indeed better in general. Moreover, we present experiments from a simple time-to-failure verification algorithm on the latent space. The fact that our approach enables such simple verification techniques highlights its applicability. | 翻訳日:2023-03-23 14:07:18 公開日:2023-03-22 |
# Q-HyViT:ブリッジブロックを用いたハイブリッドビジョントランスのポストトレーニング量子化 Q-HyViT: Post-Training Quantization for Hybrid Vision Transformer with Bridge Block Reconstruction ( http://arxiv.org/abs/2303.12557v1 ) ライセンス: Link先を確認 | Jemin Lee, Yongin Kwon, Jeman Park, Misun Yu, Hwanjun Song | (参考訳) 近年、視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのタスクで畳み込みニューラルネットワークモデルを置き換えている。
しかし、ViTの高い計算要求は、その広範な実装を妨げる。
この問題に対処するため、研究者たちは畳み込み層とトランスフォーマー層を結合し、線形複雑性に対する注意計算を最適化する効率的なハイブリッドトランスフォーマアーキテクチャを提案している。
さらに、計算要求を軽減する手段として、ポストトレーニング量子化が提案されている。
モバイルデバイス上での視覚変換器の加速を最大化するために,量子化技術と効率的なハイブリッドトランス構造を組み合わせることが重要である。
しかし、効率的なハイブリッドトランスに量子化を適用した以前の研究はない。
本稿では、まず、ViT の既存の PTQ 手法を効率的なハイブリッドトランスに適用する方法が、以下の課題により大幅に精度が低下することを発見した。
(i)非常にダイナミックな範囲
(ii)ゼロポイントオーバーフロー。
(iii)多様な正規化、及び
(iv)限定されたモデルパラメータ(<5m)
これらの課題を克服するために、既存のPTQ法(EasyQuant, FQ-ViT, PTQ4ViT)と比較して、有意なマージン(平均7.75%)で効率的なハイブリッドビジョン変換器(MobileViTv1, MobileViTv2)を量子化する新しいポストトレーニング量子化法を提案する。
コードをhttps://github.com/Q-HyViT.comでリリースする予定です。 Recently, vision transformers (ViT) have replaced convolutional neural network models in numerous tasks, including classification, detection, and segmentation. However, the high computational requirements of ViTs hinder their widespread implementation. To address this issue, researchers have proposed efficient hybrid transformer architectures that combine convolutional and transformer layers and optimize attention computation for linear complexity. Additionally, post-training quantization has been proposed as a means of mitigating computational demands. Combining quantization techniques and efficient hybrid transformer structures is crucial to maximize the acceleration of vision transformers on mobile devices. However, no prior investigation has applied quantization to efficient hybrid transformers. In this paper, at first, we discover that the straightforward manner to apply the existing PTQ methods for ViT to efficient hybrid transformers results in a drastic accuracy drop due to the following challenges: (i) highly dynamic ranges, (ii) zero-point overflow, (iii) diverse normalization, and (iv) limited model parameters (<5M). To overcome these challenges, we propose a new post-training quantization method, which is the first to quantize efficient hybrid vision transformers (MobileViTv1 and MobileViTv2) with a significant margin (an average improvement of 7.75%) compared to existing PTQ methods (EasyQuant, FQ-ViT, and PTQ4ViT). We plan to release our code at https://github.com/Q-HyViT. | 翻訳日:2023-03-23 14:06:50 公開日:2023-03-22 |
# 光学活性量子ドット分子におけるトンネル結合の磁気的チューニング Magnetic tuning of the tunnel coupling in an optically active quantum dot molecule ( http://arxiv.org/abs/2303.12552v1 ) ライセンス: Link先を確認 | Frederik Bopp, Charlotte Cullip, Christopher Thalacker, Michelle Lienhart, Johannes Schall, Nikolai Bart, Friedrich Sbresny, Katarina Boos, Sven Rodt, Dirk Reuter, Arne Ludwig, Andreas D. Wieck, Stephan Reitzenstein, Filippo Troiani, Guido Goldoni, Elisa Molinari, Kai M\"uller, and Jonathan J. Finley | (参考訳) 自己組織化された光学活性量子ドット分子(QDM)は、一重項スピン状態によって保護された量子ビットを生成できる。
これらの状態のクビットエネルギー分割はトンネル結合強度によって定義され、したがってポテンシャル地形によって決定され、成長中に固定される。
平面内磁場の適用により、量子ドット内のハイブリッド波動関数の閉じ込めが増加し、トンネル結合強度が低下する。
我々は結合強度を$(53.4\pm1.7)$ % でチューニングする。
この結合を微調整する能力は、ほぼ同じ性能の量子システムを必要とする量子ネットワークやコンピューティングアプリケーションに不可欠である。 Self-assembled optically active quantum dot molecules (QDMs) allow the creation of protected qubits via singlet-triplet spin states. The qubit energy splitting of these states is defined by the tunnel coupling strength and is, therefore, determined by the potential landscape and thus fixed during growth. Applying an in-plane magnetic field increases the confinement of the hybridized wave functions within the quantum dots, leading to a decrease of the tunnel coupling strength. We achieve a tuning of the coupling strength by $(53.4\pm1.7)$ %. The ability to fine-tune this coupling is essential for quantum network and computing applications that require quantum systems with near identical performance. | 翻訳日:2023-03-23 14:06:23 公開日:2023-03-22 |
# ポジショニングシフト下における画像解析アルゴリズムの展開 Deployment of Image Analysis Algorithms under Prevalence Shifts ( http://arxiv.org/abs/2303.12540v1 ) ライセンス: Link先を確認 | Patrick Godau and Piotr Kalinowski and Evangelia Christodoulou and Annika Reinke and Minu Tizabi and Luciana Ferrer and Paul J\"ager and Lena Maier-Hein | (参考訳) 領域ギャップは、医療画像解析のための機械学習(ML)ベースのソリューションの臨床翻訳において、最も関連する障害の一つである。
現在の研究は、新しいトレーニングパラダイムとネットワークアーキテクチャに焦点を当てているが、実際にデプロイされたアルゴリズムに対する頻度シフトの影響についてはほとんど注目されていない。
例えば、人工知能(AI)の民主化の文脈では、病気の頻度は時間や場所によって大きく異なるため、メソッドの開発/検証に使用されるデータのクラス周波数と、そのデプロイメント環境におけるクラス周波数の相違が非常に重要である。
私たちの貢献は2倍です。
まず, 有病率処理の欠如による潜在的重篤な影響を分析により実証する。
(i)不合理の程度
(二)決定しきい値の最適値からのずれ、及び
(iii) 開発と展開の頻度の差として、展開人口におけるニューラルネットワークのパフォーマンスを反映する検証指標の能力。
第2に,訓練された分類器を新たな環境に調整するために,アノテートされたデプロイメントデータを必要としない,推定デプロイメント頻度を用いた画像分類ワークフローを提案する。
30の医療分類タスクの多種多様なセットに基づく総合的な実験は、提案されたワークフローの利点として、より優れた分類器決定と信頼性の高い性能推定を生成する。 Domain gaps are among the most relevant roadblocks in the clinical translation of machine learning (ML)-based solutions for medical image analysis. While current research focuses on new training paradigms and network architectures, little attention is given to the specific effect of prevalence shifts on an algorithm deployed in practice. Such discrepancies between class frequencies in the data used for a method's development/validation and that in its deployment environment(s) are of great importance, for example in the context of artificial intelligence (AI) democratization, as disease prevalences may vary widely across time and location. Our contribution is twofold. First, we empirically demonstrate the potentially severe consequences of missing prevalence handling by analyzing (i) the extent of miscalibration, (ii) the deviation of the decision threshold from the optimum, and (iii) the ability of validation metrics to reflect neural network performance on the deployment population as a function of the discrepancy between development and deployment prevalence. Second, we propose a workflow for prevalence-aware image classification that uses estimated deployment prevalences to adjust a trained classifier to a new environment, without requiring additional annotated deployment data. Comprehensive experiments based on a diverse set of 30 medical classification tasks showcase the benefit of the proposed workflow in generating better classifier decisions and more reliable performance estimates compared to current practice. | 翻訳日:2023-03-23 14:06:14 公開日:2023-03-22 |
# ニューラルネットワークに基づくスペクトル推定と希少事象予測のための不正確な反復数値線形代数 Inexact iterative numerical linear algebra for neural network-based spectral estimation and rare-event prediction ( http://arxiv.org/abs/2303.12534v1 ) ライセンス: Link先を確認 | John Strahan, Spencer C. Guo, Chatipat Lorpaiboon, Aaron R. Dinner, Jonathan Weare | (参考訳) 複雑なシステムの力学を理解することは、多くの自由度があり、興味のある事象を記述する上で最も重要なものはしばしば明らかではない。
遷移作用素の先頭の固有関数は視覚化に有用であり、イベントの確率や平均時間(予測)といった統計計算の効率的な基盤を提供することができる。
ここでは、これらの固有関数(スペクトル推定)を計算し、有限間隔でサンプリングされた短い軌跡のデータセットから予測する不正確な反復線型代数法を開発する。
生体分子系の可視化と高次元モデルを容易にする低次元モデル上での手法を実証する。
強化学習における予測問題の意味について論じる。 Understanding dynamics in complex systems is challenging because there are many degrees of freedom, and those that are most important for describing events of interest are often not obvious. The leading eigenfunctions of the transition operator are useful for visualization, and they can provide an efficient basis for computing statistics such as the likelihood and average time of events (predictions). Here we develop inexact iterative linear algebra methods for computing these eigenfunctions (spectral estimation) and making predictions from a data set of short trajectories sampled at finite intervals. We demonstrate the methods on a low-dimensional model that facilitates visualization and a high-dimensional model of a biomolecular system. Implications for the prediction problem in reinforcement learning are discussed. | 翻訳日:2023-03-23 14:05:01 公開日:2023-03-22 |
# 画素別農業画像時系列分類:比較と変形可能なプロトタイプベースアプローチ Pixel-wise Agricultural Image Time Series Classification: Comparisons and a Deformable Prototype-based Approach ( http://arxiv.org/abs/2303.12533v1 ) ライセンス: Link先を確認 | Elliot Vincent, Jean Ponce, Mathieu Aubry | (参考訳) 衛星による地球観測の改善により、時間分解能と空間分解能が向上した。
このデータを農業モニタリングに活用することは、環境と経済の課題に対処する上で重要だ。
時間的データを用いた作物の分節化の現在の手法は、注釈付きデータに依存するか、監督の欠如を補うために非常に設計されている。
本稿では,衛星画像時系列(SITS)の教師付きおよび教師なし画素単位のセグメンテーションのためのデータセットと手法を提示・比較する。
また,K-meansやNearest Centroid Classifier (NCC)のような古典的プロトタイプベースの手法にスペクトル変形と時間シフトに不変性を加えるアプローチを導入する。
この単純かつ高度に解釈可能な手法は,教師付きおよび教師なしの2つの設定において有意義な結果をもたらすことを示し,近年の4つのsatデータセットにおける農業時系列の教師なし分類の技術を著しく改善した。 Improvements in Earth observation by satellites allow for imagery of ever higher temporal and spatial resolution. Leveraging this data for agricultural monitoring is key for addressing environmental and economic challenges. Current methods for crop segmentation using temporal data either rely on annotated data or are heavily engineered to compensate the lack of supervision. In this paper, we present and compare datasets and methods for both supervised and unsupervised pixel-wise segmentation of satellite image time series (SITS). We also introduce an approach to add invariance to spectral deformations and temporal shifts to classical prototype-based methods such as K-means and Nearest Centroid Classifier (NCC). We show this simple and highly interpretable method leads to meaningful results in both the supervised and unsupervised settings and significantly improves the state of the art for unsupervised classification of agricultural time series on four recent SITS datasets. | 翻訳日:2023-03-23 14:04:49 公開日:2023-03-22 |
# 超電導回路における短パス非断熱幾何学ゲートの試作 Experimental Implementation of Short-Path Non-adiabatic Geometric Gates in a Superconducting Circuit ( http://arxiv.org/abs/2303.12531v1 ) ライセンス: Link先を確認 | Xin-Xin Yang, Liang-Liang Guo, Hai-Feng Zhang, Lei Du, Chi Zhang, Hao-Ran Tao, Yong Chen, Peng Duan, Zhi-Long Jia, Wei-Cheng Kong and Guo-Ping Guo | (参考訳) 非断熱幾何量子計算(ngqc)はノイズ耐性量子制御に多くの注目を集めている。
しかし, 従来のNGQCの実装では, 超伝導量子プロセッサ上での2倍の短い進化経路を持つ普遍的短経路非断熱幾何ゲートセット (SPNGQC) を実験的に実現するために, 不整合誤差に対してより脆弱な長い進化経路を必要とする。
量子プロセストモグラフィーとランダム化ベンチマーク法の両方を用いて、平均1量子ゲート忠実度99.86%、2量子ゲート忠実度97.9%を報告した。
さらに,特定のパラメータ空間におけるラビ周波数誤差に対する単一量子ビットsp-ngqcゲートのロバスト性は,その性能を動的ゲートや以前のngqcゲートと比較することにより示される。 The non-adiabatic geometric quantum computation (NGQC) has attracted a lot of attention for noise-resilient quantum control. However, previous implementations of NGQC require long evolution paths that make them more vulnerable to incoherent errors than their dynamical counterparts.In this work, we experimentally realize a universal short-path non-adiabatic geometric gate set (SPNGQC) with a 2-times shorter evolution path on a superconducting quantum processor. Characterizing with both quantum process tomography and randomized benchmarking methods, we report an average single-qubit gate fidelity of 99.86% and a two-qubit gate fidelity of 97.9%. Additionally, we demonstrate superior robustness of single-qubit SP-NGQC gate to Rabi frequency error in some certain parameter space by comparing their performance to those of the dynamical gates and the former NGQC gates. | 翻訳日:2023-03-23 14:04:32 公開日:2023-03-22 |
# OcTr:3次元物体検出のためのOcree-based Transformer OcTr: Octree-based Transformer for 3D Object Detection ( http://arxiv.org/abs/2303.12621v1 ) ライセンス: Link先を確認 | Chao Zhou, Yanan Zhang, Jiaxin Chen, Di Huang | (参考訳) LiDARベースの3Dオブジェクト検出の鍵となる課題は、特に遠方または隠蔽されたオブジェクトに対して、大規模な3Dシーンから十分な特徴を捉えることである。
トランスフォーマーによる長いシーケンスモデリング機能による最近の取り組みは、不適切な受容場や粗い全体的相関に苦しむことなく、精度と効率のバランスを適切に取れなかった。
本稿では,OcTrと呼ばれるOcreeベースのトランスフォーマーを提案し,この問題に対処する。
まず、階層的特徴ピラミッド上で動的octreeを構築し、トップレベルで自己アテンションを行い、その後再帰的にオクタントに制限されたレベルまで伝播し、制御下の計算複雑性を維持しながら、リッチな大域的コンテキストを粗い方法でキャプチャする。
さらに,前景知覚の強化のために,意味認識位置埋め込みと注意マスクを組み合わせたハイブリッド位置埋め込みを提案し,意味的および幾何学的手がかりを十分に活用する。
Waymo Open DatasetとKITTI Datasetで大規模な実験が行われ、OcTrは新たに最先端の結果に達した。 A key challenge for LiDAR-based 3D object detection is to capture sufficient features from large scale 3D scenes especially for distant or/and occluded objects. Albeit recent efforts made by Transformers with the long sequence modeling capability, they fail to properly balance the accuracy and efficiency, suffering from inadequate receptive fields or coarse-grained holistic correlations. In this paper, we propose an Octree-based Transformer, named OcTr, to address this issue. It first constructs a dynamic octree on the hierarchical feature pyramid through conducting self-attention on the top level and then recursively propagates to the level below restricted by the octants, which captures rich global context in a coarse-to-fine manner while maintaining the computational complexity under control. Furthermore, for enhanced foreground perception, we propose a hybrid positional embedding, composed of the semantic-aware positional embedding and attention mask, to fully exploit semantic and geometry clues. Extensive experiments are conducted on the Waymo Open Dataset and KITTI Dataset, and OcTr reaches newly state-of-the-art results. | 翻訳日:2023-03-23 13:58:28 公開日:2023-03-22 |
# aigc画像に対する知覚的品質評価探索 A Perceptual Quality Assessment Exploration for AIGC Images ( http://arxiv.org/abs/2303.12618v1 ) ライセンス: Link先を確認 | Zicheng Zhang, Chunyi Li, Wei Sun, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai | (参考訳) \underline{AI} \underline{G}enerated \underline{C}ontent (\textbf{AIGC}) は、コンテンツ作成における深層学習の効率の向上によって広く注目を集めている。
AIGCは人工知能技術の助けを借りて作成され、AI生成画像(AGI)が社会に多大な影響を与え、エンターテイメント、教育、ソーシャルメディアなど様々な分野に適用された様々なタイプのコンテンツを含んでいる。
しかし、ハードウェアの限界と技術能力により、aigc画像(agis)の品質は異なり、実用前に精巧化とフィルタリングが必要となる。
そのため,AGIの質を評価する客観的モデルの開発が急務である。
残念ながら、AGIの知覚的品質評価を特に調査する研究は行われていない。
そこで本稿では,AGIの品質評価のための技術問題,AIアーティファクト,不自然さ,不明瞭さ,美学などの主要な評価側面について論じる。
次に,拡散モデルから生成される1080個のAGIからなる最初の知覚的AGI品質評価データベース AGIQA-1K を提案する。
AGIの品質ラベルを収集するために、よく組織化された主観的な実験が続く。
最後に,現在の画像品質評価(IQA)モデルの性能を評価するためのベンチマーク実験を行った。 \underline{AI} \underline{G}enerated \underline{C}ontent (\textbf{AIGC}) has gained widespread attention with the increasing efficiency of deep learning in content creation. AIGC, created with the assistance of artificial intelligence technology, includes various forms of content, among which the AI-generated images (AGIs) have brought significant impact to society and have been applied to various fields such as entertainment, education, social media, etc. However, due to hardware limitations and technical proficiency, the quality of AIGC images (AGIs) varies, necessitating refinement and filtering before practical use. Consequently, there is an urgent need for developing objective models to assess the quality of AGIs. Unfortunately, no research has been carried out to investigate the perceptual quality assessment for AGIs specifically. Therefore, in this paper, we first discuss the major evaluation aspects such as technical issues, AI artifacts, unnaturalness, discrepancy, and aesthetics for AGI quality assessment. Then we present the first perceptual AGI quality assessment database, AGIQA-1K, which consists of 1,080 AGIs generated from diffusion models. A well-organized subjective experiment is followed to collect the quality labels of the AGIs. Finally, we conduct a benchmark experiment to evaluate the performance of current image quality assessment (IQA) models. | 翻訳日:2023-03-23 13:58:08 公開日:2023-03-22 |
# 三重コントラストヘッドを用いた多視点特徴抽出 Multi-view Feature Extraction based on Triple Contrastive Heads ( http://arxiv.org/abs/2303.12615v1 ) ライセンス: Link先を確認 | Hongjie Zhang | (参考訳) マルチビュー特徴抽出は,高次元多視点データにおける次元性の問題を軽減するための効率的な手法である。
自己教師あり学習法であるコントラスト学習(cl)が近年注目されている。
本研究では,サンプル,リカバリ,特徴レベルのコントラスト損失を組み合わせた3重コントラストヘッドを用いた,情報ボトルネック原理に準拠した十分かつ最小のサブスペース識別情報を抽出するための多視点特徴抽出手法を提案する。
MFETCHでは,部分空間識別情報の最小化を実現するために,一貫性情報の冗長情報を除去する特徴レベルのコントラスト損失を構築する。
さらに,mfetchでは,サブスペース識別情報の十分性を達成するために,視点特異的な識別情報をキャプチャし,複数視点特徴抽出に強力な利点を与えることを示す数値実験を行った。 Multi-view feature extraction is an efficient approach for alleviating the issue of dimensionality in highdimensional multi-view data. Contrastive learning (CL), which is a popular self-supervised learning method, has recently attracted considerable attention. In this study, we propose a novel multi-view feature extraction method based on triple contrastive heads, which combines the sample-, recovery- , and feature-level contrastive losses to extract the sufficient yet minimal subspace discriminative information in compliance with information bottleneck principle. In MFETCH, we construct the feature-level contrastive loss, which removes the redundent information in the consistency information to achieve the minimality of the subspace discriminative information. Moreover, the recovery-level contrastive loss is also constructed in MFETCH, which captures the view-specific discriminative information to achieve the sufficiency of the subspace discriminative information.The numerical experiments demonstrate that the proposed method offers a strong advantage for multi-view feature extraction. | 翻訳日:2023-03-23 13:57:48 公開日:2023-03-22 |
# 量子エミッタ空洞系におけるスイングアップダイナミクス Swing-up dynamics in quantum emitter cavity systems ( http://arxiv.org/abs/2303.12604v1 ) ライセンス: Link先を確認 | Nils Heinisch, Nikolas K\"ocher, David Bauch, Stefan Schumacher | (参考訳) SUPERスキーム (Swing-UP of the quantum EmitteR population) では、量子エミッタの励起は2つの非共鳴赤波長レーザーパルスによって達成される。
これにより、複雑なレーザーストレイ光抑制や注意深いスペクトルフィルタリングを必要とせずに高品質の単一光子を生成することができる。
本研究では、この有望な手法を共鳴光共振器内の量子エミッタ、特に半導体量子ドットに拡張する。
スーパースキームの顕著な利点は、励起サイクル中に光子放出を抑制することにより量子エミッターの再励起をなくすことである。
これにより、ほぼ理想的な単一光子純度が得られ、高品質のキャビティにおいて量子ドットで生成された光子の質を制限する主な要因を克服する。
さらに, 退化光子対のキャビティ媒介性ビエクシトン放出に対して, スーパースキームは発振光子対の偏光絡みの非常に高い値で, ほぼ完璧なビエクシトン初期化をもたらすことがわかった。 In the SUPER scheme (Swing-UP of the quantum EmitteR population), excitation of a quantum emitter is achieved with two off-resonant, red-detuned laser pulses. This allows generation of high-quality single photons without the need of complex laser stray light suppression or careful spectral filtering. In the present work, we extend this promising method to quantum emitters, specifically semiconductor quantum dots, inside a resonant optical cavity. A significant advantage of the Super scheme is identified in that it eliminates re-excitation of the quantum emitter by suppressing photon emission during the excitation cycle. This, in turn, leads to almost ideal single photon purity, overcoming a major factor typically limiting the quality of photons generated with quantum dots in high quality cavities. We further find that for cavity-mediated biexciton emission of degenerate photon pairs the Super scheme leads to near-perfect biexciton initialization with very high values of polarization entanglement of the emitted photon pairs. | 翻訳日:2023-03-23 13:57:30 公開日:2023-03-22 |
# 量子アニーリングによるポートフォリオ最適化の実世界テスト A real world test of Portfolio Optimization with Quantum Annealing ( http://arxiv.org/abs/2303.12601v1 ) ライセンス: Link先を確認 | Wolfgang Sakuler, Johannes M. Oberreuter, Riccardo Aiolfi, Luca Asproni, Branislav Roman, J\"urgen Schiefer | (参考訳) 本稿では,Quadratic Unconstrained Binary Optimization (QUBO) を用いたポートフォリオ最適化実験について述べる。
私たちが使用するデータセットは、古典的ソリューションが現在本番環境にデプロイされ、使用されている現実世界の問題から取り出されています。
本稿では,RBI(Raiffeisen Bank International)とReply(Reply)の協力により,量子アニールと古典的手法を組み合わせた2つのD-Waveハイブリッドソルバと,純粋に古典的なアルゴリズムを用いて,QUBOの定式化を導出する。
特に、ポートフォリオの分散が特定のしきい値以下であることが要求される制約の実装に焦点が当てられ、Isingモデルでの表現は単純ではない。
正確な古典的戦略によって得られる大域的最適値と整合して満足な結果が得られる。
しかし,最適化にはquboパラメータのチューニングが不可欠であるため,自動チューニングが可能なハイブリッド手法を検討する。 In this note, we describe an experiment on portfolio optimization using the Quadratic Unconstrained Binary Optimization (QUBO) formulation. The dataset we use is taken from a real-world problem for which a classical solution is currently deployed and used in production. In this work, carried out in a collaboration between the Raiffeisen Bank International (RBI) and Reply, we derive a QUBO formulation, which we solve using various methods: two D-Wave hybrid solvers, that combine the employment of a quantum annealer together with classical methods, and a purely classical algorithm. Particular focus is given to the implementation of the constraint that requires the resulting portfolio's variance to be below a specified threshold, whose representation in an Ising model is not straightforward. We find satisfactory results, consistent with the global optimum obtained by the exact classical strategy. However, since the tuning of QUBO parameters is crucial for the optimization, we investigate a hybrid method that allows for automatic tuning. | 翻訳日:2023-03-23 13:57:12 公開日:2023-03-22 |
# バックドアはメンバーシップ推論攻撃を支援するか? Do Backdoors Assist Membership Inference Attacks? ( http://arxiv.org/abs/2303.12589v1 ) ライセンス: Link先を確認 | Yumeki Goto and Nami Ashizawa and Toshiki Shibahara and Naoto Yanai | (参考訳) 敵が機械学習モデルに毒物サンプルを提供すると、モデルのトレーニングにサンプルが含まれているかどうかを推測する会員推論攻撃などのプライバシー漏洩が、サンプルを外れ値に移動させることで有効になる。
しかし、毒物による推測精度が低下するため、攻撃を検知できる。
本稿では,敵の期待出力をトリガサンプルに返すバックドアに基づく,新たなメンバシップ推論攻撃である \textit{backdoor-assisted membership inference attack}について述べる。
学術ベンチマークデータセットを用いた実験により,3つの重要な洞察を得た。
まず,バックドア支援型メンバシップ推論攻撃が失敗していることを示す。
第2に,失敗の原因を理解するために損失分布を分析すると,バックドアはトレーニングサンプルと非トレーニングサンプルの損失分布を分離できないことがわかった。
言い換えれば、バックドアはクリーンサンプルの分布に影響を与えない。
第3に、毒とトリガーが異なる分布のニューロンを活性化することを示す。
特に、バックドアは、汚染サンプルとは対照的に、清潔なサンプルを不適格にする。
その結果,バックドアがメンバーシップ推論を補助できないことが確認できた。 When an adversary provides poison samples to a machine learning model, privacy leakage, such as membership inference attacks that infer whether a sample was included in the training of the model, becomes effective by moving the sample to an outlier. However, the attacks can be detected because inference accuracy deteriorates due to poison samples. In this paper, we discuss a \textit{backdoor-assisted membership inference attack}, a novel membership inference attack based on backdoors that return the adversary's expected output for a triggered sample. We found three crucial insights through experiments with an academic benchmark dataset. We first demonstrate that the backdoor-assisted membership inference attack is unsuccessful. Second, when we analyzed loss distributions to understand the reason for the unsuccessful results, we found that backdoors cannot separate loss distributions of training and non-training samples. In other words, backdoors cannot affect the distribution of clean samples. Third, we also show that poison and triggered samples activate neurons of different distributions. Specifically, backdoors make any clean sample an inlier, contrary to poisoning samples. As a result, we confirm that backdoors cannot assist membership inference. | 翻訳日:2023-03-23 13:56:55 公開日:2023-03-22 |
# AfroDigits: アフリカの言語のためのコミュニティ駆動のスポークディジデータセット AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages ( http://arxiv.org/abs/2303.12582v1 ) ライセンス: Link先を確認 | Chris Chinenye Emezue, Sanchit Gandhi, Lewis Tunstall, Abubakar Abid, Joshua Meyer, Quentin Lhoest, Pete Allen, Patrick Von Platen, Douwe Kiela, Yacine Jernite, Julien Chaumond, Merve Noyan, Omar Sanseviero | (参考訳) 音声技術の進歩は目覚ましいものだったが、アフリカ語のコーポラが乏しいため、アフリカ語への統合は限られている。
この問題に対処するために、アフリカ言語のための最小限のコミュニティ主導の音声桁データセットであるAfroDigitsを紹介します。
AfroDigitsの実践的応用の実証として、Wav2Vec2.0-LargeとXLS-Rモデルを用いて、6つのアフリカの言語(Igbo(ibo)、Yoruba(yor)、Rundi(run)、Oshiwambo(kua)、Shona(sna)、Oromo(gax))でオーディオ桁分類実験を行う。
実験結果から,アフリカ発声コーパスの微調整における混合効果が示唆された。
afrodigitsは、アフリカ語で最初に公開された音声デジットデータセットであり、特に、電話番号の認識や道路番号といった、afro中心の音声アプリケーションへの道を開くものだと考えています。
データセットとプラットフォームは、https://huggingface.co/datasets/chrisjay/crowd-speech-africaとhttps://huggingface.co/spaces/chrisjay/afro-speechで公開しています。 The advancement of speech technologies has been remarkable, yet its integration with African languages remains limited due to the scarcity of African speech corpora. To address this issue, we present AfroDigits, a minimalist, community-driven dataset of spoken digits for African languages, currently covering 38 African languages. As a demonstration of the practical applications of AfroDigits, we conduct audio digit classification experiments on six African languages [Igbo (ibo), Yoruba (yor), Rundi (run), Oshiwambo (kua), Shona (sna), and Oromo (gax)] using the Wav2Vec2.0-Large and XLS-R models. Our experiments reveal a useful insight on the effect of mixing African speech corpora during finetuning. AfroDigits is the first published audio digit dataset for African languages and we believe it will, among other things, pave the way for Afro-centric speech applications such as the recognition of telephone numbers, and street numbers. We release the dataset and platform publicly at https://huggingface.co/datasets/chrisjay/crowd-speech-africa and https://huggingface.co/spaces/chrisjay/afro-speech respectively. | 翻訳日:2023-03-23 13:56:39 公開日:2023-03-22 |
# ニューロシンボリック推論ショートカット:緩和戦略とその限界 Neuro-Symbolic Reasoning Shortcuts: Mitigation Strategies and their Limitations ( http://arxiv.org/abs/2303.12578v1 ) ライセンス: Link先を確認 | Emanuele Marconato, Stefano Teso, Andrea Passerini | (参考訳) ニューロシンボリック予測器は、サブシンボリック入力から高レベル概念へのマッピングを学び、その中間表現に対して(確率的に)論理的推論を行う。
この設定は、象徴的な事前知識との一貫性という観点で明確な利点を提供しており、しばしばその点において解釈可能性の利点をもたらすと信じられている。
しかし,近年,意図しないセマンティクスによる概念の活用,流通性能の低下,解釈可能性の向上などにより,予測が高精度となるショートカットの推論の影響が示された。
本稿では、推論ショートカットと損失関数の最適性の間に公式なリンクを確立し、推論ショートカットが発生する可能性のある状況を特定する。
そこで本研究では,復興や概念監督といった自然緩和戦略の限界について論じる。 Neuro-symbolic predictors learn a mapping from sub-symbolic inputs to higher-level concepts and then carry out (probabilistic) logical inference on this intermediate representation. This setup offers clear advantages in terms of consistency to symbolic prior knowledge, and is often believed to provide interpretability benefits in that - by virtue of complying with the knowledge - the learned concepts can be better understood by human stakeholders. However, it was recently shown that this setup is affected by reasoning shortcuts whereby predictions attain high accuracy by leveraging concepts with unintended semantics, yielding poor out-of-distribution performance and compromising interpretability. In this short paper, we establish a formal link between reasoning shortcuts and the optima of the loss function, and identify situations in which reasoning shortcuts can arise. Based on this, we discuss limitations of natural mitigation strategies such as reconstruction and concept supervision. | 翻訳日:2023-03-23 13:56:12 公開日:2023-03-22 |
# RepoCoder: 反復検索と生成によるリポジトリレベルのコード補完 RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation ( http://arxiv.org/abs/2303.12570v1 ) ライセンス: Link先を確認 | Fengji Zhang, Bei Chen, Yue Zhang, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen | (参考訳) リポジトリレベルのコード補完のタスクは、リポジトリのより広いコンテキストに基づいて未完成のコードを書き続けることです。
自動化されたコード補完ツールでは、異なるファイルに散在する有用な情報を利用するのは難しい。
この課題に対処するためのシンプルで汎用的で効果的なフレームワークであるRepoCoderを提案する。
類似度ベースのレトリバーと事前学習されたコード言語モデルを組み合わせて、リポジトリレベルのコード補完プロセスを合理化し、コード補完にリポジトリレベルの情報の有効利用を可能にし、様々なレベルの粒度でコードを生成する機能を提供する。
さらに、RepoCoderは、検索コンテキストと目的とする完了目標とのギャップを埋める、新しい反復検索生成パラダイムを利用する。
また、ライン、API呼び出し、ファンクションボディ補完シナリオをカバーする最新かつ高品質な現実世界リポジトリで構成される新しいベンチマークRepoEvalを提案する。
コードレトリバーとジェネレータの様々な組み合わせを用いて,レポコーダの性能をテストする。
実験の結果,レポコーダはゼロショットコード補完ベースラインを全設定で10%以上向上させ,バニラ検索によるコード補完アプローチを一貫して上回っていることがわかった。
さらに,RepoCoderの有効性を総合分析により検証し,今後の研究に有用な知見を提供する。 The task of repository-level code completion is to continue writing the unfinished code based on a broader context of the repository. While for automated code completion tools, it is difficult to utilize the useful information scattered in different files. We propose RepoCoder, a simple, generic, and effective framework to address the challenge. It streamlines the repository-level code completion process by incorporating a similarity-based retriever and a pre-trained code language model, which allows for the effective utilization of repository-level information for code completion and grants the ability to generate code at various levels of granularity. Furthermore, RepoCoder utilizes a novel iterative retrieval-generation paradigm that bridges the gap between retrieval context and the intended completion target. We also propose a new benchmark RepoEval, which consists of the latest and high-quality real-world repositories covering line, API invocation, and function body completion scenarios. We test the performance of RepoCoder by using various combinations of code retrievers and generators. Experimental results indicate that RepoCoder significantly improves the zero-shot code completion baseline by over 10% in all settings and consistently outperforms the vanilla retrieval-augmented code completion approach. Furthermore, we validate the effectiveness of RepoCoder through comprehensive analysis, providing valuable insights for future research. | 翻訳日:2023-03-23 13:55:57 公開日:2023-03-22 |
# RaBit: トポロジ一貫性データセットを用いた3次元二足歩行文字のパラメトリックモデリング RaBit: Parametric Modeling of 3D Biped Cartoon Characters with a Topological-consistent Dataset ( http://arxiv.org/abs/2303.12564v1 ) ライセンス: Link先を確認 | Zhongjin Luo, Shengcai Cai, Jinguo Dong, Ruibo Ming, Liangdong Qiu, Xiaohang Zhan, Xiaoguang Han | (参考訳) 視覚的に可視な3D文字を効率的に作成する支援は、コンピュータビジョンとコンピュータグラフィックスの基本的な研究課題である。
最近の学習に基づくアプローチは、3d現実の人間のデジタル化の領域において前例のない精度と効率を達成している。
しかし、以前の作品ではゲームや撮影にも大きな需要がある3Dバイペッドの漫画キャラクターのモデリングに焦点を当てていなかった。
本稿では,3D2Dアニメキャラクタの最初の大規模データセットである3DBiCarと,対応するパラメトリックモデルであるRaBitを紹介する。
私たちのデータセットには1500のトポロジ的に一貫性のある高品質な3Dテクスチャモデルが含まれています。
このデータに基づいて、RaBitはSMPLのような線形ブレンド形状モデルとStyleGANベースのニューラルUVテクスチャ生成器で設計され、形状、ポーズ、テクスチャを同時に表現する。
3DBiCarとRaBitの実用性を実証するため, シングルビュー再構成, スケッチベースモデリング, 3Dアニメーションアニメーションなど, 様々な応用が行われている。
単一視点の再構成設定では、入力画像から出力されたuvベースのテクスチャマップへの直接的なグローバルマッピングは、いくつかのローカル部分(例えば鼻、耳)の詳細な外観を失う傾向がある。
これにより、すべての重要な地域を知覚する部分感性テクスチャ推論器が採用される。
さらに,本手法の有効性を定量的および定量的に実証する実験を行った。
3DBiCarとRaBitは gaplab.cuhk.edu.cn/projects/RaBitで利用可能である。 Assisting people in efficiently producing visually plausible 3D characters has always been a fundamental research topic in computer vision and computer graphics. Recent learning-based approaches have achieved unprecedented accuracy and efficiency in the area of 3D real human digitization. However, none of the prior works focus on modeling 3D biped cartoon characters, which are also in great demand in gaming and filming. In this paper, we introduce 3DBiCar, the first large-scale dataset of 3D biped cartoon characters, and RaBit, the corresponding parametric model. Our dataset contains 1,500 topologically consistent high-quality 3D textured models which are manually crafted by professional artists. Built upon the data, RaBit is thus designed with a SMPL-like linear blend shape model and a StyleGAN-based neural UV-texture generator, simultaneously expressing the shape, pose, and texture. To demonstrate the practicality of 3DBiCar and RaBit, various applications are conducted, including single-view reconstruction, sketch-based modeling, and 3D cartoon animation. For the single-view reconstruction setting, we find a straightforward global mapping from input images to the output UV-based texture maps tends to lose detailed appearances of some local parts (e.g., nose, ears). Thus, a part-sensitive texture reasoner is adopted to make all important local areas perceived. Experiments further demonstrate the effectiveness of our method both qualitatively and quantitatively. 3DBiCar and RaBit are available at gaplab.cuhk.edu.cn/projects/RaBit. | 翻訳日:2023-03-23 13:55:34 公開日:2023-03-22 |
# 噂のスタンス分類におけるターゲット引数の役割評価 Evaluating the Role of Target Arguments in Rumour Stance Classification ( http://arxiv.org/abs/2303.12665v1 ) ライセンス: Link先を確認 | Yue Li and Carolina Scarton | (参考訳) 会話スレッドを考えると、スタンス分類は、特定のターゲットに対する応答の意見(例えば、同意または同意)を識別することを目的としている。
スタンスの対象は、感情分析と異なる主要な要因の1つとして、このタスクにおいて不可欠な要素であることが期待されている。
しかし,近年の研究では,標的発見モデルの方が目標認識モデルより優れており,姿勢予測には有効ではないことが示唆されている。
本稿では,この現象をソーシャルメディア上での噂位置分類(RSC)に再検討する。
実験データにおける敵攻撃を提案し, モデルの堅牢性を評価し, モデル性能におけるデータの役割を評価する。
その結果、会話スレッド全体を使用するアプローチを含む最先端のモデルは、表面的な信号に過剰に依存することがわかった。
我々の仮説は、RSCにおける標的非依存直接応答の自然発生(例:「これは偽」または単に「フェイク」)は、標的発見モデルの印象的な性能をもたらし、訓練中にターゲットインスタンスがノイズとして扱われるリスクを浮き彫りにする。 Considering a conversation thread, stance classification aims to identify the opinion (e.g. agree or disagree) of replies towards a given target. The target of the stance is expected to be an essential component in this task, being one of the main factors that make it different from sentiment analysis. However, a recent study shows that a target-oblivious model outperforms target-aware models, suggesting that targets are not useful when predicting stance. This paper re-examines this phenomenon for rumour stance classification (RSC) on social media, where a target is a rumour story implied by the source tweet in the conversation. We propose adversarial attacks in the test data, aiming to assess the models robustness and evaluate the role of the data in the models performance. Results show that state-of-the-art models, including approaches that use the entire conversation thread, overly relying on superficial signals. Our hypothesis is that the naturally high occurrence of target-independent direct replies in RSC (e.g. "this is fake" or just "fake") results in the impressive performance of target-oblivious models, highlighting the risk of target instances being treated as noise during training. | 翻訳日:2023-03-23 13:49:00 公開日:2023-03-22 |
# 量子化によるポストホック解釈 Posthoc Interpretation via Quantization ( http://arxiv.org/abs/2303.12659v1 ) ライセンス: Link先を確認 | Cem Subakan, Francesco Paissan, Mirco Ravanelli | (参考訳) 本稿では,訓練された分類器による決定を解釈するために,「量子化によるポストホック解釈(piq)」と呼ばれる新しい手法を提案する。
本手法はベクトル量子化を用いて分類器の表現を離散クラス固有の潜在空間に変換する。
クラス固有のコードブックは、インタプリタが予測を行うために、分類器が関連すると思われる入力データの一部に集中するよう強制するボトルネックとして機能する。
本手法を定量的・定性的な研究を通して評価し,piqは,文献の他の解釈手法と比較して,ユーザ研究の参加者が理解しやすい解釈を生成できることを見出した。 In this paper, we introduce a new approach, called "Posthoc Interpretation via Quantization (PIQ)", for interpreting decisions made by trained classifiers. Our method utilizes vector quantization to transform the representations of a classifier into a discrete, class-specific latent space. The class-specific codebooks act as a bottleneck that forces the interpreter to focus on the parts of the input data deemed relevant by the classifier for making a prediction. We evaluated our method through quantitative and qualitative studies and found that PIQ generates interpretations that are more easily understood by participants to our user studies when compared to several other interpretation methods in the literature. | 翻訳日:2023-03-23 13:48:38 公開日:2023-03-22 |
# 深いハッシュに基づく検索のための対向ロバスト性の信頼性と有効性評価 Reliable and Efficient Evaluation of Adversarial Robustness for Deep Hashing-Based Retrieval ( http://arxiv.org/abs/2303.12658v1 ) ライセンス: Link先を確認 | Xunguang Wang, Jiawang Bai, Xinyue Xu, Xiaomeng Li | (参考訳) ディープハッシュは、その効率性と有効性から、大規模な画像検索に広く応用されている。
近年, 深部ハッシュモデルの脆弱性を明らかにするために, 敵攻撃がいくつか報告されている。
しかし、既存の攻撃方法は、元のサンプル間のセマンティックな関係を弱めたり、深層ニューラルネットワークでこれらの関係を学習するのに多くの時間を費やすため、性能低下や非効率に悩まされる。
本稿では,PgAと呼ばれる新しいファロス誘導攻撃を提案し,深層ハッシュネットワークの対角的堅牢性を確実かつ効率的に評価する。
具体的には,良性画像の意味を表すファロス符号を設計し,意味的に関連のあるサンプルとの類似性と無関係な画像との類似性を保持する。
簡単な計算式によってファロス符号を素早く計算できることが証明されている。
これにより、PgAは、逆例のハッシュコードとファロスコードとの類似性を最大化することにより、ディープハッシュベースの検索に対する信頼性が高く効率的な攻撃を行うことができる。
ベンチマークデータセットに関する広範囲な実験により、提案アルゴリズムが攻撃強度と速度の両方において、先行する最先端技術を上回ることを検証した。 Deep hashing has been extensively applied to massive image retrieval due to its efficiency and effectiveness. Recently, several adversarial attacks have been presented to reveal the vulnerability of deep hashing models against adversarial examples. However, existing attack methods suffer from degraded performance or inefficiency because they underutilize the semantic relations between original samples or spend a lot of time learning these relations with a deep neural network. In this paper, we propose a novel Pharos-guided Attack, dubbed PgA, to evaluate the adversarial robustness of deep hashing networks reliably and efficiently. Specifically, we design pharos code to represent the semantics of the benign image, which preserves the similarity to semantically relevant samples and dissimilarity to irrelevant ones. It is proven that we can quickly calculate the pharos code via a simple math formula. Accordingly, PgA can directly conduct a reliable and efficient attack on deep hashing-based retrieval by maximizing the similarity between the hash code of the adversarial example and the pharos code. Extensive experiments on the benchmark datasets verify that the proposed algorithm outperforms the prior state-of-the-arts in both attack strength and speed. | 翻訳日:2023-03-23 13:48:25 公開日:2023-03-22 |
# MI-SegNet:unseen Domain Generalizationのための相互情報に基づくUSセグメンテーション MI-SegNet: Mutual Information-Based US Segmentation for Unseen Domain Generalization ( http://arxiv.org/abs/2303.12649v1 ) ライセンス: Link先を確認 | Yuan Bi, Zhongliang Jiang, Ricarda Clarenbach, Reza Ghotbi, Angelos Karlas, Nassir Navab | (参考訳) ドメイン間の学習に基づく医用画像分割の一般化は、現在、領域シフトによる性能低下、特に超音波(us)イメージングによって制限されている。
アメリカの画像の品質は、音像、機械、設定によって異なる、注意深く調整された音響パラメータに大きく依存している。
ドメイン間のUS画像の一般化性を改善するために,解剖学的特徴表現とドメイン特徴表現を明確に分離する新たな相互情報(MI)ベースのフレームワークMI-SegNetを提案する。
2つのエンコーダを使用して、絡み合いの関連特徴を抽出する。
セグメンテーションはその予測に解剖学的特徴マップのみを使用する。
エンコーダに有意義な特徴表現を学習させるために、トレーニング中にクロスリコンストラクション法が使用される。
ドメインまたは解剖学に特有の変換は、それぞれの特徴抽出タスクでエンコーダを導くために適用される。
さらに、両方の機能マップに存在するすべてのmiは、別々の機能空間をさらに促進するために罰せられる。
パラメータやマシンの異なる複数のデータセットに対して提案したドメイン独立セグメンテーション手法の一般化可能性を検証する。
さらに,提案するMI-SegNetを,最先端ネットワークと比較し,事前学習モデルとして有効であることを示す。 Generalization capabilities of learning-based medical image segmentation across domains are currently limited by the performance degradation caused by the domain shift, particularly for ultrasound (US) imaging. The quality of US images heavily relies on carefully tuned acoustic parameters, which vary across sonographers, machines, and settings. To improve the generalizability on US images across domains, we propose MI-SegNet, a novel mutual information (MI) based framework to explicitly disentangle the anatomical and domain feature representations; therefore, robust domain-independent segmentation can be expected. Two encoders are employed to extract the relevant features for the disentanglement. The segmentation only uses the anatomical feature map for its prediction. In order to force the encoders to learn meaningful feature representations a cross-reconstruction method is used during training. Transformations, specific to either domain or anatomy are applied to guide the encoders in their respective feature extraction task. Additionally, any MI present in both feature maps is punished to further promote separate feature spaces. We validate the generalizability of the proposed domain-independent segmentation approach on several datasets with varying parameters and machines. Furthermore, we demonstrate the effectiveness of the proposed MI-SegNet serving as a pre-trained model by comparing it with state-of-the-art networks. | 翻訳日:2023-03-23 13:48:02 公開日:2023-03-22 |
# 心エコー図合成のための特徴条件付きカスケードビデオ拡散モデル Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis ( http://arxiv.org/abs/2303.12644v1 ) ライセンス: Link先を確認 | Hadrien Reynaud, Mengyun Qiao, Mischa Dombrowski, Thomas Day, Reza Razavi, Alberto Gomez, Paul Leeson, Bernhard Kainz | (参考訳) 画像合成は、機械学習手法を臨床に翻訳する価値をもたらすことが期待されている。
モデルロバスト性、ドメイン転送、因果モデリング、オペレータトレーニングといった基本的な問題は、合成データを通じてアプローチ可能である。
特に、Ultrasound Imagingのような演算子依存のモダリティは、画像およびビデオ生成のための堅牢なフレームワークを必要とする。
これまでのところ、ビデオ生成は出力データと同等のリッチな入力データ、例えば画像シーケンスと条件付きイン、ビデオ出力を提供することでのみ可能だった。
しかし, 臨床資料は乏しく, 単一の画像のみを報告, 保存しているため, 患者固有の分析やリッチトレーニングデータの生成は現在のアプローチでは不可能である。
本稿では,ビデオモデリングのための推定拡散モデルを拡張し,単一の画像から可視な映像シーケンスを生成し,臨床パラメータを任意に設定する。
心エコー図の文脈において、左室射出率の変動について検討し、これらの検査から得られた最も本質的な臨床指標について検討する。
すべての実験で利用可能なEchoNet-Dynamicデータセットを使用します。
我々の画像からシーケンスへのアプローチは、最近提案されたシーケンスからシーケンス生成手法よりも38ポイント高いR2スコアの93%を達成する。
公開デモはbit.ly/3htskpfで公開されている。
コードとモデルはhttps://github.com/hreynaud/echodiffusionで入手できる。 Image synthesis is expected to provide value for the translation of machine learning methods into clinical practice. Fundamental problems like model robustness, domain transfer, causal modelling, and operator training become approachable through synthetic data. Especially, heavily operator-dependant modalities like Ultrasound imaging require robust frameworks for image and video generation. So far, video generation has only been possible by providing input data that is as rich as the output data, e.g., image sequence plus conditioning in, video out. However, clinical documentation is usually scarce and only single images are reported and stored, thus retrospective patient-specific analysis or the generation of rich training data becomes impossible with current approaches. In this paper, we extend elucidated diffusion models for video modelling to generate plausible video sequences from single images and arbitrary conditioning with clinical parameters. We explore this idea within the context of echocardiograms by looking into the variation of the Left Ventricle Ejection Fraction, the most essential clinical metric gained from these examinations. We use the publicly available EchoNet-Dynamic dataset for all our experiments. Our image to sequence approach achieves an R2 score of 93%, which is 38 points higher than recently proposed sequence to sequence generation methods. A public demo is available here: bit.ly/3HTskPF. Code and models will be available at: https://github.com/HReynaud/EchoDiffusion. | 翻訳日:2023-03-23 13:47:42 公開日:2023-03-22 |
# メモリベースリカレントニューラルネットワークを用いた交通量予測:LSTMとGRUの比較解析 Traffic Volume Prediction using Memory-Based Recurrent Neural Networks: A comparative analysis of LSTM and GRU ( http://arxiv.org/abs/2303.12643v1 ) ライセンス: Link先を確認 | Lokesh Chandra Das | (参考訳) リアルタイムでの交通量予測は、交通の流れと道路安全の両方を改善することができる。
正確な交通量予測は、ドライバーに望ましい経路に沿った交通の流れを知らせ、潜在的なデッドロックの事態を防ぐのに役立つ。
既存のパラメトリックモデルは、動的かつ複雑な交通条件下で、確実に交通量を予測できない。
そこで,各時間ステップ毎のトラヒック量の評価と予測をリアルタイムに行うために,非線形メモリに基づくディープニューラルネットワークモデルを開発した。
我々は,メトロ・インターステート・トラヒック・ボリューム・データセットを用いて,高ダイナミック・異種交通環境における交通量予測における提案モデルの有効性を実証した。 Predicting traffic volume in real-time can improve both traffic flow and road safety. A precise traffic volume forecast helps alert drivers to the flow of traffic along their preferred routes, preventing potential deadlock situations. Existing parametric models cannot reliably forecast traffic volume in dynamic and complex traffic conditions. Therefore, in order to evaluate and forecast the traffic volume for every given time step in a real-time manner, we develop non-linear memory-based deep neural network models. Our extensive experiments run on the Metro Interstate Traffic Volume dataset demonstrate the effectiveness of the proposed models in predicting traffic volume in highly dynamic and heterogeneous traffic environments. | 翻訳日:2023-03-23 13:47:20 公開日:2023-03-22 |
# AIの民主化 - 複数の意味、目標、方法 Democratising AI: Multiple Meanings, Goals, and Methods ( http://arxiv.org/abs/2303.12642v1 ) ライセンス: Link先を確認 | Elizabeth Seger, Aviv Ovadya, Ben Garfinkel, Divya Siddarth, Allan Dafoe | (参考訳) 多くの政党がAIの民主化を要求しているが、この言葉は様々な目標を指し、その追求は時折矛盾する。
本稿では,(1)AI利用の民主化,(2)AI開発の民主化,(3)AI利益の民主化,(4)AIガバナンスの民主化の4つについて論じる。
各形態の民主化を達成するための多くの目標と方法について議論する。
この論文の主な特徴は、AIの民主化は、AIアクセシビリティの改善と混同してはならない、多義的で時には矛盾する概念であるということだ。
AIの民主化、具体的な方針とトレードオフに関する生産的な議論、という曖昧なコミットメントを超えて、AIガバナンスの民主化の主要な役割を、使用、開発、利益に関する決定を巡って、トレードオフとリスクをナビゲートするために認識する必要がある。 Numerous parties are calling for the democratisation of AI, but the phrase is used to refer to a variety of goals, the pursuit of which sometimes conflict. This paper identifies four kinds of AI democratisation that are commonly discussed: (1) the democratisation of AI use, (2) the democratisation of AI development, (3) the democratisation of AI profits, and (4) the democratisation of AI governance. Numerous goals and methods of achieving each form of democratisation are discussed. The main takeaway from this paper is that AI democratisation is a multifarious and sometimes conflicting concept that should not be conflated with improving AI accessibility. If we want to move beyond ambiguous commitments to democratising AI, to productive discussions of concrete policies and trade-offs, then we need to recognise the principal role of the democratisation of AI governance in navigating tradeoffs and risks across decisions around use, development, and profits. | 翻訳日:2023-03-23 13:47:09 公開日:2023-03-22 |
# Reveal to Revise: 深層モデルの反復バイアス補正のための説明可能なAIライフサイクル Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias Correction of Deep Models ( http://arxiv.org/abs/2303.12641v1 ) ライセンス: Link先を確認 | Frederik Pahde, Maximilian Dreyer, Wojciech Samek, Sebastian Lapuschkin | (参考訳) 最先端の機械学習モデルは、トレーニングデータに埋め込まれた散発的な相関を学ぶことが多い。
これは、皮膚がん検出などの医療応用において、これらのモデルを高い意思決定のためにデプロイする際のリスクを引き起こす。
この問題を解決するために,eXplainable Artificial Intelligence (XAI) ライフサイクル全体を包含するフレームワークであるReveal to Revise (R2R)を提案する。
最初のステップ(1)では、R2Rは、帰属関係における外れ値や、モデルによって学習された潜在概念の検査によって、モデルの弱点を明らかにする。
第二に、責任あるアーティファクトが検出され、空間的に入力データに局所化され、(3)モデル動作の修正に利用されます。
具体的には, RRR, CDEP, ClArC の手法をモデル修正に適用し, (4) (re-) モデルの性能とアーチファクトに対する感受性を評価する。
メラノーマ検出と骨年齢推定のための2つの医用ベンチマークデータセットを用いて,r2rフレームワークをvgg,resnet,effernetアーキテクチャに適用し,実際のデータセット-イントリンシックアーティファクトおよび合成変異を制御環境で明らかに・修正する。
XAIライフサイクルを完了し、異なるバイアスを軽減するために複数のR2Rイテレーションを実演します。
コードはhttps://github.com/maxdreyer/Reveal2Reviseで入手できる。 State-of-the-art machine learning models often learn spurious correlations embedded in the training data. This poses risks when deploying these models for high-stake decision-making, such as in medical applications like skin cancer detection. To tackle this problem, we propose Reveal to Revise (R2R), a framework entailing the entire eXplainable Artificial Intelligence (XAI) life cycle, enabling practitioners to iteratively identify, mitigate, and (re-)evaluate spurious model behavior with a minimal amount of human interaction. In the first step (1), R2R reveals model weaknesses by finding outliers in attributions or through inspection of latent concepts learned by the model. Secondly (2), the responsible artifacts are detected and spatially localized in the input data, which is then leveraged to (3) revise the model behavior. Concretely, we apply the methods of RRR, CDEP and ClArC for model correction, and (4) (re-)evaluate the model's performance and remaining sensitivity towards the artifact. Using two medical benchmark datasets for Melanoma detection and bone age estimation, we apply our R2R framework to VGG, ResNet and EfficientNet architectures and thereby reveal and correct real dataset-intrinsic artifacts, as well as synthetic variants in a controlled setting. Completing the XAI life cycle, we demonstrate multiple R2R iterations to mitigate different biases. Code is available on https://github.com/maxdreyer/Reveal2Revise. | 翻訳日:2023-03-23 13:46:50 公開日:2023-03-22 |
# 半教師付き反事実説明 Semi-supervised counterfactual explanations ( http://arxiv.org/abs/2303.12634v1 ) ライセンス: Link先を確認 | Shravan Kumar Sajja, Sumanta Mukherjee, Satyam Dwivedi | (参考訳) 機械学習モデルの対物的説明は、モデルが異なる出力またはターゲット出力に予測を変更するような特徴値への最小限の介入を見つけるために使用される。
有効な反事実的説明は、おそらく特徴値を持つべきである。
ここでは、トレーニングデータと同じデータ分布にある反実的説明を生成するという課題に対処し、さらに重要なことは、それらが対象のクラス分布に属することである。
この要件は, 自動エンコーダ再構築損失を, 対物探索プロセスに組み込むことによって解決されている。
分類器の出力挙動をオートエンコーダの潜在空間に結びつけることで、反事実探索プロセスの速度と結果として生じる反事実説明の解釈性がさらに向上する。
本研究は, クラスタグ付き入力データを用いた半教師付き方式でオートエンコーダを訓練した場合の, 対実的説明の解釈可能性の向上を示す。
いくつかのデータセットに対する我々のアプローチを実証的に評価し、いくつかの指標の長期的改善を示す。 Counterfactual explanations for machine learning models are used to find minimal interventions to the feature values such that the model changes the prediction to a different output or a target output. A valid counterfactual explanation should have likely feature values. Here, we address the challenge of generating counterfactual explanations that lie in the same data distribution as that of the training data and more importantly, they belong to the target class distribution. This requirement has been addressed through the incorporation of auto-encoder reconstruction loss in the counterfactual search process. Connecting the output behavior of the classifier to the latent space of the auto-encoder has further improved the speed of the counterfactual search process and the interpretability of the resulting counterfactual explanations. Continuing this line of research, we show further improvement in the interpretability of counterfactual explanations when the auto-encoder is trained in a semi-supervised fashion with class tagged input data. We empirically evaluate our approach on several datasets and show considerable improvement in-terms of several metrics. | 翻訳日:2023-03-23 13:46:23 公開日:2023-03-22 |
# 線形光学系偏光バシス制御を用いたコヒーレント駆動量子特性 Coherently driven quantum features using a linear optics-based polarization-basis control ( http://arxiv.org/abs/2303.12628v1 ) ライセンス: Link先を確認 | B. S. Ham | (参考訳) 量子絡み合いの生成は一般に古典的な手段では不可能であることが知られている。
ポアソン統計によれば、コヒーレント光子は束縛現象のため量子粒子とはみなされない。
近年、Hong-Ou-Mandel(HOM)効果、フランソン型非局所相関、遅延チョイス量子消去器などの量子的特徴を解釈するためにコヒーレンスアプローチが適用されている。
このため、対光子間の固定的な和位相関係が量子絡み合いの岩盤であることが理解されている。
ここでは、線形光学に基づく偏光基底制御を用いて、HOM効果のコヒーレント駆動量子特性を示す。
HOM理論における量子作用素に基づく破壊的干渉と同様に、完全コヒーレント解析はビームスプリッター上のペアコヒーレント光子の同じ光子束を示すが、個々の出力強度は均一である。 Quantum entanglement generation is generally known to be impossible by any classical means. According to Poisson statistics, coherent photons are not considered quantum particles due to the bunching phenomenon. Recently, a coherence approach has been applied to interpret quantum features such as the Hong-Ou-Mandel (HOM) effect, Franson-type nonlocal correlation, and delayed-choice quantum eraser, where the quantum feature is due to basis-product superposition at the cost of 50 % photon loss. For this, it has been understood that a fixed sum-phase relation between paired photons is the bedrock of quantum entanglement. Here, coherently driven quantum features of the HOM effects are presented using linear optics-based polarization-basis control. Like quantum operator-based destructive interference in the HOM theory, a perfectly coherent analysis shows the same photon bunching of the paired coherent photons on a beam splitter, whereas individual output intensities are uniform. | 翻訳日:2023-03-23 13:46:07 公開日:2023-03-22 |
# ニューラルADMG学習による潜在共同ファウンダーの存在の因果推論 Causal Reasoning in the Presence of Latent Confounders via Neural ADMG Learning ( http://arxiv.org/abs/2303.12703v1 ) ライセンス: Link先を確認 | Matthew Ashman, Chao Ma, Agrin Hilmkil, Joel Jennings, Cheng Zhang | (参考訳) 潜在結合は、観測データからの因果推論において長年の障害となっている。
一般的なアプローチのひとつとして、非循環有向混合グラフ(admgs)を使ってデータをモデル化する方法がある。
しかし、ADMGを用いた既存の手法は、線形機能仮定か、複雑な離散探索のいずれかに基づいており、大規模データセットの計算的トラクタビリティに欠ける。
本研究では,既存の作業体系をさらに拡張し,観測データから非線形関数関係を持つADMGを学習するための新たな勾配に基づくアプローチを開発する。
まず,非線型付加雑音モデルを用いた無弓形ADMGの仮定により,潜伏音の存在が同定可能であることを示す。
本稿では,ADMG学習のための自己回帰フローに基づく新しい神経因果モデルを提案する。
これにより,潜在結合の存在下でデータの背後にある複雑な因果関係を決定できるだけでなく,その機能的関係(hence treatment effects)を同時に推定することができる。
さらに,本手法を合成データと実世界データの両方で検証し,関連するベースラインとの競合性能を実証する。 Latent confounding has been a long-standing obstacle for causal reasoning from observational data. One popular approach is to model the data using acyclic directed mixed graphs (ADMGs), which describe ancestral relations between variables using directed and bidirected edges. However, existing methods using ADMGs are based on either linear functional assumptions or a discrete search that is complicated to use and lacks computational tractability for large datasets. In this work, we further extend the existing body of work and develop a novel gradient-based approach to learning an ADMG with non-linear functional relations from observational data. We first show that the presence of latent confounding is identifiable under the assumptions of bow-free ADMGs with non-linear additive noise models. With this insight, we propose a novel neural causal model based on autoregressive flows for ADMG learning. This not only enables us to determine complex causal structural relationships behind the data in the presence of latent confounding, but also estimate their functional relationships (hence treatment effects) simultaneously. We further validate our approach via experiments on both synthetic and real-world datasets, and demonstrate the competitive performance against relevant baselines. | 翻訳日:2023-03-23 13:41:08 公開日:2023-03-22 |
# 授業増分学習のためのDense Network Expansion Dense Network Expansion for Class Incremental Learning ( http://arxiv.org/abs/2303.12696v1 ) ライセンス: Link先を確認 | Zhiyuan Hu, Yunsheng Li, Jiancheng Lyu, Dashan Gao, Nuno Vasconcelos | (参考訳) クラスインクリメンタルラーニング(CIL)の問題点を考察する。
最先端のアプローチでは、ネットワーク拡張(ne)に基づいた動的アーキテクチャを使用し、タスクエキスパートをタスク毎に追加する。
計算の観点からは有効であるが、これらの手法はタスクの数に応じて急速に成長するモデルにつながる。
精度とモデル複雑性のトレードオフを改善するために,新しい NE 手法である高密度ネットワーク拡張 (DNE) を提案する。
これは、機能共有と再利用を通じて、古いタスクから新しいタスクへの知識の転送を可能にするタスクエキスパートネットワークの中間層間の密接な接続の導入によって実現される。
この共有は、タスク間で情報を融合する新しいタスクアテンションブロック(TAB)に基づいて、タスク間のアテンションメカニズムによって実装される。
従来の注意機構とは異なり、TABは特徴混合のレベルで動作し、空間的注意と分離される。
これはCILにおける共同空間・タスクの注意よりも効果的である。
提案したDNEアプローチは,従来の手法よりもはるかに遅い速度でネットワークと機能スケールを拡大しながら,古いクラスの機能空間を厳密に維持することができる。
その結果,従来のSOTA法よりも精度が4倍に向上し,モデルスケールも小さくなった。 The problem of class incremental learning (CIL) is considered. State-of-the-art approaches use a dynamic architecture based on network expansion (NE), in which a task expert is added per task. While effective from a computational standpoint, these methods lead to models that grow quickly with the number of tasks. A new NE method, dense network expansion (DNE), is proposed to achieve a better trade-off between accuracy and model complexity. This is accomplished by the introduction of dense connections between the intermediate layers of the task expert networks, that enable the transfer of knowledge from old to new tasks via feature sharing and reusing. This sharing is implemented with a cross-task attention mechanism, based on a new task attention block (TAB), that fuses information across tasks. Unlike traditional attention mechanisms, TAB operates at the level of the feature mixing and is decoupled with spatial attentions. This is shown more effective than a joint spatial-and-task attention for CIL. The proposed DNE approach can strictly maintain the feature space of old classes while growing the network and feature scale at a much slower rate than previous methods. In result, it outperforms the previous SOTA methods by a margin of 4\% in terms of accuracy, with similar or even smaller model scale. | 翻訳日:2023-03-23 13:40:49 公開日:2023-03-22 |
# 非整合スコアの再重み付けによる適応等角予測 Adaptive Conformal Prediction by Reweighting Nonconformity Score ( http://arxiv.org/abs/2303.12695v1 ) ライセンス: Link先を確認 | Salim I. Amoukou and Nicolas J.B Brunel | (参考訳) 魅力的な理論的保証と実践的な成功にもかかわらず、 Conformal Prediction (CP) によって与えられる予測インターバル(PI)は、与えられたモデルの不確かさを反映しないかもしれない。
この制限は、全てのテストポイントに対して一定の補正を行い、個々の不確実性を無視してカバレッジ特性を保証するCP法から生じる。
そこで本研究では,質的回帰フォレスト(qrf)を用いて非定形性スコアの分布を学習し,qrfの重みをテストポイントに類似した残差を有する試料に割り当てる手法を提案する。
このアプローチにより、モデルの不確実性により整合したPIの長さが得られる。
さらに、QRFによって学習された重みは特徴空間の分割を提供し、より効率的な計算を可能にし、グループ的に整合化することでPIの適応性を向上させる。
提案手法は,前提のない有限サンプルとトレーニング条件カバレッジを享受し,適切な仮定の下で条件付きカバレッジも確保する。
我々のメソッドはどんな不整合スコアでも動作し、Pythonパッケージとして利用可能です。
シミュレーションデータと実世界のデータを用いて実験を行い,既存の手法と比較して有意な改善が得られた。 Despite attractive theoretical guarantees and practical successes, Predictive Interval (PI) given by Conformal Prediction (CP) may not reflect the uncertainty of a given model. This limitation arises from CP methods using a constant correction for all test points, disregarding their individual uncertainties, to ensure coverage properties. To address this issue, we propose using a Quantile Regression Forest (QRF) to learn the distribution of nonconformity scores and utilizing the QRF's weights to assign more importance to samples with residuals similar to the test point. This approach results in PI lengths that are more aligned with the model's uncertainty. In addition, the weights learnt by the QRF provide a partition of the features space, allowing for more efficient computations and improved adaptiveness of the PI through groupwise conformalization. Our approach enjoys an assumption-free finite sample marginal and training-conditional coverage, and under suitable assumptions, it also ensures conditional coverage. Our methods work for any nonconformity score and are available as a Python package. We conduct experiments on simulated and real-world data that demonstrate significant improvements compared to existing methods. | 翻訳日:2023-03-23 13:40:29 公開日:2023-03-22 |
# 複合攻撃に対する不均一マルチエージェントシステムの弾力性出力保持制御:デジタルツインアプローチ Resilient Output Containment Control of Heterogeneous Multiagent Systems Against Composite Attacks: A Digital Twin Approach ( http://arxiv.org/abs/2303.12693v1 ) ライセンス: Link先を確認 | Yukang Cui, Lingbo Cao, Michael V. Basin, Jun Shen, Tingwen Huang, Xin Gong | (参考訳) 本稿では、複合攻撃に対する異種マルチエージェントシステムの分散レジリエント出力保持制御について、DoS攻撃、偽データ注入(FDI)攻撃、カモフラージュ攻撃、アクティベーション攻撃などについて検討する。
デジタルツインにインスパイアされた、より高いセキュリティとプライバシを持つツイン層(TL)は、上記の問題をTLに対するDoS攻撃に対する防衛プロトコルとサイバー物理層(CPL)に対するアクティベーション攻撃に対する防衛プロトコルの2つのタスクに分離するために使用される。
まず、リーダーダイナミクスの誤差をモデル化し、分散オブザーバを導入し、DoS攻撃下でTL上の各フォロワーのリーダーダイナミクスを再構築する。
第二に、tlの再構成されたリーダーダイナミクスに従って、分散推定器を用いて従者の状態を推定する。
第三に、再構成されたリーダーダイナミクスにより、cpl上の出力レギュレータ方程式を計算する分散化ソルバを設計する。第4に、非有界なアクチュエーション攻撃に抵抗する分散化適応攻撃耐性制御スキームをcplに提供し、さらに、上記制御プロトコルを適用して、追従者が一様に有界(uub)収束を達成し、uub収束の上限が明確に決定されることを示す。
最後に、提案した制御プロトコルの有効性を示す2つのシミュレーション例を示す。 This paper studies the distributed resilient output containment control of heterogeneous multiagent systems against composite attacks, including denial-of-services (DoS) attacks, false-data injection (FDI) attacks, camouflage attacks, and actuation attacks. Inspired by digital twins, a twin layer (TL) with higher security and privacy is used to decouple the above problem into two tasks: defense protocols against DoS attacks on TL and defense protocols against actuation attacks on cyber-physical layer (CPL). First, considering modeling errors of leader dynamics, we introduce distributed observers to reconstruct the leader dynamics for each follower on TL under DoS attacks. Second, distributed estimators are used to estimate follower states according to the reconstructed leader dynamics on the TL. Third, according to the reconstructed leader dynamics, we design decentralized solvers that calculate the output regulator equations on CPL. Fourth, decentralized adaptive attack-resilient control schemes that resist unbounded actuation attacks are provided on CPL. Furthermore, we apply the above control protocols to prove that the followers can achieve uniformly ultimately bounded (UUB) convergence, and the upper bound of the UUB convergence is determined explicitly. Finally, two simulation examples are provided to show the effectiveness of the proposed control protocols. | 翻訳日:2023-03-23 13:40:11 公開日:2023-03-22 |
# Pix2Video:画像拡散を利用したビデオ編集 Pix2Video: Video Editing using Image Diffusion ( http://arxiv.org/abs/2303.12688v1 ) ライセンス: Link先を確認 | Duygu Ceylan, Chun-Hao Paul Huang, Niloy J. Mitra | (参考訳) 画像拡散モデルは、大量の画像収集に基づいて訓練され、品質と多様性の観点から最も多用途な画像生成モデルとして登場した。
実際の画像と条件(例えばテキスト)生成の反転をサポートしており、高品質な画像編集アプリケーションとして魅力的である。
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
重要な課題は、ソースビデオのコンテンツを保持しながら、ターゲットの編集を達成することである。
まず,事前学習した構造(奥行きなど)画像拡散モデルを用いてアンカーフレーム上でテキストガイド付き編集を行い,その後,キーステップでは,拡散モデルのコア・デノイジングステップを適応させるために,セルフ・アテンション・フィーチャー・インジェクション(self-attention feature injection)により,将来のフレームへの変更を段階的に伝達する。
次に、プロセスの継続前にフレームの潜在コードを調整することで変更を統合する。
私たちのアプローチはトレーニングフリーで、幅広い編集に一般化しています。
広汎な実験によるアプローチの有効性を実証し,4つの異なる事前および並行的な取り組み(ArXiv)と比較した。
計算集約的な前処理やビデオ特有の微調整をすることなく、現実的なテキストガイド付きビデオ編集が可能であることを実証する。 Image diffusion models, trained on massive image collections, have emerged as the most versatile image generator model in terms of quality and diversity. They support inverting real images and conditional (e.g., text) generation, making them attractive for high-quality image editing applications. We investigate how to use such pre-trained image models for text-guided video editing. The critical challenge is to achieve the target edits while still preserving the content of the source video. Our method works in two simple steps: first, we use a pre-trained structure-guided (e.g., depth) image diffusion model to perform text-guided edits on an anchor frame; then, in the key step, we progressively propagate the changes to the future frames via self-attention feature injection to adapt the core denoising step of the diffusion model. We then consolidate the changes by adjusting the latent code for the frame before continuing the process. Our approach is training-free and generalizes to a wide range of edits. We demonstrate the effectiveness of the approach by extensive experimentation and compare it against four different prior and parallel efforts (on ArXiv). We demonstrate that realistic text-guided video edits are possible, without any compute-intensive preprocessing or video-specific finetuning. | 翻訳日:2023-03-23 13:39:42 公開日:2023-03-22 |
# Uni-Fusion: ユニバーサルな継続的マッピング Uni-Fusion: Universal Continuous Mapping ( http://arxiv.org/abs/2303.12678v1 ) ライセンス: Link先を確認 | Yijun Yuan, Andreas Nuechter | (参考訳) 表面、表面特性(色、赤外など)、その他(CLIP埋め込み空間における最新の特徴など)のための普遍的な連続マッピングフレームワークであるUni-Fusionを紹介する。
本稿では,幾何および様々な特性(rgb,赤外線,特徴など)のエンコーディングをトレーニングを必要とせずにサポートする,初の普遍的暗黙的符号化モデルを提案する。
これに基づいて,本フレームワークは点雲を正規格子ボクセルに分割し,各ボクセルに潜時特徴を発生させ,ジオメトリと任意特性のための潜時インプリシットマップ(LIM)を形成する。
次に、Global LIMに新しいフレームのローカルLIMを融合させることで、漸進的な再構成を行う。
対応するデータ型でエンコードされた潜在暗黙マップは、連続的な表面、表面特性フィールド、表面特徴フィールド、その他の可能なオプションを生成することができる。
1) 表面と色をインクリメンタルに再構成する(2) 2D-to-3D 製造された特性伝達 (3) テキストCLIP特徴体を表面上で生成することにより、オープン語彙のシーン理解を実現する。
我々は, 適合するアプリケーションを比較することで, ユニフュージョンの評価を行い, ベストや競争力を保ちながら, 様々なアプリケーションに対して高い柔軟性を示す。
Uni-Fusionのプロジェクトページはhttps://jarrome.github.io/Uni-Fusion/で公開されている。 We introduce Uni-Fusion, an universal continuous mapping framework for surfaces, surface properties (color, infrared, etc.) and more (latent features in CLIP embedding space, etc.). We propose the first Universal Implicit Encoding model that supports encoding of both geometry and various types of properties (RGB, infrared, feature and etc.) without the need for any training. Based on that, our framework divides the point cloud into regular grid voxels and produces a latent feature in each voxel to form a Latent Implicit Map (LIM) for geometries and arbitrary properties. Then, by fusing a Local LIM of new frame to Global LIM, an incremental reconstruction is approached. Encoded with corresponding types of data, our Latent Implicit Map is capable to generate continuous surfaces, surface properties fields, surface feature fields and any other possible options. To demonstrate the capabilities of our model, we implement three applications: (1) incremental reconstruction for surfaces and color (2) 2D-to-3D fabricated properties transfers (3) open-vocabulary scene understanding by producing a text CLIP feature field on surfaces. We evaluate Uni-Fusion by comparing in corresponding applications, from which, Uni-Fusion shows high flexibility to various of application while performing best or competitive. The project page of Uni-Fusion is available at https://jarrome.github.io/Uni-Fusion/ | 翻訳日:2023-03-23 13:39:20 公開日:2023-03-22 |
# VecFontSDF: 符号付き距離関数による高品質ベクトルフォントの再構成と合成の学習 VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions ( http://arxiv.org/abs/2303.12675v1 ) ライセンス: Link先を確認 | Zeqing Xia, Bojun Xiong, Zhouhui Lian | (参考訳) フォントデザインはデジタルコンテンツデザインとモダンな印刷業界において極めて重要である。
ベクトルフォントの自動合成が可能なアルゴリズムの開発は、フォント設計プロセスを大幅に促進することができる。
しかし、既存の手法は主にラスタ画像生成に集中しており、ベクトルフォントを直接合成できるアプローチはごくわずかである。
本稿では,符号付き距離関数(SDF)を用いて高品質なベクトルフォントを再構成・合成する,エンドツーエンドのトレーニング可能なVecFontSDFを提案する。
具体的には、提案されたSDFに基づく暗黙的形状表現に基づいて、VecFontSDFは、各グリフをいくつかのパラボラ曲線で囲まれた形状プリミティブとしてモデル化することを学ぶ。
このように、ほとんどの画像生成方法は、ベクトルフォントを合成するために容易に拡張できる。
公開データセット上で行った質的かつ定量的な実験により,提案手法は,ベクターフォントの再構成,補間,少数ショットのベクターフォントの合成など,いくつかのタスクにおいて高品質な結果が得られることが示された。 Font design is of vital importance in the digital content design and modern printing industry. Developing algorithms capable of automatically synthesizing vector fonts can significantly facilitate the font design process. However, existing methods mainly concentrate on raster image generation, and only a few approaches can directly synthesize vector fonts. This paper proposes an end-to-end trainable method, VecFontSDF, to reconstruct and synthesize high-quality vector fonts using signed distance functions (SDFs). Specifically, based on the proposed SDF-based implicit shape representation, VecFontSDF learns to model each glyph as shape primitives enclosed by several parabolic curves, which can be precisely converted to quadratic B\'ezier curves that are widely used in vector font products. In this manner, most image generation methods can be easily extended to synthesize vector fonts. Qualitative and quantitative experiments conducted on a publicly-available dataset demonstrate that our method obtains high-quality results on several tasks, including vector font reconstruction, interpolation, and few-shot vector font synthesis, markedly outperforming the state of the art. | 翻訳日:2023-03-23 13:38:43 公開日:2023-03-22 |
# 多言語視覚質問応答のための畳み込み系列ネットワークによる画像特徴の統合 Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering ( http://arxiv.org/abs/2303.12671v1 ) ライセンス: Link先を確認 | Triet Minh Thai, Son T. Luu | (参考訳) VQA(Visual Question Answering)は、コンピュータが画像に基づいて入力された質問に対して正しい回答をする必要があるタスクである。
このタスクは、人間によって簡単に解決できますが、コンピュータにとってチャレンジです。
vlsp2022-evjvqa共有タスクは、新たにリリースされたデータセットであるuit-evjvqa上で、多言語ドメインの視覚的質問応答タスクを実行する。
我々は,この課題をシーケンシャル・ツー・シークエンス・ラーニング・タスク(Sequence-to-Sequence Learning Task)としてアプローチし,既存のVQAモデルのヒントと画像特徴を畳み込み,所望の回答を生成する。
その結果,公開テストセットでは0.3442点,プライベートテストセットでは0.4210点,コンペティションでは3位となった。 Visual Question Answering (VQA) is a task that requires computers to give correct answers for the input questions based on the images. This task can be solved by humans with ease but is a challenge for computers. The VLSP2022-EVJVQA shared task carries the Visual Question Answering task in the multilingual domain on a newly released dataset: UIT-EVJVQA, in which the questions and answers are written in three different languages: English, Vietnamese and Japanese. We approached the challenge as a sequence-to-sequence learning task, in which we integrated hints from pre-trained state-of-the-art VQA models and image features with Convolutional Sequence-to-Sequence network to generate the desired answers. Our results obtained up to 0.3442 by F1 score on the public test set, 0.4210 on the private test set, and placed 3rd in the competition. | 翻訳日:2023-03-23 13:38:06 公開日:2023-03-22 |
# 自己監督型視覚前訓練のための相関画像モデリング Correlational Image Modeling for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2303.12670v1 ) ライセンス: Link先を確認 | Wei Li, Jiahao Xie, Chen Change Loy | (参考訳) 自己教師付き視覚前訓練に対する新規かつ驚くほど効果的なアプローチである相関画像モデリング(cim)を提案する。
入力画像(コンテキスト)から画像領域(exemplars)をランダムに抽出し、exemplarsとコンテキスト間の相関マップを予測します。
3つの重要な設計は、非自明で有意義な自己スーパーバイザリータスクとして相関画像モデリングを可能にする。
まず,実例と文脈のペアを生成するために,様々なスケール,形状,回転,変換による画像領域の切り抜きについて検討する。
次に、オンラインおよびターゲットエンコーダを含むブートストラップ学習フレームワークを使用します。
事前トレーニングの間、前者は例を入力として取り、後者はコンテキストを変換する。
第3に,コンテクストがクエリとして機能し,exemplarが値とキーを提供する単純なクロスアテンションブロックを用いて,出力相関マップをモデル化する。
我々は,cimが自己監視および転送ベンチマークにおける現在の技術と同等以上のパフォーマンスを示す。 We introduce Correlational Image Modeling (CIM), a novel and surprisingly effective approach to self-supervised visual pre-training. Our CIM performs a simple pretext task: we randomly crop image regions (exemplars) from an input image (context) and predict correlation maps between the exemplars and the context. Three key designs enable correlational image modeling as a nontrivial and meaningful self-supervisory task. First, to generate useful exemplar-context pairs, we consider cropping image regions with various scales, shapes, rotations, and transformations. Second, we employ a bootstrap learning framework that involves online and target encoders. During pre-training, the former takes exemplars as inputs while the latter converts the context. Third, we model the output correlation maps via a simple cross-attention block, within which the context serves as queries and the exemplars offer values and keys. We show that CIM performs on par or better than the current state of the art on self-supervised and transfer benchmarks. | 翻訳日:2023-03-23 13:37:35 公開日:2023-03-22 |
# 対人訓練における人間的行動に関する拡張研究 An Extended Study of Human-like Behavior under Adversarial Training ( http://arxiv.org/abs/2303.12669v1 ) ライセンス: Link先を確認 | Paul Gavrikov, Janis Keuper, Margret Keuper | (参考訳) ニューラルネットワークには多くの欠点がある。
最も深刻なことの1つは、分布シフトに対する感受性であり、それはモデルが人間には理解できない、意味的な意味を持たない入力に対する小さな摂動によって間違った予測に簡単に騙されることを可能にする。
敵の訓練は、最悪の場合の摂動についてのモデルを訓練することで、この問題に対処する部分的な解決策となる。
しかし、最近の研究は、ニューラルネットワークの推論が人間と異なることも指摘している。
人間は形によって物体を識別し、ニューラルネットは主にテクスチャキューを使用する。
例えば、写真で訓練されたモデルは、スケッチを含むデータセットに一般化できない可能性が高い。
また, 対人訓練は, 形状バイアスへのシフトを好意的に増加させることが示された。
本研究では,この観測結果を再検討し,様々なアーキテクチャ,一般的な $\ell_2$- および $\ell_\infty$-training および Transformer ベースのモデルに対して,この効果を広範囲に解析する。
さらに、周波数の観点から、この現象の可能な説明を提供する。 Neural networks have a number of shortcomings. Amongst the severest ones is the sensitivity to distribution shifts which allows models to be easily fooled into wrong predictions by small perturbations to inputs that are often imperceivable to humans and do not have to carry semantic meaning. Adversarial training poses a partial solution to address this issue by training models on worst-case perturbations. Yet, recent work has also pointed out that the reasoning in neural networks is different from humans. Humans identify objects by shape, while neural nets mainly employ texture cues. Exemplarily, a model trained on photographs will likely fail to generalize to datasets containing sketches. Interestingly, it was also shown that adversarial training seems to favorably increase the shift toward shape bias. In this work, we revisit this observation and provide an extensive analysis of this effect on various architectures, the common $\ell_2$- and $\ell_\infty$-training, and Transformer-based models. Further, we provide a possible explanation for this phenomenon from a frequency perspective. | 翻訳日:2023-03-23 13:37:20 公開日:2023-03-22 |
# maskcon: 粗いラベル付きデータセットのためのマスキングコントラスト学習 MaskCon: Masked Contrastive Learning for Coarse-Labelled Dataset ( http://arxiv.org/abs/2303.12756v1 ) ライセンス: Link先を確認 | Chen Feng, Ioannis Patras | (参考訳) 近年のディープラーニングは、高度なニューラルネットワーク構造と大規模な人間アノテーションデータセットの助けを借りて大きな成功を収めている。
しかし、特にきめ細かいラベルが必要な特定の領域において、大規模データセットを正確かつ効率的にアノテートすることは、しばしば費用がかかる。
この設定では、粗いラベルは専門家の知識を必要としないため、より容易に取得できる。
本研究では,より詳細なラベル付け問題に対処するために,粗いラベル付きデータセットを用いて学習する,$\textbf{Mask}$ed $\textbf{Con}$trastive Learning~($\textbf{MaskCon}$)という対照的な学習手法を提案する。
より具体的には、対照的な学習フレームワークにおいて、本手法は、他のサンプルに対する粗いラベルと、問題となるサンプルの別の拡張ビューを用いて、各サンプルに対してソフトラベルを生成する。
自己教師付きコントラスト学習とは対照的に,サンプルの増大のみをハード陽性とみなし,同じ粗いラベルを持つサンプルのみをハード陽性とみなす教師付きコントラスト学習では,粗いラベルによって隠蔽されるサンプル距離に基づくソフトラベルを提案する。
これにより、サンプル間関係と粗いラベルの両方を利用することができます。
提案手法は,既存の最先端作品の多くを特殊ケースとして得ることができ,一般化誤差の厳密な境界を提供することを示す。
実験により,CIFAR10,CIFAR100,ImageNet-1K,Standford Online Products,Stanford Cars196データセットなど,さまざまなデータセットにおける現状よりも大幅に改善されている。
コードとアノテーションはhttps://github.com/mrchenfeng/maskcon_cvpr2023で入手できる。 Deep learning has achieved great success in recent years with the aid of advanced neural network structures and large-scale human-annotated datasets. However, it is often costly and difficult to accurately and efficiently annotate large-scale datasets, especially for some specialized domains where fine-grained labels are required. In this setting, coarse labels are much easier to acquire as they do not require expert knowledge. In this work, we propose a contrastive learning method, called $\textbf{Mask}$ed $\textbf{Con}$trastive learning~($\textbf{MaskCon}$) to address the under-explored problem setting, where we learn with a coarse-labelled dataset in order to address a finer labelling problem. More specifically, within the contrastive learning framework, for each sample our method generates soft-labels with the aid of coarse labels against other samples and another augmented view of the sample in question. By contrast to self-supervised contrastive learning where only the sample's augmentations are considered hard positives, and in supervised contrastive learning where only samples with the same coarse labels are considered hard positives, we propose soft labels based on sample distances, that are masked by the coarse labels. This allows us to utilize both inter-sample relations and coarse labels. We demonstrate that our method can obtain as special cases many existing state-of-the-art works and that it provides tighter bounds on the generalization error. Experimentally, our method achieves significant improvement over the current state-of-the-art in various datasets, including CIFAR10, CIFAR100, ImageNet-1K, Standford Online Products and Stanford Cars196 datasets. Code and annotations are available at https://github.com/MrChenFeng/MaskCon_CVPR2023. | 翻訳日:2023-03-23 13:31:20 公開日:2023-03-22 |
# フェルミオン系およびボソニックガウス系におけるエントロピー生成に対する量子的および古典的貢献 Quantum and classical contributions to entropy production in fermionic and bosonic Gaussian systems ( http://arxiv.org/abs/2303.12749v1 ) ライセンス: Link先を確認 | Krzysztof Ptaszynski, Massimiliano Esposito | (参考訳) 前述したように、熱力学過程の不可逆性を特徴づける重要な量であるエントロピー生成は、系の自由度と熱環境の間の相関関係の生成に関係している。
これは、そのような相関が古典的か量子的か、すなわち測定によってアクセス可能であるかという疑問を提起する。
フェルミオン系とボソニックガウス系を考えることでこの問題に対処する。
フェルミオンの場合、エントロピー生成は、物理的に許容される測定のセットをフォック状態の射影に制限し、古典的にアクセス可能な相関の量を大幅に制限するパリティ超選択規則により、ほとんど量子的であることを示す。
対照的に、ボソニック系では、ガウス測度によってはるかに多くの相関がアクセス可能である。
具体的には、量子寄与は低温では重要であるが、高温ではエントロピー生成は純粋に古典的な位置-運動量相関に対応する。
本研究は, エントロピー生成の微視的定式化における量子-古典遷移の存在に関して, フェルミオン系とボソニック系の重要な違いを示した。
また、エントロピー生成は、弱いカップリング限界においても主に量子相関によって引き起こされる可能性があり、これは状態人口の古典的な速度方程式や、ボソンとフェルミオンの輸送特性が古典的な粒子のそれと収束する低粒子密度限界において記述される。 As previously demonstrated, the entropy production - a key quantity characterizing the irreversibility of thermodynamic processes - is related to generation of correlations between degrees of freedom of the system and its thermal environment. This raises the question of whether such correlations are of a classical or quantum nature, namely, whether they are accessible through measurements. We address this problem by considering fermionic and bosonic Gaussian systems. We show that for fermions the entropy production is mostly quantum due to the parity superselection rule which restricts the set of physically allowed measurements to projections on the Fock states, thus significantly limiting the amount of classically accessible correlations. In contrast, in bosonic systems a much larger amount of correlations can be accessed through Gaussian measurements. Specifically, while the quantum contribution may be important at low temperatures, in the high temperature limit the entropy production corresponds to purely classical position-momentum correlations. Our results demonstrate an important difference between fermionic and bosonic systems regarding the existence of a quantum-to-classical transition in the microscopic formulation of the entropy production. They also show that entropy production can be mainly caused by quantum correlations even in the weak coupling limit, which admits a description in terms of classical rate equations for state populations, as well as in the low particle density limit, where the transport properties of both bosons and fermions converge to those of classical particles. | 翻訳日:2023-03-23 13:30:45 公開日:2023-03-22 |
# 限定サンプリングアクセスによるマルコフ決定過程の戦略合成 Strategy Synthesis in Markov Decision Processes Under Limited Sampling Access ( http://arxiv.org/abs/2303.12718v1 ) ライセンス: Link先を確認 | Christel Baier, Clemens Dubslaff, Patrick Wienh\"oft, Stefan J. Kiebel | (参考訳) 制御理論、人工知能、および形式的手法における中心的なタスクは、部分的に未知の環境で動作するエージェントに対する報酬最大化戦略を合成することである。
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境においては、エージェントの動作の影響は後継状態の点で知られているが、関連する確率は知られていない。
本稿では,区間MDPを内部モデルとして用いた強化学習により,グレーボックスMDPの戦略合成アルゴリズムを考案する。
強化学習における限定的なサンプリングアクセスと競合するために,我々は,確率的保証と最適性よりも,迅速かつ成功した学習に焦点を当てた2つの新しい概念をアルゴリズムに取り入れている。
我々は,AIや形式的手法コミュニティの例に応用したプロトタイプ実装を用いて,アルゴリズムの利点を説明する。 A central task in control theory, artificial intelligence, and formal methods is to synthesize reward-maximizing strategies for agents that operate in partially unknown environments. In environments modeled by gray-box Markov decision processes (MDPs), the impact of the agents' actions are known in terms of successor states but not the stochastics involved. In this paper, we devise a strategy synthesis algorithm for gray-box MDPs via reinforcement learning that utilizes interval MDPs as internal model. To compete with limited sampling access in reinforcement learning, we incorporate two novel concepts into our algorithm, focusing on rapid and successful learning rather than on stochastic guarantees and optimality: lower confidence bound exploration reinforces variants of already learned practical strategies and action scoping reduces the learning action space to promising actions. We illustrate benefits of our algorithms by means of a prototypical implementation applied on examples from the AI and formal methods communities. | 翻訳日:2023-03-23 13:28:36 公開日:2023-03-22 |
# 人工知能の火花:GPT-4による初期の実験 Sparks of Artificial General Intelligence: Early experiments with GPT-4 ( http://arxiv.org/abs/2303.12712v1 ) ライセンス: Link先を確認 | S\'ebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang | (参考訳) 人工知能(AI)の研究者たちは、さまざまなドメインやタスクにまたがる優れた能力を示す大規模な言語モデル(LLM)を開発し、洗練し、学習と認知の理解に挑戦しています。
OpenAIが開発した最新のモデルであるGPT-4は、前例のない規模の計算とデータを使って訓練された。
本稿では,openaiによる開発が盛んであったgpt-4の初期バージョンについて報告する。
GPT-4は(例えばChatGPTやGoogleのPaLMとともに)従来のAIモデルよりも汎用的なインテリジェンスを示すLLMの新たなコホートの一部である、と私たちは主張する。
我々は、これらのモデルの能力と影響について論じる。
GPT-4は、言語習得以外にも、数学、コーディング、ビジョン、医学、法、心理学など、特別なプロンプトを必要とせずに、新しくて困難なタスクを解くことができる。
さらに、これらすべてのタスクにおいて、GPT-4のパフォーマンスは人間レベルのパフォーマンスに非常に近く、しばしばChatGPTのような以前のモデルを大きく上回っている。
GPT-4の能力の広さと深さを考えると、人工知能(AGI)システムの早期(まだ未完成)バージョンと見なすことができると信じている。
我々は, GPT-4の探索において, 限界の発見に特に重点を置いており, 次世代の予測を超えて新たなパラダイムを追求する必要性を含む, より深く包括的なAGIバージョンに向けて進む上での課題について論じている。
我々は,最近の技術的飛躍と今後の研究方向の社会的な影響を振り返って結論づける。 Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions. | 翻訳日:2023-03-23 13:28:21 公開日:2023-03-22 |
# モックアップ生成のためのスケッチベースおよびセマンティックベースモードの評価 Evaluation of Sketch-Based and Semantic-Based Modalities for Mockup Generation ( http://arxiv.org/abs/2303.12709v1 ) ライセンス: Link先を確認 | Tommaso Cal\`o and Luigi De Russis | (参考訳) デザインモックアップはデザインのアイデアを視覚化し、テストするための重要な道具です。
しかし、モックアップを生成するプロセスは、デザイナーにとって時間がかかり、困難である。
本稿では,(1)手書きスケッチに基づいてモックアップを生成するスケッチベースアプローチ,(2)事前に定義された設計要素の集合に基づいてインターフェースを生成するセマンティックベースアプローチという,モックアップのアイデアを生成するための2つの異なるモックアップ手法を提示し,評価する。
これらの2つのアプローチの有効性を評価するため,13人の参加者を対象に,モックアップを各モードで生成する実験を行った。
その結果,スケッチベースの生成の方が直感的かつ表現的であり,セマンティックベースの生成AIは質と忠実度でより良い結果が得られることがわかった。
どちらの方法も、創造性と効率性を高めたいuiデザイナーにとって価値のあるツールになり得る。 Design mockups are essential instruments for visualizing and testing design ideas. However, the process of generating mockups can be time-consuming and challenging for designers. In this article, we present and evaluate two different modalities for generating mockup ideas to support designers in their work: (1) a sketch-based approach to generate mockups based on hand-drawn sketches, and (2) a semantic-based approach to generate interfaces based on a set of predefined design elements. To evaluate the effectiveness of these two approaches, we conducted a series of experiments with 13 participants in which we asked them to generate mockups using each modality. Our results show that sketch-based generation was more intuitive and expressive, while semantic-based generative AI obtained better results in terms of quality and fidelity. Both methods can be valuable tools for UI designers looking to increase their creativity and efficiency. | 翻訳日:2023-03-23 13:27:56 公開日:2023-03-22 |
# 2光子Hong-Ou-Mandel干渉と周波数変換アイドル光子と信号光子の量子絡み合い Two-photon Hong-Ou-Mandel interference and quantum entanglement between the frequency-converted idler photon and the signal photon ( http://arxiv.org/abs/2303.12705v1 ) ライセンス: Link先を確認 | Jiaxuan Wang, Alexei V. Sokolov, and Girish S. Agarwal | (参考訳) 量子周波数アップコンバージョン(quantum frequency up-conversion)は、単一光子の周波数を低周波から高周波にシフトさせるために光子と量子系の相互作用を利用する最先端技術である。
アップコンバージョン前の光子がエンタングルペアの1つである場合、アップコンバージョン後のエンタングルメントがどの程度保存されているかを理解することが重要である。
本研究では,光子対における時間依存2次量子相関の変換を理論的に解析し,比較的一般的な条件下での相関の保存を求める。
また、周波数変換されたアイドラー光子と信号光子との間の2光子のHong-Ou-Mandel干渉を分析する。
2光子干渉の可視性は周波数変換の大きさに敏感であり、2光子間の周波数分離が下がったときに改善される。 Quantum frequency up-conversion is a cutting-edge technique that leverages the interaction between photons and quantum systems to shift the frequency of single photons from a lower frequency to a higher frequency. If the photon before up-conversion was one of the entangled pair, then it is important to understand how much entanglement is preserved after up-conversion. In this study, we present a theoretical analysis of the transformation of the time-dependent second-order quantum correlations in photon pairs and find the preservation of such correlations under fairly general conditions. We also analyze the two-photon Hong-Ou-Mandel interference between the frequency-converted idler photon and the signal photon. The visibility of the two-photon interference is sensitive to the magnitude of the frequency conversion, and it improves when the frequency separation between two photons goes down. | 翻訳日:2023-03-23 13:27:41 公開日:2023-03-22 |
# チューブリンク:ユニバーサルビデオセグメンテーションのためのフレキシブルクロスチューブベースライン Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation ( http://arxiv.org/abs/2303.12782v1 ) ライセンス: Link先を確認 | Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, Chen Change Loy | (参考訳) ビデオセグメンテーションの目標は、さまざまなシナリオにおいて、すべてのピクセルを正確にセグメンテーションし、追跡することだ。
本稿では,ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークであるTube-Linkを提案する。
我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
クロスチューブ関係のモデリングを強化するために,クエリに沿って注目してチューブレベルのリンクを行う効果的な方法を提案する。
さらに, 時間的コントラスト学習を, チューブレベルの関連性に対するインスタンス単位の識別的特徴に導入する。
我々のアプローチは、データセットやシナリオのニーズに応じて各サブクリップの長さを変更できるため、短いビデオ入力と長いビデオ入力の両方に柔軟性と効率性を提供します。
Tube-Linkは5つのビデオセグメンテーションデータセットにおいて、既存の特殊なアーキテクチャよりも優れたパフォーマンスを示している。
具体的には、VIPSegの相対的な13%の改善と、強力なベースラインであるVideo K-NetよりもKITTI-STEPの4%改善を実現している。
Youtube-VIS-2019 と 2021 で ResNet50 のバックボーンを使用する場合、Tune-Link は IDOL を 3% と 4% に向上させる。
コードは利用可能だ。 The goal of video segmentation is to accurately segment and track every pixel in diverse scenarios. In this paper, we present Tube-Link, a versatile framework that addresses multiple core tasks of video segmentation with a unified architecture. Our framework is a near-online approach that takes a short subclip as input and outputs the corresponding spatial-temporal tube masks. To enhance the modeling of cross-tube relationships, we propose an effective way to perform tube-level linking via attention along the queries. In addition, we introduce temporal contrastive learning to instance-wise discriminative features for tube-level association. Our approach offers flexibility and efficiency for both short and long video inputs, as the length of each subclip can be varied according to the needs of datasets or scenarios. Tube-Link outperforms existing specialized architectures by a significant margin on five video segmentation datasets. Specifically, it achieves almost 13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019 and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively. Code will be available. | 翻訳日:2023-03-23 13:21:48 公開日:2023-03-22 |
# LFM-3D:3次元信号を用いた広帯域特徴マッチング LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D Signals ( http://arxiv.org/abs/2303.12779v1 ) ライセンス: Link先を確認 | Arjun Karpur, Guilherme Perrotta, Ricardo Martin-Brualla, Howard Zhou, Andre Araujo | (参考訳) 同じ物体の異なる画像にまたがる局所的な対応を見つけることは、その幾何学を理解する上で重要である。
近年,深層学習に基づく局所画像特徴と学習可能なマッチングの出現により,この問題は顕著に進展している。
それでも、学習可能なマッチングは、画像ペア(すなわちワイドカメラのベースライン)間の共有可視性の小さな領域のみが存在する場合、しばしば過小評価される。
この問題に対処するために,粗い単視点幾何推定手法の最近の進歩を利用する。
我々は,グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
マッチングモデルに3d信号を統合する場合,低次元の3d情報を有効に活用するには適切な位置符号化が不可欠であることを示す。
我々は、正規化された物体座標と単眼深度推定という2つの異なる3次元信号を実験し、広範囲のベースラインにオブジェクト中心の画像対を含む大規模(合成および実)データセット上で評価した。
また,2Dのみの手法と比較して,最大で6%,固定リコールで+28%の精度で特徴マッチングの改善が見られた。
さらに、2dのみのアプローチと比較して8%以上向上した画像ペアの相対的なポーズ精度が向上していることも示している。 Finding localized correspondences across different images of the same object is crucial to understand its geometry. In recent years, this problem has seen remarkable progress with the advent of deep learning based local image features and learnable matchers. Still, learnable matchers often underperform when there exists only small regions of co-visibility between image pairs (i.e. wide camera baselines). To address this problem, we leverage recent progress in coarse single-view geometry estimation methods. We propose LFM-3D, a Learnable Feature Matching framework that uses models based on graph neural networks, and enhances their capabilities by integrating noisy, estimated 3D signals to boost correspondence estimation. When integrating 3D signals into the matcher model, we show that a suitable positional encoding is critical to effectively make use of the low-dimensional 3D information. We experiment with two different 3D signals - normalized object coordinates and monocular depth estimates - and evaluate our method on large-scale (synthetic and real) datasets containing object-centric image pairs across wide baselines. We observe strong feature matching improvements compared to 2D-only methods, with up to +6% total recall and +28% precision at fixed recall. We additionally demonstrate that the resulting improved correspondences lead to much higher relative posing accuracy for in-the-wild image pairs, with a more than 8% boost compared to the 2D-only approach. | 翻訳日:2023-03-23 13:21:27 公開日:2023-03-22 |
# 終端物体検出のためのDense Distinct Query Dense Distinct Query for End-to-End Object Detection ( http://arxiv.org/abs/2303.12776v1 ) ライセンス: Link先を確認 | Shilong Zhang, Wang xinjiang, Jiaqi Wang, Jiangmiao Pang, Chengqi Lyu, Wenwei Zhang, Ping Luo, Kai Chen | (参考訳) オブジェクト検出における1対1のラベル割り当ては、後処理としての非最大抑圧(NMS)の必要性を回避し、パイプラインをエンドツーエンドにする。
しかし、広く使われているスパースクエリは高いリコールを保証することができず、高密度クエリは必然的に同様のクエリをもたらし、最適化の困難に直面するため、新しいジレンマを引き起こす。
スパースクエリと高密度クエリの両方が問題となるので、エンドツーエンドのオブジェクト検出で期待されるクエリは何ですか?
本稿では,Dense Distinct Queries (DDQ) の解法を示す。
具体的には、まず従来の検出器のように密度の高いクエリを配置し、次に1対1の割り当てに対して異なるクエリを選択する。
DDQは、従来のエンドツーエンド検出器と最近のエンドツーエンド検出器の利点を融合させ、FCN、R-CNN、DETRなどの様々な検出器の性能を大幅に向上させる。
最も印象的なことに、DDQ-DETRはResNet-50のバックボーンを使用して12時間以内にMS-COCOデータセット上で52.1 APを達成した。
DDQはまた、混雑したシーンでエンドツーエンド検出器の利点を共有し、CrowdHumanで93.8 APを達成した。
DDQが研究者に、従来の方法とエンドツーエンドの検出器の相補性を考えることを願っている。
ソースコードは \url{https://github.com/jshilong/DDQ} にある。 One-to-one label assignment in object detection has successfully obviated the need for non-maximum suppression (NMS) as postprocessing and makes the pipeline end-to-end. However, it triggers a new dilemma as the widely used sparse queries cannot guarantee a high recall, while dense queries inevitably bring more similar queries and encounter optimization difficulties. As both sparse and dense queries are problematic, then what are the expected queries in end-to-end object detection? This paper shows that the solution should be Dense Distinct Queries (DDQ). Concretely, we first lay dense queries like traditional detectors and then select distinct ones for one-to-one assignments. DDQ blends the advantages of traditional and recent end-to-end detectors and significantly improves the performance of various detectors including FCN, R-CNN, and DETRs. Most impressively, DDQ-DETR achieves 52.1 AP on MS-COCO dataset within 12 epochs using a ResNet-50 backbone, outperforming all existing detectors in the same setting. DDQ also shares the benefit of end-to-end detectors in crowded scenes and achieves 93.8 AP on CrowdHuman. We hope DDQ can inspire researchers to consider the complementarity between traditional methods and end-to-end detectors. The source code can be found at \url{https://github.com/jshilong/DDQ}. | 翻訳日:2023-03-23 13:21:04 公開日:2023-03-22 |
# データログクエリの why-provenance の複雑さ The Complexity of Why-Provenance for Datalog Queries ( http://arxiv.org/abs/2303.12773v1 ) ライセンス: Link先を確認 | Marco Calautti, Ester Livshits, Andreas Pieris, Markus Schneider | (参考訳) データベースクエリ結果がなぜ得られるのかを説明することは、Explainable AIの目標、特に近年では、データログのような表現豊かなデータベースクエリ言語がオントロジーベースのアプリケーションの開発において重要な役割を担っている。
クエリ結果を説明する標準的な方法は、いわゆるwhy-provenanceであり、クエリ結果に証人に関する情報を、その結果を引き出すのに十分な入力データベースのサブセットの形式で提供します。
驚いたことに、datalogクエリの why-provenance の概念は何十年も前から徹底的に研究されてきたが、計算の複雑さはいまだに解明されていない。
この研究の目的は、なぜ進歩文学のこの明らかなギャップを埋めることである。
この目的に向けて,datalogクエリとそのキーサブクラスに対する why-provenance の複雑性を指摘する。
我々の研究の要点は、再帰的クエリの理由は、再帰的クエリが線形に制限されているとしても、難解な問題である。
それにもかかわらず、SATソルバを利用することで、(再帰的な)Datalogクエリを実際に動作させるのは非現実的な目標ではないことを実験的に確認する。 Explaining why a database query result is obtained is an essential task towards the goal of Explainable AI, especially nowadays where expressive database query languages such as Datalog play a critical role in the development of ontology-based applications. A standard way of explaining a query result is the so-called why-provenance, which essentially provides information about the witnesses to a query result in the form of subsets of the input database that are sufficient to derive that result. To our surprise, despite the fact that the notion of why-provenance for Datalog queries has been around for decades and intensively studied, its computational complexity remains unexplored. The goal of this work is to fill this apparent gap in the why-provenance literature. Towards this end, we pinpoint the data complexity of why-provenance for Datalog queries and key subclasses thereof. The takeaway of our work is that why-provenance for recursive queries, even if the recursion is limited to be linear, is an intractable problem, whereas for non-recursive queries is highly tractable. Having said that, we experimentally confirm, by exploiting SAT solvers, that making why-provenance for (recursive) Datalog queries work in practice is not an unrealistic goal. | 翻訳日:2023-03-23 13:20:38 公開日:2023-03-22 |
# BERTと説明可能なAIを用いた解釈可能なBangla Sarcasm検出 Interpretable Bangla Sarcasm Detection using BERT and Explainable AI ( http://arxiv.org/abs/2303.12772v1 ) ライセンス: Link先を確認 | Ramisa Anan, Tasnim Sakib Apon, Zeba Tahsin Hossain, Elizabeth Antora Modhu, Sudipta Mondal, MD. Golam Rabiul Alam | (参考訳) 肯定的なフレーズや否定的な動機を持つ文は、通常、Facebook、Twitter、Redditなどの今日のソーシャルメディアプラットフォームで広く使われている皮肉として定義される。
近年,ソーシャルメディアプラットフォームにおけるアクティブユーザの増加により,市場需要の判断や感情分析,脅威検出など,さまざまなタスクに活用可能な自動NLPベースのシステムの必要性が高まっている。
しかし、sarcasmは通常逆の意味であり、その検出は難しい問題であることが多いため、NLPモデルによるデータ抽出はより複雑になる。
その結果、過去数年間、英語における皮肉検出に関する多くの研究が行われており、バングラ語の状態における顕著な改善とにもかかわらず、皮肉検出は同じままである。
本稿では,従来の機械学習アルゴリズムが89.93\%しか達成できないのに対して,BERTに基づく99.60\%を達成するシステムを提案する。
さらに,本システムに説明可能性を導入するローカル解釈型モデル非依存記述を用いた。
また,本研究では,新たに収集したバングラ・サルカズムデータセットであるバンバラサークを用いて,本研究の評価を行った。
このデータセットはsarcasticとnon-sarcasticのコメントの新記録で構成されており、その大部分はFacebookとYouTubeのコメントセクションから取得されている。 A positive phrase or a sentence with an underlying negative motive is usually defined as sarcasm that is widely used in today's social media platforms such as Facebook, Twitter, Reddit, etc. In recent times active users in social media platforms are increasing dramatically which raises the need for an automated NLP-based system that can be utilized in various tasks such as determining market demand, sentiment analysis, threat detection, etc. However, since sarcasm usually implies the opposite meaning and its detection is frequently a challenging issue, data meaning extraction through an NLP-based model becomes more complicated. As a result, there has been a lot of study on sarcasm detection in English over the past several years, and there's been a noticeable improvement and yet sarcasm detection in the Bangla language's state remains the same. In this article, we present a BERT-based system that can achieve 99.60\% while the utilized traditional machine learning algorithms are only capable of achieving 89.93\%. Additionally, we have employed Local Interpretable Model-Agnostic Explanations that introduce explainability to our system. Moreover, we have utilized a newly collected bangla sarcasm dataset, BanglaSarc that was constructed specifically for the evaluation of this study. This dataset consists of fresh records of sarcastic and non-sarcastic comments, the majority of which are acquired from Facebook and YouTube comment sections. | 翻訳日:2023-03-23 13:20:16 公開日:2023-03-22 |
# パルスレベル制御を用いたクロス共鳴雑音耐性向上手法 Procedure for improving cross-resonance noise resistance using pulse-level control ( http://arxiv.org/abs/2303.12771v1 ) ライセンス: Link先を確認 | David Danin and Felix Tennie | (参考訳) 超伝導量子ビットの現在の実装は、しばしばマルチキュービットゲートの低忠実度によって制限される。
本稿では、任意の$\theta$に対して改良されたクロス共振ゲートCR($\theta$)を校正するための再現可能で実行効率のよいパルスレベルアプローチを提案する。
このcr($\theta$)ゲートは、標準的なシングルキュービットゲートの適用により、他の2キュービットゲートの広い範囲を生成できる。
ランダム化ベンチマーク実験により,我々の手法は,IBMが現在使用している回路レベルの手法よりもはるかに高い耐雑音性をもたらすことを示した。
したがって,ノイズが制限要因であるアプリケーションに対して,本手法は真の改善をもたらす。 Current implementations of superconducting qubits are often limited by the low fidelities of multi-qubit gates. We present a reproducible and runtime-efficient pulse-level approach for calibrating an improved cross-resonance gate CR($\theta$) for arbitrary $\theta$. This CR($\theta$) gate can be used to produce a wide range of other two-qubit gates via the application of standard single-qubit gates. By performing an interleaved randomised benchmarking experiment, we demonstrate that our approach leads to a significantly higher noise resistance than the circuit-level approach currently used by IBM. Hence, our procedure provides a genuine improvement for applications where noise remains a limiting factor. | 翻訳日:2023-03-23 13:19:53 公開日:2023-03-22 |
# ChatGPTの評価を信頼できますか? Can we trust the evaluation on ChatGPT? ( http://arxiv.org/abs/2303.12767v1 ) ライセンス: Link先を確認 | Rachith Aiyappa, Jisun An, Haewoon Kwak, Yong-Yeol Ahn | (参考訳) 最初の大規模言語モデル(llm)であるchatgptは、多数の自然言語タスクにおいて顕著なパフォーマンスを示している。
このモデルのクローズドな性質と、人間フィードバックからの強化学習(rlhf)による継続的な更新のため、様々な問題領域におけるchatgptの性能評価は依然として困難である。
本稿では,ChatGPT評価におけるデータ汚染の問題点を,姿勢検出の課題を事例として取り上げる。
本稿では,データ汚染防止の課題と,閉・連続学習モデルの時代における公平なモデル評価の確保について考察する。 ChatGPT, the first large language model (LLM) with mass adoption, has demonstrated remarkable performance in numerous natural language tasks. Despite its evident usefulness, evaluating ChatGPT's performance in diverse problem domains remains challenging due to the closed nature of the model and its continuous updates via Reinforcement Learning from Human Feedback (RLHF). We highlight the issue of data contamination in ChatGPT evaluations, with a case study of the task of stance detection. We discuss the challenge of preventing data contamination and ensuring fair model evaluation in the age of closed and continuously trained models. | 翻訳日:2023-03-23 13:19:42 公開日:2023-03-22 |
# LiDARを用いた3次元認識のための球変換器 Spherical Transformer for LiDAR-based 3D Recognition ( http://arxiv.org/abs/2303.12766v1 ) ライセンス: Link先を確認 | Xin Lai, Yukang Chen, Fanbin Lu, Jianhui Liu, Jiaya Jia | (参考訳) LiDARベースの3Dポイントクラウド認識は、様々なアプリケーションに恩恵をもたらした。
LiDARの点分布を特に考慮しない限り、現在のほとんどの手法は情報切断と限られた受容場、特に疎遠な点に悩まされている。
本研究では,lidar点の変動スパーシティ分布を調べ,密接点から疎遠点への情報を直接集約するsphereformerを提案する。
我々は、空間を複数の非重なりの狭い窓と長い窓に分割するラジアルウィンドウ自己アテンションを設計する。
断線問題を克服し、受容野をスムーズかつ劇的に拡大し、疎遠点の性能を大幅に向上させる。
さらに, 狭長の窓に適合するために, 細粒度位置符号化と動的特徴選択を実現する指数的分割を提案し, モデル表現能力を向上させる。
特に、この手法は、それぞれ81.9%と74.8%のmIoUで、nuScenesとSemanticKITTIセマンティックセマンティックセマンティックセマンティクスのベンチマークで第1位である。
また、72.8%のNDSと68.5%のmAPでnuScenesオブジェクト検出ベンチマークで3位となった。
コードはhttps://github.com/dvlab-research/SphereFormer.gitで入手できる。 LiDAR-based 3D point cloud recognition has benefited various applications. Without specially considering the LiDAR point distribution, most current methods suffer from information disconnection and limited receptive field, especially for the sparse distant points. In this work, we study the varying-sparsity distribution of LiDAR points and present SphereFormer to directly aggregate information from dense close points to the sparse distant ones. We design radial window self-attention that partitions the space into multiple non-overlapping narrow and long windows. It overcomes the disconnection issue and enlarges the receptive field smoothly and dramatically, which significantly boosts the performance of sparse distant points. Moreover, to fit the narrow and long windows, we propose exponential splitting to yield fine-grained position encoding and dynamic feature selection to increase model representation ability. Notably, our method ranks 1st on both nuScenes and SemanticKITTI semantic segmentation benchmarks with 81.9% and 74.8% mIoU, respectively. Also, we achieve the 3rd place on nuScenes object detection benchmark with 72.8% NDS and 68.5% mAP. Code is available at https://github.com/dvlab-research/SphereFormer.git. | 翻訳日:2023-03-23 13:19:31 公開日:2023-03-22 |
# ビデオ会議通話における時間歪みのLSTMによる映像品質予測 LSTM-based Video Quality Prediction Accounting for Temporal Distortions in Videoconferencing Calls ( http://arxiv.org/abs/2303.12761v1 ) ライセンス: Link先を確認 | Gabriel Mittag, Babak Naderi, Vishak Gopal, Ross Cutler | (参考訳) VMAFのような最先端のビデオ品質モデルでは、劣化したビデオと参照ビデオを比較して優れた予測結果が得られる。
しかし、ビデオ会議通話中に発生する時間的歪み(例えばフレームフリーズやスキップ)は考慮されていない。
本稿では,クラウドソーシングによってラベル付けされた主観的品質評価でlstmを訓練することにより,歪みを自動的にモデル化するデータ駆動手法を提案する。
ビデオは83の異なるネットワーク条件でライブビデオ会議から収集された。
ソースビデオにQRコードをマーカとして適用し、アライメントベクトルに基づいてアライメント参照を作成し、時間的特徴を計算する。
これらの特徴とVMAFコアの特徴を併用して,本モデルでは検証セット上で0.99のPCCを実現する。
さらに,本モデルはフレーム単位の品質を出力し,映像品質障害の原因を詳細に把握する。
VCMモデルとデータセットはhttps://github.com/microsoft/Video_Call_MOSでオープンソース化されている。 Current state-of-the-art video quality models, such as VMAF, give excellent prediction results by comparing the degraded video with its reference video. However, they do not consider temporal distortions (e.g., frame freezes or skips) that occur during videoconferencing calls. In this paper, we present a data-driven approach for modeling such distortions automatically by training an LSTM with subjective quality ratings labeled via crowdsourcing. The videos were collected from live videoconferencing calls in 83 different network conditions. We applied QR codes as markers on the source videos to create aligned references and compute temporal features based on the alignment vectors. Using these features together with VMAF core features, our proposed model achieves a PCC of 0.99 on the validation set. Furthermore, our model outputs per-frame quality that gives detailed insight into the cause of video quality impairments. The VCM model and dataset are open-sourced at https://github.com/microsoft/Video_Call_MOS. | 翻訳日:2023-03-23 13:19:10 公開日:2023-03-22 |
# 新しいターゲット領域を対象とした事前学習型深度検出ネットワーク再構成のための能動学習の不確実性 Uncertainty Aware Active Learning for Reconfiguration of Pre-trained Deep Object-Detection Networks for New Target Domains ( http://arxiv.org/abs/2303.12760v1 ) ライセンス: Link先を確認 | Jiaming Na, Varuna De-Silva | (参考訳) オブジェクト検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つであり、ポーズ推定、オブジェクトトラッキング、インスタンスセグメンテーションモデルに広く利用されている。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットはビデオフォーマットでアノテーションのないデータを取得することを選択し、アノテータは画像内の各オブジェクトにバウンディングボックスを描画する必要がある。
多くのフレームにはモデルが学ぶべき非常によく似た情報が含まれているため、ビデオから全てのフレームに注釈をつけるのは費用がかかり非効率である。
動画からアノテートに最も有益なフレームを選択する方法は、非常に実用的なタスクになっているが、研究にはほとんど注目されていない。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
提案するアクティブラーニングアルゴリズムでは、ラベルなしデータの分類と局在情報度の両方を測定して集計する。
ビデオフレームからの時間情報を利用して,2つの新しい位置化情報度測定手法を提案する。
さらに,隣接するフレームの照会を避けるため,重み曲線を提案する。
複数の構成を持つ能動学習アルゴリズムを MuPoTS データセットと FootballPD データセットで評価した。 Object detection is one of the most important and fundamental aspects of computer vision tasks, which has been broadly utilized in pose estimation, object tracking and instance segmentation models. To obtain training data for object detection model efficiently, many datasets opt to obtain their unannotated data in video format and the annotator needs to draw a bounding box around each object in the images. Annotating every frame from a video is costly and inefficient since many frames contain very similar information for the model to learn from. How to select the most informative frames from a video to annotate has become a highly practical task to solve but attracted little attention in research. In this paper, we proposed a novel active learning algorithm for object detection models to tackle this problem. In the proposed active learning algorithm, both classification and localization informativeness of unlabelled data are measured and aggregated. Utilizing the temporal information from video frames, two novel localization informativeness measurements are proposed. Furthermore, a weight curve is proposed to avoid querying adjacent frames. Proposed active learning algorithm with multiple configurations was evaluated on the MuPoTS dataset and FootballPD dataset. | 翻訳日:2023-03-23 13:18:54 公開日:2023-03-22 |
# 光通信用光ファイバー集積量子メモリ A fiber-integrated quantum memory for telecom light ( http://arxiv.org/abs/2303.12794v1 ) ライセンス: Link先を確認 | K. A. G. Bonsma-Fisher, C. Hnatovsky, D. Grobnic, S. J. Mihailov, P. J. Bustard, D. G. England, B. J. Sussman | (参考訳) ファイバキャビティ内の単光子レベル通信パルスのストレージとオンデマンド検索を実証する。
キャビティは、単一モードファイバの両端のファイバブラッググレーティングによって形成される。
光子は、強い制御パルスによって駆動される量子周波数変換を用いてキャビティにマッピング・出力される。
最初のスプリケートされた空洞では、0.55$\mu$s (11キャビティラウンドトリップ)、11.3 \pm 0.1$% の総メモリ効率、および1ラウンドトリップ後に信号対雑音比が12.8ドルであることを示す。
第二に、モノリシックなキャビティでは、1回のラウンドトリップで1.75$\mu$s(35ラウンドトリップ)となり、メモリ効率は12.7 \pm 0.2%$(SNRは7.0 \pm 0.2$)となる。
通信波長での量子ストレージのためのファイバーベースのキャビティは、自発的な光子生成イベントを同期させ、スケーラブルな量子ネットワークを構築するための有望な手段を提供する。 We demonstrate the storage and on-demand retrieval of single-photon-level telecom pulses in a fiber cavity. The cavity is formed by fiber Bragg gratings at either end of a single-mode fiber. Photons are mapped into, and out of, the cavity using quantum frequency conversion driven by intense control pulses. In a first, spliced-fiber, cavity we demonstrate storage up to 0.55$\mu$s (11 cavity round trips), with $11.3 \pm 0.1$% total memory efficiency, and a signal-to-noise ratio of $12.8$ after 1 round trip. In a second, monolithic cavity, we increase this lifetime to 1.75$\mu$s (35 round trips) with a memory efficiency of $12.7 \pm 0.2%$ (SNR of $7.0 \pm 0.2$) after 1 round trip. Fiber-based cavities for quantum storage at telecom wavelengths offer a promising route to synchronizing spontaneous photon generation events and building scalable quantum networks. | 翻訳日:2023-03-23 13:12:32 公開日:2023-03-22 |
# CiCo: 言語間コントラスト学習によるドメイン認識手話検索 CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning ( http://arxiv.org/abs/2303.12793v1 ) ライセンス: Link先を確認 | Yiting Cheng, Fangyun Wei, Jianmin Bao, Dong Chen, Wenqiang Zhang | (参考訳) 本研究は,最近提案された手話理解タスクである手話検索に焦点をあてる。
手話検索は、text-to-sign-video (t2v) 検索と sign-video-to-text (v2t) 検索の2つのサブタスクで構成されている。
従来のビデオテキスト検索とは異なり、手話ビデオは視覚信号を含むだけでなく、手話も自然言語であるという事実から、それ自体で豊富な意味意味を持つ。
この特徴を考慮し,手話検索を言語間検索問題として,ビデオテキスト検索タスクとして定式化する。
具体的には,手話言語と自然言語の両方の言語特性を考慮し,テキストと手話映像を併用した埋め込み空間で対比しながら,きめ細かなクロスリンガル(すなわち手話対単語)マッピングを同時に同定する。
この過程は言語横断的なコントラスト学習と呼ばれる。
もうひとつの課題は、データ不足のイシューサイン言語データセットが、音声認識のそれよりも桁違いに小さいことだ。
大規模署名ビデオに事前訓練されたドメインに依存しない符号エンコーダを擬似ラベルにより対象ドメインに導入することでこの問題を軽減する。
我々のフレームワークは、言語間のコントラスト学習やCiCoによるドメイン認識手話検索と呼ばれ、PHOENIX-2014Tデータセットにおける+22.4 T2Vと+28.0 V2T R@1の改善、+13.7 T2Vと+17.1 V2T R@1の改善など、様々なデータセットにおいて、先駆的な手法よりも優れています。
コードとモデルは、https://github.com/FangyunWei/SLRT.comで入手できる。 This work focuses on sign language retrieval-a recently proposed task for sign language understanding. Sign language retrieval consists of two sub-tasks: text-to-sign-video (T2V) retrieval and sign-video-to-text (V2T) retrieval. Different from traditional video-text retrieval, sign language videos, not only contain visual signals but also carry abundant semantic meanings by themselves due to the fact that sign languages are also natural languages. Considering this character, we formulate sign language retrieval as a cross-lingual retrieval problem as well as a video-text retrieval task. Concretely, we take into account the linguistic properties of both sign languages and natural languages, and simultaneously identify the fine-grained cross-lingual (i.e., sign-to-word) mappings while contrasting the texts and the sign videos in a joint embedding space. This process is termed as cross-lingual contrastive learning. Another challenge is raised by the data scarcity issue-sign language datasets are orders of magnitude smaller in scale than that of speech recognition. We alleviate this issue by adopting a domain-agnostic sign encoder pre-trained on large-scale sign videos into the target domain via pseudo-labeling. Our framework, termed as domain-aware sign language retrieval via Cross-lingual Contrastive learning or CiCo for short, outperforms the pioneering method by large margins on various datasets, e.g., +22.4 T2V and +28.0 V2T R@1 improvements on How2Sign dataset, and +13.7 T2V and +17.1 V2T R@1 improvements on PHOENIX-2014T dataset. Code and models are available at: https://github.com/FangyunWei/SLRT. | 翻訳日:2023-03-23 13:12:13 公開日:2023-03-22 |
# SHERF:1枚の画像から一般化可能なヒトのNeRF SHERF: Generalizable Human NeRF from a Single Image ( http://arxiv.org/abs/2303.12791v1 ) ライセンス: Link先を確認 | Shoukang Hu, Fangzhou Hong, Liang Pan, Haiyi Mei, Lei Yang, Ziwei Liu | (参考訳) 既存の3D人間を再構築するためのNeRF法は、通常、複数のビューカメラからの複数の2D画像や固定カメラビューから撮影されたモノクロビデオに依存している。
しかし、現実のシナリオでは、人間の画像はしばしばランダムなカメラアングルから捉えられ、高品質な3d人間の再構築に挑戦する。
本稿では,1つの入力画像からアニマタブルな3D人間を復元するための,最初の一般化可能なヒトNeRFモデルであるSHERFを提案する。
SHERFは、標準空間における3D人間の表現を抽出し、符号化し、自由なビューとポーズからレンダリングとアニメーションを可能にする。
高忠実なノベルビューとポーズ合成を実現するために、符号化された3次元人間の表現は、グローバルな外観と局所的なきめ細かいテクスチャの両方を捉える必要がある。
そこで本稿では,情報エンコーディングを容易にするために,グローバル,ポイントレベル,ピクセルアライメントなどの3d対応階層的特徴のバンクを提案する。
グローバル特徴は、単一入力画像から抽出された情報を強化し、部分2次元観測から欠落した情報を補完する。
ポイントレベルの特徴は、人間の3D構造の強力な手がかりとなる。
3D対応の階層的特徴バンクを効果的に統合するために,特徴融合変換器を設計する。
THuman, RenderPeople, ZJU_MoCap, HuMManデータセットの大規模な実験は、SHERFが最先端のパフォーマンスを達成し、新しいビューやポーズ合成の一般化性が向上していることを示している。 Existing Human NeRF methods for reconstructing 3D humans typically rely on multiple 2D images from multi-view cameras or monocular videos captured from fixed camera views. However, in real-world scenarios, human images are often captured from random camera angles, presenting challenges for high-quality 3D human reconstruction. In this paper, we propose SHERF, the first generalizable Human NeRF model for recovering animatable 3D humans from a single input image. SHERF extracts and encodes 3D human representations in canonical space, enabling rendering and animation from free views and poses. To achieve high-fidelity novel view and pose synthesis, the encoded 3D human representations should capture both global appearance and local fine-grained textures. To this end, we propose a bank of 3D-aware hierarchical features, including global, point-level, and pixel-aligned features, to facilitate informative encoding. Global features enhance the information extracted from the single input image and complement the information missing from the partial 2D observation. Point-level features provide strong clues of 3D human structure, while pixel-aligned features preserve more fine-grained details. To effectively integrate the 3D-aware hierarchical feature bank, we design a feature fusion transformer. Extensive experiments on THuman, RenderPeople, ZJU_MoCap, and HuMMan datasets demonstrate that SHERF achieves state-of-the-art performance, with better generalizability for novel view and pose synthesis. | 翻訳日:2023-03-23 13:11:40 公開日:2023-03-22 |
# Diffuse-Denoise-Count:拡散モデルによる正確な群集Counting Diffuse-Denoise-Count: Accurate Crowd-Counting with Diffusion Models ( http://arxiv.org/abs/2303.12790v1 ) ライセンス: Link先を確認 | Yasiru Ranasinghe and Nithin Gopalakrishnan Nair and Wele Gedara Chaminda Bandara and Vishal M. Patel | (参考訳) 群集の数え上げは群集分析の重要な側面であり、一般に群集密度マップを推定し、密度値の合計を行うことで達成されている。
しかし、このアプローチは、基底真理密度マップを作成するために広いガウス核を使用するため、背景雑音の蓄積と密度の損失に悩まされる。
この問題はガウス核を狭めることで克服できる。
しかし、既存のアプローチは、そのような基底真理密度マップで訓練すると、うまく機能しない。
この制限を克服するために, 拡散モデルは複素分布をよくモデル化し, 群集密度マップ生成時のトレーニングデータに高い忠実性を示すことが知られているため, 密度分布予測に条件拡散モデルを用いることを提案する。
さらに,拡散過程の中間段階はノイズが多いため,訓練中にのみ直接集団推定を行う回帰分岐を組み込んで特徴学習を改善する。
また,拡散モデルの確率的性質から,既存の群集計数パイプラインとは対照的なカウント性能を向上させるために,複数の密度マップを作成することを提案する。
また, 背景雑音に対する免疫性が高い計数操作として, 密度推定と輪郭検出, その後の計数操作との違いも検討した。
提案手法の有効性を検証するために,公開データセットに関する広範な実験を行った。
具体的には、新しいクラウドカウントパイプラインは、JHU-CROWD++で最大6\%、UCF-QNRFで最大7\%のエラーを改善する。 Crowd counting is a key aspect of crowd analysis and has been typically accomplished by estimating a crowd-density map and summing over the density values. However, this approach suffers from background noise accumulation and loss of density due to the use of broad Gaussian kernels to create the ground truth density maps. This issue can be overcome by narrowing the Gaussian kernel. However, existing approaches perform poorly when trained with such ground truth density maps. To overcome this limitation, we propose using conditional diffusion models to predict density maps, as diffusion models are known to model complex distributions well and show high fidelity to training data during crowd-density map generation. Furthermore, as the intermediate time steps of the diffusion process are noisy, we incorporate a regression branch for direct crowd estimation only during training to improve the feature learning. In addition, owing to the stochastic nature of the diffusion model, we introduce producing multiple density maps to improve the counting performance contrary to the existing crowd counting pipelines. Further, we also differ from the density summation and introduce contour detection followed by summation as the counting operation, which is more immune to background noise. We conduct extensive experiments on public datasets to validate the effectiveness of our method. Specifically, our novel crowd-counting pipeline improves the error of crowd-counting by up to $6\%$ on JHU-CROWD++ and up to $7\%$ on UCF-QNRF. | 翻訳日:2023-03-23 13:11:12 公開日:2023-03-22 |
# インストラクション-NeRF2NeRF:インストラクションによる3Dシーンの編集 Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions ( http://arxiv.org/abs/2303.12789v1 ) ライセンス: Link先を確認 | Ayaan Haque, Matthew Tancik, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa | (参考訳) テキストインストラクションによるnrfシーンの編集手法を提案する。
シーンのNeRFと画像の再構成に使用される画像の収集を前提として,画像条件の拡散モデル(InstructPix2Pix)を用いて画像の編集を反復的に行い,編集命令を尊重する最適化された3Dシーンを生成する。
提案手法は,大規模で現実的なシーンの編集が可能であり,従来よりもリアルで目標とした編集を実現できることを示す。 We propose a method for editing NeRF scenes with text-instructions. Given a NeRF of a scene and the collection of images used to reconstruct it, our method uses an image-conditioned diffusion model (InstructPix2Pix) to iteratively edit the input images while optimizing the underlying scene, resulting in an optimized 3D scene that respects the edit instruction. We demonstrate that our proposed method is able to edit large-scale, real-world scenes, and is able to accomplish more realistic, targeted edits than prior work. | 翻訳日:2023-03-23 13:10:44 公開日:2023-03-22 |
# オープンソースのフレームセマンティクス解析 Open-source Frame Semantic Parsing ( http://arxiv.org/abs/2303.12788v1 ) ライセンス: Link先を確認 | David Chanin | (参考訳) 近年,フレームセマンティック解析の最先端技術は飛躍的に進歩しているが,エンドユーザーが実際に最先端のモデルを適用することは依然として困難である。
これに対処するために,framenet 1.7で最先端に近いパフォーマンスを実現するオープンソースpythonライブラリであるframe semantic transformerを提案する。
我々は, Propbank と FrameNet の例に微調整した T5 モデルをベースとして, FrameNet の語彙単位を用いて, 推論時に T5 にヒントを与えることによって性能を向上させる。
トレーニング中にテキストデータ拡張を用いて実世界のデータに対する堅牢性を向上する。 While the state-of-the-art for frame semantic parsing has progressed dramatically in recent years, it is still difficult for end-users to apply state-of-the-art models in practice. To address this, we present Frame Semantic Transformer, an open-source Python library which achieves near state-of-the-art performance on FrameNet 1.7, while focusing on ease-of-use. We use a T5 model fine-tuned on Propbank and FrameNet exemplars as a base, and improve performance by using FrameNet lexical units to provide hints to T5 at inference time. We enhance robustness to real-world data by using textual data augmentations during training. | 翻訳日:2023-03-23 13:10:32 公開日:2023-03-22 |
# EPro-PnP:一眼的対象推定のための一般化エンドツーエンド確率的視点n点 EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation ( http://arxiv.org/abs/2303.12787v1 ) ライセンス: Link先を確認 | Hansheng Chen, Wei Tian, Pichao Wang, Fan Wang, Lu Xiong, Hao Li | (参考訳) Perspective-n-Point (PnP) による単一のRGB画像からの3Dオブジェクトの配置は、コンピュータビジョンにおける長年の問題である。
エンドツーエンドのディープラーニングによって駆動される最近の研究は、PnPを微分可能な層として解釈し、ポーズ損失の勾配を逆伝播させることで2D-3D点対応の部分的学習を可能にすることを示唆している。
しかし、スクラッチからすべての対応を学ぶことは極めて困難であり、特に不明瞭なポーズ解では、大域的最適ポーズは理論上は微分不可能である。
本稿では,SE(3)多様体上の確率密度の異なるポーズの分布を出力する一般エンドツーエンドのポーズ推定のための確率的PnP層であるEPro-PnPを提案する。
2D-3D座標と対応する重みは、予測されたポーズ分布と目標ポーズ分布とのKL分散を最小化して学習した中間変数として扱われる。
基本原理は以前のアプローチを一般化し、注意機構に似ている。
EPro-PnPは既存の通信網を強化し、PnPベースの手法とLineMOD 6DoFのポーズ推定ベンチマークにおけるタスク固有のリーダーとのギャップを埋める。
さらに、EPro-PnPは、nuScenes 3Dオブジェクト検出ベンチマーク上で、最先端のポーズ精度を持つ新しい変形可能な対応ネットワークを実証し、ネットワーク設計の新たな可能性を探るのに役立つ。
私たちのコードはhttps://github.com/tjiiv-cprg/epro-pnp-v2で利用可能です。 Locating 3D objects from a single RGB image via Perspective-n-Point (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, allowing for partial learning of 2D-3D point correspondences by backpropagating the gradients of pose loss. Yet, learning the entire correspondences from scratch is highly challenging, particularly for ambiguous pose solutions, where the globally optimal pose is theoretically non-differentiable w.r.t. the points. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose with differentiable probability density on the SE(3) manifold. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle generalizes previous approaches, and resembles the attention mechanism. EPro-PnP can enhance existing correspondence networks, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation benchmark. Furthermore, EPro-PnP helps to explore new possibilities of network design, as we demonstrate a novel deformable correspondence network with the state-of-the-art pose accuracy on the nuScenes 3D object detection benchmark. Our code is available at https://github.com/tjiiv-cprg/EPro-PnP-v2. | 翻訳日:2023-03-23 13:10:21 公開日:2023-03-22 |
# FeatureNeRF: 基礎モデルの蒸留による一般化可能なNeRFの学習 FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models ( http://arxiv.org/abs/2303.12786v1 ) ライセンス: Link先を確認 | Jianglong Ye, Naiyan Wang, Xiaolong Wang | (参考訳) 一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
しかしながら、このようなモデルは意味理解や解析といった合成以外の下流タスクに適用されることはほとんどない。
本稿では、事前学習された視覚基盤モデル(例えば、DINO, Latent Diffusion)を蒸留することにより、一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
FeatureNeRFは、ニューラルネットワークによる2Dトレーニング済みの基礎モデルを3D空間に活用し、NeRF MLPから3Dクエリポイントの深い特徴を抽出する。
これにより、2Dイメージを連続した3Dセマンティックな特徴ボリュームにマッピングすることができる。
2D/3Dセマンティックキーポイント転送と2D/3Dオブジェクト部分分割のタスクにおけるFeatureNeRFの評価を行った。
一般化可能な3次元意味特徴抽出器としてのFeatureNeRFの有効性を実証した。
プロジェクトのページはhttps://jianglongye.com/featurenerf/で閲覧できます。 Recent works on generalizable NeRFs have shown promising results on novel view synthesis from single or few images. However, such models have rarely been applied on other downstream tasks beyond synthesis such as semantic understanding and parsing. In this paper, we propose a novel framework named FeatureNeRF to learn generalizable NeRFs by distilling pre-trained vision foundation models (e.g., DINO, Latent Diffusion). FeatureNeRF leverages 2D pre-trained foundation models to 3D space via neural rendering, and then extract deep features for 3D query points from NeRF MLPs. Consequently, it allows to map 2D images to continuous 3D semantic feature volumes, which can be used for various downstream tasks. We evaluate FeatureNeRF on tasks of 2D/3D semantic keypoint transfer and 2D/3D object part segmentation. Our extensive experiments demonstrate the effectiveness of FeatureNeRF as a generalizable 3D semantic feature extractor. Our project page is available at https://jianglongye.com/featurenerf/ . | 翻訳日:2023-03-23 13:09:52 公開日:2023-03-22 |
# エントロピー規則化RLのためのマトリルシュカ政策-収束とグローバル最適性 Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality ( http://arxiv.org/abs/2303.12785v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Ged and Maria Han Veiga | (参考訳) エージェントがその累積報酬に加えてエントロピーボーナスを最大化することを目的とした最大エントロピー強化学習(max-Entropy reinforcement learning)の文脈において、Matryoshka Policy Gradient (MPG)と呼ばれる新しいポリシーグラディエント(PG)アルゴリズムを導入、研究している。
MPGは標準PGと異なり、単一の標準目的のための単一のポリシーではなく、有限地平線タスクを同時に学習するための一連のポリシーを訓練する。
ソフトマックスポリシーに対しては、MPGの目的の唯一の臨界点が最適ポリシーであることを示すことによって、MPGの収束と極限の大域的最適性を証明する。
mpgは直感的かつ理論的に健全であり、さらに、標準マックスエントロピー目標の最適ポリシーは、mpgフレームワークの最適ポリシーによって任意に近似できることを示した。
最後に、MPGは、ニューラルネットワークでポリシーをパラメータ化する場合に適しており、収束時のポリシーのグローバルな最適性を検証するための簡単な基準を提供する。
概念実証として,標準テストベンチマークを用いて数値MPGを評価する。 A novel Policy Gradient (PG) algorithm, called Matryoshka Policy Gradient (MPG), is introduced and studied, in the context of max-entropy reinforcement learning, where an agent aims at maximising entropy bonuses additional to its cumulative rewards. MPG differs from standard PG in that it trains a sequence of policies to learn finite horizon tasks simultaneously, instead of a single policy for the single standard objective. For softmax policies, we prove convergence of MPG and global optimality of the limit by showing that the only critical point of the MPG objective is the optimal policy; these results hold true even in the case of continuous compact state space. MPG is intuitive, theoretically sound and we furthermore show that the optimal policy of the standard max-entropy objective can be approximated arbitrarily well by the optimal policy of the MPG framework. Finally, we justify that MPG is well suited when the policies are parametrized with neural networks and we provide an simple criterion to verify the global optimality of the policy at convergence. As a proof of concept, we evaluate numerically MPG on standard test benchmarks. | 翻訳日:2023-03-23 13:09:36 公開日:2023-03-22 |
# ホップフィールドネットワークを用いた時系列の共形予測 Conformal Prediction for Time Series with Modern Hopfield Networks ( http://arxiv.org/abs/2303.12783v1 ) ライセンス: Link先を確認 | Andreas Auer, Martin Gauch, Daniel Klotz, Sepp Hochreiter | (参考訳) 不確かさを定量化するために、コンフォメーション予測手法は継続的に関心を集めており、既に様々な領域に適用されている。
しかし、時系列の自己相関構造が共形予測に必要な基本的な仮定に反するため、時系列に適用することは困難である。
本稿では,時間構造に対処するだけでなく,それらを活用する時系列の共形予測手法であるHopCPTを提案する。
我々は,時間的依存関係が存在する時系列に対して理論的に妥当であることを示す。
実験では、4つの異なる領域の複数の実世界の時系列データセットにおいて、新しいアプローチが最先端のコンフォメーション予測手法より優れていることを示す。 To quantify uncertainty, conformal prediction methods are gaining continuously more interest and have already been successfully applied to various domains. However, they are difficult to apply to time series as the autocorrelative structure of time series violates basic assumptions required by conformal prediction. We propose HopCPT, a novel conformal prediction approach for time series that not only copes with temporal structures but leverages them. We show that our approach is theoretically well justified for time series where temporal dependencies are present. In experiments, we demonstrate that our new approach outperforms state-of-the-art conformal prediction methods on multiple real-world time series datasets from four different domains. | 翻訳日:2023-03-23 13:09:14 公開日:2023-03-22 |
# 逆量子熱処理による親ハミルトン再構成 Parent Hamiltonian reconstruction via inverse quantum annealing ( http://arxiv.org/abs/2303.11200v2 ) ライセンス: Link先を確認 | Davide Rattacaso, Gianluca Passarelli, Angelo Russomanno, Procolo Lucignano, Giuseppe E. Santoro, Rosario Fazio | (参考訳) 与えられた多体波動関数を基底状態とする局所ハミルトニアンの探索は、量子技術における基本的な重要性の重大な挑戦である。
ここでは、量子アニールにインスパイアされた方法で、このタスクを人工的逆動力学によって効率的に実行し、状態の遅い変形は対応するハミルトンの断熱的進化を生成する。
このアプローチを "inverse quantum annealing" と呼ぶ。
この方法は局所的な期待値の知識のみを必要とする。
例えば、フェルミオンガウス状態の局所ハミルトニアンを見つけるために逆量子アニーリングを適用する。 Finding a local Hamiltonian having a given many-body wavefunction as its ground state is a serious challenge of fundamental importance in quantum technologies. Here we introduce a method, inspired by quantum annealing, that efficiently performs this task through an artificial inverse dynamics: a slow deformation of the state generates an adiabatic evolution of the corresponding Hamiltonian. We name this approach 'inverse quantum annealing'. This method only requires the knowledge of local expectation values. As an example, we apply inverse quantum annealing to find the local Hamiltonian of fermionic Gaussian states. | 翻訳日:2023-03-23 11:13:25 公開日:2023-03-22 |
# EmotionIC:会話における感情認識のための感情慣性と感染駆動依存モデル EmotionIC: Emotional Inertia and Contagion-driven Dependency Modelling for Emotion Recognition in Conversation ( http://arxiv.org/abs/2303.11117v2 ) ライセンス: Link先を確認 | Yingjian Liu, Jiang Li, Xiaoping Wang, Zhigang Zeng | (参考訳) 近年,人間とコンピュータのインターフェース技術の発展と実装により,会話における感情認識(ERC)が注目されている。
しかし、グローバルおよびローカルなコンテキスト依存をモデル化する以前のアプローチは、依存関係情報の多様性を失い、コンテキスト依存を分類レベルで考慮しなかった。
本稿では,特徴抽出と分類レベルでの会話的感情認識のための,感情的慣性と伝染(感情的)によって駆動される依存モデルに対する新しいアプローチを提案する。
特徴抽出レベルにおいて、設計したIM-MHA(Identity Masked Multi-head Attention)は、異なる参加者の多様な影響を包含し、グローバルな情緒的雰囲気を構築するために、対話におけるアイデンティティベースの長距離コンテキストをキャプチャし、ダイアログベースのゲートリカレントユニット(DialogGRU)は、ダイアログによる対話の感情的傾向を集約し、話者間および話者間の依存関係で文脈的特徴を洗練させる。
分類レベルでは、条件付きランダムフィールド(CRF)にスキップ接続を導入することにより、スキップチェーンCRF(SkipCRF)を精査し、話者内および話者間の高次依存関係を捕捉し、遠隔参加者の感情の流れをエミュレートする。
実験の結果,本手法は4つのベンチマークデータセットにおいて,最先端モデルを大幅に上回ることができることがわかった。
アブレーション研究は、我々のモジュールが感情の慣性や伝染を効果的にモデル化できることを確認した。 Emotion Recognition in Conversation (ERC) has attracted growing attention in recent years as a result of the advancement and implementation of human-computer interface technologies. However, previous approaches to modeling global and local context dependencies lost the diversity of dependency information and do not take the context dependency into account at the classification level. In this paper, we propose a novel approach to dependency modeling driven by Emotional Inertia and Contagion (EmotionIC) for conversational emotion recognition at the feature extraction and classification levels. At the feature extraction level, our designed Identity Masked Multi-head Attention (IM-MHA) captures the identity-based long-distant context in the dialogue to contain the diverse influence of different participants and construct the global emotional atmosphere, while the devised Dialogue-based Gate Recurrent Unit (DialogGRU) that aggregates the emotional tendencies of dyadic dialogue is applied to refine the contextual features with inter- and intra-speaker dependencies. At the classification level, by introducing skip connections in Conditional Random Field (CRF), we elaborate the Skip-chain CRF (SkipCRF) to capture the high-order dependencies within and between speakers, and to emulate the emotional flow of distant participants. Experimental results show that our method can significantly outperform the state-of-the-art models on four benchmark datasets. The ablation studies confirm that our modules can effectively model emotional inertia and contagion. | 翻訳日:2023-03-23 11:13:14 公開日:2023-03-22 |
# 非エルミート皮膚効果に対する動的変性分割の観察 Observation of dynamical degeneracy splitting for the non-Hermitian skin effect ( http://arxiv.org/abs/2303.11109v2 ) ライセンス: Link先を確認 | Tuo Wan, Kai Zhang, Junkai Li, Zhesen Yang and Zhaoju Yang | (参考訳) 非エルミート皮膚効果は非エルミート系において顕著な現象であり、境界におけるバルク状態の異常な局在として現れる。
非エルミート皮膚効果の物理的起源を理解するために、スペクトル関数の強い異方性を反映した等周波数輪郭上の動的縮退に基づくバルクバンド特性を提案する。
本稿では, 2次元音響結晶における両現象の実験的観察を報告し, 単周波励起測定によりその顕著な対応を明らかにする。
本研究は,非エルミート物理を研究するための制御可能な実験プラットフォームを提供するだけでなく,非エルミート皮膚効果と動的変性分裂との対応を確認し,非エルミート皮膚効果を特徴付ける新しい方法を提案する。 The non-Hermitian skin effect is a distinctive phenomenon in non-Hermitian systems, which manifests as the anomalous localization of bulk states at the boundary. To understand the physical origin of the non-Hermitian skin effect, a bulk band characterization based on the dynamical degeneracy on an equal frequency contour is proposed, which reflects the strong anisotropy of the spectral function. In this paper, we report the experimental observation of both phenomena in a two-dimensional acoustic crystal, and reveal their remarkable correspondence by performing single-frequency excitation measurements. Our work not only provides a controllable experimental platform for studying the non-Hermitian physics, but also confirms the correspondence between the non-Hermitian skin effect and the dynamical degeneracy splitting, paving a new way to characterize the non-Hermitian skin effect. | 翻訳日:2023-03-23 11:12:41 公開日:2023-03-22 |
# キャラクタ、ワード、または両方?
中国語事前学習モデルにおけるセグメンテーション粒度の再検討 Character, Word, or Both? Revisiting the Segmentation Granularity for Chinese Pre-trained Language Models ( http://arxiv.org/abs/2303.10893v2 ) ライセンス: Link先を確認 | Xinnian Liang, Zefan Zhou, Hui Huang, Shuangzhi Wu, Tong Xiao, Muyun Yang, Zhoujun Li, Chao Bian | (参考訳) プレトレーニング言語モデル(PLM)は、様々なNLPタスクで驚くほど改善されている。
ほとんどの中国語のPLMは入力テキストを文字のシーケンスとして扱い、単語情報を完全に無視する。
全単語マスキングはこれを緩和できるが、単語の意味論はいまだよく表現されていない。
本稿では,中国のplmのセグメンテーション粒度を再検討する。
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
これを実現するために,文字および単語レベルの表現を学習するための目的関数を設計する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
実験結果から,MigBERTは全てのタスクにおいて新しいSOTA性能を実現することがわかった。
さらに分析すると、単語は文字よりも意味的に豊かであることが示される。
さらに興味深いのは、MigBERTが日本語でも使えることだ。
私たちのコードとモデルはここでリリースされています。 Pretrained language models (PLMs) have shown marvelous improvements across various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence of characters, and completely ignore word information. Although Whole Word Masking can alleviate this, the semantics in words is still not well represented. In this paper, we revisit the segmentation granularity of Chinese PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both characters and words. To achieve this, we design objective functions for learning both character and word-level representations. We conduct extensive experiments on various Chinese NLP tasks to evaluate existing PLMs as well as the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA performance on all these tasks. Further analysis demonstrates that words are semantically richer than characters. More interestingly, we show that MigBERT also works with Japanese. Our code and model have been released here~\footnote{https://github.com/xnliang98/MigBERT}. | 翻訳日:2023-03-23 11:12:26 公開日:2023-03-22 |
# 見ることなく回転する:タッチによるデクスタリティを目指して Rotating without Seeing: Towards In-hand Dexterity through Touch ( http://arxiv.org/abs/2303.10880v3 ) ライセンス: Link先を確認 | Zhao-Heng Yin, Binghao Huang, Yuzhe Qin, Qifeng Chen, Xiaolong Wang | (参考訳) 触覚情報は人間の器用さにおいて重要な役割を果たす。
これは視覚から直接推測できない有用な接触情報を明らかにする。
実際、人間は視覚を使わずに手作業で操作することも可能である。
マルチフィンガーロボットでも同じ機能を実現できるだろうか?
本稿では,物体を目にせずに触りながら物体の回転を行うシステムであるtouch dexterityを提案する。
ロボットハンドの片側(手のひら、指のリンク、指先)を重ねて、密集した二分力センサー(タッチか無タッチか)を用いた新しいシステムデザインを導入する。
このような設計は低コストであり、オブジェクトのカバー範囲を大きくし、同時にsim2realギャップを最小化する。
シミュレーションにおいて多種多様な物体に対する強化学習を用いて手動回転ポリシーを訓練する。
タッチのみのセンシングに頼ることで、実際のロボットハンドにポリシーを直接配置し、トレーニングで提示されない新しいオブジェクトを回転させることができる。
我々のプロジェクトはhttps://touchdexterity.github.io.comで公開されている。 Tactile information plays a critical role in human dexterity. It reveals useful contact information that may not be inferred directly from vision. In fact, humans can even perform in-hand dexterous manipulation without using vision. Can we enable the same ability for the multi-finger robot hand? In this paper, we present Touch Dexterity, a new system that can perform in-hand object rotation using only touching without seeing the object. Instead of relying on precise tactile sensing in a small region, we introduce a new system design using dense binary force sensors (touch or no touch) overlaying one side of the whole robot hand (palm, finger links, fingertips). Such a design is low-cost, giving a larger coverage of the object, and minimizing the Sim2Real gap at the same time. We train an in-hand rotation policy using Reinforcement Learning on diverse objects in simulation. Relying on touch-only sensing, we can directly deploy the policy in a real robot hand and rotate novel objects that are not presented in training. Extensive ablations are performed on how tactile information help in-hand manipulation.Our project is available at https://touchdexterity.github.io. | 翻訳日:2023-03-23 11:12:16 公開日:2023-03-22 |
# Defocus Clue による完全自己監督深度推定 Fully Self-Supervised Depth Estimation from Defocus Clue ( http://arxiv.org/abs/2303.10752v2 ) ライセンス: Link先を確認 | Haozhe Si, Bin Zhao, Dong Wang, Yupeng Gao, Mulin Chen, Zhigang Wang, Xuelong Li | (参考訳) 画像におけるデフォーカスパターンとデフォーカスパターンの関係をモデル化したdepth-from-defocus (DFD)は、深さ推定において有望な性能を示した。
近年,複数の自己監督作業が精度の高い地中精度の確保の困難さを克服しようと試みている。
しかし、実際のシナリオではキャプチャできないオールインフォーカス(AIF)イメージに依存している。
このような制限はDFD法の適用を妨げる。
この問題に対処するため,我々は疎focalスタックから深さを推定する完全自己教師付きフレームワークを提案する。
我々は,この枠組みが深度とAIF画像の基盤構造の必要性を回避し,優れた予測を得られることを示し,DFDの理論的成功と実世界におけるその応用とのギャップを埋めることを示す。
特に,提案する
(i)DFDタスクのより現実的な設定で、深度やAIF画像の接地構造は利用できない。
(II)困難条件下での深度とAIF画像の信頼性の高い予測を提供する新しい自己超越フレームワーク。
提案フレームワークは、ニューラルネットワークを用いて深度とAIF画像の予測を行い、光学モデルを用いて予測の検証と精査を行う。
我々は、レンダリングされたfocalスタックと実際のfocalスタックを備えた3つのベンチマークデータセットで、フレームワークを検証する。
定性的および定量的評価は,本手法が自己教師型DFDタスクの強力なベースラインを提供することを示している。 Depth-from-defocus (DFD), modeling the relationship between depth and defocus pattern in images, has demonstrated promising performance in depth estimation. Recently, several self-supervised works try to overcome the difficulties in acquiring accurate depth ground-truth. However, they depend on the all-in-focus (AIF) images, which cannot be captured in real-world scenarios. Such limitation discourages the applications of DFD methods. To tackle this issue, we propose a completely self-supervised framework that estimates depth purely from a sparse focal stack. We show that our framework circumvents the needs for the depth and AIF image ground-truth, and receives superior predictions, thus closing the gap between the theoretical success of DFD works and their applications in the real world. In particular, we propose (i) a more realistic setting for DFD tasks, where no depth or AIF image ground-truth is available; (ii) a novel self-supervision framework that provides reliable predictions of depth and AIF image under the challenging setting. The proposed framework uses a neural model to predict the depth and AIF image, and utilizes an optical model to validate and refine the prediction. We verify our framework on three benchmark datasets with rendered focal stacks and real focal stacks. Qualitative and quantitative evaluations show that our method provides a strong baseline for self-supervised DFD tasks. | 翻訳日:2023-03-23 11:11:58 公開日:2023-03-22 |
# 連続的プロンプトで回答したTwitterからのCOVID-19イベント抽出 COVID-19 event extraction from Twitter via extractive question answering with continuous prompts ( http://arxiv.org/abs/2303.10659v2 ) ライセンス: Link先を確認 | Yuhang Jiang and Ramakanth Kavuluru | (参考訳) 新型コロナウイルス(covid-19)が世界を席巻する中、ソーシャルメディア分析は、パンデミックがどのように発展するかを評価する従来の調査を強化し、医療機関がそれに取り組むのに役立つ消費者の会話を捉える可能性がある。
これは典型的には、予防または治療の選択肢に関する認識や信念に関する、疾患や議論に対して陽性であるテストに言及する開示イベントをマイニングする。
2020年のCOVID-19イベント抽出タスク(EMNLPカンファレンスでW-NUTワークショップの一環として実施された)は、新型コロナウイルスのツイートからイベント抽出をベンチマークする新しいTwitterデータセットを導入した。
本稿では,言語モデルにおける連続的プロンプトの最近の進歩を用いて,イベント抽出の問題を抽出的質問応答として位置づける。
共有タスクテストデータセットでは、当社のアプローチは、すべてのCOVID-19イベントスロットにおいて、以前の最高の結果よりも5%以上の絶対的なマイクロ平均F1スコアの改善につながります。
我々のアブレーション調査は、連続的なプロンプトが最終的なパフォーマンスに大きな影響を与えることを示している。 As COVID-19 ravages the world, social media analytics could augment traditional surveys in assessing how the pandemic evolves and capturing consumer chatter that could help healthcare agencies in addressing it. This typically involves mining disclosure events that mention testing positive for the disease or discussions surrounding perceptions and beliefs in preventative or treatment options. The 2020 shared task on COVID-19 event extraction (conducted as part of the W-NUT workshop during the EMNLP conference) introduced a new Twitter dataset for benchmarking event extraction from COVID-19 tweets. In this paper, we cast the problem of event extraction as extractive question answering using recent advances in continuous prompting in language models. On the shared task test dataset, our approach leads to over 5% absolute micro-averaged F1-score improvement over prior best results, across all COVID-19 event slots. Our ablation study shows that continuous prompts have a major impact on the eventual performance. | 翻訳日:2023-03-23 11:11:34 公開日:2023-03-22 |
# スタイルRF:Zero-shot 3Dスタイルの神経放射場移動 StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields ( http://arxiv.org/abs/2303.10598v2 ) ライセンス: Link先を確認 | Kunhao Liu, Fangneng Zhan, Yiwen Chen, Jiahui Zhang, Yingchen Yu, Abdulmotaleb El Saddik, Shijian Lu, Eric Xing | (参考訳) 3dスタイル転送は、3dシーンのスタイル化されたノベルビューをマルチビュー一貫性で描画することを目的としている。
しかし、既存の作品の多くは正確な幾何学的再構成、高品質なスタイライゼーション、任意の新しいスタイルに一般化された3方向のジレンマに苦しめられている。
放射場の特徴空間内でスタイル変換を行うことで3方向ジレンマを解消する3次元スタイル転送技術であるStyleRF(Style Radiance Fields)を提案する。
StyleRFは3Dシーンを表現するために高精細な特徴の明示的なグリッドを採用しており、ボリュームレンダリングによって高精細な形状を確実に復元することができる。
さらに、グリッド機能は参照スタイルに従って変換され、高品質なゼロショットスタイル転送に直接繋がる。
StyleRFは2つの革新的な設計で構成されている。
1つ目はサンプリング不変なコンテンツ変換であり、この変換はサンプル化された3D点の全体統計に不変であり、したがってマルチビュー整合性を保証する。
2つ目は、3Dポイントの変換と同等の2D特徴写像の遅延型変換であるが、マルチビューの一貫性を損なうことなくメモリフットプリントを大幅に削減する。
広範な実験により、stylerfは正確な形状再構成により優れた3dスタイライゼーション品質を達成し、ゼロショット方式で様々な新しいスタイルに一般化できることを示した。 3D style transfer aims to render stylized novel views of a 3D scene with multi-view consistency. However, most existing work suffers from a three-way dilemma over accurate geometry reconstruction, high-quality stylization, and being generalizable to arbitrary new styles. We propose StyleRF (Style Radiance Fields), an innovative 3D style transfer technique that resolves the three-way dilemma by performing style transformation within the feature space of a radiance field. StyleRF employs an explicit grid of high-level features to represent 3D scenes, with which high-fidelity geometry can be reliably restored via volume rendering. In addition, it transforms the grid features according to the reference style which directly leads to high-quality zero-shot style transfer. StyleRF consists of two innovative designs. The first is sampling-invariant content transformation that makes the transformation invariant to the holistic statistics of the sampled 3D points and accordingly ensures multi-view consistency. The second is deferred style transformation of 2D feature maps which is equivalent to the transformation of 3D points but greatly reduces memory footprint without degrading multi-view consistency. Extensive experiments show that StyleRF achieves superior 3D stylization quality with precise geometry reconstruction and it can generalize to various new styles in a zero-shot manner. | 翻訳日:2023-03-23 11:11:16 公開日:2023-03-22 |
# インベントリマネジメントのためのニューラル付加モデルによる解釈型強化学習 Interpretable Reinforcement Learning via Neural Additive Models for Inventory Management ( http://arxiv.org/abs/2303.10382v2 ) ライセンス: Link先を確認 | Julien Siems, Maximilian Schambach, Sebastian Schulze, Johannes S. Otterbach | (参考訳) 新型コロナウイルスのパンデミックは、サプライチェーンの重要性と、環境の動的変化に対応するためのデジタルマネジメントの重要性を強調している。
本研究では,多段階,すなわちサプライチェーンのための動的在庫発注ポリシーの開発に焦点をあてる。
従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。
したがって、これらの政策は、新型コロナウイルス危機で観察されたような動的変化に適応できない。
一方、従来の戦略は、ステークホルダーに意思決定を伝えるためにサプライチェーンマネージャにとって重要な特徴である解釈可能な利点を提供する。
そこで本研究では,従来の静的ポリシと同等に解釈可能でありながら,他の深層学習に基づく強化学習ソリューションと同じくらい柔軟で環境に依存しない,解釈可能な強化学習手法を提案する。
本稿では,強化学習エージェントの解釈可能な動的ポリシとしてニューラル添加モデルを用いることを提案し,本手法が標準の完全連結ポリシーと競合することを示す。
最後に、この解釈可能性特性を用いて、単純で線形な3エキロン在庫サプライチェーンの複雑な注文戦略の洞察を得る。 The COVID-19 pandemic has highlighted the importance of supply chains and the role of digital management to react to dynamic changes in the environment. In this work, we focus on developing dynamic inventory ordering policies for a multi-echelon, i.e. multi-stage, supply chain. Traditional inventory optimization methods aim to determine a static reordering policy. Thus, these policies are not able to adjust to dynamic changes such as those observed during the COVID-19 crisis. On the other hand, conventional strategies offer the advantage of being interpretable, which is a crucial feature for supply chain managers in order to communicate decisions to their stakeholders. To address this limitation, we propose an interpretable reinforcement learning approach that aims to be as interpretable as the traditional static policies while being as flexible and environment-agnostic as other deep learning-based reinforcement learning solutions. We propose to use Neural Additive Models as an interpretable dynamic policy of a reinforcement learning agent, showing that this approach is competitive with a standard full connected policy. Finally, we use the interpretability property to gain insights into a complex ordering strategy for a simple, linear three-echelon inventory supply chain. | 翻訳日:2023-03-23 11:10:52 公開日:2023-03-22 |
# ゼロショット学習環境における政治家のイデオロギーの推定に大規模言語モデルを用いる Large Language Models Can Be Used to Estimate the Ideologies of Politicians in a Zero-Shot Learning Setting ( http://arxiv.org/abs/2303.12057v2 ) ライセンス: Link先を確認 | Patrick Y. Wu, Joshua A. Tucker, Jonathan Nagler, Solomon Messing | (参考訳) 大規模言語モデル(LLM)に埋め込まれた知識の大量集約は、社会科学における可観測性や測定に関する問題に対する新しい解決策の可能性を秘めている。
議員の潜在イデオロギーを測定することで、政治がどのように政策を形作るか、政治家がその構成員をどのように表現するかといった民主主義の核となる機能をよりよく理解することができる。
我々は、第116アメリカ合衆国議会の上院議員をリベラル保守のスペクトルに沿ってスケールし、chatgptに対比較でよりリベラルな(または保守的な)上院議員を選ぶよう促す。
LLMは繰り返し繰り返して安定した回答を生成し、幻覚を起こさず、単一の情報源から情報を取り出すだけではありませんでした。
この新尺度は、ノミネートのような既存のリベラル保守的尺度と強く相関するが、極端に左派や極右のイデオロギー的な理由から党に投票する上院議員を正しく配置するなど、いくつかの重要な点で異なる。
また、この尺度は選挙運動や政治活動家のこれら上院議員に対する認識に基づくイデオロギー的措置と高い相関がある。
データの収集や情報検索がより自動化される可能性に加えて、llmは公共のソースから大量のデータを集約するイデオロギーのような潜在構造を測定するための新しい道を開く可能性が示唆されている。 The mass aggregation of knowledge embedded in large language models (LLMs) holds the promise of new solutions to problems of observability and measurement in the social sciences. We examine the utility of one such model for a particularly difficult measurement task: measuring the latent ideology of lawmakers, which allows us to better understand functions that are core to democracy, such as how politics shape policy and how political actors represent their constituents. We scale the senators of the 116th United States Congress along the liberal-conservative spectrum by prompting ChatGPT to select the more liberal (or conservative) senator in pairwise comparisons. We show that the LLM produced stable answers across repeated iterations, did not hallucinate, and was not simply regurgitating information from a single source. This new scale strongly correlates with pre-existing liberal-conservative scales such as NOMINATE, but also differs in several important ways, such as correctly placing senators who vote against their party for far-left or far-right ideological reasons on the extreme ends. The scale also highly correlates with ideological measures based on campaign giving and political activists' perceptions of these senators. In addition to the potential for better-automated data collection and information retrieval, our results suggest LLMs are likely to open new avenues for measuring latent constructs like ideology that rely on aggregating large quantities of data from public sources. | 翻訳日:2023-03-23 11:04:54 公開日:2023-03-22 |
# 360bev:屋内の鳥の目に見えるパノラマ意味マッピング 360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View ( http://arxiv.org/abs/2303.11910v2 ) ライセンス: Link先を確認 | Zhifeng Teng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Hao Shi, Simon Rei{\ss}, Ke Cao, Rainer Stiefelhagen | (参考訳) 全体の一部だけを見ることは、完全な状況を知ることではありません。
鳥眼視(Bird's-eye-view、BEV)は、細い視野(FoV)のみを用いることで、自我中心の視点から同心写像を得る過程を制限する。
本研究では,360{\deg}パノラマからbevセマンティクスへのマッピング,360bevタスクを初めて確立し,トップダウンビューで室内シーンの全体的表現を実現する。
狭いFoV画像列に頼る代わりに、奥行き情報を持つパノラマ画像は、全体論的BEVセマンティックマップを生成するのに十分である。
360BEVをベンチマークするために、私たちは2つの屋内データセット、360BEV-Matterportと360BEV-Stanfordを紹介します。
異なるマッピングパラダイムを深く掘り下げると同時に,パノラマ意味マッピングのための専用ソリューション,すなわち360mapperを提案する。
広範な実験により,両データセットでそれぞれ44.32%,45.78%のmiouをそれぞれ達成し,+7.60%,+9.70%をそれぞれ上回った。
コードとデータセットは、https://jamycheung.github.io/360bev.htmlで入手できる。 Seeing only a tiny part of the whole is not knowing the full circumstance. Bird's-eye-view (BEV) perception, a process of obtaining allocentric maps from egocentric views, is restricted when using a narrow Field of View (FoV) alone. In this work, mapping from 360{\deg} panoramas to BEV semantics, the 360BEV task, is established for the first time to achieve holistic representations of indoor scenes in a top-down view. Instead of relying on narrow-FoV image sequences, a panoramic image with depth information is sufficient to generate a holistic BEV semantic map. To benchmark 360BEV, we present two indoor datasets, 360BEV-Matterport and 360BEV-Stanford, both of which include egocentric panoramic images and semantic segmentation labels, as well as allocentric semantic maps. Besides delving deep into different mapping paradigms, we propose a dedicated solution for panoramic semantic mapping, namely 360Mapper. Through extensive experiments, our methods achieve 44.32% and 45.78% in mIoU on both datasets respectively, surpassing previous counterparts with gains of +7.60% and +9.70% in mIoU. Code and datasets will be available at: https://jamycheung.github.io/360BEV.html. | 翻訳日:2023-03-23 11:04:24 公開日:2023-03-22 |
# 大規模グリッドトラフィックネットワークにおける地域信号制御のためのマルチエージェント強化学習 Multi-agent Reinforcement Learning for Regional Signal control in Large-scale Grid Traffic network ( http://arxiv.org/abs/2303.11899v2 ) ライセンス: Link先を確認 | Hankang Gu, Shangbo Wang | (参考訳) 近年,MARL (Multi-Adnt Reinforcement Learning) を用いた適応信号制御が盛んである。
多くの新しい手法では、1つのエージェントが1つの交差点を制御し、これらの手法は交差点間の協調に焦点を当てている。
しかし、MARLの非定常特性は、トラフィックネットワークのサイズが大きくなるにつれて、上記の手法の性能を制限している。
妥協された戦略の1つは、あるエージェントに交点の領域を割り当ててエージェントの数を減らすことである。
この戦略には2つの課題があります。1つは、トラフィックネットワークを小さなリージョンに分割する方法と、もう1つは、交差点の領域に対する最適な共同アクションを探す方法です。
本稿では,この領域分割ルールを,交差点と拡張分岐 Q-Network (BDQ) と動的分岐 Q-Network (DBDQ) の隣接性に基づいて,共同行動空間の大きさの増大と,交通ネットワークの境界外における虚構交叉によるバイアスを軽減するための新しいトレーニングフレームワークであるRelegeLightを提案する。
実データセットと合成データセットの両方に関する実験は、我々のフレームワークが他の新しいフレームワークの中で最善を尽くし、我々の領域分割ルールが堅牢であることを示す。 Adaptive traffic signal control with Multi-agent Reinforcement Learning(MARL) is a very popular topic nowadays. In most existing novel methods, one agent controls single intersections and these methods focus on the cooperation between intersections. However, the non-stationary property of MARL still limits the performance of the above methods as the size of traffic networks grows. One compromised strategy is to assign one agent with a region of intersections to reduce the number of agents. There are two challenges in this strategy, one is how to partition a traffic network into small regions and the other is how to search for the optimal joint actions for a region of intersections. In this paper, we propose a novel training framework RegionLight where our region partition rule is based on the adjacency between the intersection and extended Branching Dueling Q-Network(BDQ) to Dynamic Branching Dueling Q-Network(DBDQ) to bound the growth of the size of joint action space and alleviate the bias introduced by imaginary intersections outside of the boundary of the traffic network. Our experiments on both real datasets and synthetic datasets demonstrate that our framework performs best among other novel frameworks and that our region partition rule is robust. | 翻訳日:2023-03-23 11:03:58 公開日:2023-03-22 |
# extremenerf:unconstrainedluminumination条件下でのn-shotニューラルラミアンスフィールド ExtremeNeRF: Few-shot Neural Radiance Fields Under Unconstrained Illumination ( http://arxiv.org/abs/2303.11728v2 ) ライセンス: Link先を確認 | SeokYeong Lee, JunYong Choi, Seungryong Kim, Ig-Jae Kim, Junghyun Cho | (参考訳) 本稿では,より実用的な環境で新しい視点を合成する新しい課題を提案する。
最近の成功にもかかわらず、ニューラルラジアンス場(NeRF)は、制約された照明下で撮影される大量の多視点画像を必要とする。
この問題を解決するために,オクルージョン対応マルチビューアルベド整合性を利用したExtremeNeRFを提案する。
異なる視点で照度不変でなければならない内在的画像成分を抽出し,無拘束照明下での入力と新規ビューの直接の外観比較を可能にした。
提案手法は,複数方向の照度と照度の変化を考慮に入れた最初の新規視界合成ベンチマークであるNeRF Extremeベンチマークを用いて,タスク評価のための広範な実験結果を提供する。
プロジェクトページはhttps://seokyeong94.github.io/ExtremeNeRF/にある。 In this paper, we propose a new challenge that synthesizes a novel view in a more practical environment, where the number of input multi-view images is limited and illumination variations are significant. Despite recent success, neural radiance fields (NeRF) require a massive amount of input multi-view images taken under constrained illuminations. To address the problem, we suggest ExtremeNeRF, which utilizes occlusion-aware multiview albedo consistency, supported by geometric alignment and depth consistency. We extract intrinsic image components that should be illumination-invariant across different views, enabling direct appearance comparison between the input and novel view under unconstrained illumination. We provide extensive experimental results for an evaluation of the task, using the newly built NeRF Extreme benchmark, which is the first in-the-wild novel view synthesis benchmark taken under multiple viewing directions and varying illuminations. The project page is at https://seokyeong94.github.io/ExtremeNeRF/ | 翻訳日:2023-03-23 11:03:32 公開日:2023-03-22 |
# hrdfuse:局所的深さ分布の協調学習による単眼的360{\deg}深度推定 HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions ( http://arxiv.org/abs/2303.11616v2 ) ライセンス: Link先を確認 | Hao Ai, Zidong cao, Yan-pei Cao, Ying Shan, Lin Wang | (参考訳) 単眼の360{\deg}画像からの深度推定は、シーンの全体像を感知するため、急激な問題である。
近年、eg, OmniFusion といったいくつかの手法が、360{\deg}image を表すために接射影 (TP) を適用し、パッチワイド回帰(英語版)を通して深度を予測し、等角射影 (ERP) フォーマットで深度マップを得る。
しかし これらの手法は
1) 多数のパッチをマージする非自明なプロセス
2)各画素の深度値を直接回帰することにより,局所的・地域的コンテキスト情報が少なくなる。
本稿では, 畳み込みニューラルネットワーク (CNN) とトランスフォーマーのポテンシャルを, ERP から \textit{holistic} コンテキスト情報と TP から \textit{localal} 構造情報を協調的に学習することによって, 微妙に組み合わせた新しいフレームワークである \textbf{HRDFuse} を提案する。
まず,空間的特徴アライメント(\textbf{SFA})モジュールを提案する。このモジュールは,TPとERPの特徴類似性を学習して,TP特徴をピクセル単位で完全なERP特徴マップに集約する。
次に,ERP と TP の深度分布を抽出した <textbf{holistic-with- Regional} ヒストグラムを学習する,協調的な深度分布分類 (\textbf{CDDC}) モジュールを提案する。
したがって、最終的な深さ値はヒストグラムのビン中心の線形結合として予測できる。
最後に,ERPとTPの深度予測を適応的に組み合わせて最終深度マップを得る。
広範な実験により,本手法はsoma法よりも,より滑らかで正確な深さを予測でき,かつ,<textbf{favorably better} 結果が得られた。 Depth estimation from a monocular 360{\deg} image is a burgeoning problem owing to its holistic sensing of a scene. Recently, some methods, \eg, OmniFusion, have applied the tangent projection (TP) to represent a 360{\deg}image and predicted depth values via patch-wise regressions, which are merged to get a depth map with equirectangular projection (ERP) format. However, these methods suffer from 1) non-trivial process of merging plenty of patches; 2) capturing less holistic-with-regional contextual information by directly regressing the depth value of each pixel. In this paper, we propose a novel framework, \textbf{HRDFuse}, that subtly combines the potential of convolutional neural networks (CNNs) and transformers by collaboratively learning the \textit{holistic} contextual information from the ERP and the \textit{regional} structural information from the TP. Firstly, we propose a spatial feature alignment (\textbf{SFA}) module that learns feature similarities between the TP and ERP to aggregate the TP features into a complete ERP feature map in a pixel-wise manner. Secondly, we propose a collaborative depth distribution classification (\textbf{CDDC}) module that learns the \textbf{holistic-with-regional} histograms capturing the ERP and TP depth distributions. As such, the final depth values can be predicted as a linear combination of histogram bin centers. Lastly, we adaptively combine the depth predictions from ERP and TP to obtain the final depth map. Extensive experiments show that our method predicts\textbf{ more smooth and accurate depth} results while achieving \textbf{favorably better} results than the SOTA methods. | 翻訳日:2023-03-23 11:03:05 公開日:2023-03-22 |
# 偏微分方程式に対する特徴適応多要素物理インフォームド機械学習 Feature-adjacent multi-fidelity physics-informed machine learning for partial differential equations ( http://arxiv.org/abs/2303.11577v2 ) ライセンス: Link先を確認 | Wenqian Chen, Panos Stinis | (参考訳) 物理インフォームドニューラルネットワークは偏微分方程式の解法として登場した。
しかし、複雑な問題に対して、そのようなネットワークのトレーニングには高忠実度データが必要である。
高忠実度データへの依存を低減または排除するために,低忠実度および高忠実度ソリューションで共有される特徴空間に基づく新しい多忠実度アーキテクチャを提案する。
特徴空間では、その相対距離を制限して、低忠実度および高忠実度解の射影が隣接している。
特徴空間はエンコーダで表現され、元の解空間へのマッピングはデコーダを介して実行される。
偏微分方程式によって記述される定常および非定常問題の前方および逆問題に対して,提案手法が検証されている。 Physics-informed neural networks have emerged as an alternative method for solving partial differential equations. However, for complex problems, the training of such networks can still require high-fidelity data which can be expensive to generate. To reduce or even eliminate the dependency on high-fidelity data, we propose a novel multi-fidelity architecture which is based on a feature space shared by the low- and high-fidelity solutions. In the feature space, the projections of the low-fidelity and high-fidelity solutions are adjacent by constraining their relative distance. The feature space is represented with an encoder and its mapping to the original solution space is effected through a decoder. The proposed multi-fidelity approach is validated on forward and inverse problems for steady and unsteady problems described by partial differential equations. | 翻訳日:2023-03-23 11:02:29 公開日:2023-03-22 |
# 動的頂点置換文法 Dynamic Vertex Replacement Grammars ( http://arxiv.org/abs/2303.11553v2 ) ライセンス: Link先を確認 | Daniel Gonzalez Cedre, Justus Isaiah Hibshman, Timothy La Fond, Grant Boquet, Tim Weninger | (参考訳) 文脈自由グラフ文法は、実世界の関係データの構造をモデル化する顕著な能力を示している。
しかし、グラフ文法は、生産規則の左から右への遷移が時間変化を表さないため、時間変化現象を捉える能力に欠ける。
本稿では,学習したグラフ文法をその基礎データの変更に応じて更新する形式的フレームワークを提供することで,時間領域における頂点置換文法を一般化する動的頂点置換文法(DyVeRG)について述べる。
我々は,DyVeRG文法を学習し,人間の解釈可能なまま実世界の動的グラフを忠実に生成することができることを示す。
また,このフレームワークが公開した新しいグラフ類似度測定法である,ダイバージェンススコアの計算による予測能力を示す。 Context-free graph grammars have shown a remarkable ability to model structures in real-world relational data. However, graph grammars lack the ability to capture time-changing phenomena since the left-to-right transitions of a production rule do not represent temporal change. In the present work, we describe dynamic vertex-replacement grammars (DyVeRG), which generalize vertex replacement grammars in the time domain by providing a formal framework for updating a learned graph grammar in accordance with modifications to its underlying data. We show that DyVeRG grammars can be learned from, and used to generate, real-world dynamic graphs faithfully while remaining human-interpretable. We also demonstrate their ability to forecast by computing dyvergence scores, a novel graph similarity measurement exposed by this framework. | 翻訳日:2023-03-23 11:02:18 公開日:2023-03-22 |
# EVA-02:ネオン発生の視覚的表現 EVA-02: A Visual Representation for Neon Genesis ( http://arxiv.org/abs/2303.11331v2 ) ライセンス: Link先を確認 | Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao | (参考訳) EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、マスク付き画像モデリングにより、頑健で堅牢な言語対応の視覚特徴を再構築する。
更新されたプレーントランスフォーマーアーキテクチャと、オープンでアクセス可能な巨大クリップビジョンエンコーダからの広範な事前トレーニングにより、eva-02は、様々な代表的なビジョンタスクにおける以前の最先端のアプローチよりも優れたパフォーマンスを示しながら、パラメータと計算予算を大幅に削減している。
特に,304Mパラメータしか持たないEVA-02では,ImageNet-1K valセット上で,90.0の微調整トップ1精度を実現している。
さらに、EVA-02-CLIPはImageNet-1Kで最大80.4のゼロショットトップ-1に到達でき、以前の最大かつ最高のオープンソースCLIPよりも1/6パラメータと1/6イメージテキストトレーニングデータで上回っている。
モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
オープンアクセスとオープンリサーチを容易にするため,EVA-02の全スイートをhttps://github.com/baaivision/EVA/tree/master/EVA-02でコミュニティにリリースする。 We launch EVA-02, a next-generation Transformer-based visual representation pre-trained to reconstruct strong and robust language-aligned vision features via masked image modeling. With an updated plain Transformer architecture as well as extensive pre-training from an open & accessible giant CLIP vision encoder, EVA-02 demonstrates superior performance compared to prior state-of-the-art approaches across various representative vision tasks, while utilizing significantly fewer parameters and compute budgets. Notably, using exclusively publicly accessible training data, EVA-02 with only 304M parameters achieves a phenomenal 90.0 fine-tuning top-1 accuracy on ImageNet-1K val set. Additionally, our EVA-02-CLIP can reach up to 80.4 zero-shot top-1 on ImageNet-1K, outperforming the previous largest & best open-sourced CLIP with only ~1/6 parameters and ~1/6 image-text training data. We offer four EVA-02 variants in various model sizes, ranging from 6M to 304M parameters, all with impressive performance. To facilitate open access and open research, we release the complete suite of EVA-02 to the community at https://github.com/baaivision/EVA/tree/master/EVA-02. | 翻訳日:2023-03-23 11:02:04 公開日:2023-03-22 |
# マニピュレータとしての脚(動画) Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion ( http://arxiv.org/abs/2303.11330v2 ) ライセンス: Link先を確認 | Xuxin Cheng, Ashish Kumar, Deepak Pathak | (参考訳) ロコモーションは困難な地形を歩いたり走ったりすることで劇的な進歩を遂げてきた。
しかし、ロボットの四足歩行は、さまざまなアジャイルスキルを誇示し、ロコモーション以外の脚を使って、オブジェクトとの対話や登山などの基本的な操作を行う犬のような、生物の能力にはまだ及ばない。
本稿では,歩行だけでなく,前足で壁を登ったり,ボタンを押したり,現実世界で物体と対話したりするために,四足歩行ロボットを訓練することで,このギャップを埋めるための一歩を踏み出した。
この挑戦的な最適化に対処するために、私たちは、スキル学習を広い範囲に分けて、歩行や壁を登ること、片足を使って他の3本の足でバランスを取りながら対話する操作など、動きを伴うものすべてに分けます。
これらのスキルはカリキュラムを用いてシミュレーションで訓練され,近年の成功を生かしたsim2real variantを用いて実世界へ移行する。
最後に,高レベルのタスク階層をコード化する振る舞いツリーをクリーンな専門家のデモンストレーションから学習することで,これらのスキルを堅牢な長期計画に組み合わせる。
本手法をシミュレーションと実世界の双方で評価し,短期的および長期的タスクの実行を成功させるとともに,外部の摂動に対してロバスト性がどう役立つかを示した。
https://robot-skills.github.ioのビデオ Locomotion has seen dramatic progress for walking or running across challenging terrains. However, robotic quadrupeds are still far behind their biological counterparts, such as dogs, which display a variety of agile skills and can use the legs beyond locomotion to perform several basic manipulation tasks like interacting with objects and climbing. In this paper, we take a step towards bridging this gap by training quadruped robots not only to walk but also to use the front legs to climb walls, press buttons, and perform object interaction in the real world. To handle this challenging optimization, we decouple the skill learning broadly into locomotion, which involves anything that involves movement whether via walking or climbing a wall, and manipulation, which involves using one leg to interact while balancing on the other three legs. These skills are trained in simulation using curriculum and transferred to the real world using our proposed sim2real variant that builds upon recent locomotion success. Finally, we combine these skills into a robust long-term plan by learning a behavior tree that encodes a high-level task hierarchy from one clean expert demonstration. We evaluate our method in both simulation and real-world showing successful executions of both short as well as long-range tasks and how robustness helps confront external perturbations. Videos at https://robot-skills.github.io | 翻訳日:2023-03-23 11:01:37 公開日:2023-03-22 |
# SVDiff:拡散微細調整のためのコンパクトパラメータ空間 SVDiff: Compact Parameter Space for Diffusion Fine-Tuning ( http://arxiv.org/abs/2303.11305v2 ) ライセンス: Link先を確認 | Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang | (参考訳) 拡散モデルは、テキストから画像への生成において著しく成功し、テキストプロンプトや他のモダリティから高品質な画像を生成することができる。
しかし、これらのモデルをカスタマイズするための既存の方法は、複数のパーソナライズされた主題と過剰適合のリスクを扱うことで制限されている。
さらに、その大量のパラメータはモデルストレージに非効率である。
本稿では,既存のテキスト・画像拡散モデルにおけるパーソナライゼーションの制約に対処するための新しい手法を提案する。
本手法は, 重み行列の特異値の微調整を伴い, オーバーフィットや言語ドリフトのリスクを低減する, コンパクトかつ効率的なパラメータ空間を実現する。
また,マルチサブジェクト画像生成の品質を向上させるためのカット・ミックス・アンミックスデータ提示手法と,簡易テキストベースの画像編集フレームワークを提案する。
提案するSVDiff法は,既存手法 (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB) に比べてモデルサイズが大幅に小さく,現実のアプリケーションではより実用的である。 Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language-drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size (1.7MB for StableDiffusion) compared to existing methods (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB), making it more practical for real-world applications. | 翻訳日:2023-03-23 11:01:12 公開日:2023-03-22 |