このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230412となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 大規模言語モデルは計算社会科学を変えることができるか? Can Large Language Models Transform Computational Social Science? ( http://arxiv.org/abs/2305.03514v1 ) ライセンス: Link先を確認 | Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, Diyi Yang | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを成功させることができる。
もしこの能力が説得力や政治的イデオロギーのような社会現象のコーディングにも当てはまるなら、llmは計算社会科学(css)を効果的に変換することができる。
この作業は LLM を CSS ツールとして使用するためのロードマップを提供する。
この目的に向けて、24の代表的なCSSベンチマーク上で13の言語モデルのゼロショット性能を測定するために、ベストプラクティスの推進と広範な評価パイプラインを提供しています。
分類学的ラベリングタスク(分類)では、LLMは最高の微調整モデルよりは優れているが、人間との公正な合意は得られない。
フリーフォームコーディングタスク(世代)では、LLMは、しばしばクラウドワーカーのゴールド参照の品質を超える説明を生成する。
その結果、今日のllmは、(1)人間のアノテーションチームでゼロショットデータアノテーションとして機能する、(2)挑戦的な創造的生成タスクをブートストラップする(例えば、テキストの裏にある隠れた意味を説明する)、という2つの方法で、css研究パイプラインを根本的に強化することができる。
要約すると、LLMはコストを大幅に削減し、人間と共同で社会科学分析の効率を高めることができる。 Large Language Models (LLMs) like ChatGPT are capable of successfully performing many language processing tasks zero-shot (without the need for training data). If this capacity also applies to the coding of social phenomena like persuasiveness and political ideology, then LLMs could effectively transform Computational Social Science (CSS). This work provides a road map for using LLMs as CSS tools. Towards this end, we contribute a set of prompting best practices and an extensive evaluation pipeline to measure the zero-shot performance of 13 language models on 24 representative CSS benchmarks. On taxonomic labeling tasks (classification), LLMs fail to outperform the best fine-tuned models but still achieve fair levels of agreement with humans. On free-form coding tasks (generation), LLMs produce explanations that often exceed the quality of crowdworkers' gold references. We conclude that today's LLMs can radically augment the CSS research pipeline in two ways: (1) serving as zero-shot data annotators on human annotation teams, and (2) bootstrapping challenging creative generation tasks (e.g., explaining the hidden meaning behind text). In summary, LLMs can significantly reduce costs and increase efficiency of social science analysis in partnership with humans. | 翻訳日:2023-05-14 21:06:17 公開日:2023-04-12 |
# 重度機関車障害者における脳波信号の色別分類 Color-based classification of EEG Signals for people with the severe locomotive disorder ( http://arxiv.org/abs/2304.11068v1 ) ライセンス: Link先を確認 | Ankit Shrestha, Bikram Adhikari | (参考訳) 脳内のニューロンは電気信号を発生させ、これらの電気信号を集合的に発射すると脳波が発生する。
これらの脳波信号をマイクロ電圧として脳波(Electroencephalogram)デバイスを用いて捉える。
脳波センサーが捉えたこれらの信号列には、分類に使用できる特徴が組み込まれている。
信号は、重篤な機関車障害に悩む人々の代替入力として利用することができ、方向運動などの多くの機能に対して異なる色の分類が可能である。
本稿では,NeuroSky Mindwaveヘッドセット(単一電極脳波センサ)からの生脳波信号を,注目に基づくディープラーニングネットワークで分類した。
注意に基づくLSTMネットワークは、2つの異なる色と4つの異なる色の分類のために実装されている。
2色の分類には93.5\%の精度が得られ、4つの信号の分類には65.75\%の精度が得られた。 The neurons in the brain produces electric signals and a collective firing of these electric signals gives rise to brainwaves. These brainwave signals are captured using EEG (Electroencephalogram) devices as micro voltages. These sequence of signals captured by EEG sensors have embedded features in them that can be used for classification. The signals can be used as an alternative input for people suffering from severe locomotive disorder.Classification of different colors can be mapped for many functions like directional movement. In this paper, raw EEG signals from NeuroSky Mindwave headset (a single electrode EEG sensor) have been classified with an attention based Deep Learning Network. Attention based LSTM Networks have been implemented for classification of two different colors and four different colors. An accuracy of 93.5\% was obtained for classification of two colors and an accuracy of 65.75\% was obtained for classifcation of four signals using the mentioned attention based LSTM network. | 翻訳日:2023-04-30 08:06:33 公開日:2023-04-12 |
# 肯定的AI:ウェルビーイング・アライン・人工知能設計の鍵となる課題 Positive AI: Key Challenges for Designing Wellbeing-aligned Artificial Intelligence ( http://arxiv.org/abs/2304.12241v1 ) ライセンス: Link先を確認 | Willem van der Maden, Derek Lomas, Paul Hekkert | (参考訳) AI(Artificial Intelligence:人工知能)は、私たちが知っているように世界を変えつつある。それは、この技術を「良い」ために使うのが現在の世代次第であることを意味している。私たちは、AIをうまく活用することは、意識的な生物の幸福に合わせることを構成すると論じている。
しかし、健全なAIシステムの設計は困難である。
本稿では、知識の欠如(幸福のためにAIをコンテキスト化、運用、最適化、設計する方法)とモチベーションの欠如(幸福のためにAIを設計することはリスクが高く、後退していると見なされる)に関連する12の課題について調査する。
私たちの議論は、3つの重要な要約にまとめられる。
1) 幸福に対するシステムの影響について理解を深めるべきである。
2) システムは意図的に幸福を促進・維持するように設計されるべきである。3) 肯定的なaiは、世界をより良いものにし、利益を上げることができると信じることから始まる。 Artificial Intelligence (AI) is transforming the world as we know it, implying that it is up to the current generation to use the technology for ''good.'' We argue that making good use of AI constitutes aligning it with the wellbeing of conscious creatures. However, designing wellbeing-aligned AI systems is difficult. In this article, we investigate a total of twelve challenges that can be categorized as related to a lack of knowledge (how to contextualize, operationalize, optimize, and design AI for wellbeing), and lack of motivation (designing AI for wellbeing is seen as risky and unrewarding). Our discussion can be summarized into three key takeaways: 1) our understanding of the impact of systems on wellbeing should be advanced, 2) systems should be designed to promote and sustain wellbeing intentionally, and 3), above all, Positive AI starts with believing that we can change the world for the better and that it is profitable. | 翻訳日:2023-04-30 07:40:04 公開日:2023-04-12 |
# 表情認識のための遺伝的アルゴリズムを用いたニューラルアーキテクチャ探索 Neural Architecture Search Using Genetic Algorithm for Facial Expression Recognition ( http://arxiv.org/abs/2304.12194v1 ) ライセンス: Link先を確認 | Shuchao Deng, Yanan Sun, and Edgar Galvan | (参考訳) 表情は、人間の感情状態や意図を表現するための最も強力で自然で普遍的な信号の1つである。
したがって、人工知能において、正しく革新的な表情認識(FER)アプローチが重要であることは明らかである。
FERの現在の一般的なプラクティスは、人間の専門知識を使って畳み込みニューラルネットワークのアーキテクチャ(CNN)を正しく設計することである。
しかし、うまく機能するアーキテクチャを見つけることは、ディープラーニング研究者にとって非常に退屈でエラーやすいプロセスであることが多い。
ニューラルアーキテクチャサーチ(英: Neural Architecture Search、NAS)は、近年出版された多くの科学的研究によって、近年に達成された印象的な成果により、関心が高まりつつある分野である。
本稿では,高い精度で分類可能なferタスク上でcnnを自動進化させる巧妙な符号化復号機構を用いた遺伝的アルゴリズム手法を提案する。
実験の結果,提案アルゴリズムはCK+およびFERGデータセット上で最もよく知られた結果とJSFFEデータセット上での競合結果が得られることが示された。 Facial expression is one of the most powerful, natural, and universal signals for human beings to express emotional states and intentions. Thus, it is evident the importance of correct and innovative facial expression recognition (FER) approaches in Artificial Intelligence. The current common practice for FER is to correctly design convolutional neural networks' architectures (CNNs) using human expertise. However, finding a well-performing architecture is often a very tedious and error-prone process for deep learning researchers. Neural architecture search (NAS) is an area of growing interest as demonstrated by the large number of scientific works published in recent years thanks to the impressive results achieved in recent years. We propose a genetic algorithm approach that uses an ingenious encoding-decoding mechanism that allows to automatically evolve CNNs on FER tasks attaining high accuracy classification rates. The experimental results demonstrate that the proposed algorithm achieves the best-known results on the CK+ and FERG datasets as well as competitive results on the JAFFE dataset. | 翻訳日:2023-04-30 07:38:27 公開日:2023-04-12 |
# 分子グラフ構造共設計のための同変生成枠組み An Equivariant Generative Framework for Molecular Graph-Structure Co-Design ( http://arxiv.org/abs/2304.12436v1 ) ライセンス: Link先を確認 | Zaixi Zhang, Qi Liu, Chee-Kong Lee, Chang-Yu Hsieh, Enhong Chen | (参考訳) 望ましい物理化学的性質と機能を持つ分子を設計することは、化学、物質科学、薬物発見における長年の課題である。
近年, 機械学習に基づく生成モデルは, 分子設計における有望なアプローチとして出現している。
しかし,既存の手法では2次元トポロジと3次元幾何情報の統一モデリングが欠如しており,分子設計における構造・物性関係を効果的に学習できないため,方法論のさらなる改良が望まれている。
ここでは、Roto-translation equivariant generative framework for \underline{Mol}ecular graph-structure \underline{Co-de}signを示す。
molcodeでは、3d幾何情報は分子の2dグラフ生成に力を与え、分子の3d構造を予測するのに役立ちます。
大規模実験の結果,MollCodeは,分子設計,標的分子発見,構造に基づく薬物設計など,一連の課題において,従来の手法よりも優れていた。
特に、molcodeは一貫して有効な (99.95$\%$ valid) と多様な (98.75$\%$ uniqueness) 分子グラフ/構造を望ましい性質で生成するだけでなく、標的タンパク質に高い親和性 (61.8$\%$ high-affinity ratio) を持つ薬様分子を生成する。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含み,機械学習に基づく分子表現と生成に関する新たな知見を提供する。 Designing molecules with desirable physiochemical properties and functionalities is a long-standing challenge in chemistry, material science, and drug discovery. Recently, machine learning-based generative models have emerged as promising approaches for \emph{de novo} molecule design. However, further refinement of methodology is highly desired as most existing methods lack unified modeling of 2D topology and 3D geometry information and fail to effectively learn the structure-property relationship for molecule design. Here we present MolCode, a roto-translation equivariant generative framework for \underline{Mol}ecular graph-structure \underline{Co-de}sign. In MolCode, 3D geometric information empowers the molecular 2D graph generation, which in turn helps guide the prediction of molecular 3D structure. Extensive experimental results show that MolCode outperforms previous methods on a series of challenging tasks including \emph{de novo} molecule design, targeted molecule discovery, and structure-based drug design. Particularly, MolCode not only consistently generates valid (99.95$\%$ Validity) and diverse (98.75$\%$ Uniqueness) molecular graphs/structures with desirable properties, but also generate drug-like molecules with high affinity to target proteins (61.8$\%$ high-affinity ratio), which demonstrates MolCode's potential applications in material design and drug discovery. Our extensive investigation reveals that the 2D topology and 3D geometry contain intrinsically complementary information in molecule design, and provide new insights into machine learning-based molecule representation and generation. | 翻訳日:2023-04-30 07:29:35 公開日:2023-04-12 |
# ギャップをブリッジする: 深いニューラルシーケンスモデルを説明するための解釈可能な概念としてのギャップイベント Bridging the Gap: Gaze Events as Interpretable Concepts to Explain Deep Neural Sequence Models ( http://arxiv.org/abs/2304.13536v1 ) ライセンス: Link先を確認 | Daniel G. Krakowczyk, Paul Prasse, David R. Reich, Sebastian Lapuschkin, Tobias Scheffer, Lena A. J\"ager | (参考訳) 眼追跡データのためのxaiの最近の研究は、眼科生体認証タスクのための深層神経シーケンスモデルの出力を説明するための特徴帰属法の適合性を評価している。
これらの方法は、特定の視線シーケンスの重要な入力特徴を強調するために、唾液度マップを提供する。
しかし、これまでは、そのローカライゼーション分析はデータセット全体にわたって定量的アプローチを欠いていた。
本研究では,確立された視線イベント検出アルゴリズムを用いて固定とサッケードを行い,それらの影響を定量的に評価する。
saccadesに属する入力機能は、固定に属する機能よりも実質的に重要であることが示されている。
サッケード現象をサブイベントに分解することで、サッケードピーク速度に近い視線サンプルが最も影響があることを示すことができる。
さらに,サスカディック振幅や固定分散などの事象特性が概念的影響に及ぼす影響について検討した。 Recent work in XAI for eye tracking data has evaluated the suitability of feature attribution methods to explain the output of deep neural sequence models for the task of oculomotric biometric identification. These methods provide saliency maps to highlight important input features of a specific eye gaze sequence. However, to date, its localization analysis has been lacking a quantitative approach across entire datasets. In this work, we employ established gaze event detection algorithms for fixations and saccades and quantitatively evaluate the impact of these events by determining their concept influence. Input features that belong to saccades are shown to be substantially more important than features that belong to fixations. By dissecting saccade events into sub-events, we are able to show that gaze samples that are close to the saccadic peak velocity are most influential. We further investigate the effect of event properties like saccadic amplitude or fixational dispersion on the resulting concept influence. | 翻訳日:2023-04-30 07:20:04 公開日:2023-04-12 |
# SmartChoices: 学習した実装によるソフトウェアの拡張 SmartChoices: Augmenting Software with Learned Implementations ( http://arxiv.org/abs/2304.13033v1 ) ライセンス: Link先を確認 | Daniel Golovin, Gabor Bartok, Eric Chen, Emily Donahue, Tzu-Kuo Huang, Efi Kokiopoulou, Ruoyan Qin, Nikhil Sarda, Justin Sybrandt, Vincent Tjeng | (参考訳) 私たちは機械学習の黄金時代に生きている。
強力なモデルは、従来のソフトウェアエンジニアリングアプローチだけでできるよりもはるかに優れたタスクを実行するように訓練されています。
しかし、これらのモデルを既存のソフトウェアシステムに開発、デプロイすることは依然として困難である。
本稿では,成熟したソフトウェアスタックに機械学習を組み込むための新しいアプローチであるsmartchoicesを提案する。
本稿では,大規模産業システムにおけるSmartChoiceを用いた設計哲学と事例研究について説明する。 We are living in a golden age of machine learning. Powerful models are being trained to perform many tasks far better than is possible using traditional software engineering approaches alone. However, developing and deploying those models in existing software systems remains difficult. In this paper we present SmartChoices, a novel approach to incorporating machine learning into mature software stacks easily, safely, and effectively. We explain the overall design philosophy and present case studies using SmartChoices within large scale industrial systems. | 翻訳日:2023-04-30 07:18:58 公開日:2023-04-12 |
# 2次元セマンティクスセグメンテーションのためのニューラルフィールドコンディショニング戦略 Neural Field Conditioning Strategies for 2D Semantic Segmentation ( http://arxiv.org/abs/2304.14371v1 ) ライセンス: Link先を確認 | Martin Gromniak, Sven Magg and Stefan Wermter | (参考訳) ニューラルネットワークは、座標を所望の信号にマッピングするニューラルネットワークである。
ニューラルネットワークが複数の信号を共同でモデル化し、1つだけを記憶するのではなく、手元にある信号を記述する潜時符号で条件付けする必要がある。
重要な側面にもかかわらず、ニューラルネットワークのコンディショニング戦略についてはほとんど研究されていない。
本研究では,2次元意味セグメンテーションのためのデコーダとしてのニューラルフィールドの利用について検討する。
そこで本研究では,画像の全画像または局所領域のみを記述する潜在符号と並行して,潜伏符号の単純な連結法,ワイズ線形変調法(フィルム),クロス・アテンション法という3つの条件法を比較した。
その結果, コンディショニング戦略とコンディショニング戦略では, 性能に有意差が見られた。
さらに,CNNに基づくセマンティックセグメンテーションのためのデコーダと競合し,クロスアテンションによるコンディショニングが最適であることを示す。 Neural fields are neural networks which map coordinates to a desired signal. When a neural field should jointly model multiple signals, and not memorize only one, it needs to be conditioned on a latent code which describes the signal at hand. Despite being an important aspect, there has been little research on conditioning strategies for neural fields. In this work, we explore the use of neural fields as decoders for 2D semantic segmentation. For this task, we compare three conditioning methods, simple concatenation of the latent code, Feature Wise Linear Modulation (FiLM), and Cross-Attention, in conjunction with latent codes which either describe the full image or only a local region of the image. Our results show a considerable difference in performance between the examined conditioning strategies. Furthermore, we show that conditioning via Cross-Attention achieves the best results and is competitive with a CNN-based decoder for semantic segmentation. | 翻訳日:2023-04-30 07:11:46 公開日:2023-04-12 |
# 自動コメント運転のためのテキスト説明 Textual Explanations for Automated Commentary Driving ( http://arxiv.org/abs/2304.08178v1 ) ライセンス: Link先を確認 | Marc Alexander K\"uhn, Daniel Omeiza, Lars Kunze | (参考訳) ディープラーニングに基づく車両制御装置の予測のための自然言語説明の提供は、透明性と監査の容易さを高めるために重要である。
本研究は,新たなSense-Assess--eXplain (SAX) 上で,最先端(SOTA)予測と説明モデルを徹底的に評価し,(ベンチマークとして)検証するものである。
さらに,ベースラインアーキテクチャを2つの方法で改善した,新たな説明モデルを開発した。
(i)音声予測の一部の統合と活用
(ii)特例の罰則の導入。
BLEU測定では,BDD-Xデータセットに適用した場合,説明生成手法がSOTAの7.7倍に向上した。
また、記述生成技術は1.3の係数で改善される。
したがって、我々の研究は将来の説明可能な自動運転車の実現に寄与する。 The provision of natural language explanations for the predictions of deep-learning-based vehicle controllers is critical as it enhances transparency and easy audit. In this work, a state-of-the-art (SOTA) prediction and explanation model is thoroughly evaluated and validated (as a benchmark) on the new Sense--Assess--eXplain (SAX). Additionally, we developed a new explainer model that improved over the baseline architecture in two ways: (i) an integration of part of speech prediction and (ii) an introduction of special token penalties. On the BLEU metric, our explanation generation technique outperformed SOTA by a factor of 7.7 when applied on the BDD-X dataset. The description generation technique is also improved by a factor of 1.3. Hence, our work contributes to the realisation of future explainable autonomous vehicles. | 翻訳日:2023-04-23 04:25:49 公開日:2023-04-12 |
# 音楽ストリーミングサービスにおけるプレイリスト自動継続のためのスケーラブルフレームワーク A Scalable Framework for Automatic Playlist Continuation on Music Streaming Services ( http://arxiv.org/abs/2304.09061v1 ) ライセンス: Link先を確認 | Walid Bendada and Guillaume Salha-Galvan and Thomas Bouab\c{c}a and Tristan Cazenave | (参考訳) 音楽ストリーミングサービスは、ユーザーがこれらのサービスで作ったプレイリストを拡張するために曲を推薦することが多い。
しかし、音楽的特徴を保ちながらプレイリストを拡張し、ユーザの好みに合うようにすることは難しい課題であり、一般にはAutomatic Playlist Continuation (APC)と呼ばれる。
さらに、これらのサービスは、数百万の候補を持つ大規模なカタログの中で、リアルタイムに推奨する最適な曲を選択する必要があることが多いが、最近のAPCの研究は主に、スケーラビリティの保証が少ないモデルに焦点を当て、比較的小さなデータセットで評価されている。
本稿では,大規模アプリケーションのためのスケーラブルで効率的なAPCモデルを構築するための汎用フレームワークを提案する。
表現集約(represent-then-aggregate)戦略に基づいて、設計によるスケーラビリティを確保しながら、トランスフォーマに基づいて、幅広い表現学習とシーケンスモデリングテクニックを取り入れられるほど柔軟である。
APCの最大の公開データセットであるSpotifyのMillion Playlist Dataset(MPD)の詳細な実験検証を通じて、このフレームワークの妥当性を実証する。
2022年には、このフレームワークをうまく活用して、DeezerのプロダクションにおけるAPCを改善する方法を説明した。
我々は,本サービスにおける大規模オンラインA/Bテストの結果を報告し,そのような実世界のアプリケーションにおける我々のアプローチの実践的影響を強調した。 Music streaming services often aim to recommend songs for users to extend the playlists they have created on these services. However, extending playlists while preserving their musical characteristics and matching user preferences remains a challenging task, commonly referred to as Automatic Playlist Continuation (APC). Besides, while these services often need to select the best songs to recommend in real-time and among large catalogs with millions of candidates, recent research on APC mainly focused on models with few scalability guarantees and evaluated on relatively small datasets. In this paper, we introduce a general framework to build scalable yet effective APC models for large-scale applications. Based on a represent-then-aggregate strategy, it ensures scalability by design while remaining flexible enough to incorporate a wide range of representation learning and sequence modeling techniques, e.g., based on Transformers. We demonstrate the relevance of this framework through in-depth experimental validation on Spotify's Million Playlist Dataset (MPD), the largest public dataset for APC. We also describe how, in 2022, we successfully leveraged this framework to improve APC in production on Deezer. We report results from a large-scale online A/B test on this service, emphasizing the practical impact of our approach in such a real-world application. | 翻訳日:2023-04-23 04:16:30 公開日:2023-04-12 |
# 技術分析とML/DLモデルを用いた取引の特定 Identifying Trades Using Technical Analysis and ML/DL Models ( http://arxiv.org/abs/2304.09936v1 ) ライセンス: Link先を確認 | Aayush Shah, Mann Doshi, Meet Parekh, Nirmit Deliwala, Prof. Pramila M. Chawan | (参考訳) 株式市場の価格予測の重要性は過大評価できない。
投資家や金融機関にとって、インフォームド・インベストメントの決定、リスク管理、金融システムの安定性確保を可能にする重要な課題である。
正確な株式市場予測は投資家のリターンを最大化し損失を最小化するのに役立つ。
しかし、株式市場の複雑な性質と株価に影響を与える要因が多々あるため、株式市場の予測は難しい課題である。
その結果、深層学習のような先進技術は、膨大な量のデータを分析し、株式市場の行動に関する貴重な洞察を提供するためにますます活用されている。
ディープラーニングは株価を正確に予測する上で有望だが、この分野ではまだまだ多くの研究が必要である。 The importance of predicting stock market prices cannot be overstated. It is a pivotal task for investors and financial institutions as it enables them to make informed investment decisions, manage risks, and ensure the stability of the financial system. Accurate stock market predictions can help investors maximize their returns and minimize their losses, while financial institutions can use this information to develop effective risk management policies. However, stock market prediction is a challenging task due to the complex nature of the stock market and the multitude of factors that can affect stock prices. As a result, advanced technologies such as deep learning are being increasingly utilized to analyze vast amounts of data and provide valuable insights into the behavior of the stock market. While deep learning has shown promise in accurately predicting stock prices, there is still much research to be done in this area. | 翻訳日:2023-04-23 04:07:52 公開日:2023-04-12 |
# IoTベースのウェアラブル: 包括的な調査 IoT-based Wearables: A comprehensive Survey ( http://arxiv.org/abs/2304.09861v1 ) ライセンス: Link先を確認 | Yahuza Bello, Emanuel Figetakis | (参考訳) IoTベースのサービスを通じて、企業がかなりの成長を遂げている。
IoTドメインのウェアラブルとして知られる、コンピューティングが可能な小さな電子機器の出現は、人々の生活に大きな影響を与えることが証明されている。
これらのウェアラブルは、人の活動や行動に関する重要な情報を定期的に収集することができる。
これにより、健康モニタリング、フィットネス、スポーツ、教育、およびいくつかの産業関連アプリケーションにおける多くの応用に適している。
そこで本稿では,iotベースのウェアラブル,いくつかの分類ウェアラブルに採用されているセンサ,採用されている通信技術,最も広く採用されているウェアラブルデータ処理技術について概観する。
さらに,ウェアラブルの普及に直面する課題と今後の研究方向性について述べる。 A substantial amount of growth is being achieved by businesses through IoT-based services. The emergent of small electronic devices capable of computing, which are commonly known as wearables in IoT domain has proven to have huge impact in people's life. Theses wearables are capable of collecting vital information about a person's activities and behaviours regularly. This makes them suitable for many applications in health monitoring, fitness, sports, education and some industry related applications. To this end, in this paper, we aim to provide a general review on IoT-based wearables, the sensors adopted for several categorized wearables, the communication technologies adopted and the most widely adopted data processing techniques for wearables. Furthermore, we present the challenges faced for wide adoption of wearables and the future research directions. | 翻訳日:2023-04-23 04:07:25 公開日:2023-04-12 |
# nrts: 新生児蘇生シミュレーションシナリオにおける複数学際チームのデータ記録,送信,評価を支援するクライアントサーバアーキテクチャ NRTS: A Client-Server architecture for supporting data recording, transmission and evaluation of multidisciplinary teams during the neonatal resuscitation simulation scenario ( http://arxiv.org/abs/2304.09860v1 ) ライセンス: Link先を確認 | Manuel Striani | (参考訳) 本報告では,新生児蘇生訓練シミュレータ(nrts)について述べる。これは,新生児蘇生のための高忠実度シミュレーションコース中に医療専門家がデータを入力,送信,記録することを支援するandroidモバイルアプリである。
このモバイルアプリは、casale monferrato小児病院(イタリア)の"neonatal intensive care unit"(nicu)から、piemonte orientale大学(イタリア)科学技術イノベーション科(disit)のサーバーに記録されたすべてのデータを自動的に送信することができる。
最後に、医療インストラクターは、シミュレーションシナリオに関わる複数の学際チームの評価のために、デブリーフィングフェーズで使用されるかもしれないシミュレーション演習の統計を見ることができる。 In this technical report, we describe Neonatal Resuscitation Training Simulator (NRTS), an Android mobile app designed to support medical experts to input, transmit and record data during a High-Fidelity Simulation course for neonatal resuscitation. This mobile app allows one to automatically send all the recorded data from "Neonatal Intensive Care Unit" (NICU) of Casale Monferrato Children's Hospital, (Italy) to a server located at the Department of Science and Technological Innovation (DiSIT), University of Piemonte Orientale (Italy). Finally, the medical instructor can view statistics on a simulation exercise that may be used during the de-briefing phase for the evaluation of multidisciplinary teams involved in the simulation scenarios. | 翻訳日:2023-04-23 04:07:16 公開日:2023-04-12 |
# 静的および動的学習可能なグラフ畳み込みネットワークによる時空間海面温度予測 Towards Spatio-temporal Sea Surface Temperature Forecasting via Static and Dynamic Learnable Personalized Graph Convolution Network ( http://arxiv.org/abs/2304.09290v1 ) ライセンス: Link先を確認 | Xiaohan Li, Gaowei Zhang, Kai Huang, Zhaofeng He | (参考訳) 海面温度(SST)は、局地的な気候や地球規模の気候を形作り、生態系に深く影響を及ぼす主要な要因であるため、地球の大気にとって非常に重要である。
SSTの正確な予測は、例えば、厳しい干ばつや熱帯のサイクロンのような極端な天候に備えるなど、経済的、社会的に重大な影響をもたらす。
しかし、本質的な複雑性と海洋システムの不確実性のため、このような課題に直面する。
近年,この課題に対処するためにグラフィカルニューラルネットワーク(GNN)などのディープラーニング技術が適用されている。
これらの手法はある程度の成功を収めているが、信号間の動的時空間依存性を調査する場合、しばしば深刻な欠点がある。
そこで本研究では,静的で動的に学習可能なグラフ畳み込みネットワーク(SD-LPGC)を提案する。
具体的には、まず2つのグラフ学習層を構築し、安定な長期および短期的な進化パターンを多変量SST信号に隠蔽する。
そして、学習可能なパーソナライズされた畳み込み層が、この情報を融合するように設計される。
実SSTデータセットに関する実験は,提案手法の予測課題における最先端性能を示すものである。 Sea surface temperature (SST) is uniquely important to the Earth's atmosphere since its dynamics are a major force in shaping local and global climate and profoundly affect our ecosystems. Accurate forecasting of SST brings significant economic and social implications, for example, better preparation for extreme weather such as severe droughts or tropical cyclones months ahead. However, such a task faces unique challenges due to the intrinsic complexity and uncertainty of ocean systems. Recently, deep learning techniques, such as graphical neural networks (GNN), have been applied to address this task. Even though these methods have some success, they frequently have serious drawbacks when it comes to investigating dynamic spatiotemporal dependencies between signals. To solve this problem, this paper proposes a novel static and dynamic learnable personalized graph convolution network (SD-LPGC). Specifically, two graph learning layers are first constructed to respectively model the stable long-term and short-term evolutionary patterns hidden in the multivariate SST signals. Then, a learnable personalized convolution layer is designed to fuse this information. Our experiments on real SST datasets demonstrate the state-of-the-art performances of the proposed approach on the forecasting task. | 翻訳日:2023-04-23 04:06:32 公開日:2023-04-12 |
# ローゼン・モース型ポテンシャルに対するシュリンガー方程式の応用による再検討 The Schr\"odinger equation for the Rosen-Morse type potential revisited with applications ( http://arxiv.org/abs/2304.06730v1 ) ライセンス: Link先を確認 | Guillermo Gordillo-N\'u\~nez, Renato Alvarez-Nodarse, Niurka R. Quintero | (参考訳) ローゼン・モース型ポテンシャルの時間独立なシュル=オディンガー方程式を厳密に解く。
ニキフォロフ-ウバロフ法を用いて、離散スペクトルに付随するいわゆる境界状態(二乗可積分解)とスペクトルの連続部分に関連する非有界状態領域(有界だが必ずしも二乗可積分解ではない)を含む、そのような方程式の完全解を体系的に求める。
この問題の解決は、$\varphi^{2p+2}$型ポテンシャルを持つ非線形クライン=ゴルドン方程式のキンクが安定であることを示すために用いられる。
また、摂動下でのキンクのダイナミクスの記述や反キンクとの相互作用に有用な固有関数の集合によって満たされる直交性と完全性の関係も導出する。 We rigorously solve the time-independent Schr\"odinger equation for the Rosen-Morse type potential. By using the Nikiforov-Uvarov method, we obtain, in a systematic way, the complete solution of such equation, which includes the so-called bound states (square-integrable solutions) associated with the discrete spectrum, as well as unbound states region (bounded but not necessarily square-integrable solutions) related to the continuous part of the spectrum. The resolution of this problem is used to show that the kinks of the non-linear Klein-Gordon equation with $\varphi^{2p+2}$ type potentials are stable. We also derive the orthogonality and completeness relations satisfied by the set of eigenfunctions which are useful in the description of the dynamics of kinks under perturbations or interacting with antikinks. | 翻訳日:2023-04-17 15:49:08 公開日:2023-04-12 |
# 認知のメタ学習モデル Meta-Learned Models of Cognition ( http://arxiv.org/abs/2304.06729v1 ) ライセンス: Link先を確認 | Marcel Binz, Ishita Dasgupta, Akshay Jagadish, Matthew Botvinick, Jane X. Wang, Eric Schulz | (参考訳) メタラーニングは、手で設計するのではなく、環境との反復的なインタラクションを通じて学習アルゴリズムを学ぶためのフレームワークである。
近年,この枠組みは人間の認知モデル構築のための有望なツールとして確立されている。
しかし、メタ学習型認知モデルに関するコヒーレントな研究プログラムはいまだに欠けている。
本論文の目的は,この分野における先行研究を合成し,その研究プログラムを確立することである。
私たちはこの目標を達成するために3つの重要な柱に頼っている。
まず,メタ学習を用いてベイズ最適学習アルゴリズムを構築することを指摘した。
この結果は、ベイズモデルによって説明できるあらゆる行動現象がメタ学習モデルによって説明できるだけでなく、認知の合理的な分析との強いつながりをも意味している。
次に,従来のベイズ的手法に対するメタラーニングフレームワークの利点について論じる。
特に、メタラーニングはベイズ推論が不可能な状況に適用でき、限られた計算資源や神経科学知識を取り入れることで、認知の合理的モデルをより現実的なものにすることができると論じる。
最後に、メタラーニングを適用した心理学と神経科学の先行研究を再検討し、これらの新たな洞察の文脈に導入する。
要約すると、メタラーニングは合理的分析の範囲を大きく広げ、より一般的に認知理論を広めるものである。 Meta-learning is a framework for learning learning algorithms through repeated interactions with an environment as opposed to designing them by hand. In recent years, this framework has established itself as a promising tool for building models of human cognition. Yet, a coherent research program around meta-learned models of cognition is still missing. The purpose of this article is to synthesize previous work in this field and establish such a research program. We rely on three key pillars to accomplish this goal. We first point out that meta-learning can be used to construct Bayes-optimal learning algorithms. This result not only implies that any behavioral phenomenon that can be explained by a Bayesian model can also be explained by a meta-learned model but also allows us to draw strong connections to the rational analysis of cognition. We then discuss several advantages of the meta-learning framework over traditional Bayesian methods. In particular, we argue that meta-learning can be applied to situations where Bayesian inference is impossible and that it enables us to make rational models of cognition more realistic, either by incorporating limited computational resources or neuroscientific knowledge. Finally, we reexamine prior studies from psychology and neuroscience that have applied meta-learning and put them into the context of these new insights. In summary, our work highlights that meta-learning considerably extends the scope of rational analysis and thereby of cognitive theories more generally. | 翻訳日:2023-04-17 15:48:51 公開日:2023-04-12 |
# 再識別リスクの測定 Measuring Re-identification Risk ( http://arxiv.org/abs/2304.07210v1 ) ライセンス: Link先を確認 | CJ Carey, Travis Dick, Alessandro Epasto, Adel Javanmard, Josh Karlin, Shankar Kumar, Andres Munoz Medina, Vahab Mirrokni, Gabriel Henrique Nunes, Sergei Vassilvitskii, Peilin Zhong | (参考訳) コンパクトなユーザ表現(埋め込みなど)はパーソナライズサービスのバックボーンを形成する。
本稿では,このようなユーザ表現における再識別リスクを測定するための新しい理論的枠組みを提案する。
我々のフレームワークは仮説テストに基づいており、攻撃者がその表現からユーザのアイデンティティを取得できる確率を正式に制限している。
アプリケーションとして、我々のフレームワークは、関心に基づく広告のためのChromeのトピックAPIのような重要な現実世界のアプリケーションをモデル化するのに十分な一般性を示している。
そこで我々は,Topics APIにおける再識別リスクを推定するために使用する,優れた攻撃アルゴリズムを示すことによって,理論的境界を補完する。
この研究は、再識別リスクという厳密で解釈可能な概念と、それを実世界のアプリケーションに伝えるのに使えるフレームワークを提供すると信じています。 Compact user representations (such as embeddings) form the backbone of personalization services. In this work, we present a new theoretical framework to measure re-identification risk in such user representations. Our framework, based on hypothesis testing, formally bounds the probability that an attacker may be able to obtain the identity of a user from their representation. As an application, we show how our framework is general enough to model important real-world applications such as the Chrome's Topics API for interest-based advertising. We complement our theoretical bounds by showing provably good attack algorithms for re-identification that we use to estimate the re-identification risk in the Topics API. We believe this work provides a rigorous and interpretable notion of re-identification risk and a framework to measure it that can be used to inform real-world applications. | 翻訳日:2023-04-17 13:09:43 公開日:2023-04-12 |
# 脆弱性検出のためのChatGPTモデルの評価 Evaluation of ChatGPT Model for Vulnerability Detection ( http://arxiv.org/abs/2304.07232v1 ) ライセンス: Link先を確認 | Anton Cheshkov, Pavel Zadorozhny, Rodion Levichev | (参考訳) 本稿では,コード中の脆弱性検出のためのChatGPTモデルとGPT-3モデルの性能評価を行った。
CWE脆弱性に対するバイナリおよびマルチラベル分類タスクを用いて実世界のデータセットを用いて評価を行った。
私たちは、プログラミングの課題の解決やコードの理解など、他のコードベースのタスクで優れたパフォーマンスを示すため、モデルを評価することにしました。
しかし、ChatGPTモデルは、コード脆弱性検出のためのバイナリとマルチラベルの分類タスクに対してダミー分類器より優れていることがわかった。 In this technical report, we evaluated the performance of the ChatGPT and GPT-3 models for the task of vulnerability detection in code. Our evaluation was conducted on our real-world dataset, using binary and multi-label classification tasks on CWE vulnerabilities. We decided to evaluate the model because it has shown good performance on other code-based tasks, such as solving programming challenges and understanding code at a high level. However, we found that the ChatGPT model performed no better than a dummy classifier for both binary and multi-label classification tasks for code vulnerability detection. | 翻訳日:2023-04-17 12:58:34 公開日:2023-04-12 |
# ロボットスキルの実証から学ぶ Continual Learning from Demonstration of Robotics Skills ( http://arxiv.org/abs/2202.06843v4 ) ライセンス: Link先を確認 | Sayantan Auddy, Jakob Hollenstein, Matteo Saveriano, Antonio Rodr\'iguez-S\'anchez and Justus Piater | (参考訳) ロボットにモーションスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。
デモから学べるロボットは、過去に学んだことを忘れずに新しい動きのスキルを習得する能力の恩恵を受けることができる。
そこで本研究では,ハイパーネットワークとニューラル常微分方程式解法を用いた実演からの連続学習手法を提案する。
我々は,過去のデータを保存することなく,軌道学習タスクの長いシーケンスを記憶する手法の有効性を実証的に実証する。
その結果,ハイパーネットワークは,実演から学ぶための最先端の連続学習手法よりも優れていることがわかった。
実験では、人気のあるlasaベンチマークと、本論文で紹介するhelloworldとrobotasksデータセットと呼ばれる実際のロボットで収集された審美的デモンストレーションの2つの新しいデータセットを使用します。
本研究は,物理的ロボットに対するアプローチを評価し,方向や位置の変化を伴う実世界ロボットタスクの学習にその効果を示す。
軌道誤差メトリクスと連続学習メトリクスの両方を報告し,新しい連続学習メトリクスを2つ提案する。
私たちのコードは、新たに収集したデータセットとともに、https://github.com/sayantanauddy/clfd.comで利用可能です。 Methods for teaching motion skills to robots focus on training for a single skill at a time. Robots capable of learning from demonstration can considerably benefit from the added ability to learn new movement skills without forgetting what was learned in the past. To this end, we propose an approach for continual learning from demonstration using hypernetworks and neural ordinary differential equation solvers. We empirically demonstrate the effectiveness of this approach in remembering long sequences of trajectory learning tasks without the need to store any data from past demonstrations. Our results show that hypernetworks outperform other state-of-the-art continual learning approaches for learning from demonstration. In our experiments, we use the popular LASA benchmark, and two new datasets of kinesthetic demonstrations collected with a real robot that we introduce in this paper called the HelloWorld and RoboTasks datasets. We evaluate our approach on a physical robot and demonstrate its effectiveness in learning real-world robotic tasks involving changing positions as well as orientations. We report both trajectory error metrics and continual learning metrics, and we propose two new continual learning metrics. Our code, along with the newly collected datasets, is available at https://github.com/sayantanauddy/clfd. | 翻訳日:2023-04-14 20:53:40 公開日:2023-04-12 |
# 基本量子アルゴリズム Basic Quantum Algorithms ( http://arxiv.org/abs/2201.10574v6 ) ライセンス: Link先を確認 | Renato Portugal | (参考訳) 量子コンピューティングは急速に進化しており、理論の基礎を再検討し、書き直し、更新せざるを得ない。
基本量子アルゴリズムは、初期の量子アルゴリズムを再考する。
この旅は1985年にDeutschが2つの領域で関数を同時に評価することから始まった。
1992年、deutschとjozsaはブール関数が定数か平衡かを決定する量子アルゴリズムを開発した。
翌年、bernsteinとvaziraniは、同じアルゴリズムが線形ブール関数の集合内の特定のブール関数を識別するために使用できることに気付いた。
1994年、サイモンは関数がどの古典的アルゴリズムよりも指数関数的に速いかを決定する新しい量子アルゴリズムを導入した。
同年、ショアは整数因数分解と離散対数計算のための2つの画期的な量子アルゴリズムを開発し、広く使われている暗号法に脅威を与えた。
1995年、KitaevはShorのアルゴリズムの代替版を提案し、他の多くのアプリケーションで有用であることが証明された。
翌年、グローバーはその古典的等価値よりも二乗的に速い量子探索アルゴリズムを考案した。
回路モデルに重点を置いて、この研究はこれらの顕著なアルゴリズムの詳細な記述を提供する。 Quantum computing is evolving so rapidly that it forces us to revisit, rewrite, and update the foundations of the theory. Basic Quantum Algorithms revisits the earliest quantum algorithms. The journey began in 1985 with Deutsch attempting to evaluate a function at two domain points simultaneously. Then, in 1992, Deutsch and Jozsa created a quantum algorithm that determines whether a Boolean function is constant or balanced. The following year, Bernstein and Vazirani realized that the same algorithm could be used to identify a specific Boolean function within a set of linear Boolean functions. In 1994, Simon introduced a novel quantum algorithm that determined whether a function was one-to-one or two-to-one exponentially faster than any classical algorithm for the same problem. That same year, Shor developed two groundbreaking quantum algorithms for integer factoring and calculating discrete logarithms, posing a threat to the widely used cryptography methods. In 1995, Kitaev proposed an alternative version of Shor's algorithms that proved valuable in numerous other applications. The following year, Grover devised a quantum search algorithm that was quadratically faster than its classical equivalent. With an emphasis on the circuit model, this work provides a detailed description of all these remarkable algorithms. | 翻訳日:2023-04-14 20:53:20 公開日:2023-04-12 |
# GoSafeOpt: 動的システムのグローバル最適化のためのスケーラブルな安全な探索 GoSafeOpt: Scalable Safe Exploration for Global Optimization of Dynamical Systems ( http://arxiv.org/abs/2201.09562v4 ) ライセンス: Link先を確認 | Bhavya Sukhija, Matteo Turchetta, David Lindner, Andreas Krause, Sebastian Trimpe, Dominik Baumann | (参考訳) 物理システム上で最適な制御ポリシーを学習することは、単一障害でさえ高価なハードウェア損傷を引き起こす可能性があるため、難しい。
既存のモデルフリー学習手法の多くは、安全性、すなわち、探索中の失敗を保証しない。
注目すべき例外は、GoSafeアルゴリズムであり、残念ながら高次元のシステムを扱えないため、ほとんどの実世界の力学系には適用できない。
この研究は、安全と最適性を保証するとともに、高次元システムに対するグローバルな最適ポリシーを安全に発見できる最初のアルゴリズムとして、GoSafeOptを提案する。
GoSafeOptは、GoSafeの禁止となるロボットアーム上で、モデルフリーの安全な学習方法よりも優れていることを示す。 Learning optimal control policies directly on physical systems is challenging since even a single failure can lead to costly hardware damage. Most existing model-free learning methods that guarantee safety, i.e., no failures, during exploration are limited to local optima. A notable exception is the GoSafe algorithm, which, unfortunately, cannot handle high-dimensional systems and hence cannot be applied to most real-world dynamical systems. This work proposes GoSafeOpt as the first algorithm that can safely discover globally optimal policies for high-dimensional systems while giving safety and optimality guarantees. We demonstrate the superiority of GoSafeOpt over competing model-free safe learning methods on a robot arm that would be prohibitive for GoSafe. | 翻訳日:2023-04-14 20:53:04 公開日:2023-04-12 |
# 一元変換下における混合対称状態の最大絡み合い Maximum entanglement of mixed symmetric states under unitary transformations ( http://arxiv.org/abs/2112.05102v2 ) ライセンス: Link先を確認 | E. Serrano-Ens\'astiga and J. Martin | (参考訳) 状態置換不変性が課されるとき、2および3量子ビット系の大域的ユニタリ変換によって生成される最大絡み合いについて検討する。
この置換対称性の制約は、ボゾン系や集合スピン系の文脈で自然に現れる。
我々はまた、対称絶対分離状態(sas)と呼ばれる大域的なユニタリ変換の後にも分離可能である対称状態、あるいはスピン状態の絶対古典状態も研究する。
特に、対称セクターにおける最大混合状態の周囲のSAS状態の球の最大半径と、SAS状態の集合を含む球の最小半径を決定する。
以上の結果の応用例として,スピンスキージングハミルトニアンのスピン-1系の熱状態から得られる最大エンタングルメントの温度依存性についても検討した。
対称3ビットの場合、任意の混合状態のユニタリ軌道における最大負性を達成する3パラメータの状態の族を予想する。
さらに, SAS 状態のみを含む球の半径に対して, 数値計算結果から強みが示唆される上限を導出する。 We study the maximum entanglement that can be produced by a global unitary transformation for systems of two and three qubits when state permutation invariance is imposed. This constraint of permutation symmetry appears naturally in the context of bosonic or collective spin systems. We also study the symmetric states that remain separable after any global unitary transformation, called symmetric absolutely separable states (SAS), or absolutely classical for spin states. In particular, we determine the maximal radius of a ball of SAS states around the maximally mixed state in the symmetric sector, and the minimal radius of a ball that contains the set of SAS states. As an application of our results, we also analyse the temperature dependence of the maximum entanglement that can be obtained from the thermal state of a spin-1 system with a spin-squeezing Hamiltonian. For the symmetric three-qubit case, we conjecture a 3-parameter family of states that achieves the maximum negativity in the unitary orbit of any mixed state. In addition, we derive upper bounds, which our numerical results suggest are tight, on the radii of balls containing only/all SAS states. | 翻訳日:2023-04-14 20:51:41 公開日:2023-04-12 |
# 興味ある人が正直を断念する: 連合学習はプライベートではない When the Curious Abandon Honesty: Federated Learning Is Not Private ( http://arxiv.org/abs/2112.02918v2 ) ライセンス: Link先を確認 | Franziska Boenisch, Adam Dziedzic, Roei Schuster, Ali Shahin Shamsabadi, Ilia Shumailov, Nicolas Papernot | (参考訳) フェデレートラーニング(FL)では、データは機械学習モデルを共同でトレーニングしているときに個人デバイスを離れない。
代わりに、これらのデバイスは勾配、パラメータ、その他のモデル更新を共有し、トレーニングをコーディネートする(例えば、会社)。
データがパーソナルデバイスを“残す”ことはないため、flはしばしばプライバシ保護として提示される。
しかし、近年では、この保護は薄いファサードに過ぎず、受動的で正直な攻撃者でさえ、勾配を観察することで、プロトコルに寄与する個々のユーザのデータを再構築できることが示されている。
本研究では,アクティブで不正な中央集団が受信した勾配からユーザデータを効率的に抽出できる,新たなデータ再構成攻撃を提案する。
flのデータ再構成に関する以前の作業は、計算コストの高い最適化問題を解決するか、あるいは共有モデルのアーキテクチャやパラメータを容易に検出可能にすることに依存しているが、この攻撃では、中央党は共有モデルの重みに目立たない変更を行い、ユーザに送信する。
我々は攻撃トラップの重量を修正した重量と呼ぶ。
私たちのアクティブアタッカーは、同じクラスからであっても、エラーなく、完全にユーザデータをリカバリすることができます。
リカバリには、ほぼゼロのコストがかかる。
その代わり、攻撃者はモデル勾配から固有のデータ漏洩を悪用し、共有モデルの重みをトラップ重みで悪意を持って変更することで、単にこの効果を増幅します。
これらの特異性により、我々の攻撃は、大規模データのミニバッチで訓練された、完全接続された畳み込み型ディープニューラルネットワークにスケールすることができる。
例えば、high-dimensional vision dataset imagenetでは、トレーニングデータポイントの50%以上を、最大100データポイントのミニバッチから完全に再構築しています。 In federated learning (FL), data does not leave personal devices when they are jointly training a machine learning model. Instead, these devices share gradients, parameters, or other model updates, with a central party (e.g., a company) coordinating the training. Because data never "leaves" personal devices, FL is often presented as privacy-preserving. Yet, recently it was shown that this protection is but a thin facade, as even a passive, honest-but-curious attacker observing gradients can reconstruct data of individual users contributing to the protocol. In this work, we show a novel data reconstruction attack which allows an active and dishonest central party to efficiently extract user data from the received gradients. While prior work on data reconstruction in FL relies on solving computationally expensive optimization problems or on making easily detectable modifications to the shared model's architecture or parameters, in our attack the central party makes inconspicuous changes to the shared model's weights before sending them out to the users. We call the modified weights of our attack trap weights. Our active attacker is able to recover user data perfectly, i.e., with zero error, even when this data stems from the same class. Recovery comes with near-zero costs: the attack requires no complex optimization objectives. Instead, our attacker exploits inherent data leakage from model gradients and simply amplifies this effect by maliciously altering the weights of the shared model through the trap weights. These specificities enable our attack to scale to fully-connected and convolutional deep neural networks trained with large mini-batches of data. For example, for the high-dimensional vision dataset ImageNet, we perfectly reconstruct more than 50% of the training data points from mini-batches as large as 100 data points. | 翻訳日:2023-04-14 20:51:24 公開日:2023-04-12 |
# 多モードキャビティ光機械システムにおける双方向光非相反性 Bidirectional optical non-reciprocity in a multi-mode cavity optomechanical system ( http://arxiv.org/abs/2109.01337v3 ) ライセンス: Link先を確認 | Muhib Ullah, Xihua Yang, Li-Gang Wang | (参考訳) 光非相反性 (optical non-reciprocity) は、時間反転対称性の破れに一方向の光学場の流れをもたらす現象である。
対称性の破れは、光と光の相互作用による非均一な放射圧によるキャビティ光学系(COS)で起こり、非相互光学デバイスの構築に不可欠である。
提案したCOSでは、2つのポートにまたがる光信号の非相互輸送を、3つの光モードを介して研究し、2つのナノメカニカル共振器(NMR)の機械的励起に光学的に結合した。
異なるシステムパラメータをチューニングすることにより、相互変換を非相互信号伝送に変換する。
実効キャビティデチューニングパラメータがNMRの周波数にほぼ共鳴している場合,出力場の完全非相互伝送を明らかにする。
一方向非相互信号輸送は共振条件における最適結合パラメータに対して堅牢である。
さらに、キャビティの光子損失率は、2つのポートを横断する信号の一方向流において必然的な役割を果たす。
双方向伝送は、2つのポートを介して入射プローブと駆動フィールドに関連する位相変化によって完全に制御できる。
これにより、全光ダイオード、光トランジスタ、光スイッチなど、従来とは異なる方法で光子をルーティングする新しいデバイスを実現することができる。 Optical non-reciprocity, a phenomenon that allows unidirectional flow of optical field is pivoted on the time reversal symmetry breaking. The symmetry breaking happens in the cavity optomechanical system (COS) due to non uniform radiation pressure as a result of light-matter interaction, and is crucial in building non-reciprocal optical devices. In our proposed COS, we study the non-reciprocal transport of optical signals across two ports via three optical modes optomechanically coupled to the mechanical excitations of two nano-mechanical resonators (NMRs) under the influence of strong classical drive fields and weak probe fields. By tuning different system parameters, we discover the conversion of reciprocal to non-reciprocal signal transmission. We reveal perfect nonreciprocal transmission of output fields when the effective cavity detuning parameters are near resonant to the NMRs' frequencies. The unidirectional non-reciprocal signal transport is robust to the optomechanical coupling parameters at resonance conditions. Moreover, the cavities' photon loss rates play an inevitable role in the unidirectional flow of signal across the two ports. Bidirectional transmission can be fully controlled by the phase changes associated with the incoming probe and drive fields via two ports. Our scheme may provide a foundation for the compact non-reciprocal communication and quantum information processing, thus enabling new devices that route photons in unconventional ways such as all-optical diodes, optical transistors and optical switches. | 翻訳日:2023-04-14 20:50:38 公開日:2023-04-12 |
# 状態の平衡トラニケーションと勾配共分散による非線形系のモデル削減 Model Reduction for Nonlinear Systems by Balanced Truncation of State and Gradient Covariance ( http://arxiv.org/abs/2207.14387v4 ) ライセンス: Link先を確認 | Samuel E. Otto, Alberto Padovan, Clarence W. Rowley | (参考訳) データ駆動の縮小次モデルでは、例えば適切な直交分解、カーネル主成分分析、オートエンコーダによって、そのような座標がしばしば切り離されるため、低分散の座標に沿って敏感な高次元非線形力学系の正確な予測に失敗する。
このようなシステムは、非正規性が乱れの成長に重要な役割を果たすせん断支配流体で頻繁に発生する。
これらの問題に対処するために,我々は,モデル還元のための低次元座標系を見つけるために,活性部分空間のアイデアを用いて,系の感度と軌道に沿った状態の分散のバランスをとる。
コブラを用いた共分散バランス低減法(cobras)は,システムグラミアンを置換し,同じ鍵変換則に従う状態および随伴に基づく勾配共分散行列とのバランス切断法と類似している。
ここで、抽出された座標は、ペトロフ・ガレルキン還元次モデルを構築するのに使用できる斜射影に関連付けられる。
バランスのとれた適切な直交分解に類似した効率的なスナップショットベースの計算手法を提供する。
これはまた、状態と勾配サンプルの内側積のみに依存する還元座標を計算でき、内側積をカーネル関数に置き換えることでリッチな非線形座標を見つけることができるという観測結果をもたらす。
これらの座標では、回帰を用いて低次モデルを学習することができる。
これらの手法を実証し, 単純かつ挑戦的な3次元システムと, 10^5$状態変数を持つ非線形軸対称噴流シミュレーションについて, 各種手法との比較を行った。 Data-driven reduced-order models often fail to make accurate forecasts of high-dimensional nonlinear dynamical systems that are sensitive along coordinates with low-variance because such coordinates are often truncated, e.g., by proper orthogonal decomposition, kernel principal component analysis, and autoencoders. Such systems are encountered frequently in shear-dominated fluid flows where non-normality plays a significant role in the growth of disturbances. In order to address these issues, we employ ideas from active subspaces to find low-dimensional systems of coordinates for model reduction that balance adjoint-based information about the system's sensitivity with the variance of states along trajectories. The resulting method, which we refer to as covariance balancing reduction using adjoint snapshots (CoBRAS), is analogous to balanced truncation with state and adjoint-based gradient covariance matrices replacing the system Gramians and obeying the same key transformation laws. Here, the extracted coordinates are associated with an oblique projection that can be used to construct Petrov-Galerkin reduced-order models. We provide an efficient snapshot-based computational method analogous to balanced proper orthogonal decomposition. This also leads to the observation that the reduced coordinates can be computed relying on inner products of state and gradient samples alone, allowing us to find rich nonlinear coordinates by replacing the inner product with a kernel function. In these coordinates, reduced-order models can be learned using regression. We demonstrate these techniques and compare to a variety of other methods on a simple, yet challenging three-dimensional system and a nonlinear axisymmetric jet flow simulation with $10^5$ state variables. | 翻訳日:2023-04-14 20:45:02 公開日:2023-04-12 |
# 絡み合い推定の実験的検討 Experimental Examination of Entanglement Estimates ( http://arxiv.org/abs/2207.07584v3 ) ライセンス: Link先を確認 | Songbo Xie, Yuan-Yuan Zhao, Chao Zhang, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, and Joseph H. Eberly | (参考訳) 近年,3ビットの純状態(Xie and Eberly, Phys. Rev. Lett. 127, 040403 (2021))に対して,真の純多部絡み合い(GME)尺度が発見されている。
これまでのところ、実験には完全なトモグラフィーだけでなく、膨大な計算作業も必要です。
主要な提案は g\"uhne, reimpell, and werner [phys. rev. lett. 98, 110502 (2007)] によってなされ、彼は絡み合いの予測値を使って、絡み合いの下限推定を記述した。
ここでは、真に上界の絡み合いを与える拡張を提供する。
この前進は、エルミート作用素の期待値のみを必要とする。
さらに、算定値が良いだけでなく、非常に少ない実験的な測定を必要とする演算子のクラスである$\a_1$を識別する。
本稿では,最近の実験で用意した多数の純粋混合状態に対する絡み合い測度を推定することにより,このアプローチを定義し,それを説明する。 Recently a proper genuine multipartite entanglement (GME) measure has been found for three-qubit pure states [see Xie and Eberly, Phys. Rev. Lett. 127, 040403 (2021)], but capturing useful entanglement measures for mixed states has remained an open challenge. So far, it requires not only a full tomography in experiments, but also huge calculational labor. A leading proposal was made by G\"uhne, Reimpell, and Werner [Phys. Rev. Lett. 98, 110502 (2007)], who used expectation values of entanglement witnesses to describe a lower bound estimation of entanglement. We provide here an extension that also gives genuine upper bounds of entanglement. This advance requires only the expectation value of {\em any} Hermitian operator. Moreover, we identify a class of operators $\A_1$ which not only give good estimates, but also require a remarkably small number of experimental measurements. In this note we define our approach and illustrate it by estimating entanglement measures for a number of pure and mixed states prepared in our recent experiments. | 翻訳日:2023-04-14 20:44:15 公開日:2023-04-12 |
# 長距離交絡量子物質への近道としての計測 Measurement as a shortcut to long-range entangled quantum matter ( http://arxiv.org/abs/2206.13527v3 ) ライセンス: Link先を確認 | Tsung-Cheng Lu, Leonardo A. Lessa, Isaac H. Kim, Timothy H. Hsieh | (参考訳) ユニタリ回路を用いた長距離絡み合った状態の生成はリーブ・ロビンソン境界によって制限されるが、射影測定とフィードバック(`<adaptive circuits''')を持つ回路はそのような制限を回避することができる。
ガッピング位相次数と共形場理論(cfts)を特徴とする長距離絡み合い量子物質の低分解能合成を可能にする3種類の局所適応回路を導入する。
3つのクラスは、テンソルネットワーク構成、マルチスケールエンタングルメント再正規化 ansatz (mera)、parton構成など、異なる物理的洞察にインスパイアされている。
キラルトポロジカル秩序を含む多くのトポロジカル秩序は一定深さまたは時間で作成でき、可解群と非可解群の両方を持つ1次元のCFT状態と非可換トポロジカル秩序はシステムサイズと対数スケーリングで作成することができる。
また,最近発見された対称性保護位相と長距離絡み合いの対応を利用して,対称性強化位相秩序と任意のCSS符号を作成するための効率的なプロトコルを導出する。
本研究は, 状態形成のための計測の実用的, 概念的汎用性を示す。 The preparation of long-range entangled states using unitary circuits is limited by Lieb-Robinson bounds, but circuits with projective measurements and feedback (``adaptive circuits'') can evade such restrictions. We introduce three classes of local adaptive circuits that enable low-depth preparation of long-range entangled quantum matter characterized by gapped topological orders and conformal field theories (CFTs). The three classes are inspired by distinct physical insights, including tensor-network constructions, multiscale entanglement renormalization ansatz (MERA), and parton constructions. A large class of topological orders, including chiral topological order, can be prepared in constant depth or time, and one-dimensional CFT states and non-abelian topological orders with both solvable and non-solvable groups can be prepared in depth scaling logarithmically with system size. We also build on a recently discovered correspondence between symmetry-protected topological phases and long-range entanglement to derive efficient protocols for preparing symmetry-enriched topological order and arbitrary CSS (Calderbank-Shor-Steane) codes. Our work illustrates the practical and conceptual versatility of measurement for state preparation. | 翻訳日:2023-04-14 20:43:52 公開日:2023-04-12 |
# 非エルミート皮膚効果による絡み合い相転移 Entanglement Phase Transition Induced by the Non-Hermitian Skin Effect ( http://arxiv.org/abs/2206.05384v2 ) ライセンス: Link先を確認 | Kohei Kawabata, Tokiro Numasawa, Shinsei Ryu | (参考訳) 近年、非エルミート的ハミルトニアンによって効果的に記述されたオープン量子システムにおいて顕著な発展が見られる。
非エルミートトポロジカルなトポロジカルな特徴は、非相互散逸によって引き起こされる多数の固有状態の異常な局所化である。
非エルミート位相に対する重要性にもかかわらず、皮膚効果の量子絡み合いや臨界現象との関連性はいまだ不明である。
ここでは,スキン効果がエンタングルメントダイナミクスにおいて非平衡量子相転移を引き起こすことを見出した。
その結果, 皮膚効果は粒子のマクロな流れを生じさせ, 絡み合い伝播と熱化を抑制することを示し, 非平衡定常状態における絡み合いエントロピーの面積則を導いた。
さらに, 障害や相互作用を伴わずとも, ユニタリダイナミクスと皮膚効果の競合によって引き起こされる絡み合い相転移を明らかにする。
この絡み合い相転移は、有効中心電荷が境界条件に非常に敏感な非単位共形場理論によって特徴づけられる非平衡量子臨界性を伴う。
また,非エルミート・ハミルトニアンの例外的な点と,パワー法則に従って局所化されたスキンモードの同時性スケール不変性に由来することを証明した。
さらに,lindblad master方程式によって記述されたマルコフ開量子系においても,皮膚効果はフォン・ノイマンエントロピーの精製と減少をもたらすことを示した。
我々の研究は、エンタングルメント成長を制御する方法を開き、熱平衡から遠く離れたオープン量子システムにおける相転移と臨界現象の基本的な理解を確立する。 Recent years have seen remarkable development in open quantum systems effectively described by non-Hermitian Hamiltonians. A unique feature of non-Hermitian topological systems is the skin effect, anomalous localization of an extensive number of eigenstates driven by nonreciprocal dissipation. Despite its significance for non-Hermitian topological phases, the relevance of the skin effect to quantum entanglement and critical phenomena has remained unclear. Here, we find that the skin effect induces a nonequilibrium quantum phase transition in the entanglement dynamics. We show that the skin effect gives rise to a macroscopic flow of particles and suppresses the entanglement propagation and thermalization, leading to the area law of the entanglement entropy in the nonequilibrium steady state. Moreover, we reveal an entanglement phase transition induced by the competition between the unitary dynamics and the skin effect even without disorder or interactions. This entanglement phase transition accompanies nonequilibrium quantum criticality characterized by a nonunitary conformal field theory whose effective central charge is extremely sensitive to the boundary conditions. We also demonstrate that it originates from an exceptional point of the non-Hermitian Hamiltonian and the concomitant scale invariance of the skin modes localized according to the power law. Furthermore, we show that the skin effect leads to the purification and the reduction of von Neumann entropy even in Markovian open quantum systems described by the Lindblad master equation. Our work opens a way to control the entanglement growth and establishes a fundamental understanding of phase transitions and critical phenomena in open quantum systems far from thermal equilibrium. | 翻訳日:2023-04-14 20:43:26 公開日:2023-04-12 |
# 固定次元におけるカーネルリッジレス回帰の不整合について On the Inconsistency of Kernel Ridgeless Regression in Fixed Dimensions ( http://arxiv.org/abs/2205.13525v3 ) ライセンス: Link先を確認 | Daniel Beaglehole, Mikhail Belkin, Parthe Pandit | (参考訳) ``benign overfitting''は、ノイズの多いトレーニングデータを補間するアルゴリズムの能力だが、サンプル外ではうまく機能する能力であり、近年は大きな関心を集めている。
固定設計設定を用いることで、トランスレーション不変カーネルを持つカーネルマシンである予測器の重要なクラスが、固定次元において良質なオーバーフィットを示さないことを示す。
特に、推定された予測器は、非零回帰関数と任意の(適応的な)帯域選択に対して、サンプルサイズを増加させて基底真理に収束しない。
これらの結果を証明するために、カーネル帯域幅の選択に基づいてトレードオフを誘発する近似誤差と推定誤差という観点から、一般化誤差とその分解の正確な式を与える。
この結果は、gaussian、laplace、cauchyなど、一般的に使われる翻訳不変カーネルに適用できる。 ``Benign overfitting'', the ability of certain algorithms to interpolate noisy training data and yet perform well out-of-sample, has been a topic of considerable recent interest. We show, using a fixed design setup, that an important class of predictors, kernel machines with translation-invariant kernels, does not exhibit benign overfitting in fixed dimensions. In particular, the estimated predictor does not converge to the ground truth with increasing sample size, for any non-zero regression function and any (even adaptive) bandwidth selection. To prove these results, we give exact expressions for the generalization error, and its decomposition in terms of an approximation error and an estimation error that elicits a trade-off based on the selection of the kernel bandwidth. Our results apply to commonly used translation-invariant kernels such as Gaussian, Laplace, and Cauchy. | 翻訳日:2023-04-14 20:42:08 公開日:2023-04-12 |
# キラルマルチチャネル近藤モデルにおける非アベリア異性体操作 Manipulating Non-Abelian Anyons in a Chiral Multichannel Kondo Model ( http://arxiv.org/abs/2205.04418v4 ) ライセンス: Link先を確認 | Matan Lotem, Eran Sela, Moshe Goldstein | (参考訳) 非アベリア・エノン(Non-Abelian anyon)は、ある種のトポロジカル超伝導体や量子ホール状態を記述すると信じられているギャップ付きトポロジカルモデルの分数励起である。
ここでは、ギャップレス電子モデルにおいても独立した実体として現れるという最初の数値的証拠を提供する。
多重性多チャンネルキラル近藤モデルから始まり、ウィルソンの数値的再正規化群に拡張可能な単重性モデルへの新しいマッピングを導入する。
我々は、そのスペクトル縮退構造と分数エントロピーを抽出し、不純物スピンスピン相関から直接、任意の電子のブレイディングに関するトポロジー情報をエンコードする$F$行列を計算した。
カイラルエッジを持つマルチチャネル・コンドシステムの実現に向けた最近の印象的な進歩は,予想よりも早く実現できる可能性がある。 Non-Abelian anyons are fractional excitations of gapped topological models believed to describe certain topological superconductors or quantum Hall states. Here, we provide the first numerical evidence that they emerge as independent entities also in gapless electronic models. Starting from a multi-impurity multichannel chiral Kondo model, we introduce a novel mapping to a single-impurity model, amenable to Wilson's numerical renormalization group. We extract its spectral degeneracy structure and fractional entropy, and calculate the $F$ matrices, which encode the topological information regarding braiding of anyons, directly from impurity spin-spin correlations. Impressive recent advances on realizing multichannel Kondo systems with chiral edges may thus bring anyons into reality sooner than expected. | 翻訳日:2023-04-14 20:41:42 公開日:2023-04-12 |
# ベクトル量子化セマンティック通信システム Vector Quantized Semantic Communication System ( http://arxiv.org/abs/2209.11519v2 ) ライセンス: Link先を確認 | Qifan Fu, Huiqiang Xie, Zhijin Qin, Gregory Slabaugh, and Xiaoming Tao | (参考訳) アナログ・セマンティック・コミュニケーション・システムは文献で注目されているが、デジタル・セマンティック・コミュニケーション・システムの研究は少ない。
本稿では,画像伝送のための深層学習(dl)対応ベクトル量子化(vq)意味通信システムvq-deepscを開発した。
具体的には,畳み込みニューラルネットワーク(cnn)ベースのトランシーバを提案する。画像のマルチスケールな意味的特徴を抽出し,意味的特徴量化を行うためのマルチスケール意味埋め込み空間を導入し,デジタル通信システムと互換性のあるデータを生成する。
さらに,patsgan判別器を導入することで,受信画像の質を向上させるための敵意訓練も行う。
実験の結果,提案するVQ-DeepSCはBPGよりも頑健であり,DeepJSCC法に匹敵するMS-SSIM性能を有することがわかった。 Although analog semantic communication systems have received considerable attention in the literature, there is less work on digital semantic communication systems. In this paper, we develop a deep learning (DL)-enabled vector quantized (VQ) semantic communication system for image transmission, named VQ-DeepSC. Specifically, we propose a convolutional neural network (CNN)-based transceiver to extract multi-scale semantic features of images and introduce multi-scale semantic embedding spaces to perform semantic feature quantization, rendering the data compatible with digital communication systems. Furthermore, we employ adversarial training to improve the quality of received images by introducing a PatchGAN discriminator. Experimental results demonstrate that the proposed VQ-DeepSC is more robustness than BPG in digital communication systems and has comparable MS-SSIM performance to the DeepJSCC method. | 翻訳日:2023-04-14 20:32:41 公開日:2023-04-12 |
# 周期駆動非相互多体スピン系における予熱 Prethermalization in periodically-driven nonreciprocal many-body spin systems ( http://arxiv.org/abs/2208.09005v2 ) ライセンス: Link先を確認 | Adam J. McRoberts, Hongzheng Zhao, Roderich Moessner, and Marin Bukov | (参考訳) 相互作用するカオス的古典スピン系の時間周期的非相互力学の新しいクラスを解析し、その運動方程式は保守的(位相空間体積保存)であるがシンプレクティック構造を持たない。
結果として、系の力学は時間依存ハミルトニアンから導出することはできない。
高周波限界では、磁化ダイナミクスは長寿命の準安定台地を特徴とし、駆動周波数の4番目のパワーで持続時間を制御する。
しかし、効果的なハミルトニアンが存在しないため、系が進化する前熱状態は標準アンサンブルの枠組みでは理解できない。
そこで本研究では, スピンが開放的かつ非散逸なサブシステムを構成する補助自由度を用いたハミルトニアン拡張を提案する。
これにより、逆周波数において主次に破れるシンプレクティック性を示す効果的な運動方程式を摂動的に導出することができる。
したがって、周期駆動系の高周波限界で観測される熱前力学の概念を非相反系に拡張する。 We analyze a new class of time-periodic nonreciprocal dynamics in interacting chaotic classical spin systems, whose equations of motion are conservative (phase-space-volume-preserving) yet possess no symplectic structure. As a result, the dynamics of the system cannot be derived from any time-dependent Hamiltonian. In the high-frequency limit, we find that the magnetization dynamics features a long-lived metastable plateau, whose duration is controlled by the fourth power of the drive frequency. However, due to the lack of an effective Hamiltonian, the prethermal state the system evolves into cannot be understood within the framework of the canonical ensemble. We propose a Hamiltonian extension of the system using auxiliary degrees of freedom, in which the original spins constitute an open yet nondissipative subsystem. This allows us to perturbatively derive effective equations of motion that manifestly display symplecticity breaking at leading order in the inverse frequency. We thus extend the notion of prethermal dynamics, observed in the high-frequency limit of periodically-driven systems, to nonreciprocal systems. | 翻訳日:2023-04-14 20:32:22 公開日:2023-04-12 |
# 部分観測可能性に基づくネットワーク動的システムのグラフの復元:ディープラーニングアプローチ Recovering the Graph Underlying Networked Dynamical Systems under Partial Observability: A Deep Learning Approach ( http://arxiv.org/abs/2208.04405v3 ) ライセンス: Link先を確認 | S\'ergio Machado, Anirudh Sridhar, Paulo Gil, Jorge Henriques, Jos\'e M. F. Moura, Augusto Santos | (参考訳) 本研究では,時系列間の依存関係のグラフを復元するグラフ構造同定の問題について検討する。
時系列データを線形確率ネットワーク力学系の状態の構成要素としてモデル化する。
ネットワークを構成するノードのサブセットのみの状態変化が観測される部分的可観測性を仮定する。
我々は、観測時系列から計算された新しい特徴ベクトルを考案し、これらの特徴が線形分離可能であること、すなわち、接続されたノードのペアに関連する特徴のクラスタを非連結なペアに関連するものから分離する超平面が存在することを証明した。
これにより、様々な分類器を訓練して因果推論を実行することができる。
特に、これらの特徴を畳み込みニューラルネットワーク(cnns)のトレーニングに利用する。
結果として生じる因果推論機構は、最先端のサンプル複雑さよりも優れている。
訓練されたCNNは、構造的に異なるネットワーク(denseまたはsparse)とノイズレベルのプロファイルをうまく一般化する。
注目すべきは、合成ネットワーク(ランダムグラフの実現)をトレーニングしながら、現実世界のネットワークによく応用できることだ。
最後に,提案手法は,各ノードにエッジや矢印が存在するか否かを,各ペアの対応する時系列から決定することにより,グラフを一貫した一対的に再構築する。
これは、ネットワーク内のすべてのノードの観測や処理が禁止される大規模システムのフレームワークに適合する。 We study the problem of graph structure identification, i.e., of recovering the graph of dependencies among time series. We model these time series data as components of the state of linear stochastic networked dynamical systems. We assume partial observability, where the state evolution of only a subset of nodes comprising the network is observed. We devise a new feature vector computed from the observed time series and prove that these features are linearly separable, i.e., there exists a hyperplane that separates the cluster of features associated with connected pairs of nodes from those associated with disconnected pairs. This renders the features amenable to train a variety of classifiers to perform causal inference. In particular, we use these features to train Convolutional Neural Networks (CNNs). The resulting causal inference mechanism outperforms state-of-the-art counterparts w.r.t. sample-complexity. The trained CNNs generalize well over structurally distinct networks (dense or sparse) and noise-level profiles. Remarkably, they also generalize well to real-world networks while trained over a synthetic network (realization of a random graph). Finally, the proposed method consistently reconstructs the graph in a pairwise manner, that is, by deciding if an edge or arrow is present or absent in each pair of nodes, from the corresponding time series of each pair. This fits the framework of large-scale systems, where observation or processing of all nodes in the network is prohibitive. | 翻訳日:2023-04-14 20:31:51 公開日:2023-04-12 |
# 量子ファンデルpol振動子の位相同期 Topological synchronization of quantum van der Pol oscillators ( http://arxiv.org/abs/2208.01061v2 ) ライセンス: Link先を確認 | Christopher W. W\"achtler, Gloria Platero | (参考訳) 古典的または量子的なシステムの大きなネットワークにおける同期を観察するには、ノード間の相互作用の優れた制御と、関連する非線形性と散逸による初期条件の非常に正確な調整が必要である。
これにより、将来のデバイスに対するこの現象の適用性が制限される。
本稿では,トポロジーのパワーを利用するオープン非線形システムにおいて,同期動作のロバスト性を大幅に向上させる経路を示す。
位相的動機づけによる結合を持つ量子ファンデルpol振動子の格子では、量子モデルと同様に古典平均場に境界同期が現れる。
障害に対するロバスト性や初期状態の摂動に加えて、観測されたダイナミクスはゼロエネルギーモードの存在を提供する位相絶縁体モデルとは独立である。
我々の研究はトポロジーの概念を一般的な非線形ダイナミクスとオープン量子システム領域に拡張し、特定のノードが電力グリッドや量子ネットワークのような特別な保護を必要とするネットワークに適用する。 To observe synchronization in a large network of classical or quantum systems demands both excellent control of the interactions between the nodes and very accurate preparation of the initial conditions due to the involved nonlinearities and dissipation. This limits the applicability of this phenomenon for future devices. Here, we demonstrate a route towards significantly enhancing the robustness of synchronized behavior in open nonlinear systems that utilizes the power of topology. In a lattice of quantum van der Pol oscillators with topologically motivated couplings, boundary synchronization emerges in the classical mean field as well as the quantum model. In addition to its robustness against disorder and initial state perturbations, the observed dynamics is independent of the underlying topological insulator model provided the existence of zero-energy modes. Our work extends the notion of topology to the general nonlinear dynamics and open quantum system realm with applications to networks where specific nodes need special protection like power grids or quantum networks. | 翻訳日:2023-04-14 20:31:28 公開日:2023-04-12 |
# 差分プライバシとセキュアアグリゲーションを併用したフェデレーション学習における個々のデータポイントの再構築 Reconstructing Individual Data Points in Federated Learning Hardened with Differential Privacy and Secure Aggregation ( http://arxiv.org/abs/2301.04017v2 ) ライセンス: Link先を確認 | Franziska Boenisch, Adam Dziedzic, Roei Schuster, Ali Shahin Shamsabadi, Ilia Shumailov, Nicolas Papernot | (参考訳) Federated Learning(FL)は、機械学習モデルを共同でトレーニングするためのフレームワークである。
FLは、データの最小化を提供するプライバシー強化技術(PET)として推進されている: データは、パーソナルデバイスを決して“解放”せず、ユーザは、分散トレーニングをコーディネートするサーバ(例えば、会社)とのみモデル更新を共有する。
以前の研究では、悪意のあるサーバがモデルの更新からユーザのプライベートデータを抽出できることが示されているが、本研究では、悪意のあるサーバがプロトコルの強化バージョンでもユーザデータを再構築できることをさらに示している。
より正確には、分散微分プライバシー(DDP)とセキュアアグリゲーション(SA)で保護されたFLに対する攻撃を提案する。
攻撃方法は,プロトコルから逸脱して個々のユーザのデータをサーバによる再構築のために公開するsybilデバイスの導入に基づく。
サーバがプロトコル全体を編成し、ユーザはプロトコルに参加する他のユーザの選択についてほとんど保証を与えられません。
今後、FLにおけるプライバシー保証の要件について論じる。
我々は,サーバを信頼するか,ローカルDPなどのローカルプリミティブを適用してサーバからパワーを逸脱させる場合にのみ,ユーザはプロトコルに参加するべきであると結論付けた。
しかし、後者のアプローチは、トレーニングされたモデルのパフォーマンス低下の観点から大きなオーバーヘッドを負い、実際にデプロイされる可能性が低くなる。 Federated learning (FL) is a framework for users to jointly train a machine learning model. FL is promoted as a privacy-enhancing technology (PET) that provides data minimization: data never "leaves" personal devices and users share only model updates with a server (e.g., a company) coordinating the distributed training. While prior work showed that in vanilla FL a malicious server can extract users' private data from the model updates, in this work we take it further and demonstrate that a malicious server can reconstruct user data even in hardened versions of the protocol. More precisely, we propose an attack against FL protected with distributed differential privacy (DDP) and secure aggregation (SA). Our attack method is based on the introduction of sybil devices that deviate from the protocol to expose individual users' data for reconstruction by the server. The underlying root cause for the vulnerability to our attack is a power imbalance: the server orchestrates the whole protocol and users are given little guarantees about the selection of other users participating in the protocol. Moving forward, we discuss requirements for privacy guarantees in FL. We conclude that users should only participate in the protocol when they trust the server or they apply local primitives such as local DP, shifting power away from the server. Yet, the latter approaches come at significant overhead in terms of performance degradation of the trained model, making them less likely to be deployed in practice. | 翻訳日:2023-04-14 20:24:58 公開日:2023-04-12 |
# 神経常微分方程式を用いたサブグリッドスケールモデルの学習 Learning Subgrid-scale Models with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2212.09967v3 ) ライセンス: Link先を確認 | Shinhoo Kang, Emil M. Constantinescu | (参考訳) 線形法により解いた偏微分方程式(PDE)とカオス常微分方程式の表現を,ニューラル常微分方程式(NODE)に基づいてシミュレーションする際のサブグリッドスケールモデルの学習手法を提案する。
時間的および空間的グリッドスケールの細かいシステムを解くことは、現在進行中の計算課題であり、クロージャモデルは概してチューニングが難しい。
機械学習のアプローチは、計算流体力学ソルバーの精度と効率を高めた。
このアプローチでは、ニューラルネットワークは、サブグリッドスケールのパラメータ化と見なすことができる粗大から細かなグリッドマップを学ぶために使用される。
本稿では,ノードと部分的知識を用いて,ソースダイナミクスを連続的に学習する戦略を提案する。
本手法はノードの利点を継承し,サブグリッドスケールのパラメータ化,近似結合演算子,低次解法効率の向上に利用可能である。
2スケールのローレンツ96ODE、対流拡散PDE、粘性バーガースのPDEによる数値的な結果を用いて、このアプローチを説明する。 We propose a new approach to learning the subgrid-scale model when simulating partial differential equations (PDEs) solved by the method of lines and their representation in chaotic ordinary differential equations, based on neural ordinary differential equations (NODEs). Solving systems with fine temporal and spatial grid scales is an ongoing computational challenge, and closure models are generally difficult to tune. Machine learning approaches have increased the accuracy and efficiency of computational fluid dynamics solvers. In this approach neural networks are used to learn the coarse- to fine-grid map, which can be viewed as subgrid-scale parameterization. We propose a strategy that uses the NODE and partial knowledge to learn the source dynamics at a continuous level. Our method inherits the advantages of NODEs and can be used to parameterize subgrid scales, approximate coupling operators, and improve the efficiency of low-order solvers. Numerical results with the two-scale Lorenz 96 ODE, the convection-diffusion PDE, and the viscous Burgers' PDE are used to illustrate this approach. | 翻訳日:2023-04-14 20:24:34 公開日:2023-04-12 |
# 因果AIのための因果表現学習と再定義DAGの実現 Realization of Causal Representation Learning and Redefined DAG for Causal AI ( http://arxiv.org/abs/2211.08573v6 ) ライセンス: Link先を確認 | Jia Li, Xiang Li, Xiaowei Jia, Michael Steinbach, Vipin Kumar | (参考訳) 因果DAG(Directed Acyclic Graph)は通常、相関変化や因果効果を区別せずに2次元平面上に位置する。
また、因果効果は人口の相関変化の平均化によって推定されることが多い。
現在、AI(Artificial Intelligence)はより大規模な構造モデリングを可能にしており、複雑な隠れた境界により、近似誤差はもはや無視できないが、かなりの人口レベルの因果表現バイアスに雪を降らせることができる。
このようなバイアスは、一般化不能因果モデル、未発見個別特徴、DL(Deep Learning)における有効因果知識など、重大な問題を引き起こしている。
簡単に言うと、DAGは因果AIの新しいフレームワークを可能にするために再定義されなければならない。
観測時系列は統計の相関変化のみを反映する。
しかし、DLベースのオートエンコーダは、因果効果を反映する潜在空間における個々のレベルの特徴変化として表現することができる。
本稿では、再定義されたdo-DAGの概念を導入し、CRLを実現するための新しいアーキテクチャと、その実現可能性について実験的に検証する、Causal Representation Learning (CRL)フレームワークを提案する。 Causal DAG(Directed Acyclic Graph) usually lies in a 2D plane without distinguishing correlation changes and causal effects. Also, the causal effect is often approximately estimated by averaging the population's correlation changes. Now, AI(Artificial Intelligence) enables much larger-scale structural modeling, whose complex hidden confoundings make the approximation errors no longer ignorable but can snowball to considerable population-level Causal Representation Bias. Such bias has caused significant problems: ungeneralizable causal models, unrevealed individual-level features, not utilizable causal knowledge in DL(Deep Learning), etc. In short, DAG must be redefined to enable a new framework for causal AI. Observational time series can only reflect correlation changes in statistics. But the DL-based autoencoder can represent them as individual-level feature changes in latent space to reflect causal effects. In this paper, we introduce the redefined do-DAG concept and propose Causal Representation Learning (CRL) framework as the generic solution, along with a novel architecture to realize CRL and experimentally verify its feasibility. | 翻訳日:2023-04-14 20:23:03 公開日:2023-04-12 |
# ニューラルネットワークの原子間ポテンシャルにおけるデータ効率と外挿傾向 Data efficiency and extrapolation trends in neural network interatomic potentials ( http://arxiv.org/abs/2302.05823v2 ) ライセンス: Link先を確認 | Joshua A. Vita, Daniel Schwalbe-Koda | (参考訳) 近年,nnips(neural network interatomic potentials)において,メッセージパッシングネットワーク,等価性,多体拡張といった重要なアーキテクチャ上の進歩が提案されている。
現代のNNIPモデルは、エネルギー/力の誤差が小さいが、新しいNNIPアーキテクチャを開発する際には、精度の向上が主なターゲットであると考えられている。
本稿では,nnipsの一般化にアーキテクチャと最適化の選択がどう影響するかを示し,分子動力学(md)の安定性,データ効率,ロスランドスケープの傾向を明らかにする。
3BPAデータセットを用いて、NNIPにおけるテストエラーはスケーリング関係に従い、ノイズに対して堅牢であるが、高精度なシステムではMD安定性を予測できないことを示す。
この問題を回避するために,NNIPの一般化能力を予測するために,損失景観の可視化と損失エントロピーの指標を用いることを提案する。
NequIP と MACE に関する大規模な研究により、損失エントロピーはトレーニングセットのみで計算されているにもかかわらず、分布外誤差とMD安定性を予測する。
本研究では,最適化器の選択,損失関数重み付け,データ正規化,その他のアーキテクチャ決定がNNIPの補間行動にどのように影響するかを示す。
最後に、損失エントロピーとデータ効率を関連付け、フラットな景観が学習曲線傾斜を予測することを実証する。
我々の研究は、多くの共通NNIPの補間性能の深層学習の正当性を提供し、次世代モデルの開発に有用な精度測定以上のツールを導入している。 Over the last few years, key architectural advances have been proposed for neural network interatomic potentials (NNIPs), such as incorporating message-passing networks, equivariance, or many-body expansion terms. Although modern NNIP models exhibit small differences in energy/forces errors, improvements in accuracy are still considered the main target when developing new NNIP architectures. In this work, we show how architectural and optimization choices influence the generalization of NNIPs, revealing trends in molecular dynamics (MD) stability, data efficiency, and loss landscapes. Using the 3BPA dataset, we show that test errors in NNIP follow a scaling relation and can be robust to noise, but cannot predict MD stability in the high-accuracy regime. To circumvent this problem, we propose the use of loss landscape visualizations and a metric of loss entropy for predicting the generalization power of NNIPs. With a large-scale study on NequIP and MACE, we show that the loss entropy predicts out-of-distribution error and MD stability despite being computed only on the training set. Using this probe, we demonstrate how the choice of optimizers, loss function weighting, data normalization, and other architectural decisions influence the extrapolation behavior of NNIPs. Finally, we relate loss entropy to data efficiency, demonstrating that flatter landscapes also predict learning curve slopes. Our work provides a deep learning justification for the extrapolation performance of many common NNIPs, and introduces tools beyond accuracy metrics that can be used to inform the development of next-generation models. | 翻訳日:2023-04-14 20:14:18 公開日:2023-04-12 |
# 効率的なグラフフィールド積分器がポイントクラウドと出会う Efficient Graph Field Integrators Meet Point Clouds ( http://arxiv.org/abs/2302.00942v3 ) ライセンス: Link先を確認 | Krzysztof Choromanski, Arijit Sehanobish, Han Lin, Yunfan Zhao, Eli Berger, Tetiana Parshakova, Alvin Pan, David Watkins, Tianyi Zhang, Valerii Likhosherstov, Somnath Basu Roy Chowdhury, Avinava Dubey, Deepali Jain, Tamas Sarlos, Snigdha Chaturvedi, Adrian Weller | (参考訳) 点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。
第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。
どちらも、効率的な統合に多大な影響を与えたFMM(Fast Multipole Methods)の機能を提供するが、非ユークリッド空間ではそうではない。
ポイント間の歩行長さの分布(例えば、最短経路距離)によって引き起こされるジオメトリに注目した。
アルゴリズムの広範な理論的解析を行い,副産物として構造グラフ理論の新たな結果を得た。
また,剛体および変形可能な物体の面補間(特にメッシュ力学モデリング),点雲のwasserstein距離計算,gromov-wasserstein変種など,徹底的な実験評価を行う。 We present two new classes of algorithms for efficient field integration on graphs encoding point clouds. The first class, SeparatorFactorization(SF), leverages the bounded genus of point cloud mesh graphs, while the second class, RFDiffusion(RFD), uses popular epsilon-nearest-neighbor graph representations for point clouds. Both can be viewed as providing the functionality of Fast Multipole Methods (FMMs), which have had a tremendous impact on efficient integration, but for non-Euclidean spaces. We focus on geometries induced by distributions of walk lengths between points (e.g., shortest-path distance). We provide an extensive theoretical analysis of our algorithms, obtaining new results in structural graph theory as a byproduct. We also perform exhaustive empirical evaluation, including on-surface interpolation for rigid and deformable objects (particularly for mesh-dynamics modeling), Wasserstein distance computations for point clouds, and the Gromov-Wasserstein variant. | 翻訳日:2023-04-14 20:13:25 公開日:2023-04-12 |
# zico:勾配の変動の逆係数によるゼロショットnas ZiCo: Zero-shot NAS via Inverse Coefficient of Variation on Gradients ( http://arxiv.org/abs/2301.11300v3 ) ライセンス: Link先を確認 | Guihong Li, Yuedong Yang, Kartikeya Bhardwaj, Radu Marculescu | (参考訳) ニューラルネットワーク探索(NAS)は、多数の候補アーキテクチャの中で最高の性能を持つニューラルネットワークを自動的に取得するために広く使用されている。
検索時間を短縮するため、ゼロショットnasは、所定のアーキテクチャのテストパフォーマンスを予測するトレーニングフリープロキシを設計することを目的としている。
しかし、最近示したように、現在提案されているゼロショットプロキシは、実際にはネイティブなプロキシ、すなわちネットワークパラメータ(#param)よりも一貫して機能することができない。
この状況を改善するために、まず、異なるサンプルにまたがる特定の勾配特性が、ニューラルネットワークの収束速度と一般化能力にどのように影響するかを明らかにする。
この理論解析に基づいて、我々は#Paramsよりも一貫して動作する最初のプロキシであるZiCoというゼロショットプロキシを提案する。
我々は、複数のアプリケーション(画像分類/再構成や画素レベルの予測など)において、複数のNASベンチマーク(NASBench101, NATSBench-SSS/TSS, TransNASBench-101)上で、ZiCoがState-Of-The-Art(SOTA)プロキシよりも優れていることを示した。
最後に,zicoが採用する最適アーキテクチャは,単発および複数ショットのnas法と同等に競争力があるが,検索時間がはるかに少ないことを示す。
例えば、ZiCoベースのNASは、イメージネットで0.4GPU日以内に、それぞれ450M、600M、1000M FLOPの推論予算で78.1%、79.4%、80.4%のテスト精度で最適なアーキテクチャを見つけることができる。
我々のコードはhttps://github.com/SLDGroup/ZiCo.comで入手できる。 Neural Architecture Search (NAS) is widely used to automatically obtain the neural network with the best performance among a large number of candidate architectures. To reduce the search time, zero-shot NAS aims at designing training-free proxies that can predict the test performance of a given architecture. However, as shown recently, none of the zero-shot proxies proposed to date can actually work consistently better than a naive proxy, namely, the number of network parameters (#Params). To improve this state of affairs, as the main theoretical contribution, we first reveal how some specific gradient properties across different samples impact the convergence rate and generalization capacity of neural networks. Based on this theoretical analysis, we propose a new zero-shot proxy, ZiCo, the first proxy that works consistently better than #Params. We demonstrate that ZiCo works better than State-Of-The-Art (SOTA) proxies on several popular NAS-Benchmarks (NASBench101, NATSBench-SSS/TSS, TransNASBench-101) for multiple applications (e.g., image classification/reconstruction and pixel-level prediction). Finally, we demonstrate that the optimal architectures found via ZiCo are as competitive as the ones found by one-shot and multi-shot NAS methods, but with much less search time. For example, ZiCo-based NAS can find optimal architectures with 78.1%, 79.4%, and 80.4% test accuracy under inference budgets of 450M, 600M, and 1000M FLOPs, respectively, on ImageNet within 0.4 GPU days. Our code is available at https://github.com/SLDGroup/ZiCo. | 翻訳日:2023-04-14 20:13:04 公開日:2023-04-12 |
# InfluencerRank: Graph Convolutional Attentive Recurrent Neural Networksによる効果的なインフルエンサー発見 InfluencerRank: Discovering Effective Influencers via Graph Convolutional Attentive Recurrent Neural Networks ( http://arxiv.org/abs/2304.01897v2 ) ライセンス: Link先を確認 | Seungbae Kim, Jyun-Yu Jiang, Jinyoung Han, Wei Wang | (参考訳) インフルエンサーがソーシャルメディアマーケティングにおいてかなりの役割を果たすと、企業はインフルエンサーマーケティングの予算を増やすことになる。
効果的なインフルエンサーの採用は、ソーシャルインフルエンサーマーケティングにおいて極めて重要であるが、数億のソーシャルメディアユーザーの中で適切なインフルエンサーを見つけることは困難である。
本稿では,その投稿行動と時間的社会的関係に基づいて,インフルエンサーをその効果によってランク付けするインフルエンサーRankを提案する。
投稿行動や社会的関係を表現するために、グラフ畳み込みニューラルネットワークは、異なる歴史的期間に異質なネットワークを持つモデルインフルエンサーに適用される。
InfluencerRankはネットワーク構造を組み込みノードの特徴で学習することにより、各期間のインフルエンサーに対する情報表現を導出することができる。
注意的リカレントニューラルネットワークは、時間とともにインフルエンサー表現のダイナミクスの知識を捉え、最終的に他のインフルエンサーと非常に効果的なインフルエンサーを区別する。
Instagramのデータセットは18,397人のインフルエンサーで構成され、12ヶ月以内に2,952,075件の投稿が公開された。
InfluencerRankが既存のベースライン法より優れていることを示す実験結果が得られた。
詳細な分析により,提案する機能やモデルコンポーネントがすべて有効であることがわかった。 As influencers play considerable roles in social media marketing, companies increase the budget for influencer marketing. Hiring effective influencers is crucial in social influencer marketing, but it is challenging to find the right influencers among hundreds of millions of social media users. In this paper, we propose InfluencerRank that ranks influencers by their effectiveness based on their posting behaviors and social relations over time. To represent the posting behaviors and social relations, the graph convolutional neural networks are applied to model influencers with heterogeneous networks during different historical periods. By learning the network structure with the embedded node features, InfluencerRank can derive informative representations for influencers at each period. An attentive recurrent neural network finally distinguishes highly effective influencers from other influencers by capturing the knowledge of the dynamics of influencer representations over time. Extensive experiments have been conducted on an Instagram dataset that consists of 18,397 influencers with their 2,952,075 posts published within 12 months. The experimental results demonstrate that InfluencerRank outperforms existing baseline methods. An in-depth analysis further reveals that all of our proposed features and model components are beneficial to discover effective influencers. | 翻訳日:2023-04-14 20:06:23 公開日:2023-04-12 |
# 異種メモリアーキテクチャを用いたnlpエッジ推論のための省エネルギータスク適応 Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures ( http://arxiv.org/abs/2303.16100v2 ) ライセンス: Link先を確認 | Zirui Fu, Aleksandre Avaliani, Marco Donato | (参考訳) リソース制約のあるエッジデバイス上で機械学習推論タスクを実行するには、注意深いハードウェアとソフトウェアの共同設計最適化が必要だ。
最近の例では、ALBERTのようなトランスフォーマーベースのディープニューラルネットワークモデルを使用して、モバイルシステム上での自然言語処理(NLP)推論の実行を可能にする方法が示されている。
しかしながら、これらの既存のソリューションは単一のnlpタスクの実行のレイテンシ、エネルギー、面積コストの軽減に効果的であるが、マルチタスク推論を実現するには、対象とするタスク毎に調整されたモデルパラメータの複数の変種で計算を実行する必要がある。
このアプローチはオンチップのメモリ要求を禁ずるか、オフチップメモリアクセスのコストを支払うかのいずれかにつながる。
本稿では,タスク間の最大データ再利用のための効率的なモデル最適化であるAdapter-ALBERTを提案する。
提案したモデルの性能とデータ圧縮手法の堅牢性は,GLUEベンチマークから複数の言語タスクにわたって評価される。
さらに、検証済みのNLPエッジアクセラレータ上でシミュレーションを行い、同じハードウェアプラットフォーム上での従来のALBERTモデルの実行に対する性能、パワー、面積の改善を概説することで、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を示す。 Executing machine learning inference tasks on resource-constrained edge devices requires careful hardware-software co-design optimizations. Recent examples have shown how transformer-based deep neural network models such as ALBERT can be used to enable the execution of natural language processing (NLP) inference on mobile systems-on-chip housing custom hardware accelerators. However, while these existing solutions are effective in alleviating the latency, energy, and area costs of running single NLP tasks, achieving multi-task inference requires running computations over multiple variants of the model parameters, which are tailored to each of the targeted tasks. This approach leads to either prohibitive on-chip memory requirements or paying the cost of off-chip memory access. This paper proposes adapter-ALBERT, an efficient model optimization for maximal data reuse across different tasks. The proposed model's performance and robustness to data compression methods are evaluated across several language tasks from the GLUE benchmark. Additionally, we demonstrate the advantage of mapping the model to a heterogeneous on-chip memory architecture by performing simulations on a validated NLP edge accelerator to extrapolate performance, power, and area improvements over the execution of a traditional ALBERT model on the same hardware platform. | 翻訳日:2023-04-14 20:04:59 公開日:2023-04-12 |
# ホモロジー量子ローター符号:トーションからの論理量子ビット Homological Quantum Rotor Codes: Logical Qubits from Torsion ( http://arxiv.org/abs/2303.13723v2 ) ライセンス: Link先を確認 | Christophe Vuillot and Alessandro Ciani and Barbara M. Terhal | (参考訳) 複数の量子ローターを用いて論理情報を符号化するホモロジー量子ローター符号を正式に定義する。
これらの符号は、論理振動子を符号化する線形振動子符号と同様に、量子ビットや量子ビットのホモロジーまたはCSS量子符号を一般化する。
量子ビットや振動子とは異なり、ホモロジー量子ローター符号は、下層の鎖複体のホモロジーによって、論理ローターと論理キューディットの両方を符号化することができる。
特に、実射影平面またはM\ "{o}bius strip" が量子ビットを符号化することによって得られる鎖複体に基づくコードである。
本稿では, 連続安定器位相シフトによって拡散する論理演算子の概念により, 量子ビットの場合よりも微妙な符号間の距離スケーリングについて考察する。
2次元および3次元多様体に基づくホモロジー量子ロータ符号の構成と連鎖錯体の積を与える。
我々は、キータエフの現在のミラー量子ビット(m\"{o}bius strip qubit)と同様に$0$-$\pi$-qubitが、そのようなコードの小さな例であり、拡張の可能性について議論している。 We formally define homological quantum rotor codes which use multiple quantum rotors to encode logical information. These codes generalize homological or CSS quantum codes for qubits or qudits, as well as linear oscillator codes which encode logical oscillators. Unlike for qubits or oscillators, homological quantum rotor codes allow one to encode both logical rotors and logical qudits, depending on the homology of the underlying chain complex. In particular, such a code based on the chain complex obtained from tessellating the real projective plane or a M\"{o}bius strip encodes a qubit. We discuss the distance scaling for such codes which can be more subtle than in the qubit case due to the concept of logical operator spreading by continuous stabilizer phase-shifts. We give constructions of homological quantum rotor codes based on 2D and 3D manifolds as well as products of chain complexes. Superconducting devices being composed of islands with integer Cooper pair charges could form a natural hardware platform for realizing these codes: we show that the $0$-$\pi$-qubit as well as Kitaev's current-mirror qubit -- also known as the M\"{o}bius strip qubit -- are indeed small examples of such codes and discuss possible extensions. | 翻訳日:2023-04-14 20:04:38 公開日:2023-04-12 |
# GTNet:人間と物体の相互作用を検出する誘導トランスネットワーク GTNet:Guided Transformer Network for Detecting Human-Object Interactions ( http://arxiv.org/abs/2108.00596v5 ) ライセンス: Link先を確認 | A S M Iftekhar, Satish Kumar, R. Austin McEver, Suya You, B. S. Manjunath | (参考訳) human-object interaction (hoi) 検出タスクは、人間をローカライズし、オブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測することを指す。
HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと考えられている。
hoiの検出には、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の突出した空間領域を見つけることが重要である。
この問題は、新しい自己着脱型誘導変圧器ネットワークであるgtnetによって解決される。
GTNetは、V-COCOとHICO-DETの両方のデータセット上で、アート結果の状態を達成しつつ、この空間的コンテキスト情報を自己注意を介して人間とオブジェクトの視覚的特徴にエンコードする。
コードはオンラインで入手できる。 The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the novel self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online. | 翻訳日:2023-04-14 17:43:24 公開日:2023-04-12 |
# 確率収束を伴う高精度リコール曲線下の領域の確率的最適化 Stochastic Optimization of Areas Under Precision-Recall Curves with Provable Convergence ( http://arxiv.org/abs/2104.08736v5 ) ライセンス: Link先を確認 | Qi Qi, Youzhi Luo, Zhao Xu, Shuiwang Ji, Tianbao Yang | (参考訳) ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
AUROCと比較すると、AUPRCは高度に不均衡なデータセットに対してより適切なメトリックである。
AUROCの確率最適化は広く研究されているが、AUPRCの原理的確率最適化はめったに研究されていない。
本研究では,深層学習のためのAUPRCを最適化する原理的技術手法を提案する。
提案手法は, AUPRCの非バイアス点推定器である平均精度(AP)を最大化することに基づいている。
我々は、その目的を外部レベルのランダム変数に依存する内部関数を持つ、従属合成関数の和にキャストした。
本稿では,近年の確率的構成最適化の進歩を活用し,適応的および非適応的確率論的アルゴリズムであるSOAPを提案する。
画像およびグラフデータセットの広範な実験結果から,提案手法がauprcの観点から不均衡問題に対する先行手法よりも優れていることが分かる。
我々の知る限りでは、我々の研究はauprcを証明可能な収束で最適化する最初の試みである。
soapはlibaucライブラリに~\url{https://libauc.org/}で実装されている。 Areas under ROC (AUROC) and precision-recall curves (AUPRC) are common metrics for evaluating classification performance for imbalanced problems. Compared with AUROC, AUPRC is a more appropriate metric for highly imbalanced datasets. While stochastic optimization of AUROC has been studied extensively, principled stochastic optimization of AUPRC has been rarely explored. In this work, we propose a principled technical method to optimize AUPRC for deep learning. Our approach is based on maximizing the averaged precision (AP), which is an unbiased point estimator of AUPRC. We cast the objective into a sum of {\it dependent compositional functions} with inner functions dependent on random variables of the outer level. We propose efficient adaptive and non-adaptive stochastic algorithms named SOAP with {\it provable convergence guarantee under mild conditions} by leveraging recent advances in stochastic compositional optimization. Extensive experimental results on image and graph datasets demonstrate that our proposed method outperforms prior methods on imbalanced problems in terms of AUPRC. To the best of our knowledge, our work represents the first attempt to optimize AUPRC with provable convergence. The SOAP has been implemented in the libAUC library at~\url{https://libauc.org/}. | 翻訳日:2023-04-14 17:43:11 公開日:2023-04-12 |
# 移動可能な標的攻撃に対する自己普遍性の向上 Enhancing the Self-Universality for Transferable Targeted Attacks ( http://arxiv.org/abs/2209.03716v3 ) ライセンス: Link先を確認 | Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang | (参考訳) 本稿では,訓練データに対する補助ネットワークのトレーニングを必要とせず,対向的摂動を最適化するトランスファーベースターゲティング攻撃手法を提案する。
本手法は,高度に普遍的な対向摂動が標的攻撃に対してより移動しやすい傾向にあるという観測に基づいて提案する。
そこで本研究では,この摂動を画像内の異なる局所領域に不可知化することを提案し,これを自己普遍性と呼ぶ。
異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。
具体的には, 対角的摂動大域画像とランダムに収穫した局所領域との間の特徴類似性を最大化することにより, 学習摂動の普遍化を促す特徴類似性損失を導入する。
特徴的類似性を失うことにより, 対向的摂動の特徴が良性画像よりも支配的になり, 目的の伝達性も向上する。
提案手法を自己普遍性攻撃(su)と呼ぶ。
広範な実験により、suは転送ベースの標的攻撃で高い成功率を達成できることが示されている。
imagenet互換データセットでは、suは既存のstate-of-the-artメソッドと比較して12\%の改善をもたらす。
コードはhttps://github.com/zhipeng-wei/self-universalityで入手できる。 In this paper, we propose a novel transfer-based targeted attack method that optimizes the adversarial perturbations without any extra training efforts for auxiliary networks on training data. Our new attack method is proposed based on the observation that highly universal adversarial perturbations tend to be more transferable for targeted attacks. Therefore, we propose to make the perturbation to be agnostic to different local regions within one image, which we called as self-universality. Instead of optimizing the perturbations on different images, optimizing on different regions to achieve self-universality can get rid of using extra data. Specifically, we introduce a feature similarity loss that encourages the learned perturbations to be universal by maximizing the feature similarity between adversarial perturbed global images and randomly cropped local regions. With the feature similarity loss, our method makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. We name the proposed attack method as Self-Universality (SU) attack. Extensive experiments demonstrate that SU can achieve high success rates for transfer-based targeted attacks. On ImageNet-compatible dataset, SU yields an improvement of 12\% compared with existing state-of-the-art methods. Code is available at https://github.com/zhipeng-wei/Self-Universality. | 翻訳日:2023-04-14 17:35:29 公開日:2023-04-12 |
# KL分割に基づく離散時間モデルのための深層学習 KL-divergence Based Deep Learning for Discrete Time Model ( http://arxiv.org/abs/2208.05100v2 ) ライセンス: Link先を確認 | Li Liu, Xiangeng Fang, Di Wang, Weijing Tang, Kevin He | (参考訳) ニューラルネットワーク(Deep Learning)は、人工知能の現代モデルであり、Survival Analysisで活用されている。
これまでの研究でいくつかの改善が示されているが、優れたディープラーニングモデルのトレーニングには膨大なデータが必要になる。
この課題に対処するため,Kulback-Leibler-based Deep Learning(KL)法を開発し,新たに収集した時系列データと外部生存予測モデルを統合する。
時間依存KL識別情報を用いて、外部データと内部データとの差を測定する。
ディープラーニングのためのSurvival Analysisにおいて、事前情報を用いて短いデータ問題に対処することを検討する最初の作業である。
シミュレーションと実データの結果から,提案モデルが従来よりも優れた性能と高いロバスト性を実現することが示された。 Neural Network (Deep Learning) is a modern model in Artificial Intelligence and it has been exploited in Survival Analysis. Although several improvements have been shown by previous works, training an excellent deep learning model requires a huge amount of data, which may not hold in practice. To address this challenge, we develop a Kullback-Leibler-based (KL) deep learning procedure to integrate external survival prediction models with newly collected time-to-event data. Time-dependent KL discrimination information is utilized to measure the discrepancy between the external and internal data. This is the first work considering using prior information to deal with short data problem in Survival Analysis for deep learning. Simulation and real data results show that the proposed model achieves better performance and higher robustness compared with previous works. | 翻訳日:2023-04-14 17:35:09 公開日:2023-04-12 |
# 逆熱散逸を伴う生成モデル Generative Modelling With Inverse Heat Dissipation ( http://arxiv.org/abs/2206.13397v7 ) ライセンス: Link先を確認 | Severi Rissanen, Markus Heinonen, Arno Solin | (参考訳) 拡散モデルは画像生成において大きな成功を収めているが、ノイズ反転生成過程は画像の構造を明示的に考慮していない。
熱方程式を確率論的に反転させて画像を生成する拡散モデル, 画像の2次元平面上での走行時に局所的に微細な情報を消去するPDEを提案する。
拡散潜在変数モデルにおける変分近似として,一定の付加雑音を伴うフォワード熱方程式の解を解釈する。
新しいモデルでは,画像の全体的な色や形状のばらつきなど,標準拡散モデルでは見られない創発的定性特性を示す。
自然画像のスペクトル解析は拡散モデルとの関係を強調し、それらに暗黙的に粗い帰納バイアスが現れる。 While diffusion models have shown great success in image generation, their noise-inverting generative process does not explicitly consider the structure of images, such as their inherent multi-scale nature. Inspired by diffusion models and the empirical success of coarse-to-fine modelling, we propose a new diffusion-like model that generates images through stochastically reversing the heat equation, a PDE that locally erases fine-scale information when run over the 2D plane of the image. We interpret the solution of the forward heat equation with constant additive noise as a variational approximation in the diffusion latent variable model. Our new model shows emergent qualitative properties not seen in standard diffusion models, such as disentanglement of overall colour and shape in images. Spectral analysis on natural images highlights connections to diffusion models and reveals an implicit coarse-to-fine inductive bias in them. | 翻訳日:2023-04-14 17:33:58 公開日:2023-04-12 |
# データ幻覚による反復指導 Iterative Teaching by Data Hallucination ( http://arxiv.org/abs/2210.17467v2 ) ライセンス: Link先を確認 | Zeju Qiu, Weiyang Liu, Tim Z. Xiao, Zhen Liu, Umang Bhatt, Yucen Luo, Adrian Weller, Bernhard Sch\"olkopf | (参考訳) 本稿では,教師が個別の入力空間(すなわち有限サンプルのプール)における学習者の状況に基づく事例を逐次提供し,教師の能力を大幅に制限する反復型機械指導の課題について考察する。
この問題に対処するため,我々は,最適化問題を解くことによって入力例(画像)を生成するか,あるいは連続分布から直接描画できる連続入力空間下で反復学習を行う。
具体的には,教師がラベルや学習者の状況,対象概念に基づいて知的に入力データを生成できるデータ幻覚教育(DHT)を提案する。
本研究は,多くの難易度の高い学習環境(例えば,全知的およびブラックボックス設定におけるリニア/ニューラル学習者)について検討する。
大規模な実験によりDHTの有効性が検証された。 We consider the problem of iterative machine teaching, where a teacher sequentially provides examples based on the status of a learner under a discrete input space (i.e., a pool of finite samples), which greatly limits the teacher's capability. To address this issue, we study iterative teaching under a continuous input space where the input example (i.e., image) can be either generated by solving an optimization problem or drawn directly from a continuous distribution. Specifically, we propose data hallucination teaching (DHT) where the teacher can generate input data intelligently based on labels, the learner's status and the target concept. We study a number of challenging teaching setups (e.g., linear/neural learners in omniscient and black-box settings). Extensive empirical results verify the effectiveness of DHT. | 翻訳日:2023-04-14 17:25:42 公開日:2023-04-12 |
# 共有利用自律移動サービスのための予測フリート配置:最適化と学習に基づくアプローチ Anticipatory Fleet Repositioning for Shared-use Autonomous Mobility Services: An Optimization and Learning-Based Approach ( http://arxiv.org/abs/2210.08659v2 ) ライセンス: Link先を確認 | Monika Filipovska, Michael Hyland, Haimanti Bala | (参考訳) モビリティ・オン・デマンドサービス、リッチ・トランスポート・データソース、自動運転車(AV)の開発は、共有用途のAVモビリティサービス(SAMS)において、アクセシブルで需要に反応するパーソナルモビリティを提供する重要な機会を生み出している。
SAMS艦隊の運用には、複数の相互関係の判断が伴い、乗客の乗車要求を高いレベルのサービス品質で効率的に満たすことに重点が置かれている。
本稿では, アイドル車両の予測再配置によるSAMS車両の効率とサービス品質の向上に焦点をあてる。
本手法は,アドバンテージ・アクタ・アタクタ (a2c) 強化学習に基づく手法を用いて解くマルコフ決定過程として定式化されている。
提案手法は,将来の需要を予測し,最適化に基づく割当戦略と協調するリバランス政策を学習する。
このアプローチは中央集権的な配置決定を可能にし、問題のサイズが艦隊のサイズに変化しないため、大きな車両群を扱うことができる。
ニューヨーク市のタクシーデータとエージェントベースのシミュレーションツールを用いて、A2C AV再配置アプローチの2つのバージョンをテストする。
第1バージョンのA2C-AVR(A)は過去の観測に基づいて将来の需要を予測し、第2のA2C-AVR(B)は需要予測を使用する。
これらのモデルは、最適化に基づくリバランスアプローチと比較され、乗客の平均待ち時間が大幅に減少し、空の車両走行距離の割合がわずかに増加した。
実験は、モデルが将来の需要を予測できる能力と、訓練段階では見られないケースへの転送可能性を示す。 The development of mobility-on-demand services, rich transportation data sources, and autonomous vehicles (AVs) creates significant opportunities for shared-use AV mobility services (SAMSs) to provide accessible and demand-responsive personal mobility. SAMS fleet operation involves multiple interrelated decisions, with a primary focus on efficiently fulfilling passenger ride requests with a high level of service quality. This paper focuses on improving the efficiency and service quality of a SAMS vehicle fleet via anticipatory repositioning of idle vehicles. The rebalancing problem is formulated as a Markov Decision Process, which we propose solving using an advantage actor critic (A2C) reinforcement learning-based method. The proposed approach learns a rebalancing policy that anticipates future demand and cooperates with an optimization-based assignment strategy. The approach allows for centralized repositioning decisions and can handle large vehicle fleets since the problem size does not change with the fleet size. Using New York City taxi data and an agent-based simulation tool, two versions of the A2C AV repositioning approach are tested. The first version, A2C-AVR(A), learns to anticipate future demand based on past observations, while the second, A2C-AVR(B), uses demand forecasts. The models are compared to an optimization-based rebalancing approach and show significant reduction in mean passenger waiting times, with a slightly increased percentage of empty fleet miles travelled. The experiments demonstrate the model's ability to anticipate future demand and its transferability to cases unseen at the training stage. | 翻訳日:2023-04-14 17:25:12 公開日:2023-04-12 |
# sqa3d: 3dシーンで質問に答える場所 SQA3D: Situated Question Answering in 3D Scenes ( http://arxiv.org/abs/2210.07474v5 ) ライセンス: Link先を確認 | Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang | (参考訳) 3dシーンにおける質問応答(sqa3d)の具体化エージェントのシーン理解をベンチマークするタスクを提案する。
シーンコンテキスト(例えば3Dスキャン)が与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況(位置、方向など)を理解し、その環境を判断し、その状況下で質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
これらの質問は、空間的関係理解からコモンセンス理解、ナビゲーション、マルチホップ推論まで、知的エージェントの推論能力の幅広い範囲について検討する。
SQA3Dは、現在のマルチモーダル、特に3D推論モデルに重大な課題を課している。
我々は様々な最先端のアプローチを評価し、最高のアプローチは47.20%のスコアしか得られず、アマチュアの人間の参加者は90.06%に達することができる。
SQA3Dは、より強力な状況理解と推論能力を備えた未来のAI研究を促進することができると信じている。 We propose a new task to benchmark scene understanding of embodied agents: Situated Question Answering in 3D Scenes (SQA3D). Given a scene context (e.g., 3D scan), SQA3D requires the tested agent to first understand its situation (position, orientation, etc.) in the 3D scene as described by text, then reason about its surrounding environment and answer a question under that situation. Based upon 650 scenes from ScanNet, we provide a dataset centered around 6.8k unique situations, along with 20.4k descriptions and 33.4k diverse reasoning questions for these situations. These questions examine a wide spectrum of reasoning capabilities for an intelligent agent, ranging from spatial relation comprehension to commonsense understanding, navigation, and multi-hop reasoning. SQA3D imposes a significant challenge to current multi-modal especially 3D reasoning models. We evaluate various state-of-the-art approaches and find that the best one only achieves an overall score of 47.20%, while amateur human participants can reach 90.06%. We believe SQA3D could facilitate future embodied AI research with stronger situation understanding and reasoning capability. | 翻訳日:2023-04-14 17:24:40 公開日:2023-04-12 |
# 誘導拡散モデルの蒸留について On Distillation of Guided Diffusion Models ( http://arxiv.org/abs/2210.03142v3 ) ライセンス: Link先を確認 | Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik P. Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans | (参考訳) 分類器フリーの誘導拡散モデルは最近、高分解能画像生成に非常に有効であることが示されており、dalle-2、stable diffusion、imagenといった大規模拡散フレームワークで広く使われている。
しかし、クラス条件モデルと無条件モデルという2つの拡散モデルを評価する必要があるため、分類子なし誘導拡散モデルの欠点は推論時に計算コストがかかることである。
この制限に対処するため, 事前学習した分類器フリーガイド付きモデルが与えられた場合, まず, 条件付きモデルと非条件付きモデルの組み合わせの出力に適合する単一モデルを学習し, より少ないサンプリングステップを必要とする拡散モデルに段階的にそのモデルを蒸留する。
画素空間でトレーニングされた標準拡散モデルでは、ImageNet 64x64 と CIFAR-10 の4段階のサンプリングステップを用いて、元のモデルに匹敵する画像を視覚的に生成することが可能であり、サンプルの最大256倍の速度でFID/ISスコアを達成できる。
潜在空間でトレーニングされた拡散モデル(例えば安定拡散)では、1〜4段階のデノイジングステップで高忠実度画像を生成することができ、imagenet 256x256やlaionデータセットの既存の方法と比較して、少なくとも10倍の推論を加速する。
さらに, 蒸留モデルが2~4段階の分別ステップで高品質な結果を生成することができるように, テキストガイドによる画像編集とインパインティングへのアプローチの有効性を実証した。 Classifier-free guided diffusion models have recently been shown to be highly effective at high-resolution image generation, and they have been widely used in large-scale diffusion frameworks including DALLE-2, Stable Diffusion and Imagen. However, a downside of classifier-free guided diffusion models is that they are computationally expensive at inference time since they require evaluating two diffusion models, a class-conditional model and an unconditional model, tens to hundreds of times. To deal with this limitation, we propose an approach to distilling classifier-free guided diffusion models into models that are fast to sample from: Given a pre-trained classifier-free guided model, we first learn a single model to match the output of the combined conditional and unconditional models, and then we progressively distill that model to a diffusion model that requires much fewer sampling steps. For standard diffusion models trained on the pixel-space, our approach is able to generate images visually comparable to that of the original model using as few as 4 sampling steps on ImageNet 64x64 and CIFAR-10, achieving FID/IS scores comparable to that of the original model while being up to 256 times faster to sample from. For diffusion models trained on the latent-space (e.g., Stable Diffusion), our approach is able to generate high-fidelity images using as few as 1 to 4 denoising steps, accelerating inference by at least 10-fold compared to existing methods on ImageNet 256x256 and LAION datasets. We further demonstrate the effectiveness of our approach on text-guided image editing and inpainting, where our distilled model is able to generate high-quality results using as few as 2-4 denoising steps. | 翻訳日:2023-04-14 17:23:58 公開日:2023-04-12 |
# クロスドメインリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己学習ガイド付きアンタングル適応 Self-Training Guided Disentangled Adaptation for Cross-Domain Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2301.05526v2 ) ライセンス: Link先を確認 | Qi Zhao, Shuchang Lyu, Binghao Liu, Lijiang Chen, Hongbo Zhao | (参考訳) 深部畳み込みニューラルネットワーク(DCNN)に基づくリモートセンシング(RS)画像セマンティックセグメンテーション技術は、地理的要素解析などの現実世界の多くの応用で大きな成功を収めている。
しかし、特定のシーンの注釈付きデータへの強い依存は、DCNNが異なるRSシーンに適合することを難しくする。
この問題を解決するため、近年では、クロスドメインrs画像セマンティクスセグメンテーションタスクに徐々に焦点が当てられている。
この課題では, 地中サンプリング距離, リモートセンシングセンサの変動, 地形の異なる3つの要因が, ソース画像とターゲット画像の間で劇的な領域シフトを引き起こしている。
ドメインシフトの負の影響を低減するために,自己学習型不等角化適応ネットワーク(st-dasegnet)を提案する。
まず,ソースとターゲットの両方のイメージに対して,ソーススタイルとターゲットスタイルの特徴をそれぞれ抽出するために,ソース学生のバックボーンとターゲット学生のバックボーンを提案する。
各バックボーンの中間出力特徴マップに向けて,アライメントに逆学習を採用する。
そこで本研究では, 共通特徴を抽出し, ソーススタイルとターゲットスタイルの特徴を識別するドメイン・アンタングル・モジュールを提案する。
最後に、これら2つの機能は融合され、ソース学生デコーダとターゲット学生デコーダの入力として機能し、最終的な予測を生成する。
提案するドメイン異方性モジュールに基づいて,さらに指数的移動平均(ema)に基づくクロスドメイン分離自己学習機構を提案し,逆最適化時の不安定性と不利な効果を緩和する。
ベンチマークRSデータセットの大規模な実験と分析により、ST-DASegNetはクロスドメインRS画像セマンティックセグメンテーションタスクにおいて従来の手法よりも優れており、最先端(SOTA)の結果が得られた。
私たちのコードはhttps://github.com/cv516Buaa/ST-DASegNetで利用可能です。 Deep convolutional neural networks (DCNNs) based remote sensing (RS) image semantic segmentation technology has achieved great success used in many real-world applications such as geographic element analysis. However, strong dependency on annotated data of specific scene makes it hard for DCNNs to fit different RS scenes. To solve this problem, recent works gradually focus on cross-domain RS image semantic segmentation task. In this task, different ground sampling distance, remote sensing sensor variation and different geographical landscapes are three main factors causing dramatic domain shift between source and target images. To decrease the negative influence of domain shift, we propose a self-training guided disentangled adaptation network (ST-DASegNet). We first propose source student backbone and target student backbone to respectively extract the source-style and target-style feature for both source and target images. Towards the intermediate output feature maps of each backbone, we adopt adversarial learning for alignment. Then, we propose a domain disentangled module to extract the universal feature and purify the distinct feature of source-style and target-style features. Finally, these two features are fused and served as input of source student decoder and target student decoder to generate final predictions. Based on our proposed domain disentangled module, we further propose exponential moving average (EMA) based cross-domain separated self-training mechanism to ease the instability and disadvantageous effect during adversarial optimization. Extensive experiments and analysis on benchmark RS datasets show that ST-DASegNet outperforms previous methods on cross-domain RS image semantic segmentation task and achieves state-of-the-art (SOTA) results. Our code is available at https://github.com/cv516Buaa/ST-DASegNet. | 翻訳日:2023-04-14 17:16:53 公開日:2023-04-12 |
# imagen editorとeditbench: テキストガイド付き画像インパインティングの進歩と評価 Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting ( http://arxiv.org/abs/2212.06909v2 ) ライセンス: Link先を確認 | Su Wang, Chitwan Saharia, Ceslee Montgomery, Jordi Pont-Tuset, Shai Noy, Stefano Pellegrini, Yasumasa Onoe, Sarah Laszlo, David J. Fleet, Radu Soricut, Jason Baldridge, Mohammad Norouzi, Peter Anderson, William Chan | (参考訳) テキスト誘導画像編集は、クリエイティブアプリケーションをサポートする上で、変革的な影響を与える可能性がある。
重要な課題は、入力画像と一致しながら、入力テキストプロンプトに忠実な編集を生成することである。
テキスト誘導画像のインペイントを微調整して作成した,カスケード拡散モデルである Imagen Editor を提案する。
imagen editorの編集はテキストプロンプトに忠実であり、オブジェクト検出器を使用してトレーニング中に塗り込みマスクを提案する。
さらに、Imagen Editorは、元の高解像度画像にカスケードパイプラインを条件付けすることで、入力画像の細部をキャプチャする。
質的・定量的評価を改善するために,テキストガイド画像インパインティングのための体系的ベンチマークであるeditbenchを提案する。
editbenchは、オブジェクト、属性、シーンを探索する自然画像および生成画像のインペインティング編集を評価する。
EditBench上での大規模な人的評価を通じて、トレーニング中のオブジェクトマスキングは、DALL-E 2やStable DiffusionよりもImagen Editorの方が好まれるような、テキストイメージアライメントの全面的な改善につながることが分かりました。 Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor's edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion -- and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes. | 翻訳日:2023-04-14 17:16:07 公開日:2023-04-12 |
# $\mu$-deformed model of Dark Matter による新しい変形ハイゼンベルク代数 New Deformed Heisenberg Algebra from the $\mu$-Deformed Model of Dark Matter ( http://arxiv.org/abs/2304.05840v1 ) ライセンス: Link先を確認 | A.M. Gavrilik, I.I. Kachurik, A.V. Nazarenko | (参考訳) 最近、ダークマターをモデル化するための$\mu$-deformation-based approachは、$\mu$-deformed thermodynamicsを利用して、銀河ハロー密度プロファイルと、多くの(ドワーフまたは低明度)銀河の回転曲線の研究に拡張された。
この目的のために、レーン-エムデン方程式(LEE)の$\mu$-deformed analogsが提案され、それらの解は密度プロファイルを記述している。
同じ解を持つ$\mu$-deformed LEEには、一見異なる2つのバージョンがあるので、同値性を扱う。
後者の性質から、位置と運動量作用素に対して新しく、かなり珍しい$\mu$-deformed Heisenberg algebra (HA) を導出し、いくつかの可能な形式で$\mu$-HA を提示する(それぞれ $\mu\to0$ が通常の HA を回復する)。
新しい$\mu$-HAと結びついた一般化された不確実性関係は、最大長と最小長の四重項の出現とモータの出現を含む興味深い意味を持つ。 Recently, the $\mu$-deformation-based approach to modeling dark matter, which exploits $\mu$-deformed thermodynamics, was extended to the study of galaxy halo density profile and of the rotation curves of a number of (dwarf or low brightness) galaxies. For that goal, $\mu$-deformed analogs of the Lane--Emden equation (LEE) have been proposed, and their solutions describing density profiles obtained. There are two seemingly different versions of $\mu$-deformed LEE which possess the same solution, and so we deal with their equivalence. From the latter property we derive new, rather unusual, $\mu$-deformed Heisenberg algebra (HA) for the position and momentum operators, and present the $\mu$-HA in few possible forms (each one at $\mu\to0$ recovers usual HA). The generalized uncertainty relation linked with the new $\mu$-HA is studied, along with its interesting implications including the appearance of the quadruple of both maximal and minimal lengths and momenta. | 翻訳日:2023-04-14 16:57:31 公開日:2023-04-12 |
# 最大公平性 Maximal Fairness ( http://arxiv.org/abs/2304.06057v1 ) ライセンス: Link先を確認 | MaryBeth Defrance and Tijl De Bie | (参考訳) AIの公正さは、研究や社会においてもかなりの注目を集めている。
いわゆる「即応性理論」は、ある公正度尺度の組み合わせを満たすことは不可能であるとして、理論的および実践的な結果の両方において、より顕著な研究成果の1つとなっている。
これまでのところ、この否定的な結果はまだ肯定的な結果で補われていない。
この研究は、このギャップを埋めることを目的としており、同時に満たせる一般的なフェアネス測度の最大集合を特定する。
フェアネス尺度は、人口的平等、平等機会、偽ポジティブ平等、予測的平等、予測的平等、総合的精度平等、治療的平等である。
これらの公平性尺度の最大12組のうち、2つの尺度の7つの組み合わせと3つの尺度の5つの組み合わせが考えられると結論づけた。
我々の研究は、様々なシナリオにおけるこれらの12の最大公平概念の実践的妥当性に関する関心を提起する。 Fairness in AI has garnered quite some attention in research, and increasingly also in society. The so-called "Impossibility Theorem" has been one of the more striking research results with both theoretical and practical consequences, as it states that satisfying a certain combination of fairness measures is impossible. To date, this negative result has not yet been complemented with a positive one: a characterization of which combinations of fairness notions are possible. This work aims to fill this gap by identifying maximal sets of commonly used fairness measures that can be simultaneously satisfied. The fairness measures used are demographic parity, equal opportunity, false positive parity, predictive parity, predictive equality, overall accuracy equality and treatment equality. We conclude that in total 12 maximal sets of these fairness measures are possible, among which seven combinations of two measures, and five combinations of three measures. Our work raises interest questions regarding the practical relevance of each of these 12 maximal fairness notions in various scenarios. | 翻訳日:2023-04-14 16:48:51 公開日:2023-04-12 |
# ロボットマニピュレーションのためのロバスト強化学習を支援する実時間シミュレーションの固有の確率性 Exploiting Intrinsic Stochasticity of Real-Time Simulation to Facilitate Robust Reinforcement Learning for Robot Manipulation ( http://arxiv.org/abs/2304.06056v1 ) ライセンス: Link先を確認 | Ram Dershan, Amir M. Soufi Enayati, Zengjie Zhang, Dean Richert, and Homayoun Najjaran | (参考訳) シミュレーションは、実世界で実装される前に強化学習(RL)に不可欠であり、特にロボット操作のような安全クリティカルな応用に必要である。
従来のRLエージェントは、シミュレーションと実世界の相違(sim-to-real gap)に敏感である。
このギャップを埋めるテクニックであるドメインランダム化の応用は、ヒューリスティック・ランダム化モデルの導入に限定されている。
実時間シミュレーション(RT-IS)の本質的確率性の特性とRL法の性能向上の可能性について検討する。
まず,rt-isとコンピュータハードウェアの占有率との相関を解析的に測定し,物理ロボットの自然確率性との適合性を検証した。
そして、RT-IS機能をRLエージェントのトレーニングに適用する。
シミュレーションおよび物理実験により,ロボット操作作業のためのロバストなRLエージェント設計へのRT-ISの有効性と適用性を検証する。
RT-ISによるロバストなRLエージェントは、不確実性をモデル化したロボットにおいて従来のRLエージェントよりも優れている。
ヒューリスティックなランダム化は少なく、従来のドメインランダム化駆動エージェントよりも優れた一般化性が得られる。
本研究は,ロボット操作タスクなどの実用化におけるシム・トゥ・リアル問題に対する新たな視点を提供する。 Simulation is essential to reinforcement learning (RL) before implementation in the real world, especially for safety-critical applications like robot manipulation. Conventionally, RL agents are sensitive to the discrepancies between the simulation and the real world, known as the sim-to-real gap. The application of domain randomization, a technique used to fill this gap, is limited to the imposition of heuristic-randomized models. We investigate the properties of intrinsic stochasticity of real-time simulation (RT-IS) of off-the-shelf simulation software and its potential to improve the robustness of RL methods and the performance of domain randomization. Firstly, we conduct analytical studies to measure the correlation of RT-IS with the occupation of the computer hardware and validate its comparability with the natural stochasticity of a physical robot. Then, we apply the RT-IS feature in the training of an RL agent. The simulation and physical experiment results verify the feasibility and applicability of RT-IS to robust RL agent design for robot manipulation tasks. The RT-IS-powered robust RL agent outperforms conventional RL agents on robots with modeling uncertainties. It requires fewer heuristic randomization and achieves better generalizability than the conventional domain-randomization-powered agents. Our findings provide a new perspective on the sim-to-real problem in practical applications like robot manipulation tasks. | 翻訳日:2023-04-14 16:48:35 公開日:2023-04-12 |
# ロボットマニピュレーションのためのオフライン強化学習における爆発的対称性とヒューリスティックな実証 Exploiting Symmetry and Heuristic Demonstrations in Off-policy Reinforcement Learning for Robotic Manipulation ( http://arxiv.org/abs/2304.06055v1 ) ライセンス: Link先を確認 | Amir M. Soufi Enayati, Zengjie Zhang, Kashish Gupta, and Homayoun Najjaran | (参考訳) 強化学習は多くの領域で制御ポリシーを自動構築する上で大きな可能性を示すが、次元の呪いによるロボット操作タスクに適用した場合の効率は低い。
このようなタスクの学習を容易にするため、本質的な単純化を含む事前知識やヒューリスティックスは、学習性能を効果的に向上させることができる。
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
次に、サンプル効率のよいポリシーを、強化と振る舞いのクローニングの融合によって対称的な環境で専門家のデモンストレーションを活用し、オフポリシー学習プロセスを多様かつコンパクトな開始にすることで訓練する。
さらに,最近の概念に対する厳格な枠組みを提示し,ロボット操作タスクのスコープを探究する。
シミュレーション実験において,提案手法は,障害物の有無に関わらず,産業用アームの2つのポイント・ツー・ポイント到達タスクによって検証される。
中間中間点を生成するためにハードコード時間論理を用いた線形結合空間軌跡の追跡を行うPIDコントローラを用いて,本研究の実証を行う。
本研究の結果は, 一般的な操作作業におけるモデルフリー強化学習の改善を実証するために, 実演回数の影響と行動クローニングの規模を定量化するものである。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の利点を示している。 Reinforcement learning demonstrates significant potential in automatically building control policies in numerous domains, but shows low efficiency when applied to robot manipulation tasks due to the curse of dimensionality. To facilitate the learning of such tasks, prior knowledge or heuristics that incorporate inherent simplification can effectively improve the learning performance. This paper aims to define and incorporate the natural symmetry present in physical robotic environments. Then, sample-efficient policies are trained by exploiting the expert demonstrations in symmetrical environments through an amalgamation of reinforcement and behavior cloning, which gives the off-policy learning process a diverse yet compact initiation. Furthermore, it presents a rigorous framework for a recent concept and explores its scope for robot manipulation tasks. The proposed method is validated via two point-to-point reaching tasks of an industrial arm, with and without an obstacle, in a simulation experiment study. A PID controller, which tracks the linear joint-space trajectories with hard-coded temporal logic to produce interim midpoints, is used to generate demonstrations in the study. The results of the study present the effect of the number of demonstrations and quantify the magnitude of behavior cloning to exemplify the possible improvement of model-free reinforcement learning in common manipulation tasks. A comparison study between the proposed method and a traditional off-policy reinforcement learning algorithm indicates its advantage in learning performance and potential value for applications. | 翻訳日:2023-04-14 16:48:15 公開日:2023-04-12 |
# 自己遮蔽深層学習モデルに基づく地すべり感受性予測モデル Landslide Susceptibility Prediction Modeling Based on Self-Screening Deep Learning Model ( http://arxiv.org/abs/2304.06054v1 ) ライセンス: Link先を確認 | Li Zhu, Lekai Liu, Changshi Yu | (参考訳) 地すべりの感受性予測は、常に重要かつ困難なコンテンツである。
しかし, 地すべり試料の誤差や環境要因間の複雑な非線形関係など, 不確実性モデリングにおいて解決すべき問題がいくつかある。
本稿では,地すべり感受性予測の課題を克服するために,自己スクリーニンググラフ畳み込みネットワークと長期記憶ネットワーク(SGCN-LSTM)を提案する。
SGCN-LSTMモデルは広い幅と優れた学習能力の利点がある。
自己スクリーニングネットワークにより、設定しきい値区間外の誤差が大きい地すべりサンプルを除去し、空間ノードと時系列の両方から環境要因間の非線形関係を抽出でき、環境要因間の非線形関係をよりよくシミュレートすることができる。
The SGCN-LSTM model was applied to landslide susceptibility prediction in Anyuan County, Jiangxi Province, China, and compared with Cascade-parallel Long Short-Term Memory and Conditional Random Fields (CPLSTM-CRF), Random Forest (RF), Support Vector Machine (SVM), Stochastic Gradient Descent (SGD) and Logistic Regression (LR) models.The landslide prediction experiment in Anyuan County showed that the total accuracy and AUC of SGCN-LSTM model were the highest among the six models, and the total accuracy reached 92.38 %, which was 5.88%, 12.44%, 19.65%, 19.92% and 20.34% higher than those of CPLSTM-CRF, RF, SVM, SGD and LR models, respectively.
AUCの値は 0.9782 に達し、0.0305,0.0532,0.1875,0.1909, 0.1829 であった。
従来の機械学習と比較して,本論文で提案するSGCN-LSTMモデルは地すべり予測精度が高く,ロバスト性も良好であり,LSP分野への応用可能性も高い。 Landslide susceptibility prediction has always been an important and challenging content. However, there are some uncertain problems to be solved in susceptibility modeling, such as the error of landslide samples and the complex nonlinear relationship between environmental factors. A self-screening graph convolutional network and long short-term memory network (SGCN-LSTM) is proposed int this paper to overcome the above problems in landslide susceptibility prediction. The SGCN-LSTM model has the advantages of wide width and good learning ability. The landslide samples with large errors outside the set threshold interval are eliminated by self-screening network, and the nonlinear relationship between environmental factors can be extracted from both spatial nodes and time series, so as to better simulate the nonlinear relationship between environmental factors. The SGCN-LSTM model was applied to landslide susceptibility prediction in Anyuan County, Jiangxi Province, China, and compared with Cascade-parallel Long Short-Term Memory and Conditional Random Fields (CPLSTM-CRF), Random Forest (RF), Support Vector Machine (SVM), Stochastic Gradient Descent (SGD) and Logistic Regression (LR) models.The landslide prediction experiment in Anyuan County showed that the total accuracy and AUC of SGCN-LSTM model were the highest among the six models, and the total accuracy reached 92.38 %, which was 5.88%, 12.44%, 19.65%, 19.92% and 20.34% higher than those of CPLSTM-CRF, RF, SVM, SGD and LR models, respectively. The AUC value reached 0.9782, which was 0.0305,0.0532,0.1875,0.1909 and 0.1829 higher than the other five models, respectively. In conclusion, compared with some existing traditional machine learning, the SGCN-LSTM model proposed in this paper has higher landslide prediction accuracy and better robustness, and has a good application prospect in the LSP field. | 翻訳日:2023-04-14 16:47:52 公開日:2023-04-12 |
# TextANIMAR:テキストベースの3D動物の細粒度検索 TextANIMAR: Text-based 3D Animal Fine-Grained Retrieval ( http://arxiv.org/abs/2304.06053v1 ) ライセンス: Link先を確認 | Trung-Nghia Le, Tam V. Nguyen c, Minh-Quan Le, Trong-Thuan Nguyen, Viet-Tham Huynh, Trong-Le Do, Khanh-Duy Le, Mai-Khiem Tran, Nhat Hoang-Xuan, Thang-Long Nguyen-Ho, Vinh-Tiep Nguyen, Tuong-Nghiem Diep, Khanh-Duy Ho, Xuan-Hieu Nguyen, Thien-Phuc Tran, Tuan-Anh Yang, Kim-Phat Tran, Nhu-Vinh Hoang, Minh-Quang Nguyen, E-Ro Nguyen, Minh-Khoi Nguyen-Nhat, Tuan-An To, Trung-Truc Huynh-Le, Nham-Tan Nguyen, Hoang-Chau Luong, Truong Hoai Phong, Nhat-Quynh Le-Pham, Huu-Phuc Pham, Trong-Vu Hoang, Quang-Binh Nguyen, Hai-Dang Nguyen, Akihiro Sugimoto, Minh-Triet Tran | (参考訳) 3Dオブジェクトの検索は重要な課題だが、近年はますます注目を集めている。
既存のアプローチではこの問題に対処する努力が続けられているが、画像やスケッチクエリといった制限された設定に制限されることが多い。
これらの制約を克服するため,本研究では,テキストによる3次元動物モデルの詳細な検索に焦点を当てた新しいSHRECチャレンジトラックを提案する。
従来のSHRECの課題トラックとは異なり、提案課題は極めて困難であり、参加者はテキストベースの検索問題に対処するための革新的なアプローチを開発する必要がある。
難易度は高まっているものの,本課題は実用上有用な応用を推進し,より直感的な3Dオブジェクトとの相互作用を促進する可能性があると考えている。
5つのグループがこの大会に参加し、合計114回の出場を果たした。
コンペで得られた結果は満足できるが、この課題が完全に解決されるには程遠いことに留意する。
したがって、将来の研究と改善のための潜在的な領域についての洞察を提供する。
私たちは3dオブジェクト検索の境界を押し上げ、視覚言語技術によるよりユーザーフレンドリーなインタラクションを促進することができると信じています。 3D object retrieval is an important yet challenging task, which has drawn more and more attention in recent years. While existing approaches have made strides in addressing this issue, they are often limited to restricted settings such as image and sketch queries, which are often unfriendly interactions for common users. In order to overcome these limitations, this paper presents a novel SHREC challenge track focusing on text-based fine-grained retrieval of 3D animal models. Unlike previous SHREC challenge tracks, the proposed task is considerably more challenging, requiring participants to develop innovative approaches to tackle the problem of text-based retrieval. Despite the increased difficulty, we believe that this task has the potential to drive useful applications in practice and facilitate more intuitive interactions with 3D objects. Five groups participated in our competition, submitting a total of 114 runs. While the results obtained in our competition are satisfactory, we note that the challenges presented by this task are far from being fully solved. As such, we provide insights into potential areas for future research and improvements. We believe that we can help push the boundaries of 3D object retrieval and facilitate more user-friendly interactions via vision-language technologies. | 翻訳日:2023-04-14 16:47:21 公開日:2023-04-12 |
# コンフォーマル予測とコンフォーマルリスク制御による信頼度物体検出:鉄道信号への応用 Confident Object Detection via Conformal Prediction and Conformal Risk Control: an Application to Railway Signaling ( http://arxiv.org/abs/2304.06052v1 ) ライセンス: Link先を確認 | L\'eo And\'eol (IMT, ANITI), Thomas Fel, Florence De Grancey, Luca Mossina | (参考訳) 現実世界の認定システムへのディープラーニングモデルのデプロイには、不確実性を正確に反映する信頼性評価機能が必要である。
本稿では,鉄道信号検出のための信頼度の高い予測器を構築するための共形予測フレームワークについて述べる。
我々のアプローチは、列車オペレーターと最先端のオブジェクト検出器の観点から撮影された画像を含む、新しいデータセットに基づいている。
いくつかの共形アプローチをテストし,共形リスク制御に基づく新しい手法を提案する。
本研究は,モデル性能を評価するための共形予測フレームワークの可能性を示し,正式に保証された不確実性境界を達成するための実践的ガイダンスを提供する。 Deploying deep learning models in real-world certified systems requires the ability to provide confidence estimates that accurately reflect their uncertainty. In this paper, we demonstrate the use of the conformal prediction framework to construct reliable and trustworthy predictors for detecting railway signals. Our approach is based on a novel dataset that includes images taken from the perspective of a train operator and state-of-the-art object detectors. We test several conformal approaches and introduce a new method based on conformal risk control. Our findings demonstrate the potential of the conformal prediction framework to evaluate model performance and provide practical guidance for achieving formally guaranteed uncertainty bounds. | 翻訳日:2023-04-14 16:47:01 公開日:2023-04-12 |
# open-transmind:1st foundation model challenge of intelligent transportationの新しいベースラインとベンチマーク Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model Challenge of Intelligent Transportation ( http://arxiv.org/abs/2304.06051v1 ) ライセンス: Link先を確認 | Yifeng Shi and Feng Lv and Xinliang Wang and Chunlong Xia and Shaojie Li and Shujie Yang and Teng Xi and Gang Zhang | (参考訳) 近年、コンピューティングパワーとディープラーニングアルゴリズムの継続的な改善により、基盤モデルの人気が高まっている。
その強力な能力と優れた性能のために、この技術はますます多くの産業で採用され応用されている。
インテリジェントな輸送業界では、人工知能は次のような典型的な課題に直面している。
基礎モデル技術は上記の問題を著しく緩和することができる。
そこで我々は,交通シナリオにおけるファンデーションモデル技術の普及と,知的交通産業の急速な発展を目標として,第1回ファンデーションモデルチャレンジを設計した。
課題は、オールインワンとクロスモーダル画像検索の2つのトラックに分けられる。
さらに、Open-TransMindと呼ばれる2つのトラックの新しいベースラインとベンチマークも提供します。
私たちの知る限り、Open-TransMindはマルチタスクとマルチモーダル機能を備えた最初のオープンソーストランスポート基盤モデルです。
同時にOpen-TransMindは、トラフィックシナリオの検出、分類、セグメンテーションデータセットにおける最先端のパフォーマンスを達成することができる。
ソースコードはhttps://github.com/Traffic-X/Open-TransMind.comで公開しています。 With the continuous improvement of computing power and deep learning algorithms in recent years, the foundation model has grown in popularity. Because of its powerful capabilities and excellent performance, this technology is being adopted and applied by an increasing number of industries. In the intelligent transportation industry, artificial intelligence faces the following typical challenges: few shots, poor generalization, and a lack of multi-modal techniques. Foundation model technology can significantly alleviate the aforementioned issues. To address these, we designed the 1st Foundation Model Challenge, with the goal of increasing the popularity of foundation model technology in traffic scenarios and promoting the rapid development of the intelligent transportation industry. The challenge is divided into two tracks: all-in-one and cross-modal image retrieval. Furthermore, we provide a new baseline and benchmark for the two tracks, called Open-TransMind. According to our knowledge, Open-TransMind is the first open-source transportation foundation model with multi-task and multi-modal capabilities. Simultaneously, Open-TransMind can achieve state-of-the-art performance on detection, classification, and segmentation datasets of traffic scenarios. Our source code is available at https://github.com/Traffic-X/Open-TransMind. | 翻訳日:2023-04-14 16:46:49 公開日:2023-04-12 |
# 新型コロナウイルス(covid-19)がオンラインゲームとレッスン配信の領域をどのように形成したかの分析 An Analysis of How COVID-19 Shaped the Realm of Online Gaming and Lesson Delivery ( http://arxiv.org/abs/2304.06102v1 ) ライセンス: Link先を確認 | Yingwei Cheng and Nicholas Milikich | (参考訳) 新型コロナウイルス(covid-19)のパンデミックにより、学校や大学はリモート学習に適応せざるを得なくなり、オンラインゲームは教育のツールとして登場した。
教育ゲームは、学習の楽しさとエンゲージメント、問題解決やコラボレーションといった重要なスキルの育成を支援し、従来の学習方法に苦しむ学生にリーチする。
教育におけるオンラインゲームの可能性には懸念があるが、その利点は明らかだ。
パンデミックが教育を混乱させ続ける中、オンラインゲームは教師や学生にとってますます重要なツールになりつつある。 The COVID-19 pandemic has forced schools and universities to adapt to remote learning, and online gaming has emerged as a tool for education. Educational games can make learning fun and engaging, help students develop important skills like problem-solving and collaboration, and reach students who are struggling with traditional learning methods. While there are concerns about the potential drawbacks of online gaming in education, its benefits are clear. As the pandemic continues to disrupt education, online gaming is likely to become an increasingly important tool for teachers and students alike. | 翻訳日:2023-04-14 16:40:48 公開日:2023-04-12 |
# 次元性低減と教師付き機械学習に基づく宇宙密度場の高速エミュレーション Fast emulation of cosmological density fields based on dimensionality reduction and supervised machine-learning ( http://arxiv.org/abs/2304.06099v1 ) ライセンス: Link先を確認 | Miguel Concei\c{c}\~ao, Alberto Krone-Martins, Antonio da Silva, \'Angeles Molin\'e | (参考訳) N体シミュレーションは、大規模構造の非線形進化を研究する最も強力な方法である。
しかし、それらは大量の計算資源を必要としており、パラメータ空間の広範な探索を必要とするシナリオで直接採用することは不可能である。
本研究では,簡単な機械学習手法を用いて,高速暗黒物質密度場エミュレーションを競合精度で実行可能であることを示す。
我々は,単純な主成分分析と教師付き学習法を組み合わせた次元削減と機械学習回帰に基づくエミュレータを構築した。
1つの自由パラメータによる推定では、ダークマター密度パラメータである$\omega_m$でトレーニングし、2つの自由パラメータを持つエミュレーションでは$\omega_m$とredshiftの範囲でトレーニングします。
この手法は、まず所定のベースでシミュレーションのグリッドのプロジェクションを採用し、次に、このプロジェクションされたグリッド上で機械学習の回帰を訓練する。
最後に、異なる宇宙パラメータに対する新しい密度立方体を、基底係数を予測・デプロジェクションすることによって、新しいN体シミュレーションに直接依存せずに推定することができる。
提案するエミュレータは,n体シミュレーションと比較して密度分布が数パーセント以内の非線形宇宙スケールで密度立方体を生成することができる。
この方法は、単一の自由パラメータエミュレーションに対してそれぞれ$\sim 1\%$と$\sim 3\%$と$\sim 5\%$と$\sim 15\%$の2つの自由パラメータでパワースペクトルとバイスペクトラムを再現しながら、完全なn体シミュレーションを行うよりも3桁のcpu実行時間が得られる。
これにより、様々な宇宙モデルに対する密度立方体の生成が大幅に加速し、ESA/NASAのユークリッドミッションのような完全な調査スケールでのパラメータやモデル推論など、これまで実現できなかった応用に扉を開くことができる。 N-body simulations are the most powerful method to study the non-linear evolution of large-scale structure. However, they require large amounts of computational resources, making unfeasible their direct adoption in scenarios that require broad explorations of parameter spaces. In this work, we show that it is possible to perform fast dark matter density field emulations with competitive accuracy using simple machine-learning approaches. We build an emulator based on dimensionality reduction and machine learning regression combining simple Principal Component Analysis and supervised learning methods. For the estimations with a single free parameter, we train on the dark matter density parameter, $\Omega_m$, while for emulations with two free parameters, we train on a range of $\Omega_m$ and redshift. The method first adopts a projection of a grid of simulations on a given basis; then, a machine learning regression is trained on this projected grid. Finally, new density cubes for different cosmological parameters can be estimated without relying directly on new N-body simulations by predicting and de-projecting the basis coefficients. We show that the proposed emulator can generate density cubes at non-linear cosmological scales with density distributions within a few percent compared to the corresponding N-body simulations. The method enables gains of three orders of magnitude in CPU run times compared to performing a full N-body simulation while reproducing the power spectrum and bispectrum within $\sim 1\%$ and $\sim 3\%$, respectively, for the single free parameter emulation and $\sim 5\%$ and $\sim 15\%$ for two free parameters. This can significantly accelerate the generation of density cubes for a wide variety of cosmological models, opening the doors to previously unfeasible applications, such as parameter and model inferences at full survey scales as the ESA/NASA Euclid mission. | 翻訳日:2023-04-14 16:40:37 公開日:2023-04-12 |
# エネルギー誘導型エントロピー神経輸送 Energy-guided Entropic Neural Optimal Transport ( http://arxiv.org/abs/2304.06094v1 ) ライセンス: Link先を確認 | Petr Mokrov and Alexander Korotin and Evgeny Burnaev | (参考訳) エネルギーベースモデル(EBM)は、機械学習コミュニティで数十年にわたって知られている。
エネルギポテンシャル(英語版) (unnormalized chance function) を用いて生成的モデリング問題を解決する効率的な方法が数多く現れている。
対照的に、オプティマルトランスポート(OT)と特にニューラルOTソルバの領域は、最近のいくつかの研究(ロス関数としてOTを応用し、OTマップ自体をモデル化しないWGANベースのアプローチを除く)により、明らかに研究され、制限されている。
本研究では,EBMとEntropy-regularized OTのギャップを埋める。
本稿では,前者の最近の発展と技術的改善を活かし,後者を豊かにするための新しい手法を提案する。
本手法を玩具の2次元シナリオに適用し, 画像対画像変換の標準問題にも適用できることを確認した。
単純さのため、我々はエネルギー誘導型エントロピーOT法のバックボーンとして、単純な短・長周期のEMMを選択し、より洗練されたEMMを将来の研究に活用する。 Energy-Based Models (EBMs) are known in the Machine Learning community for the decades. Since the seminal works devoted to EBMs dating back to the noughties there have been appearing a lot of efficient methods which solve the generative modelling problem by means of energy potentials (unnormalized likelihood functions). In contrast, the realm of Optimal Transport (OT) and, in particular, neural OT solvers is much less explored and limited by few recent works (excluding WGAN based approaches which utilize OT as a loss function and do not model OT maps themselves). In our work, we bridge the gap between EBMs and Entropy-regularized OT. We present the novel methodology which allows utilizing the recent developments and technical improvements of the former in order to enrich the latter. We validate the applicability of our method on toy 2D scenarios as well as standard unpaired image-to-image translation problems. For the sake of simplicity, we choose simple short- and long- run EBMs as a backbone of our Energy-guided Entropic OT method, leaving the application of more sophisticated EBMs for future research. | 翻訳日:2023-04-14 16:40:01 公開日:2023-04-12 |
# 原子と分子のマルチチャネル量子散乱のためのハイブリッド量子古典アルゴリズム A hybrid quantum-classical algorithm for multichannel quantum scattering of atoms and molecules ( http://arxiv.org/abs/2304.06089v1 ) ライセンス: Link先を確認 | Xiaodong Xing, Alejandro Gomez Cadavid, Artur F. Izmaylov and Timur V. Tscherbul | (参考訳) 原子・分子衝突の時間非依存schr\"odinger方程式を解くためのハイブリッド量子古典アルゴリズムを提案する。
このアルゴリズムはコーン変分原理の$S$-matrixバージョンに基づいており、二乗可積分関数の基底で表現されるハミルトン行列を反転させることで基本的な散乱$S$-matrixを計算する。
古典的アルゴリズム(対称行列反転)の計算ボトルネックは、線形方程式のシステムを解くために最近開発されたノイズの多い中間スケール量子 (NISQ) アルゴリズムである変分量子線形解法 (VQLS) を用いて解決される。
我々は,コリニア原子-分子衝突における正確な振動緩和確率を得るため,単一および多チャネル量子散乱問題に適用する。
また、このアルゴリズムがどのようにして大きな多原子分子の衝突をシミュレートするかを示す。
以上の結果から, NISQ量子プロセッサ上での散乱断面積と分子衝突率の計算が可能であることが示され, 気相二分子衝突のスケーラブルなディジタル量子計算の可能性と, 天文学と超低温化学との関係が示唆された。 We propose a hybrid quantum-classical algorithm for solving the time-independent Schr\"odinger equation for atomic and molecular collisions. The algorithm is based on the $S$-matrix version of the Kohn variational principle, which computes the fundamental scattering $S$-matrix by inverting the Hamiltonian matrix expressed in the basis of square-integrable functions. The computational bottleneck of the classical algorithm -- symmetric matrix inversion -- is addressed here using the variational quantum linear solver (VQLS), a recently developed noisy intermediate-scale quantum (NISQ) algorithm for solving systems of linear equations. We apply our algorithm to single and multichannel quantum scattering problems, obtaining accurate vibrational relaxation probabilities in collinear atom-molecule collisions. We also show how the algorithm could be scaled up to simulate collisions of large polyatomic molecules. Our results demonstrate that it is possible to calculate scattering cross sections and rates for complex molecular collisions on NISQ quantum processors, opening up the possibility of scalable digital quantum computation of gas-phase bimolecular collisions and reactions of relevance to astrochemistry and ultracold chemistry. | 翻訳日:2023-04-14 16:39:42 公開日:2023-04-12 |
# トランスモンカップラを用いた高周波フレキシブル2量子フルクソニウムゲート High-Fidelity, Frequency-Flexible Two-Qubit Fluxonium Gates with a Transmon Coupler ( http://arxiv.org/abs/2304.06087v1 ) ライセンス: Link先を確認 | Leon Ding, Max Hays, Youngkyu Sung, Bharath Kannan, Junyoung An, Agustin Di Paolo, Amir H. Karamlou, Thomas M. Hazard, Kate Azar, David K. Kim, Bethany M. Niedzielski, Alexander Melville, Mollie E. Schwartz, Jonilyn L. Yoder, Terry P. Orlando, Simon Gustavsson, Jeffrey A. Grover, Kyle Serniak, William D. Oliver | (参考訳) トランスモンカプラ (ftf, for fluxonium-transmon-fluxonium) を介する2量子ビットゲートのアーキテクチャを提案する。
フラクソニウム量子ビット間の直接結合にのみ依存するアーキテクチャとは対照的に、FTFは非計算状態を用いてゲートのより強い結合を可能にし、同時に静的制御相のエンタングレート(ZZ$)をkHzレベルまで抑制する。
ここでは、FTFをフラックス可変トランスモンカプラで実装し、2GHz帯で動作周波数を調整できるマイクロ波アクティブ制御Z(CZ)ゲートを実演し、大規模システムにおけるFTFの周波数割り当て自由度を付加する。
この範囲で、最先端のCZゲート忠実度は多くのバイアス点で観測され、この研究で特徴付けられる2つのデバイス間で再現された。
操作周波数とゲート持続時間の両方を最適化した後,99.85-99.9\%の範囲でピークCZ忠実度を達成した。
最後に, 平均ゲート忠実度を99.922\pm0.009\%$まで向上させるため, パルスパラメータのモデルフリー強化学習を行った。
ここではマイクロ波活性化CZゲートの他に、FTFは様々なフラキソニウムゲートスキームにも適用でき、ゲート特性を改善し、不要な$ZZ$相互作用を受動的に低減することができる。 We propose and demonstrate an architecture for fluxonium-fluxonium two-qubit gates mediated by transmon couplers (FTF, for fluxonium-transmon-fluxonium). Relative to architectures that exclusively rely on a direct coupling between fluxonium qubits, FTF enables stronger couplings for gates using non-computational states while simultaneously suppressing the static controlled-phase entangling rate ($ZZ$) down to kHz levels, all without requiring strict parameter matching. Here we implement FTF with a flux-tunable transmon coupler and demonstrate a microwave-activated controlled-Z (CZ) gate whose operation frequency can be tuned over a 2 GHz range, adding frequency allocation freedom for FTF's in larger systems. Across this range, state-of-the-art CZ gate fidelities were observed over many bias points and reproduced across the two devices characterized in this work. After optimizing both the operation frequency and the gate duration, we achieved peak CZ fidelities in the 99.85-99.9\% range. Finally, we implemented model-free reinforcement learning of the pulse parameters to boost the mean gate fidelity up to $99.922\pm0.009\%$, averaged over roughly an hour between scheduled training runs. Beyond the microwave-activated CZ gate we present here, FTF can be applied to a variety of other fluxonium gate schemes to improve gate fidelities and passively reduce unwanted $ZZ$ interactions. | 翻訳日:2023-04-14 16:39:21 公開日:2023-04-12 |
# ホログラフィック多部絡み合い尺度の分類に向けて Towards classification of holographic multi-partite entanglement measures ( http://arxiv.org/abs/2304.06082v1 ) ライセンス: Link先を確認 | Abhijit Gadde, Vineeth Krishna, Trakshu Sharma | (参考訳) 本稿では, ホログラム双対のプローブ近似で計算可能な測度を構築することを目的として, マルチパーティ・エンタングルメントの測度を体系的に研究する。
我々は局所ユニタリ変換の不変量として一般測度を分類し数える。
これらの測度を置換群要素を用いて定式化した後、プローブ測度が満たすべき条件を導出し、大きな解のクラスを見つける。
これらの解はarxiv:2206.09723で導入された多重エントロピーの一般化である。
ホログラムの双対は、レプリカ対称性が大まかに保たれていないと仮定し、2d$ cftで明示的な計算で処方薬をチェックします。
我々は、レプリカ対称性の仮定と、既に知られている絡み合いの方法、例えば絡み合いの負性や反射エントロピーが我々の枠組みにどのように適合するかについて議論する。 In this paper, we systematically study measures of multi-partite entanglement with the aim of constructing measures that can be computed in probe approximation in the holographic dual. We classify and count general measures as invariants of local unitary transformations. After formulating these measures in terms of permutation group elements, we derive conditions that a probe measure should satisfy and find a large class of solutions. These solutions are generalizations of the multi-entropy introduced in arXiv:2206.09723 . We derive their holographic dual with the assumption that the replica symmetry is unbroken in the bulk and check our prescription with explicit computations in $2d$ CFTs. We discuss the replica symmetry assumption and also how the already known entanglement measures, such as entanglement negativity and reflected entropy fit in our framework. | 翻訳日:2023-04-14 16:38:48 公開日:2023-04-12 |
# ツリーテンソルネットワークを用いた長距離量子多体力学の数値シミュレーション Numerical simulations of long-range open quantum many-body dynamics with tree tensor networks ( http://arxiv.org/abs/2304.06075v1 ) ライセンス: Link先を確認 | Dominik Sulz, Christian Lubich, Gianluca Ceruti, Igor Lesanovsky, Federico Carollo | (参考訳) オープン量子系は、量子効果、多体相互作用、散逸過程の競合から生じる集合的挙動の探索に概念的にシンプルな設定を提供する。
閉量子系とは異なるダイナミクスを示すか、古典的設定では不可能である非平衡相転移を行う。
しかし、オープン量子多体力学の研究は特に重要な長距離相関や長距離相互作用の存在において困難である。
本稿では,木テンソルネットワークに基づくオープン量子系の数値計算法を提案する。
このような構造は多体相関のエンコーディングを改善することが期待されており、長距離相互作用に適した統合スキームと散逸ダイナミクスへの応用を取り入れた。
本研究では,パワーロー減衰相互作用を持つ散逸型イジングモデルを用いて,パワーロー指数の1次位相遷移のシグネチャを観測する。 Open quantum systems provide a conceptually simple setting for the exploration of collective behavior stemming from the competition between quantum effects, many-body interactions, and dissipative processes. They may display dynamics distinct from that of closed quantum systems or undergo nonequilibrium phase transitions which are not possible in classical settings. However, studying open quantum many-body dynamics is challenging, in particular in the presence of critical long-range correlations or long-range interactions. Here, we make progress in this direction and introduce a numerical method for open quantum systems, based on tree tensor networks. Such a structure is expected to improve the encoding of many-body correlations and we adopt an integration scheme suited for long-range interactions and applications to dissipative dynamics. We test the method using a dissipative Ising model with power-law decaying interactions and observe signatures of a first-order phase transition for power-law exponents smaller than one. | 翻訳日:2023-04-14 16:38:34 公開日:2023-04-12 |
# 円錐交差検出のためのハイブリッド量子アルゴリズム A hybrid quantum algorithm to detect conical intersections ( http://arxiv.org/abs/2304.06070v1 ) ライセンス: Link先を確認 | Emiel Koridon, Joana Fraxanet, Alexandre Dauphin, Lucas Visscher, Thomas E. O'Brien, Stefano Polla | (参考訳) 円錐交差は、光異性化や非放射緩和のような化学過程において重要な役割を果たすことが知られている分子ハミルトニアンのポテンシャルエネルギー面間の位相的に保護された交差である。
それらは非ゼロベリー位相によって特徴づけられ、これは原子座標空間の閉路上で定義される位相不変量であり、経路が交叉多様体を囲むときの値は$\pi$である。
本研究では,実分子ハミルトニアンに対して,選択経路に沿った変分アンサッツの局所的最適値を追跡し,制御のないアダマール検定により初期状態と最終状態の重なりを推定することによりベリー相が得られることを示す。
さらに、パスを$N$ポイントに識別することで、N$シングルNewton-Raphsonステップを使用して、ステートを非変動的に更新することができる。
最後に、ベリー位相は2つの離散値(0 または $\pi$)しか取ることができないので、定数で区切られた累積誤差であっても、この手順は成功する。
フォーマルジミン分子 (\ce{H2C=NH}) の小さな玩具モデルへのアルゴリズムの適用を数値的に示す。 Conical intersections are topologically protected crossings between the potential energy surfaces of a molecular Hamiltonian, known to play an important role in chemical processes such as photoisomerization and non-radiative relaxation. They are characterized by a non-zero Berry phase, which is a topological invariant defined on a closed path in atomic coordinate space, taking the value $\pi$ when the path encircles the intersection manifold. In this work, we show that for real molecular Hamiltonians, the Berry phase can be obtained by tracing a local optimum of a variational ansatz along the chosen path and estimating the overlap between the initial and final state with a control-free Hadamard test. Moreover, by discretizing the path into $N$ points, we can use $N$ single Newton-Raphson steps to update our state non-variationally. Finally, since the Berry phase can only take two discrete values (0 or $\pi$), our procedure succeeds even for a cumulative error bounded by a constant; this allows us to bound the total sampling cost and to readily verify the success of the procedure. We demonstrate numerically the application of our algorithm on small toy models of the formaldimine molecule (\ce{H2C=NH}). | 翻訳日:2023-04-14 16:38:12 公開日:2023-04-12 |
# 3dシーンにおける質問応答のためのクリップ誘導視覚言語事前学習 CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes ( http://arxiv.org/abs/2304.06061v1 ) ライセンス: Link先を確認 | Maria Parelli, Alexandros Delitzas, Nikolas Hars, Georgios Vlassis, Sotirios Anagnostidis, Gregor Bachmann, Thomas Hofmann | (参考訳) 言語知識と視覚概念を2次元画像から3次元世界理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりである。
本研究では,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
一般的なCLIPモデルの表現力を3Dエンコーダに注入し,符号化された3Dシーン特徴と対応する2D画像とCLIPが生成するテキスト埋め込みとを一致させる。
モデルの3次元世界推論能力を評価するため,3次元視覚的質問応答の下流タスクで評価した。
実験による定量的・定性的な結果から,本手法は最先端の作業よりも優れており,3dシーンの特徴を解釈可能な表現へと導く。 Training models to apply linguistic knowledge and visual concepts from 2D images to 3D world understanding is a promising direction that researchers have only recently started to explore. In this work, we design a novel 3D pre-training Vision-Language method that helps a model learn semantically meaningful and transferable 3D scene point cloud representations. We inject the representational power of the popular CLIP model into our 3D encoder by aligning the encoded 3D scene features with the corresponding 2D image and text embeddings produced by CLIP. To assess our model's 3D world reasoning capability, we evaluate it on the downstream task of 3D Visual Question Answering. Experimental quantitative and qualitative results show that our pre-training method outperforms state-of-the-art works in this task and leads to an interpretable representation of 3D scene features. | 翻訳日:2023-04-14 16:37:51 公開日:2023-04-12 |
# 低分解能赤外線アレイを用いたプライバシー保護のための効率的な深層学習モデル Efficient Deep Learning Models for Privacy-preserving People Counting on Low-resolution Infrared Arrays ( http://arxiv.org/abs/2304.06059v1 ) ライセンス: Link先を確認 | Chen Xie, Francesco Daghero, Yukai Chen, Marco Castellano, Luca Gandolfi, Andrea Calimera, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari | (参考訳) 超低解像度赤外線(ir)アレイセンサーは、人計数のための低コスト、エネルギー効率、プライバシー保護ソリューションを提供する。
これまでの研究は、ディープラーニング(DL)がこのタスクにおいて優れたパフォーマンスが得られることを示した。
しかし、これらの文献では、irアレイに基づく様々な効率的なdlアーキテクチャの比較分析が欠落しており、その精度だけでなく、メモリやエネルギー制約のあるiot(internet of things)エッジノードへのデプロイコストも考慮されている。
本研究では、商用8x8アレイから収集したIR画像からなる新しいデータセットに対して、6種類のDLアーキテクチャを比較し、このニーズに対処する。
各モデルタイプを広いアーキテクチャで探索することにより、55.70-82.70%の範囲で、クロスバリデーションされた平衡精度スコアにまたがる、パレート最適解の豊富な集合が得られる。
STマイクロエレクトロニクス(STM32L4A6ZG)によって商用のマイクロコントローラ(MCU)に配備されると、これらのモデルは0.41-9.28kBのメモリを占有し、推論毎に1.10-7.74msを必要とする。
我々のモデルは従来の決定論的手法(最大39.9%)よりもかなり正確だが、最大で3.53倍高速でエネルギー効率が高い。
さらに,我々のモデルの精度は,精度がかなり低いにもかかわらず,同様の解像度センサを用いた最先端のdlソリューションに匹敵する。
当社のモデルはすべて,MCUベースのIoTノード上で,バッテリ充電なしで数年間の自律運用が可能な,継続的かつリアルタイムな推論を実現しています。 Ultra-low-resolution Infrared (IR) array sensors offer a low-cost, energy-efficient, and privacy-preserving solution for people counting, with applications such as occupancy monitoring. Previous work has shown that Deep Learning (DL) can yield superior performance on this task. However, the literature was missing an extensive comparative analysis of various efficient DL architectures for IR array-based people counting, that considers not only their accuracy, but also the cost of deploying them on memory- and energy-constrained Internet of Things (IoT) edge nodes. In this work, we address this need by comparing 6 different DL architectures on a novel dataset composed of IR images collected from a commercial 8x8 array, which we made openly available. With a wide architectural exploration of each model type, we obtain a rich set of Pareto-optimal solutions, spanning cross-validated balanced accuracy scores in the 55.70-82.70% range. When deployed on a commercial Microcontroller (MCU) by STMicroelectronics, the STM32L4A6ZG, these models occupy 0.41-9.28kB of memory, and require 1.10-7.74ms per inference, while consuming 17.18-120.43 $\mu$J of energy. Our models are significantly more accurate than a previous deterministic method (up to +39.9%), while being up to 3.53x faster and more energy efficient. Further, our models' accuracy is comparable to state-of-the-art DL solutions on similar resolution sensors, despite a much lower complexity. All our models enable continuous, real-time inference on a MCU-based IoT node, with years of autonomous operation without battery recharging. | 翻訳日:2023-04-14 16:37:32 公開日:2023-04-12 |
# ラベルフリー概念ボトルネックモデル Label-Free Concept Bottleneck Models ( http://arxiv.org/abs/2304.06129v1 ) ライセンス: Link先を確認 | Tuomas Oikarinen, Subhro Das, Lam M. Nguyen, Tsui-Wei Weng | (参考訳) 概念ボトルネックモデル(CBM)は、隠れた層ニューロンが人間の理解可能な概念に対応することによって、より解釈可能なニューラルネットワークを作成する一般的な方法である。
しかし、既存のCBMとその変種には2つの重要な制限がある: まず、事前に定義された概念のそれぞれについてラベル付きデータを収集する必要がある。
この貧弱なパフォーマンスは、現実のアプリケーションでCBMを採用するための障壁を生み出します。
これらの課題に動機づけられて,ニューラルネットワークを概念データをラベル付けすることなく解釈可能なcbmに変換するための新しいフレームワークであるラベルフリーcbmを提案する。
スケーラブル - イメージネットにスケールした最初のcbmを表示し、効率的 - cbmを作成するには、非常に大きなデータセットであっても数時間しかかからず、自動化 - 新たなデータセットのためにトレーニングするには、最小限の人的労力が必要です。
私たちのコードはhttps://github.com/Trustworthy-ML-Lab/Label-free-CBMで利用可能です。 Concept bottleneck models (CBM) are a popular way of creating more interpretable neural networks by having hidden layer neurons correspond to human-understandable concepts. However, existing CBMs and their variants have two crucial limitations: first, they need to collect labeled data for each of the predefined concepts, which is time consuming and labor intensive; second, the accuracy of a CBM is often significantly lower than that of a standard neural network, especially on more complex datasets. This poor performance creates a barrier for adopting CBMs in practical real world applications. Motivated by these challenges, we propose Label-free CBM which is a novel framework to transform any neural network into an interpretable CBM without labeled concept data, while retaining a high accuracy. Our Label-free CBM has many advantages, it is: scalable - we present the first CBM scaled to ImageNet, efficient - creating a CBM takes only a few hours even for very large datasets, and automated - training it for a new dataset requires minimal human effort. Our code is available at https://github.com/Trustworthy-ML-Lab/Label-free-CBM. | 翻訳日:2023-04-14 16:28:49 公開日:2023-04-12 |
# 実環境におけるディープフェイク検出のための評価フレームワーク Assessment Framework for Deepfake Detection in Real-world Situations ( http://arxiv.org/abs/2304.06125v1 ) ライセンス: Link先を確認 | Yuhang Lu and Touradj Ebrahimi | (参考訳) 画像やビデオにおけるデジタル顔操作の検出は、公衆の信頼を損なう可能性があるため、広く注目を集めている。
このような手法の悪用に対抗するため,ディープラーニングに基づくディープフェイク検出手法が採用され,優れた性能を発揮している。
しかし、そのような検出器の性能は実世界の状況をほとんど反映しない関連するベンチマークで評価されることが多い。
例えば、様々な画像およびビデオ処理操作と典型的なワークフロー歪みが検出精度に与える影響は、体系的に測定されていない。
本稿では,よりリアルな環境での学習に基づくディープフェイク検出の性能評価のために,より信頼性の高い評価フレームワークを提案する。
この手法は,実環境下での一般的な性能を報告するだけでなく,異なる処理操作に対するロバスト性を定量的に測定する初のシステム評価手法である。
本報告では, フレームワークの有効性と利用を実証するために, 3つの一般的なディープフェイク検出手法の広範な実験と詳細な解析を行った。
さらに,現実的な処理操作によって駆動される確率的分解に基づくデータ拡張法を考案し,ディープフェイク検出器のロバスト性を大幅に向上させる。 Detecting digital face manipulation in images and video has attracted extensive attention due to the potential risk to public trust. To counteract the malicious usage of such techniques, deep learning-based deepfake detection methods have been employed and have exhibited remarkable performance. However, the performance of such detectors is often assessed on related benchmarks that hardly reflect real-world situations. For example, the impact of various image and video processing operations and typical workflow distortions on detection accuracy has not been systematically measured. In this paper, a more reliable assessment framework is proposed to evaluate the performance of learning-based deepfake detectors in more realistic settings. To the best of our acknowledgment, it is the first systematic assessment approach for deepfake detectors that not only reports the general performance under real-world conditions but also quantitatively measures their robustness toward different processing operations. To demonstrate the effectiveness and usage of the framework, extensive experiments and detailed analysis of three popular deepfake detection methods are further presented in this paper. In addition, a stochastic degradation-based data augmentation method driven by realistic processing operations is designed, which significantly improves the robustness of deepfake detectors. | 翻訳日:2023-04-14 16:28:31 公開日:2023-04-12 |
# followme:自動運転車の設定における車両挙動予測 FollowMe: Vehicle Behaviour Prediction in Autonomous Vehicle Settings ( http://arxiv.org/abs/2304.06121v1 ) ライセンス: Link先を確認 | Abduallah Mohamed, Jundi Liu, Linda Ng Boyle, Christian Claudel | (参考訳) 仮想リード車両計画ルートに続くエゴ車両は、自律車と非自律車との相互作用において必須の要素である。
しかし、ドライバーが計画されたリード車両の経路をたどる能力については疑問がある。
したがって、リード車両経路を与えられたエゴ車両経路の軌跡の予測が注目される。
本研究では,運転者が先頭車両に追従する能力について,後者の質問に答えることで行動・行動予測問題を実現する,新しいデータセットである followme dataset を提案する。
また、データセットのベースラインとして、深部時空間グラフモデルFollowMe-STGCNNを導入する。
実験と分析では,FollowMe-STGCNNがデータセット内のインタラクションをキャプチャする際の利点を示す。
先行運動予測モデルと比較し,先行運動予測モデルでは,先行車両に追従する状況に対応するための異なる設計機構が必要であることを示した。 An ego vehicle following a virtual lead vehicle planned route is an essential component when autonomous and non-autonomous vehicles interact. Yet, there is a question about the driver's ability to follow the planned lead vehicle route. Thus, predicting the trajectory of the ego vehicle route given a lead vehicle route is of interest. We introduce a new dataset, the FollowMe dataset, which offers a motion and behavior prediction problem by answering the latter question of the driver's ability to follow a lead vehicle. We also introduce a deep spatio-temporal graph model FollowMe-STGCNN as a baseline for the dataset. In our experiments and analysis, we show the design benefits of FollowMe-STGCNN in capturing the interactions that lie within the dataset. We contrast the performance of FollowMe-STGCNN with prior motion prediction models showing the need to have a different design mechanism to address the lead vehicle following settings. | 翻訳日:2023-04-14 16:28:10 公開日:2023-04-12 |
# サリエンシマップによる顔認識の解説 Explanation of Face Recognition via Saliency Maps ( http://arxiv.org/abs/2304.06118v1 ) ライセンス: Link先を確認 | Yuhang Lu and Touradj Ebrahimi | (参考訳) 過去数年間の顔認識の著しい進歩にもかかわらず、それらはしばしば「ブラックボックス」として扱われ、説明性に欠けるとして批判されてきた。
ディープフェイス認識システムの特徴や決定を理解することがますます重要になり、より一般に受け入れられるようになった。
説明可能な顔認識(XFR)は、認識モデルがプローブ面と他者との同一性を持つ理由を解釈する問題である。
近年の研究では、視覚塩分マップを説明として利用することを検討しているが、顔認識の文脈ではより深い分析を欠いていることが多い。
本稿では,深層認識モデルの意思決定プロセスに着目した,説明可能な顔認識(XFR)の厳密な定義を提案する。
新しい定義に従って、類似性に基づくRISEアルゴリズム(S-RISE)を導入し、高品質なビジュアル・サリエンシ・マップを作成する。
さらに,一般的な視覚情報量に基づくXFR法の信頼性と精度を体系的に評価する手法を提案する。 Despite the significant progress in face recognition in the past years, they are often treated as "black boxes" and have been criticized for lacking explainability. It becomes increasingly important to understand the characteristics and decisions of deep face recognition systems to make them more acceptable to the public. Explainable face recognition (XFR) refers to the problem of interpreting why the recognition model matches a probe face with one identity over others. Recent studies have explored use of visual saliency maps as an explanation, but they often lack a deeper analysis in the context of face recognition. This paper starts by proposing a rigorous definition of explainable face recognition (XFR) which focuses on the decision-making process of the deep recognition model. Following the new definition, a similarity-based RISE algorithm (S-RISE) is then introduced to produce high-quality visual saliency maps. Furthermore, an evaluation approach is proposed to systematically validate the reliability and accuracy of general visual saliency-based XFR methods. | 翻訳日:2023-04-14 16:27:56 公開日:2023-04-12 |
# autoshot: 短いビデオデータセットと最先端のショット境界検出 AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary Detection ( http://arxiv.org/abs/2304.06116v1 ) ライセンス: Link先を確認 | Wentao Zhu, Yufang Huang, Xiufeng Xie, Wenxian Liu, Jincan Deng, Debing Zhang, Zhangyang Wang, Ji Liu | (参考訳) ショートフォームビデオは爆発的に人気を博し、新しいソーシャルメディアのトレンドを支配した。
一般的なショートビデオプラットフォームである~\textit{e.g.}、Kuaishou (Kwai)、TikTok、Instagram Reels、YouTube Shortsは、コンテンツの消費と作成方法を変えた。
映像コンテンツの作成と理解のために、ショット境界検出(SBD)は様々なシナリオにおいて最も重要なコンポーネントの1つである。
本研究では,853の完全なショートビデオと11,606のショットアノテーションと,200のテストビデオに2,716の高品質なショット境界アノテーションを備えるSHOTという,新しい公開Short Video sHot bOundary deTectionデータセットをリリースする。
このデータ富を生かして、様々な高度な3D ConvNetとTransformerをカプセル化した検索空間でニューラルアーキテクチャ検索を行うことにより、ビデオSBDのモデル設計を最適化することを提案する。
提案手法であるAutoShotは,新たに構築したSHOTデータセットから導出および評価を行う際に,従来の最先端アプローチよりも高いF1スコアを達成する。
さらに、AutoShotアーキテクチャの一般化性を検証するために、ClipShots、BBC、RAIの3つの公開データセットと、AutoShotのF1スコアがそれぞれ1.1%、0.9%、および1.2%の先行技術アプローチを上回っていることを直接評価した。
SHOTデータセットとコードはhttps://github.com/wentaozhu/AutoShot.gitで見ることができる。 The short-form videos have explosive popularity and have dominated the new social media trends. Prevailing short-video platforms,~\textit{e.g.}, Kuaishou (Kwai), TikTok, Instagram Reels, and YouTube Shorts, have changed the way we consume and create content. For video content creation and understanding, the shot boundary detection (SBD) is one of the most essential components in various scenarios. In this work, we release a new public Short video sHot bOundary deTection dataset, named SHOT, consisting of 853 complete short videos and 11,606 shot annotations, with 2,716 high quality shot boundary annotations in 200 test videos. Leveraging this new data wealth, we propose to optimize the model design for video SBD, by conducting neural architecture search in a search space encapsulating various advanced 3D ConvNets and Transformers. Our proposed approach, named AutoShot, achieves higher F1 scores than previous state-of-the-art approaches, e.g., outperforming TransNetV2 by 4.2%, when being derived and evaluated on our newly constructed SHOT dataset. Moreover, to validate the generalizability of the AutoShot architecture, we directly evaluate it on another three public datasets: ClipShots, BBC and RAI, and the F1 scores of AutoShot outperform previous state-of-the-art approaches by 1.1%, 0.9% and 1.2%, respectively. The SHOT dataset and code can be found in https://github.com/wentaozhu/AutoShot.git . | 翻訳日:2023-04-14 16:27:40 公開日:2023-04-12 |
# TopTrack: トップからオブジェクトを追跡する TopTrack: Tracking Objects By Their Top ( http://arxiv.org/abs/2304.06114v1 ) ライセンス: Link先を確認 | Jacob Meilleur and Guillaume-Alexandre Bilodeau | (参考訳) 近年,Multi-object Tracking(MOT)タスクに対処する方法として,共同検出・追跡パラダイムが広く用いられている。
このパラダイムに従うメソッドの多くは、検出にオブジェクトセンターキーポイントを使用する。
しかし,混み合ったシナリオでは目立たないことが多いため,中心点が最適ではないと主張する。
そこで本研究では,物体の上部を中心ではなくキーポイントとして用いる共同検出・追跡手法であるtoptrackを提案する。
さらに、TopTrackはトレーニングを容易にするために、連続したフレームを別々のストリームで処理する。
我々は,検出のキーポイントとしてオブジェクトトップを使用することで,検出の欠落を減らし,より完全な軌道と損失の少ない軌道を導出することを示す実験を行った。
TopTrackは、2つのMOTベンチマークで、他の最先端トラッカーと競合する結果を達成している。 In recent years, the joint detection-and-tracking paradigm has been a very popular way of tackling the multi-object tracking (MOT) task. Many of the methods following this paradigm use the object center keypoint for detection. However, we argue that the center point is not optimal since it is often not visible in crowded scenarios, which results in many missed detections when the objects are partially occluded. We propose TopTrack, a joint detection-and-tracking method that uses the top of the object as a keypoint for detection instead of the center because it is more often visible. Furthermore, TopTrack processes consecutive frames in separate streams in order to facilitate training. We performed experiments to show that using the object top as a keypoint for detection can reduce the amount of missed detections, which in turn leads to more complete trajectories and less lost trajectories. TopTrack manages to achieve competitive results with other state-of-the-art trackers on two MOT benchmarks. | 翻訳日:2023-04-14 16:27:10 公開日:2023-04-12 |
# PATMAT: 顔ペンキ用マスク対応変圧器のチューニングを意識した人 PATMAT: Person Aware Tuning of Mask-Aware Transformer for Face Inpainting ( http://arxiv.org/abs/2304.06107v1 ) ライセンス: Link先を確認 | Saman Motamed and Jianjin Xu and Chen Henry Wu and Fernando De la Torre | (参考訳) StyleGAN2やStable Diffusionのような生成モデルは、画像合成、塗装、ノイズ除去といったコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。
しかし、現在の顔の塗り絵の生成モデルは、美的説得力のあるイメージ構造やテクスチャを作り出すにもかかわらず、顔の詳細や人物のアイデンティティを保存できないことが多い。
本研究では,マスク・アウェア・トランスフォーマー (MAT) のPerson Aware Tuning (PAT) を提案する。
提案手法であるPATMATは、被験者の参照画像と、顔に訓練されたMATアーキテクチャを微調整することにより、アイデンティティを効果的に保存する。
約40の参照画像を使用することで、PATMATはMATスタイルモジュールのアンカーポイントを生成し、固定アンカーを使用してモデルを新しい顔認証に適応させる。
さらに、トレーニング中にPATMATは複数のイメージをアンカーに使用することで、競合するメソッドよりも少ない参照イメージを使用することができる。
そこで本研究では,patmatが画像品質,人固有の詳細の保存,被写体のアイデンティティといった面で最先端モデルを上回ることを実証する。
以上の結果から, PATMATはパーソナライズされた顔の塗り絵の質向上に有効である可能性が示唆された。 Generative models such as StyleGAN2 and Stable Diffusion have achieved state-of-the-art performance in computer vision tasks such as image synthesis, inpainting, and de-noising. However, current generative models for face inpainting often fail to preserve fine facial details and the identity of the person, despite creating aesthetically convincing image structures and textures. In this work, we propose Person Aware Tuning (PAT) of Mask-Aware Transformer (MAT) for face inpainting, which addresses this issue. Our proposed method, PATMAT, effectively preserves identity by incorporating reference images of a subject and fine-tuning a MAT architecture trained on faces. By using ~40 reference images, PATMAT creates anchor points in MAT's style module, and tunes the model using the fixed anchors to adapt the model to a new face identity. Moreover, PATMAT's use of multiple images per anchor during training allows the model to use fewer reference images than competing methods. We demonstrate that PATMAT outperforms state-of-the-art models in terms of image quality, the preservation of person-specific details, and the identity of the subject. Our results suggest that PATMAT can be a promising approach for improving the quality of personalized face inpainting. | 翻訳日:2023-04-14 16:26:57 公開日:2023-04-12 |
# 遺伝的アルゴリズム(3dg-ga)による深部非同定匿名データセット拡張を用いた人工顔面薬物乱用画像の生成 Generation of artificial facial drug abuse images using Deep De-identified anonymous Dataset augmentation through Genetics Algorithm (3DG-GA) ( http://arxiv.org/abs/2304.06106v1 ) ライセンス: Link先を確認 | Hazem Zein, Lou Laurent, R\'egis Fournier, Amine Nait-Ali | (参考訳) バイオメディカルリサーチと人工知能では、大規模でバランスのとれた、代表的データセットへのアクセスは、現実世界のシナリオで使用できる信頼できるアプリケーションを開発する上で不可欠である。
しかし,このようなデータセットの取得は,病院や専門施設に限られることが多いため,困難である。
本研究は, 薬物乱用の特徴を強調することで, 極めてリアルな合成顔を作り出すことを提案する。
提案手法は「3DG-GA(Deep Dedentified anonymous Dataset Generation)」と呼ばれ、合成顔生成の戦略として遺伝的アルゴリズムを用いる。
このアルゴリズムは、GAN人工顔生成、偽造検出、顔認識を含む。
当初、120枚の顔薬乱用画像のデータセットが使用されている。
薬物の特徴を保存することで、3DG-GAは3000の合成顔用薬物乱用画像を含むデータセットを提供する。
データセットは科学コミュニティに開放され、法的または倫理的な制約を避けながら、結果の再現と生成されたデータセットの恩恵を受けることができます。 In biomedical research and artificial intelligence, access to large, well-balanced, and representative datasets is crucial for developing trustworthy applications that can be used in real-world scenarios. However, obtaining such datasets can be challenging, as they are often restricted to hospitals and specialized facilities. To address this issue, the study proposes to generate highly realistic synthetic faces exhibiting drug abuse traits through augmentation. The proposed method, called "3DG-GA", Deep De-identified anonymous Dataset Generation, uses Genetics Algorithm as a strategy for synthetic faces generation. The algorithm includes GAN artificial face generation, forgery detection, and face recognition. Initially, a dataset of 120 images of actual facial drug abuse is used. By preserving, the drug traits, the 3DG-GA provides a dataset containing 3000 synthetic facial drug abuse images. The dataset will be open to the scientific community, which can reproduce our results and benefit from the generated datasets while avoiding legal or ethical restrictions. | 翻訳日:2023-04-14 16:26:32 公開日:2023-04-12 |
# 時間平均制約を考慮した制御系オンライン最適化のためのプライマル・ディダル・コンテクストベイズ最適化 Primal-Dual Contextual Bayesian Optimization for Control System Online Optimization with Time-Average Constraints ( http://arxiv.org/abs/2304.06104v1 ) ライセンス: Link先を確認 | Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones | (参考訳) 本稿では,制約付き閉ループ制御システムのオンライン性能最適化の問題点について検討する。
一定の規則性条件下での動的最適解に対して,線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
さらに、アルゴリズムは平均時間制約違反をゼロとし、制約関数の平均値が所望の制約を満たすことを保証する。
本手法はガウシアンプロセスから採取したサンプルインスタンスと, 連続発振型原子炉パラメータチューニング問題の両方に適用し, シミュレーション結果から, ほぼ最適性能を同時に提供し, 平均的な制約実現性を維持することを示す。
これは、提示されたケーススタディに対する大きな累積的後悔または厳しい制約違反に苦しむ現在の最先端の手法とは対照的である。 This paper studies the problem of online performance optimization of constrained closed-loop control systems, where both the objective and the constraints are unknown black-box functions affected by exogenous time-varying contextual disturbances. A primal-dual contextual Bayesian optimization algorithm is proposed that achieves sublinear cumulative regret with respect to the dynamic optimal solution under certain regularity conditions. Furthermore, the algorithm achieves zero time-average constraint violation, ensuring that the average value of the constraint function satisfies the desired constraint. The method is applied to both sampled instances from Gaussian processes and a continuous stirred tank reactor parameter tuning problem; simulation results show that the method simultaneously provides close-to-optimal performance and maintains constraint feasibility on average. This contrasts current state-of-the-art methods, which either suffer from large cumulative regret or severe constraint violations for the case studies presented. | 翻訳日:2023-04-14 16:26:14 公開日:2023-04-12 |
# 拡散MRIにおける球デコンボリューションのための$E(3) \times SO(3)$-Equivariant Networks $E(3) \times SO(3)$-Equivariant Networks for Spherical Deconvolution in Diffusion MRI ( http://arxiv.org/abs/2304.06103v1 ) ライセンス: Link先を確認 | Axel Elaldi, Guido Gerig, Neel Dey | (参考訳) 本稿では,各ボクセルが球面信号を含むボリュームのスパースデコンボリューションのための$E(3)\times SO(3)$$同変フレームワークであるRoto-Translation Equivariant Spherical Deconvolution (RT-ESD)を提案する。
このような6Dデータは拡散MRI(dMRI)において自然に発生する。
それぞれのdMRIボクセルは、通常、様々な重なり合う構造の混合物であるので、白質などの解剖学的構造を復元するためには、ブラインド・デコンボリューションが必要である。
既存のdMRIの作業は、スパース球面のデコンボリューションに反復的あるいは深層学習のアプローチを必要とするが、通常は近隣の計測値の関係を考慮しない。
この研究は、voxelwise球面回転の対称性と共に、空間回転、反射、および変換の対称性に関する同変深層を構成する。
その結果、RT-ESDは、DiSCoデータセット上のファイバリカバリ、現実世界の \textit{in vivo} 人間の脳のdMRIにおけるデコンボリューション由来の部分体積推定、トラクトメーターデータセット上のファイバトラクトグラムの下流再構成の改善など、いくつかのタスクにまたがる以前の作業を改善した。
私たちの実装はhttps://github.com/axelelaldi/e3so3_convで利用可能です。 We present Roto-Translation Equivariant Spherical Deconvolution (RT-ESD), an $E(3)\times SO(3)$ equivariant framework for sparse deconvolution of volumes where each voxel contains a spherical signal. Such 6D data naturally arises in diffusion MRI (dMRI), a medical imaging modality widely used to measure microstructure and structural connectivity. As each dMRI voxel is typically a mixture of various overlapping structures, there is a need for blind deconvolution to recover crossing anatomical structures such as white matter tracts. Existing dMRI work takes either an iterative or deep learning approach to sparse spherical deconvolution, yet it typically does not account for relationships between neighboring measurements. This work constructs equivariant deep learning layers which respect to symmetries of spatial rotations, reflections, and translations, alongside the symmetries of voxelwise spherical rotations. As a result, RT-ESD improves on previous work across several tasks including fiber recovery on the DiSCo dataset, deconvolution-derived partial volume estimation on real-world \textit{in vivo} human brain dMRI, and improved downstream reconstruction of fiber tractograms on the Tractometer dataset. Our implementation is available at https://github.com/AxelElaldi/e3so3_conv | 翻訳日:2023-04-14 16:25:56 公開日:2023-04-12 |
# BarrierNetを用いた信号時間論理仕様からのロバストと正しいコントローラの学習 Learning Robust and Correct Controllers from Signal Temporal Logic Specifications Using BarrierNet ( http://arxiv.org/abs/2304.06160v1 ) ライセンス: Link先を確認 | Wenliang Liu, Wei Xiao, Calin Belta | (参考訳) 本稿では,信号時相論理(stl)仕様を満たすのに必要なシステムのためのニューラルネットワーク制御系を学習する問題を考察する。
我々は,stl量的意味論を用いてロバスト満足度の概念を定義する。
ニューラルネットワークコントローラの正確性を保証すること、すなわち、制御されたシステムによる仕様の満足度を保証することは、最近多くの注目を集めている難しい問題である。
stlの断片内の公式の満足度を高めるための訓練可能な高次制御障壁関数(hocbf)のセットを構築するための一般的な手順を提供する。
我々は、ニューラルネットワークコントローラの最終層としてhocbf制約付き微分可能二次プログラム(dqp)によって実装されたバリアネットを用いて、stl公式の満足度を保証する。
我々は、他のニューラルネットワークパラメータとともにHOCBFをトレーニングし、コントローラの堅牢性をさらに向上させる。
シミュレーションの結果,提案手法は既存のアルゴリズムよりも満足度が高く,優れることがわかった。 In this paper, we consider the problem of learning a neural network controller for a system required to satisfy a Signal Temporal Logic (STL) specification. We exploit STL quantitative semantics to define a notion of robust satisfaction. Guaranteeing the correctness of a neural network controller, i.e., ensuring the satisfaction of the specification by the controlled system, is a difficult problem that received a lot of attention recently. We provide a general procedure to construct a set of trainable High Order Control Barrier Functions (HOCBFs) enforcing the satisfaction of formulas in a fragment of STL. We use the BarrierNet, implemented by a differentiable Quadratic Program (dQP) with HOCBF constraints, as the last layer of the neural network controller, to guarantee the satisfaction of the STL formulas. We train the HOCBFs together with other neural network parameters to further improve the robustness of the controller. Simulation results demonstrate that our approach ensures satisfaction and outperforms existing algorithms. | 翻訳日:2023-04-14 16:20:01 公開日:2023-04-12 |
# コンフォメーション予測のためのポストセレクション推論:精度のためにカバレッジをトレードオフする Post-selection Inference for Conformal Prediction: Trading off Coverage for Precision ( http://arxiv.org/abs/2304.06158v1 ) ライセンス: Link先を確認 | Siddhaarth Sarkar, Arun Kumar Kuchibhotla | (参考訳) 共形推論は、有限サンプル保証付きブラックボックスml予測アルゴリズムの不確実性定量化に重要な役割を果たしている。
伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。
現実的な応用では、予測セットを計算した後、誤発見レベルを更新したいかもしれない。
例えば、バイナリ分類の文脈では、アナリストは$95\%$の予測セットから始めて、ほとんどの予測セットがすべての結果クラスを含んでいることを確認できます。
両方のクラスが望ましくない予測セットは、例えば80\%$予測セットなど、検討したいかもしれない。
データ依存的ミスカバーレベルのカバレッジを保証する予測セットの構築は、選択後の推論問題と見なすことができる。
本研究では,分布関数の分布自由信頼帯域を用いて,任意のデータ依存的誤発見レベルを持つ有限サンプル予測保証付き共形推論を開発する。
これにより、従来の共形推論と類似した有限サンプル保証を維持しながら、任意の選択の基準(予測セットのサイズなど)によって設定された予測の品質に対して、自由にカバー確率を交換することができる。 Conformal inference has played a pivotal role in providing uncertainty quantification for black-box ML prediction algorithms with finite sample guarantees. Traditionally, conformal prediction inference requires a data-independent specification of miscoverage level. In practical applications, one might want to update the miscoverage level after computing the prediction set. For example, in the context of binary classification, the analyst might start with a $95\%$ prediction sets and see that most prediction sets contain all outcome classes. Prediction sets with both classes being undesirable, the analyst might desire to consider, say $80\%$ prediction set. Construction of prediction sets that guarantee coverage with data-dependent miscoverage level can be considered as a post-selection inference problem. In this work, we develop uniform conformal inference with finite sample prediction guarantee with arbitrary data-dependent miscoverage levels using distribution-free confidence bands for distribution functions. This allows practitioners to trade freely coverage probability for the quality of the prediction set by any criterion of their choice (say size of prediction set) while maintaining the finite sample guarantees similar to traditional conformal inference. | 翻訳日:2023-04-14 16:19:46 公開日:2023-04-12 |
# ba$_6$cr$_2$s$_{10}$化合物の二量化、電子構造および磁気的性質:第一原理研究 Dimerisation, electronic structure, and magnetic properties in Ba$_6$Cr$_2$S$_{10}$ compounds: First principles studies ( http://arxiv.org/abs/2304.06156v1 ) ライセンス: Link先を確認 | Jianfeng Zhang, Hunching Yang, and Wei Wu | (参考訳) 準一次元系は、非常に豊かで興味深い物理学を示すことができるので興味深い。
スピン鎖化合物ba$_6$cr$_2$s$_{10}$は、最近極端な条件下で実験的に合成され、二量化による興味深い磁気的およびトロイダル的性質を示した。
ここでは、[Zhang, et al, Adv. Mat. 34 (12), 2106728 (2022)]に示す磁気構造と特性の実験結果と一致するBa$_6$Cr$_2$S$_{10}$の電子構造と磁気特性を計算するための第一原理計算を行った。
さらに、計算に基づいて、より興味深い物理学が見つかる。
(i)周囲のba原子のスクリーニング効果を示すハバード$u$パラメータの小さいサイズ。
(二)主に硫黄配位子によって誘導されるCr原子の二量体化、及び
3) スピン鎖に沿った反強磁性相互作用により、スピンフラストレーションが進行し、スピン液体が形成される。 Quasi-one-dimensional systems are fascinating as they can exhibit very rich and interesting physics. The spin chain compound Ba$_6$Cr$_2$S$_{10}$ has been synthesised experimentally under extreme conditions recently, which has shown interesting magnetic and toroidal properties due to dimerisation. Here we have performed first principles calculations to compute the electronic structure and magnetic properties of Ba$_6$Cr$_2$S$_{10}$, which are consistent with the experimental results for the magnetic structure and properties shown in [Zhang, et al, Adv. Mat. 34 (12), 2106728 (2022)]. Moreover, based on our calculations, we can find more interesting physics, including (i) the small size of the Hubbard $U$ parameter that implies the screening effect of surrounding Ba atoms, (ii) the dimerisation of Cr atoms mainly induced by the sulfur ligands, and (iii) the next-nearest-neighbouring anti-ferromagnetic interaction along the spin chain, which could bring forward spin frustration, thus spin liquid. | 翻訳日:2023-04-14 16:19:28 公開日:2023-04-12 |
# 偽の科学的要約の検出 Detection of Fake Generated Scientific Abstracts ( http://arxiv.org/abs/2304.06148v1 ) ライセンス: Link先を確認 | Panagiotis C. Theocharopoulos, Panagiotis Anagnostou, Anastasia Tsoukala, Spiros V. Georgakopoulos, Sotiris K. Tasoulis and Vassilis P. Plagianakos | (参考訳) 大規模言語モデルと公開可能なChatGPTの普及は、人工知能を人々の日常生活に組み込む上で、大きな転換点となっている。
学術コミュニティはこれらの技術進歩に注目しており、現実と人工的に生成されたものとを区別することが困難であることを懸念している。
このように、研究者は機械生成テキストを識別する効果的なシステムの開発に取り組んでいる。
本研究では、GPT-3モデルを用いて、人工知能による科学論文の要約を作成し、機械学習モデルと組み合わせて機械文を識別する際の様々なテキスト表現手法を探索する。
モデルの性能を分析し,結果の分析中に生じるいくつかの研究課題に対処した。
この研究を通じて、人工知能が生成するテキストの能力と限界に光を当てた。 The widespread adoption of Large Language Models and publicly available ChatGPT has marked a significant turning point in the integration of Artificial Intelligence into people's everyday lives. The academic community has taken notice of these technological advancements and has expressed concerns regarding the difficulty of discriminating between what is real and what is artificially generated. Thus, researchers have been working on developing effective systems to identify machine-generated text. In this study, we utilize the GPT-3 model to generate scientific paper abstracts through Artificial Intelligence and explore various text representation methods when combined with Machine Learning models with the aim of identifying machine-written text. We analyze the models' performance and address several research questions that rise during the analysis of the results. By conducting this research, we shed light on the capabilities and limitations of Artificial Intelligence generated text. | 翻訳日:2023-04-14 16:19:09 公開日:2023-04-12 |
# 量子ハードウェアを用いた高忠実度ダイマー励起 High-fidelity dimer excitations using quantum hardware ( http://arxiv.org/abs/2304.06146v1 ) ライセンス: Link先を確認 | Norhan M. Eassa, Joe Gibbs, Zoe Holmes, Andrew Sornborger, Lukasz Cincio, Gavin Hester, Paul Kairys, Mario Motta, Jeffrey Cohn, Arnab Banerjee | (参考訳) 多体量子スピン系は、非弾性中性子散乱(ins)実験で異なる励起スペクトルを持つ位相量子スピン液体のような創発的な現象を示す。
ここでは、創発的多体スピン系の基本的な量子単位である量子スピンダイマーのダイナミクスをシミュレートする。
時間スケールの長期シミュレーションを前提とした深部回路を必要とする正準トロッタライゼーション法では, 量子ハードウェア上での長時間のダイナミックスを捉えるために, 短距離回路を用いた'direct' Resource-Efficient Fast-forwarding (REFF)測定を実演する。
2スピン相関係数の時間的発展は、中性子散乱断面積の重要な構成要素である力学構造因子 $s(\mathbf{q},\omega)$ の計算を可能にした。
量子ダイマーの三重項ギャップと三重項分割を、実験中性子データと比較して十分な忠実度でシミュレートする。
現在の回路ハードウェアにおける我々の結果は、コストのかかるins実験のアウトプットをベンチマークし、あるいは予測するための重要な手段となります。 Many-body entangled quantum spin systems exhibit emergent phenomena such as topological quantum spin liquids with distinct excitation spectra accessed in inelastic neutron scattering (INS) experiments. Here we simulate the dynamics of a quantum spin dimer, the basic quantum unit of emergent many-body spin systems. While canonical Trotterization methods require deep circuits precluding long time-scale simulations, we demonstrate 'direct' Resource-Efficient Fast-forwarding (REFF) measurements with short-depth circuits that can be used to capture longer time dynamics on quantum hardware. The temporal evolution of the 2-spin correlation coefficients enabled the calculation of the dynamical structure factor $S(\mathbf{Q},\omega)$ - the key component of the neutron scattering cross-section. We simulate the triplet gap and the triplet splitting of the quantum dimer with sufficient fidelity to compare to experimental neutron data. Our results on current circuit hardware pave an important avenue to benchmark, or even predict, the outputs of the costly INS experiments. | 翻訳日:2023-04-14 16:18:57 公開日:2023-04-12 |
# RのためのGrowclusters Package The growclusters Package for R ( http://arxiv.org/abs/2304.06145v1 ) ライセンス: Link先を確認 | Randall Powers, Wendy Martinez, and Terrance Savitsky | (参考訳) R用のGrowclustersパッケージは、k-meansクラスタリングの拡張バージョンを実装しており、単一のグローバルパーティションから各クラスタを引き出すデータセットの集合に対するローカルクラスタリングやパーティションの発見を可能にする。
パッケージには多変量データのパーティション構造を推定する関数が含まれている。
ベイズ的非パラメトリックな定式化から導かれたペナル化最適化の下で推定を行う。
本稿では、growclustersパッケージの動作と機能を視覚的に説明するために設計されたr shinyアプリケーションの作成を含む、growclustersパッケージの機能と機能について述べる。 The growclusters package for R implements an enhanced version of k-means clustering that allows discovery of local clusterings or partitions for a collection of data sets that each draw their cluster means from a single, global partition. The package contains functions to estimate a partition structure for multivariate data. Estimation is performed under a penalized optimization derived from Bayesian non-parametric formulations. This paper describes some of the functions and capabilities of the growclusters package, including the creation of R Shiny applications designed to visually illustrate the operation and functionality of the growclusters package. | 翻訳日:2023-04-14 16:18:27 公開日:2023-04-12 |
# 編集フレンドリーなddpmノイズ空間:インバージョンと操作 An Edit Friendly DDPM Noise Space: Inversion and Manipulations ( http://arxiv.org/abs/2304.06140v1 ) ライセンス: Link先を確認 | Inbar Huberman-Spiegelglas, Vladimir Kulikov and Tomer Michaeli | (参考訳) denoising diffusion probabilistic models (ddpms) は一連の白色ガウスノイズサンプルを用いて画像を生成する。
ganと類似して、これらのノイズマップは生成された画像に関連する潜在コードと見なすことができる。
しかし、このネイティブノイズ空間は便利な構造を持たず、編集作業で作業することが困難である。
本稿では,簡易な手法で幅広い編集操作が可能なddpmの代替潜在ノイズ空間を提案し,任意の画像(実または合成生成)に対して,これらの編集フレンドリなノイズマップを抽出するインバージョン手法を提案する。
ネイティブDDPMノイズ空間とは対照的に、編集しやすいノイズマップは標準正規分布を持たず、タイムステップ間で統計的に独立ではない。
しかし、任意の所望の画像の完全な再構成を可能にし、単純な変換は出力画像の有意義な操作(例えば、シフト、色編集)に変換される。
さらに、テキスト条件モデルでは、テキストプロンプトを変更しながらノイズマップを修正することで、構造を維持しながらセマンティクスを修正できる。
本稿では,この特性により,多種多様なddpmサンプリング方式を用いて,実画像のテキストベースの編集が可能となることを示す。
また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。 Denoising diffusion probabilistic models (DDPMs) employ a sequence of white Gaussian noise samples to generate an image. In analogy with GANs, those noise maps could be considered as the latent code associated with the generated image. However, this native noise space does not possess a convenient structure, and is thus challenging to work with in editing tasks. Here, we propose an alternative latent noise space for DDPM that enables a wide range of editing operations via simple means, and present an inversion method for extracting these edit-friendly noise maps for any given image (real or synthetically generated). As opposed to the native DDPM noise space, the edit-friendly noise maps do not have a standard normal distribution and are not statistically independent across timesteps. However, they allow perfect reconstruction of any desired image, and simple transformations on them translate into meaningful manipulations of the output image (e.g., shifting, color edits). Moreover, in text-conditional models, fixing those noise maps while changing the text prompt, modifies semantics while retaining structure. We illustrate how this property enables text-based editing of real images via the diverse DDPM sampling scheme (in contrast to the popular non-diverse DDIM inversion). We also show how it can be used within existing diffusion-based editing methods to improve their quality and diversity. | 翻訳日:2023-04-14 16:18:12 公開日:2023-04-12 |
# 農業用AGI AGI for Agriculture ( http://arxiv.org/abs/2304.06136v1 ) ライセンス: Link先を確認 | Guoyu Lu, Sheng Li, Gengchen Mai, Jin Sun, Dajiang Zhu, Lilong Chai, Haijian Sun, Xianqiao Wang, Haixing Dai, Ninghao Liu, Rui Xu, Daniel Petti, Changying Li, Tianming Liu, Changying Li | (参考訳) 人工知能(agi、artificial general intelligence)は、医療、金融、交通、教育など、さまざまな分野に革命をもたらしようとしている。
医療において、agiは臨床医療記録の分析、患者データのパターンの認識、患者管理の支援に利用されている。
農業は世界の人々の生活に影響を与える重要な分野である。
食料、繊維、燃料を提供する基盤として機能するが、気候変動、土壌の劣化、水不足、食料安全保障などいくつかの課題に直面している。
AGIは、収穫量を増やし、廃棄物を減らし、持続可能な農業慣行を促進することで、これらの問題に対処する可能性がある。
また、リアルタイムデータを活用することで農家の意思決定を支援することで、より効率的で効果的な農業経営が可能になる。
本稿では,農業における農業用画像処理,自然言語処理(NLP),ロボット工学,知識グラフ,インフラなどのAGIの将来的応用と,それらの精密家畜・精密作物への影響について考察する。
AGIの力を活用することで、これらの新興技術は農家に実用的な洞察を与え、最適化された意思決定と生産性の向上を可能にします。
農業におけるAGIの変革的ポテンシャルは巨大であり,産業に革命をもたらす可能性を強調することを目的としている。 Artificial General Intelligence (AGI) is poised to revolutionize a variety of sectors, including healthcare, finance, transportation, and education. Within healthcare, AGI is being utilized to analyze clinical medical notes, recognize patterns in patient data, and aid in patient management. Agriculture is another critical sector that impacts the lives of individuals worldwide. It serves as a foundation for providing food, fiber, and fuel, yet faces several challenges, such as climate change, soil degradation, water scarcity, and food security. AGI has the potential to tackle these issues by enhancing crop yields, reducing waste, and promoting sustainable farming practices. It can also help farmers make informed decisions by leveraging real-time data, leading to more efficient and effective farm management. This paper delves into the potential future applications of AGI in agriculture, such as agriculture image processing, natural language processing (NLP), robotics, knowledge graphs, and infrastructure, and their impact on precision livestock and precision crops. By leveraging the power of AGI, these emerging technologies can provide farmers with actionable insights, allowing for optimized decision-making and increased productivity. The transformative potential of AGI in agriculture is vast, and this paper aims to highlight its potential to revolutionize the industry. | 翻訳日:2023-04-14 16:17:40 公開日:2023-04-12 |
# 医用画像用視覚変換器の解説評価に向けて Towards Evaluating Explanations of Vision Transformers for Medical Imaging ( http://arxiv.org/abs/2304.06133v1 ) ライセンス: Link先を確認 | Piotr Komorowski, Hubert Baniecki, Przemys{\l}aw Biecek | (参考訳) 深層学習モデルが医療画像などの重要な領域に応用されるようになるにつれ、透明性と信頼性の高い意思決定の必要性が最重要となる。
多くの説明可能性手法は、これらのモデルがどのようにして入力機能に重きを置くかについての洞察を提供する。
Vision Transformer (ViT) は画像分類のための畳み込みニューラルネットワークに代わる有望な代替品となり、その解釈性は依然としてオープンな研究課題である。
本稿では胸部X線画像の分類に応用したViTにおける様々な解釈手法の性能について検討する。
本稿では,ViT説明の忠実さ,敏感さ,複雑さを評価する概念を紹介する。
その結果,変換器の階層的関連性伝播は局所的解釈可能なモデルに依存しない説明や注意の可視化よりも優れており,ViTが実際に学んだことのより正確で信頼性の高い表現を提供することがわかった。
本研究は, 医用画像診断における ViT 説明の適用性に関する知見を提供し, 比較に適切な評価基準を用いることの重要性を強調した。 As deep learning models increasingly find applications in critical domains such as medical imaging, the need for transparent and trustworthy decision-making becomes paramount. Many explainability methods provide insights into how these models make predictions by attributing importance to input features. As Vision Transformer (ViT) becomes a promising alternative to convolutional neural networks for image classification, its interpretability remains an open research question. This paper investigates the performance of various interpretation methods on a ViT applied to classify chest X-ray images. We introduce the notion of evaluating faithfulness, sensitivity, and complexity of ViT explanations. The obtained results indicate that Layerwise relevance propagation for transformers outperforms Local interpretable model-agnostic explanations and Attention visualization, providing a more accurate and reliable representation of what a ViT has actually learned. Our findings provide insights into the applicability of ViT explanations in medical imaging and highlight the importance of using appropriate evaluation criteria for comparing them. | 翻訳日:2023-04-14 16:17:20 公開日:2023-04-12 |
# universeg:ユニバーサル・メディカル・イメージセグメンテーション UniverSeg: Universal Medical Image Segmentation ( http://arxiv.org/abs/2304.06131v1 ) ライセンス: Link先を確認 | Victor Ion Butoi, Jose Javier Gonzalez Ortiz, Tianyu Ma, Mert R. Sabuncu, John Guttag, Adrian V. Dalca | (参考訳) 深層学習モデルは医用画像セグメンテーションの主要な方法となっているが、通常、新しい解剖学、画像のモダリティ、ラベルを含む見えないセグメンテーションタスクに一般化することができない。
新しいセグメンテーションタスクが与えられた場合、研究者は一般的に、時間を要するモデルや、ニューラルネットワークをトレーニングするリソースや専門知識が欠如している臨床研究者にとって大きな障壁となる、微調整されたモデルを訓練する必要がある。
そこで本研究では,未発見の医学的分別課題を,追加の訓練なしで解決する手法であるユニバースgを提案する。
新しいセグメンテーションタスクを定義するクエリイメージとイメージラベルペアのサンプルセットが与えられると、universegは新しいクロスブロック機構を使用して、追加のトレーニングなしで正確なセグメンテーションマップを生成する。
新しいタスクの一般化を実現するため、53のオープンアクセス医療セグメンテーションデータセットを22,000以上のスキャンで収集、標準化し、MegaMedicalと呼ぶ。
私たちはこのコレクションを使って、UniverSegをさまざまな解剖学と画像モダリティのセットで訓練しました。
我々は,UniverSegが未確認タスクに関するいくつかの関連手法を大幅に上回り,提案システムの重要な側面に関する洞察を徹底的に分析し,引き出すことを実証した。
UniverSegのソースコードとモデルウェイトはhttps://universeg.csail.mit.eduで無料で入手できる。 While deep learning models have become the predominant method for medical image segmentation, they are typically not capable of generalizing to unseen segmentation tasks involving new anatomies, image modalities, or labels. Given a new segmentation task, researchers generally have to train or fine-tune models, which is time-consuming and poses a substantial barrier for clinical researchers, who often lack the resources and expertise to train neural networks. We present UniverSeg, a method for solving unseen medical segmentation tasks without additional training. Given a query image and example set of image-label pairs that define a new segmentation task, UniverSeg employs a new Cross-Block mechanism to produce accurate segmentation maps without the need for additional training. To achieve generalization to new tasks, we have gathered and standardized a collection of 53 open-access medical segmentation datasets with over 22,000 scans, which we refer to as MegaMedical. We used this collection to train UniverSeg on a diverse set of anatomies and imaging modalities. We demonstrate that UniverSeg substantially outperforms several related methods on unseen tasks, and thoroughly analyze and draw insights about important aspects of the proposed system. The UniverSeg source code and model weights are freely available at https://universeg.csail.mit.edu | 翻訳日:2023-04-14 16:17:01 公開日:2023-04-12 |
# 悪い」引用は「良い」効果を持つか? Do "bad" citations have "good" effects? ( http://arxiv.org/abs/2304.06190v1 ) ライセンス: Link先を確認 | Honglin Bao and Misha Teplitskiy | (参考訳) 科学界は一般に、研究論文の著者が、これらの「修辞的」な引用が良い仕事のための文学とインセンティブを低下させると仮定されているため、彼らに影響を与えない論文を引用することを妨げている。
直感的には、著者が引用する世界は魅力的にしか見えない。
主観的引用は注意の配分とダイナミズムに過小評価された結果をもたらす可能性がある。
エージェントを即時かつ修辞的に引用する新しいエージェントベースモデルを開発した。
エージェントはまず、期待された品質に基づいて論文を選別し、読み、実際の品質を観察し、十分に良いものの影響を受け、即座に引用する。
次に、エージェントは、実際に影響力があるかどうかに関わらず、基準リストの残りのスロットに彼らの主張を支持する書類を埋める。
引用をオン・アンド・オフにすることで、引用は品質と引用の間の相関を増加させ、引用のチャーンを増加させ、引用の不等式を減少させる。
これは、修辞的な引用が、安定したエリート質の論文の集合からよりダイナミックな集合への引用を、ハイ・トゥ・モデレートな品質と高い修辞的な価値で再帰させるためである。
好ましくない傾向と見なされる参照リストのサイズの増加は、その効果を増幅する。
まとめると、修辞的な引用は注意を減らし、既存のアイデアを置き換えやすくするので、それが本当に望ましくないかどうかは、望ましくないと判断するのに使われるメトリクスに依存する。 The scientific community generally discourages authors of research papers from citing papers that did not influence them because such "rhetorical" citations are assumed to degrade the literature and incentives for good work. Intuitively, a world where authors cite only substantively appears attractive. We argue that manding substantive citing may have underappreciated consequences on the allocation of attention and dynamism. We develop a novel agent-based model in which agents cite substantively and rhetorically. Agents first select papers to read based on their expected quality, read them and observe their actual quality, become influenced by those that are sufficiently good, and substantively cite them. Next, agents fill any remaining slots in the reference lists with papers that support their claims, regardless of whether they were actually influential. By turning rhetorical citing on-and-off, we find that rhetorical citing increases the correlation between quality and citations, increases citation churn, and reduces citation inequality. This occurs because rhetorical citing redistributes some citations from a stable set of elite-quality papers to a more dynamic set with high-to-moderate quality and high rhetorical value. Increasing the size of reference lists, often seen as an undesirable trend, amplifies the effects. In sum, rhetorical citing helps deconcentrate attention and makes it easier to displace incumbent ideas, so whether it is indeed undesirable depends on the metrics used to judge desirability. | 翻訳日:2023-04-14 16:09:32 公開日:2023-04-12 |
# デフォーマル化と自然議論演習のための大規模言語モデルを用いた初心者学生の学習 Using large language models for (de-)formalization and natural argumentation exercises for beginner's students ( http://arxiv.org/abs/2304.06186v1 ) ライセンス: Link先を確認 | Merlin Carl | (参考訳) 大規模言語モデルであるtext-davinci-003 を用いて自動修正を行う2つのシステムについて述べる。
(i)自然言語と命題論理と一階述語論理の言語を前後に翻訳する演習
(ii)非数学的なシナリオで自然言語で単純な引数を書く練習。 We describe two systems that use text-davinci-003, a large language model, for the automatized correction of (i) exercises in translating back and forth between natural language and the languages of propositional logic and first-order predicate logic and (ii) exercises in writing simple arguments in natural language in non-mathematical scenarios. | 翻訳日:2023-04-14 16:09:06 公開日:2023-04-12 |
# lingo : タスクの多様性を支える自然言語の指示を視覚的に偏らせる LINGO : Visually Debiasing Natural Language Instructions to Support Task Diversity ( http://arxiv.org/abs/2304.06184v1 ) ライセンス: Link先を確認 | Anjana Arunkumar, Shubham Sharma, Rakhi Agrawal, Sriram Chandrasekaran, Chris Bryan | (参考訳) クロスタスクの一般化は、自然言語理解における熟達を定義する重要な結果である。
人間はこのことに顕著な適性を示し、テキスト命令と少数の例の形で定義された多くの異なる種類のタスクを解決できる。
ユーザがモデルが一連の自然言語プロンプトや命令として試みるタスクを定義し、例示することができる。
プロンプトアプローチは、従来の教師付き学習よりもクロスタスクの一般化に繋がる一方で、モデルに与えられたタスク命令の'バイアス'の分析は難しい問題であり、それゆえ比較的探索されていない。
例えば、本当にタスクをモデリングしているのか、それともユーザの指示をモデリングしているのか?
そこで本研究では,(1)自然言語タスク命令のバイアスを識別し,(2)バイアスを減らすためのタスク命令を変更(あるいは作成)し,(3)偏りのあるタスク命令に対して事前学習したモデル性能を評価するための,効果的なタスク駆動ワークフローをサポートする新しいビジュアル分析インタフェースであるINGOを開発する。
1,616の言語タスクとその自然言語命令を55の異なる言語にまたがるデータセットを用いて,初心者とエキスパートの両方の指導者を対象に,ユーザ調査を行った。
両方のユーザグループに対して、lingoは、高い言語多様性と低い命令バイアスを含む事前学習されたモデルのためのより難しいタスクの作成を促進する。
さらに、lingoの開発と評価で学んだ知見が、複数のドメインにまたがる迅速な作成に関わる労力を最小化することを目的とした、将来のダッシュボードの設計にどのように役立つかについても論じる。 Cross-task generalization is a significant outcome that defines mastery in natural language understanding. Humans show a remarkable aptitude for this, and can solve many different types of tasks, given definitions in the form of textual instructions and a small set of examples. Recent work with pre-trained language models mimics this learning style: users can define and exemplify a task for the model to attempt as a series of natural language prompts or instructions. While prompting approaches have led to higher cross-task generalization compared to traditional supervised learning, analyzing 'bias' in the task instructions given to the model is a difficult problem, and has thus been relatively unexplored. For instance, are we truly modeling a task, or are we modeling a user's instructions? To help investigate this, we develop LINGO, a novel visual analytics interface that supports an effective, task-driven workflow to (1) help identify bias in natural language task instructions, (2) alter (or create) task instructions to reduce bias, and (3) evaluate pre-trained model performance on debiased task instructions. To robustly evaluate LINGO, we conduct a user study with both novice and expert instruction creators, over a dataset of 1,616 linguistic tasks and their natural language instructions, spanning 55 different languages. For both user groups, LINGO promotes the creation of more difficult tasks for pre-trained models, that contain higher linguistic diversity and lower instruction bias. We additionally discuss how the insights learned in developing and evaluating LINGO can aid in the design of future dashboards that aim to minimize the effort involved in prompt creation across multiple domains. | 翻訳日:2023-04-14 16:09:00 公開日:2023-04-12 |
# 高忠実性RGB-D表面再構成のための動的ボクセル格子最適化 Dynamic Voxel Grid Optimization for High-Fidelity RGB-D Supervised Surface Reconstruction ( http://arxiv.org/abs/2304.06178v1 ) ライセンス: Link先を確認 | Xiangyu Xu, Lichang Chen, Changjiang Cai, Huangying Zhan, Qingan Yan, Pan Ji, Junsong Yuan, Heng Huang, Yi Xu | (参考訳) マルチレゾリューションボクセルグリッド上の補間機能の直接的最適化は、mlpライクなモジュールのより効率的な代替として登場した。
しかし、このアプローチはメモリ消費の増大と表現能力の制限によって制約される。
本稿では,rgbと深度観測を併用した高忠実度3次元表面再構成のための動的グリッド最適化手法を提案する。
各ボクセルを等しく扱うのではなく、グリッドを動的に修正し、より複雑な領域により微細なボクセルを割り当てることで、より複雑な詳細を捉えることができる。
さらに,最適化中のvoxelグリッドの動的部分分割を前もって必要とせずに定量化する手法を開発した。
提案手法は,ベースライン法であるNeuralRGBDよりもはるかに高速な計算効率を維持しつつ,合成データと実世界のデータの両方を詳細に記述した高品質な3D再構成を生成する。 Direct optimization of interpolated features on multi-resolution voxel grids has emerged as a more efficient alternative to MLP-like modules. However, this approach is constrained by higher memory expenses and limited representation capabilities. In this paper, we introduce a novel dynamic grid optimization method for high-fidelity 3D surface reconstruction that incorporates both RGB and depth observations. Rather than treating each voxel equally, we optimize the process by dynamically modifying the grid and assigning more finer-scale voxels to regions with higher complexity, allowing us to capture more intricate details. Furthermore, we develop a scheme to quantify the dynamic subdivision of voxel grid during optimization without requiring any priors. The proposed approach is able to generate high-quality 3D reconstructions with fine details on both synthetic and real-world data, while maintaining computational efficiency, which is substantially faster than the baseline method NeuralRGBD. | 翻訳日:2023-04-14 16:08:32 公開日:2023-04-12 |
# 屋内農業環境における視覚的トマトサイズ測定システム Visual based Tomato Size Measurement System for an Indoor Farming Environment ( http://arxiv.org/abs/2304.06177v1 ) ライセンス: Link先を確認 | Andy Kweon, Vishnu Hu, Jong Yoon Lim, Trevor Gee, Edmond Liu, Henry Williams, Bruce A. MacDonald, Mahla Nejati, Inkyu Sa, and Ho Seok Ahn | (参考訳) 技術が進歩するにつれて、スマート自動化システムは農業においてますます重要な役割を果たすようになる。
現在の歩留まり推定のための既存のビジョンシステムは、オーチャード環境に適さない大型で高価なカメラシステムを利用するため、咬合やスケーラビリティが困難である。
そこで本研究では,3台の低価格rgbdカメラから撮影した深度画像と機械学習モデルを組み合わせることで,トマトの高さと幅を計測・測定するサイズ計測手法を提案する。
本システムの性能を実トマト果実と偽葉を用いた実験環境で評価し,実栽培環境における閉塞をシミュレーションした。
果実のオクルージョンに対処して精度を向上させるため,3カメラシステムでは高さ測定精度0.9114,幅精度0.9443を達成できた。 As technology progresses, smart automated systems will serve an increasingly important role in the agricultural industry. Current existing vision systems for yield estimation face difficulties in occlusion and scalability as they utilize a camera system that is large and expensive, which are unsuitable for orchard environments. To overcome these problems, this paper presents a size measurement method combining a machine learning model and depth images captured from three low cost RGBD cameras to detect and measure the height and width of tomatoes. The performance of the presented system is evaluated on a lab environment with real tomato fruits and fake leaves to simulate occlusion in the real farm environment. To improve accuracy by addressing fruit occlusion, our three-camera system was able to achieve a height measurement accuracy of 0.9114 and a width accuracy of 0.9443. | 翻訳日:2023-04-14 16:08:18 公開日:2023-04-12 |
# オブジェクト認識同変基本反応拡散モデルによる正確な遷移状態生成 Accurate transition state generation with an object-aware equivariant elementary reaction diffusion model ( http://arxiv.org/abs/2304.06174v1 ) ライセンス: Link先を確認 | Chenru Duan, Yuanqi Du, Haojun Jia, and Heather J. Kulik | (参考訳) 遷移状態 (TS) 探索は反応機構の解明と反応ネットワークの探索に重要である。
しかし、正確な3次元TS構造を探すには、ポテンシャルエネルギー面の複雑さのために多くの計算集約的な量子化学計算が必要である。
そこで本研究では, 反応剤, TS, 生成物の対を生成するために, 全ての物理対称性と制約を満たすオブジェクト指向SE(3)同変拡散モデルを開発した。
反応物質と生成物により、このモデルは量子化学に基づく最適化を行うのに必要な時間の代わりに数秒でts構造を生成する。
生成されたTS構造は、真のTSに比べ平均平均平方偏差0.13Aとなる。
不確実性定量化のための信頼性評価モデルを用いて、最も困難な反応の14%で量子化学に基づく最適化を行うだけで、反応速度推定に必要な精度(2.6 kcal/mol)にアプローチする。
提案手法は,未知の機構を持つ大規模反応ネットワークの構築と構築に有用であると考えられる。 Transition state (TS) search is key in chemistry for elucidating reaction mechanisms and exploring reaction networks. The search for accurate 3D TS structures, however, requires numerous computationally intensive quantum chemistry calculations due to the complexity of potential energy surfaces. Here, we developed an object-aware SE(3) equivariant diffusion model that satisfies all physical symmetries and constraints for generating pairs of structures, i.e., reactant, TS, and product, in an elementary reaction. Provided reactant and product, this model generates a TS structure in seconds instead of the hours required when performing quantum chemistry-based optimizations. The generated TS structures achieve an average error of 0.13 A root mean square deviation compared to true TS. With a confidence scoring model for uncertainty quantification, we approach an accuracy required for reaction rate estimation (2.6 kcal/mol) by only performing quantum chemistry-based optimizations on 14% of the most challenging reactions. We envision the proposed approach to be useful in constructing and pruning large reaction networks with unknown mechanisms. | 翻訳日:2023-04-14 16:08:05 公開日:2023-04-12 |
# ダビンズ車による未知軌道に沿って移動するターゲットの知覚のためのニューラルネットワークアルゴリズム Neural Network Algorithm for Intercepting Targets Moving Along Known Trajectories by a Dubins' Car ( http://arxiv.org/abs/2304.06169v1 ) ライセンス: Link先を確認 | Ivan Nasonov and Andrey Galyaev and Andrey Medvedev | (参考訳) 迎撃モーメントにおける車両の速度の任意の方向の時間最適制御問題として、ダビンス車によって直線または円形軌道に沿って移動する目標を迎撃するタスクを定式化する。
この問題を解き、interception trajectoriesを合成するために、深い決定論的ポリシー勾配アルゴリズムに基づく教師なし学習のニューラルネットワーク手法を用いる。
得られた制御則とインターセプション軌道の解析と、インターセプション問題の解析解との比較を行う。
トレーニング中にニューラルネットワークがこれまで見ていなかったターゲット運動のパラメータの数学的モデリングを行う。
モデル実験は、神経溶液の安定性をテストするために行われる。
対象動作の特定のクラスに対するインターセプショントラジェクタの合成にニューラルネットワーク法を用いることの有効性を示した。 The task of intercepting a target moving along a rectilinear or circular trajectory by a Dubins' car is formulated as a time-optimal control problem with an arbitrary direction of the car's velocity at the interception moment. To solve this problem and to synthesize interception trajectories, neural network methods of unsupervised learning based on the Deep Deterministic Policy Gradient algorithm are used. The analysis of the obtained control laws and interception trajectories in comparison with the analytical solutions of the interception problem is performed. The mathematical modeling for the parameters of the target movement that the neural network had not seen before during training is carried out. Model experiments are conducted to test the stability of the neural solution. The effectiveness of using neural network methods for the synthesis of interception trajectories for given classes of target movements is shown. | 翻訳日:2023-04-14 16:07:51 公開日:2023-04-12 |
# np-free:オープンエンド時系列のリアルタイム正規化フリーパラメータチューニングフリー表現手法 NP-Free: A Real-Time Normalization-free and Parameter-tuning-free Representation Approach for Open-ended Time Series ( http://arxiv.org/abs/2304.06168v1 ) ライセンス: Link先を確認 | Ming-Chang Lee, Jia-Chun Lin, and Volker Stolz | (参考訳) より接続されたデバイスがサイバー物理の世界に実装され、データがリアルタイムで収集および処理されることが期待されるため、時系列データを扱う能力はますます重要になっている。
データマイニングにおける時系列解析を支援するため、生の時系列を別の時系列に変換するために多くの時系列表現手法が提案されている。
しかし,既存の手法は,対象時系列の総長を事前に把握し,正規化法を用いて全時系列を前処理する必要があるため,一定の間隔で連続的に収集されるデータポイントの列であるオープンエンド時系列に対しては設計されていない。
さらに、多くの表現アプローチでは、ユーザが満足できる表現結果を得るために、事前にパラメータを設定、調整する必要がある。
本稿では,実時間正規化自由かつパラメータ調整自由な表現手法NP-Freeを提案する。
NP-Freeは正規化メソッドやパラメータをチューニングすることなく、時系列の各データポイントをLong Short-Term Memory (LSTM) と Look-Back and Predict-Forward 戦略に基づいてルート平均二乗誤差(RMSE)値に変換することで、生の時系列の表現を生成することができる。
NP-Freeの時系列表現能力を示すために,実世界のオープンソース時系列データセットに基づく実験を行った。
また,表現生成におけるnpフリーの時間消費も評価した。 As more connected devices are implemented in a cyber-physical world and data is expected to be collected and processed in real time, the ability to handle time series data has become increasingly significant. To help analyze time series in data mining applications, many time series representation approaches have been proposed to convert a raw time series into another series for representing the original time series. However, existing approaches are not designed for open-ended time series (which is a sequence of data points being continuously collected at a fixed interval without any length limit) because these approaches need to know the total length of the target time series in advance and pre-process the entire time series using normalization methods. Furthermore, many representation approaches require users to configure and tune some parameters beforehand in order to achieve satisfactory representation results. In this paper, we propose NP-Free, a real-time Normalization-free and Parameter-tuning-free representation approach for open-ended time series. Without needing to use any normalization method or tune any parameter, NP-Free can generate a representation for a raw time series on the fly by converting each data point of the time series into a root-mean-square error (RMSE) value based on Long Short-Term Memory (LSTM) and a Look-Back and Predict-Forward strategy. To demonstrate the capability of NP-Free in representing time series, we conducted several experiments based on real-world open-source time series datasets. We also evaluated the time consumption of NP-Free in generating representations. | 翻訳日:2023-04-14 16:07:37 公開日:2023-04-12 |
# 時間依存マルコフマスター方程式は断続極限を超えた Time dependent Markovian master equation beyond the adiabatic limit ( http://arxiv.org/abs/2304.06166v1 ) ライセンス: Link先を確認 | Giovanni Di Meglio, Martin B. Plenio, Susana F. Huelga | (参考訳) 任意の駆動場と制御場に従属するシステムの進化をモデル化するマルコフマスター方程式を開発した。
本手法は,システム環境相互作用の時間的再スケーリングと弱結合限界と世俗近似を組み合わせたものである。
この導出は、強い駆動の効率的な記述を可能にする方法で断熱的な時間発展演算子を使用し、また、断熱的なマスター方程式を適切な極限で回収する。
提案手法の有効性を実証するために,Floquet表現を用いて解決不可能な周期駆動形態の2レベル(量子)システムのパラダイムケースに適用する。
テンソルネットワークを用いた数値的精度のシミュレーションに対して、導出時間進化の解をベンチマークすることで、我々のアプローチの信頼性と幅広い範囲を実証する。
この結果は、第一原理導出に依存しない駆動系に対する現象論的マスター方程式によって満たさなければならない厳密な条件を与える。 We develop a Markovian master equation that models the evolution of systems subject to arbitrary driving and control fields. Our approach combines time rescaling and weak-coupling limits for the system-environment interaction with a secular approximation. The derivation makes use of the adiabatic time evolution operator in a manner that allows for the efficient description of strong driving, while recovering the adiabatic master equation in the appropriate limit. To illustrate the effectiveness of our approach, we apply it to the paradigmatic case of a two-level (qubit) system subjected to a form of periodic driving that remains unsolvable using a Floquet representation. We demonstrate the reliability and broad scope of our approach by benchmarking the solutions of the derived reduced time evolution against numerically exact simulations using tensor networks. Our results provide rigorous conditions that must be satisfied by phenomenological master equations for driven systems that do not rely on first principles derivations. | 翻訳日:2023-04-14 16:07:07 公開日:2023-04-12 |
# 可変低損失結合器を用いた超伝導3次元マイクロ波空洞を用いた平面回路の統合 Integrating planar circuits with superconducting 3D microwave cavities using tunable low-loss couplers ( http://arxiv.org/abs/2304.06162v1 ) ライセンス: Link先を確認 | Ziyi Zhao, Eva Gurra, Eric I. Rosenthal, Leila R. Vale, Gene C. Hilton, K. W. Lehnert | (参考訳) 超伝導3次元マイクロ波キャビティと2次元回路間の低損失界面を設計・試験し,結合速度を高度に調整する。
この界面は、磁気アンテナとジョセフソン接合に基づく結合素子をキャビティとシームレスに統合し、この結合による損失が品質因子を450万に制限することを証明する。
キャビティ外部結合速度は、3.2 nsという特性を持つ内部損失率よりも、無視できるほど小さいものから3桁以上大きいものへと調整することができる。
この切替速度は、結合速度よりもずっと速いため、結合速度に付加的な制限を課さない。
さらに、カプラをベースバンド信号で制御することで、キャビティやキュービット周波数付近のマイクロ波信号との干渉を回避することができる。
最後に、結合素子は共振器に0.04Hz/光子自己Kerr非線形性を導入し、高光子数演算では線形である。 We design and test a low-loss interface between superconducting 3-dimensional microwave cavities and 2-dimensional circuits, where the coupling rate is highly tunable. This interface seamlessly integrates a magnetic antenna and a Josephson junction based coupling element with a cavity, and we demonstrate that the introduced loss from this integration only limits the quality factor to 4.5 million. The cavity external coupling rate can then be tuned from negligibly small to over 3 orders of magnitude larger than the internal loss rate with a characteristic time of 3.2 ns. This switching speed does not impose additional limits on the coupling rate because it is much faster than the coupling rate. Moreover, the coupler can be controlled by baseband signals to avoid interference with microwave signals near the cavity or qubit frequencies. Finally, the coupling element introduces a 0.04 Hz/photon self-Kerr nonlinearity to the cavity, remaining linear in high photon number operations. | 翻訳日:2023-04-14 16:06:50 公開日:2023-04-12 |
# SiLK -- 簡単な学習キーポイント SiLK -- Simple Learned Keypoints ( http://arxiv.org/abs/2304.06194v1 ) ライセンス: Link先を確認 | Pierre Gleize, Weiyao Wang, Matt Feiszli | (参考訳) keypoint detection & descriptorは、画像マッチング、3d再構成、視覚オドメトリーなどのコンピュータビジョンタスクのための基礎技術である。
harris corners、sift、hog descriptorといった手作りの手法は数十年にわたって使われてきたが、最近ではキーポイント検出器を改善するために学習を導入する傾向がある。
最近の学習ベースの方法は、実験的なセットアップと設計の選択を多種多様に採用している。 経験的な結果は、バックボーン、プロトコル、データセット、監督の種類、タスクを使用して報告されることが多い。
これらの差はしばしば結合されるため、良い学習キーポイント検出器を何にするかという自然な疑問が提起される。
本研究では,既存のキーポイント検出器の設計について,その手法を分解し,キーコンポーネントを同定することによって再検討する。
我々は、各コンポーネントを第一原理から再設計し、完全微分可能で軽量でフレキシブルなSimple Learned Keypoints (SiLK)を提案する。
その単純さにもかかわらず、SiLKはHPatches上の検出再現性とホログラフィー推定タスクとScanNet上の3Dポイントクラウド登録タスクを新たに改善し、2022年のImage Matching ChallengeとScanNetにおける最先端のカメラポーズ推定に対する競合性能を達成する。 Keypoint detection & descriptors are foundational tech-nologies for computer vision tasks like image matching, 3D reconstruction and visual odometry. Hand-engineered methods like Harris corners, SIFT, and HOG descriptors have been used for decades; more recently, there has been a trend to introduce learning in an attempt to improve keypoint detectors. On inspection however, the results are difficult to interpret; recent learning-based methods employ a vast diversity of experimental setups and design choices: empirical results are often reported using different backbones, protocols, datasets, types of supervisions or tasks. Since these differences are often coupled together, it raises a natural question on what makes a good learned keypoint detector. In this work, we revisit the design of existing keypoint detectors by deconstructing their methodologies and identifying the key components. We re-design each component from first-principle and propose Simple Learned Keypoints (SiLK) that is fully-differentiable, lightweight, and flexible. Despite its simplicity, SiLK advances new state-of-the-art on Detection Repeatability and Homography Estimation tasks on HPatches and 3D Point-Cloud Registration task on ScanNet, and achieves competitive performance to state-of-the-art on camera pose estimation in 2022 Image Matching Challenge and ScanNet. | 翻訳日:2023-04-14 15:58:25 公開日:2023-04-12 |
# 部分観測非線形システムに対する全契約とリプシッツ閉ループの学習 Learning Over All Contracting and Lipschitz Closed-Loops for Partially-Observed Nonlinear Systems ( http://arxiv.org/abs/2304.06193v1 ) ライセンス: Link先を確認 | Nicholas H. Barbara, Ruigang Wang, Ian R. Manchester | (参考訳) 本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
このパラメータ化は、Youlaパラメータ化の非線形バージョンと、最近提案されたRecurrent Equilibrium Network (REN)クラスに基づく。
その結果,Youla-RENパラメータ化は,閉ループシステム上での安定性(トラクション)とユーザチューニング可能な堅牢性(Lipschitz)を自動で満足することを証明する。
これは、安定性や堅牢性を強制するために必要な追加の制約やプロジェクションなしで、安全な学習ベースの制御に使用できることを意味する。
我々は2つの強化学習タスクで新しい政策クラスをシミュレーションでテストする。
1)磁気サスペンション、及び
2)回転アーム振り子を反転させる。
以上より,youla-renは既存の学習ベースおよび最適制御法と同様に動作し,安定性を確保しつつ,対向障害に対するロバスト性も向上した。 This paper presents a policy parameterization for learning-based control on nonlinear, partially-observed dynamical systems. The parameterization is based on a nonlinear version of the Youla parameterization and the recently proposed Recurrent Equilibrium Network (REN) class of models. We prove that the resulting Youla-REN parameterization automatically satisfies stability (contraction) and user-tunable robustness (Lipschitz) conditions on the closed-loop system. This means it can be used for safe learning-based control with no additional constraints or projections required to enforce stability or robustness. We test the new policy class in simulation on two reinforcement learning tasks: 1) magnetic suspension, and 2) inverting a rotary-arm pendulum. We find that the Youla-REN performs similarly to existing learning-based and optimal control methods while also ensuring stability and exhibiting improved robustness to adversarial disturbances. | 翻訳日:2023-04-14 15:58:00 公開日:2023-04-12 |
# アップリンクsrsチャネル推定による5g nrシステムのml対応屋外ユーザ位置決め ML-Enabled Outdoor User Positioning in 5G NR Systems via Uplink SRS Channel Estimates ( http://arxiv.org/abs/2304.06514v1 ) ライセンス: Link先を確認 | Andre R\'ath, Dino Pjani\'c, Bo Bernhardsson and Fredrik Tufvesson | (参考訳) セルユーザーの位置決めは、第5世代ニューラジオ(5G NR)ネットワークが提供する有望なサービスである。
さらに、機械学習(ML)技術は、5G NRシステムに統合され、無線性能の向上と複雑さの低減を図っている。
本稿では,物理層からのアップリンクチャネル推定による5G NR指紋を用いた位置決めのためのML手法について検討する。
ユーザの位置を推測するのに十分なデータを提供するために,SRS (Sounding Reference Signals) チャネル指紋を使用することが可能であることを示す。
さらに, 小型の完全連結型深層ニューラルネットワークは, SRSデータに適用しても, 市販の5G環境において, メートルレベルの精度で屋外ユーザの位置決めを成功させることができることを示す。 Cellular user positioning is a promising service provided by Fifth Generation New Radio (5G NR) networks. Besides, Machine Learning (ML) techniques are foreseen to become an integrated part of 5G NR systems improving radio performance and reducing complexity. In this paper, we investigate ML techniques for positioning using 5G NR fingerprints consisting of uplink channel estimates from the physical layer channel. We show that it is possible to use Sounding Reference Signals (SRS) channel fingerprints to provide sufficient data to infer user position. Furthermore, we show that small fully-connected moderately Deep Neural Networks, even when applied to very sparse SRS data, can achieve successful outdoor user positioning with meter-level accuracy in a commercial 5G environment. | 翻訳日:2023-04-14 14:25:57 公開日:2023-04-12 |
# ニューラルネットワークのハードウェア高速化 Hardware Acceleration of Neural Graphics ( http://arxiv.org/abs/2303.05735v6 ) ライセンス: Link先を確認 | Muhammad Husnain Mubarik, Ramakrishna Kanungo, Tobias Zirr and Rakesh Kumar | (参考訳) 従来のコンピュータグラフィックスを駆動するレンダリングと逆レンダリングアルゴリズムは、最近neural representations (nr)に取って代わられた。
NRは、最近、シーンの幾何学的および物質的特性を学び、その情報を使ってフォトリアリスティックな画像を合成し、スケーラブルで予測可能なパフォーマンスで従来のレンダリングアルゴリズムを置き換えることを約束している。
neural graphics (ng) はハードウェアサポートが必要か?
60FPSで4kの解像度をレンダリングしたい場合、現在のGPUで所望のパフォーマンスで1.5X-55Xの差があることを示す代表NGアプリケーションについて検討した。
AR/VRアプリケーションでは、所望のパフォーマンスと必要なシステムパワーの間に2-4 OOMのギャップがさらに大きい。
入力エンコーディングとmlpカーネルは性能ボトルネックであり,マルチres.hashgrid,multi res. densegrid,low res. densegridエンコーディングのアプリケーション時間の72%,60%,59%を消費する。
我々は,専用エンジンによる入力エンコーディングとmlpカーネルを直接高速化し,幅広いngアプリケーションをサポートするスケーラブルでフレキシブルなハードウェアアーキテクチャであるng処理クラスタを提案する。
Vulkanでは、前処理や後処理のカーネルの未使用実装と比較して、9.94倍のカーネルレベルのパフォーマンス向上を実現しています。
以上の結果から,NGPCは最大58倍のエンド・ツー・エンドの性能向上を実現し,Hashgridエンコーディングは4つのNGアプリケーションで平均12X,20X,33X,39Xのスケーリング係数でそれぞれ8,16,32,64。
以上の結果から,NGPCでは,NeRFで30FPSで4k,他のNGアプリケーションで120FPSで8kのレンダリングが可能であることが示唆された。 Rendering and inverse-rendering algorithms that drive conventional computer graphics have recently been superseded by neural representations (NR). NRs have recently been used to learn the geometric and the material properties of the scenes and use the information to synthesize photorealistic imagery, thereby promising a replacement for traditional rendering algorithms with scalable quality and predictable performance. In this work we ask the question: Does neural graphics (NG) need hardware support? We studied representative NG applications showing that, if we want to render 4k res. at 60FPS there is a gap of 1.5X-55X in the desired performance on current GPUs. For AR/VR applications, there is an even larger gap of 2-4 OOM between the desired performance and the required system power. We identify that the input encoding and the MLP kernels are the performance bottlenecks, consuming 72%,60% and 59% of application time for multi res. hashgrid, multi res. densegrid and low res. densegrid encodings, respectively. We propose a NG processing cluster, a scalable and flexible hardware architecture that directly accelerates the input encoding and MLP kernels through dedicated engines and supports a wide range of NG applications. We also accelerate the rest of the kernels by fusing them together in Vulkan, which leads to 9.94X kernel-level performance improvement compared to un-fused implementation of the pre-processing and the post-processing kernels. Our results show that, NGPC gives up to 58X end-to-end application-level performance improvement, for multi res. hashgrid encoding on average across the four NG applications, the performance benefits are 12X,20X,33X and 39X for the scaling factor of 8,16,32 and 64, respectively. Our results show that with multi res. hashgrid encoding, NGPC enables the rendering of 4k res. at 30FPS for NeRF and 8k res. at 120FPS for all our other NG applications. | 翻訳日:2023-04-14 11:00:55 公開日:2023-04-12 |
# OpenAGI: LLMがドメインエキスパートと出会ったとき OpenAGI: When LLM Meets Domain Experts ( http://arxiv.org/abs/2304.04370v2 ) ライセンス: Link先を確認 | Yingqiang Ge, Wenyue Hua, Jianchao Ji, Juntao Tan, Shuyuan Xu, Yongfeng Zhang | (参考訳) 人間の知性は、複雑なタスクを解決するために、基本的なスキルを複雑なものに組み立てる素晴らしい能力を持っている。
この能力は人工知能(ai)にも等しく重要であり、大規模で包括的な知的モデルの開発に加えて、人工知能(agi)の追求において複雑なタスク解決のために様々なドメイン固有のエキスパートモデルを活用する能力を備えることが重要であると主張する。
近年の大規模言語モデル(llm)の発展は驚くべき学習能力と推論能力を示しており、複雑なタスクを解決するために外部モデルを選択、合成、実行するためのコントローラとして有望である。
本稿では,オープンソースのAGI研究プラットフォームであるOpenAGIを開発し,タスク固有のデータセット,評価指標,さまざまな拡張可能なモデルなどを伴って,複雑なマルチステップタスクを提供する。
OpenAGIは複雑なタスクを自然言語クエリとして定式化し、LLMへの入力として機能する。
LLMはその後、タスクに対処するためにOpenAGIが提供するモデルを選択し、合成し、実行します。
さらに,課題解決結果をフィードバックとして利用するタスクフィードバック(rltf)機構から強化学習を行い,llmのタスク解決能力を向上させる。
したがって、LLMは複雑なタスクを解決するために様々な外部モデルを合成する責任を持ち、RTLFはタスク解決能力を改善するためのフィードバックを提供し、自己改善AIのためのフィードバックループを可能にする。
我々は、複雑なタスク解決のための様々な専門家モデルを操作するLLMのパラダイムが、AGIに対する有望なアプローチであると信じている。
コミュニティによるAGIの能力の長期的な改善と評価を容易にするため、私たちはOpenAGIプロジェクトのコード、ベンチマーク、評価方法をhttps://github.com/agiresearch/OpenAGIでオープンソース化しました。 Human intelligence has the remarkable ability to assemble basic skills into complex ones so as to solve complex tasks. This ability is equally important for Artificial Intelligence (AI), and thus, we assert that in addition to the development of large, comprehensive intelligent models, it is equally crucial to equip such models with the capability to harness various domain-specific expert models for complex task-solving in the pursuit of Artificial General Intelligence (AGI). Recent developments in Large Language Models (LLMs) have demonstrated remarkable learning and reasoning abilities, making them promising as a controller to select, synthesize, and execute external models to solve complex tasks. In this project, we develop OpenAGI, an open-source AGI research platform, specifically designed to offer complex, multi-step tasks and accompanied by task-specific datasets, evaluation metrics, and a diverse range of extensible models. OpenAGI formulates complex tasks as natural language queries, serving as input to the LLM. The LLM subsequently selects, synthesizes, and executes models provided by OpenAGI to address the task. Furthermore, we propose a Reinforcement Learning from Task Feedback (RLTF) mechanism, which uses the task-solving result as feedback to improve the LLM's task-solving ability. Thus, the LLM is responsible for synthesizing various external models for solving complex tasks, while RLTF provides feedback to improve its task-solving ability, enabling a feedback loop for self-improving AI. We believe that the paradigm of LLMs operating various expert models for complex task-solving is a promising approach towards AGI. To facilitate the community's long-term improvement and evaluation of AGI's ability, we open-source the code, benchmark, and evaluation methods of the OpenAGI project at https://github.com/agiresearch/OpenAGI. | 翻訳日:2023-04-14 10:51:34 公開日:2023-04-12 |
# PreCVAE:ベイズ深部生成モデルを用いたスケーラブルMCMCパラメータ推定 PriorCVAE: scalable MCMC parameter inference with Bayesian deep generative modelling ( http://arxiv.org/abs/2304.04307v2 ) ライセンス: Link先を確認 | Elizaveta Semenova, Max Cairney-Leeming, Seth Flaxman | (参考訳) 推論の速度とモデルの柔軟性が不可欠である応用分野において、確率過程が先行するモデルに対してベイズ推論を用いることは、例えばガウス過程(GP)がユビキタスである。
近年の文献では、gpプリエントやその有限実現によって生じる計算ボトルネックは変分オートエンコーダ(vaes)のような深い生成モデルを用いてエンコードでき、学習されたジェネレータはマルコフ連鎖モンテカルロ(mcmc)推論の際、元のプリエントの代わりにドロップイン方式で使用することができる。
このアプローチは高速かつ高効率な推論を可能にするが、確率過程のハイパーパラメータに関する情報を失い、その結果、ハイパーパラメータに対する推論が不可能になり、学習された事前が不明瞭になる。
本稿では,この問題の解決と,確率的プロセスハイパーパラメータ上でのVAEの条件付けにより,学習先を乱すことを提案する。
このように、ハイパーパラメータはGP実現とともに符号化され、推論段階で明示的に推定できる。
PriorCVAEと呼ばれる新しい手法は、近似推論手法の中で有用なツールであり、重要な実生活における空間的および時空間的推論に大きな影響を与える可能性があると考えている。
PriorCVAEのコードはGitHubで見ることができる。 In applied fields where the speed of inference and model flexibility are crucial, the use of Bayesian inference for models with a stochastic process as their prior, e.g. Gaussian processes (GPs) is ubiquitous. Recent literature has demonstrated that the computational bottleneck caused by GP priors or their finite realizations can be encoded using deep generative models such as variational autoencoders (VAEs), and the learned generators can then be used instead of the original priors during Markov chain Monte Carlo (MCMC) inference in a drop-in manner. While this approach enables fast and highly efficient inference, it loses information about the stochastic process hyperparameters, and, as a consequence, makes inference over hyperparameters impossible and the learned priors indistinct. We propose to resolve this issue and disentangle the learned priors by conditioning the VAE on stochastic process hyperparameters. This way, the hyperparameters are encoded alongside GP realisations and can be explicitly estimated at the inference stage. We believe that the new method, termed PriorCVAE, will be a useful tool among approximate inference approaches and has the potential to have a large impact on spatial and spatiotemporal inference in crucial real-life applications. Code showcasing PriorCVAE can be found on GitHub: https://github.com/elizavetasemenova/PriorCVAE | 翻訳日:2023-04-14 10:50:57 公開日:2023-04-12 |
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索 Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v5 ) ライセンス: Link先を確認 | Walid Hariri | (参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。
これらのモデルのうち、chatgpt(chat generative pre-trained transformer)はopenaiによって開発されており、広く採用されている強力なツールである。
ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。
これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応できる能力に起因する。
その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。
しかし、chatgptにはバイアスのある応答を発生させる傾向や有害な言語パターンを持続する可能性など、制限もある。
この記事では、ChatGPTとその応用、利点、限界について概観する。
さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。
最後に、人工知能とそのビジョンおよびnlpドメインへの影響について、迅速なエンジニアリング技術への洞察を提供することにより、現在進行中の議論に寄与する。 Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques. | 翻訳日:2023-04-14 10:48:58 公開日:2023-04-12 |
# 深層学習による恒星変動の存在下での惑星ラジアル速度の測定 Deep-learning based measurement of planetary radial velocities in the presence of stellar variability ( http://arxiv.org/abs/2304.04807v2 ) ライセンス: Link先を確認 | Ian Colwell, Virisha Timmaraju, Alexander Wise | (参考訳) 恒星変動の存在下での小さな惑星半径速度を測定するための深層学習に基づくアプローチを提案する。
我々は、HARPS-N Sun-as-a-starスペクトルの3年間の恒星RVジッタを低減するためにニューラルネットワークを使用する。
本稿では,次元還元法とデータ分割法と,一線cnn,一線cnnのアンサンブル,多線cnnを含む様々なニューラルネットワークアーキテクチャを構築し,比較する。
我々は、惑星のようなRVをスペクトルに注入し、ネットワークを使ってそれらを回復する。
マルチラインcnnは、0.2m/sの半振幅、50日周期の惑星を8.8%の誤差と0.7%の振幅で回収できることがわかった。
このアプローチは、恒星のRV変動を緩和し、前例のない精度で小さな惑星のRVを検出することを約束している。 We present a deep-learning based approach for measuring small planetary radial velocities in the presence of stellar variability. We use neural networks to reduce stellar RV jitter in three years of HARPS-N sun-as-a-star spectra. We develop and compare dimensionality-reduction and data splitting methods, as well as various neural network architectures including single line CNNs, an ensemble of single line CNNs, and a multi-line CNN. We inject planet-like RVs into the spectra and use the network to recover them. We find that the multi-line CNN is able to recover planets with 0.2 m/s semi-amplitude, 50 day period, with 8.8% error in the amplitude and 0.7% in the period. This approach shows promise for mitigating stellar RV variability and enabling the detection of small planetary RVs with unprecedented precision. | 翻訳日:2023-04-14 10:40:38 公開日:2023-04-12 |
# RAW領域とsRGB領域における大規模動的データセットを用いたHDRビデオ再構成 HDR Video Reconstruction with a Large Dynamic Dataset in Raw and sRGB Domains ( http://arxiv.org/abs/2304.04773v2 ) ライセンス: Link先を確認 | Huanjing Yue, Yubo Peng, Biting Yu, Xuanwu Yin, Zhenyu Zhou, Jingyu Yang | (参考訳) 高ダイナミックレンジ(HDR)ビデオ再構成は、低ダイナミックレンジ(LDR)ビデオと比較して視覚的品質が優れているため、ますます注目を集めている。
LDR-HDRトレーニングペアの可用性は、HDR再構築の品質に不可欠である。
しかし、LDR-HDRフレームを同時に取得することが困難であるため、動的シーンの実際のLDR-HDRペアは存在しない。
そこで本研究では,srgb領域とraw領域の両方のhdrフレームに融合した2つの異なる露光画像を同時に撮像するスタッガー付きセンサを提案する。
このようにして、85のシーンを持つ大規模LDR-HDRビデオデータセットを構築し、各シーンは60フレームを含む。
このデータセットに基づいて,生のLDRフレームを入力として利用するRaw-HDRNetを提案する。
隣接するフレームを整列させるピラミッドフロー誘導変形畳み込みを提案する。
実験の結果
1)提案したデータセットは,3つのベンチマークネットワークの実際のシーンにおけるHDR再構成性能を向上させることができる。
2) sRGB入力と比較して, 生の入力を利用すると, 復元精度が向上し, 提案するRaw-HDRNetは生のHDR再構築の強力なベースラインとなる。
この論文の受理後、私たちのデータセットとコードはリリースされます。 High dynamic range (HDR) video reconstruction is attracting more and more attention due to the superior visual quality compared with those of low dynamic range (LDR) videos. The availability of LDR-HDR training pairs is essential for the HDR reconstruction quality. However, there are still no real LDR-HDR pairs for dynamic scenes due to the difficulty in capturing LDR-HDR frames simultaneously. In this work, we propose to utilize a staggered sensor to capture two alternate exposure images simultaneously, which are then fused into an HDR frame in both raw and sRGB domains. In this way, we build a large scale LDR-HDR video dataset with 85 scenes and each scene contains 60 frames. Based on this dataset, we further propose a Raw-HDRNet, which utilizes the raw LDR frames as inputs. We propose a pyramid flow-guided deformation convolution to align neighboring frames. Experimental results demonstrate that 1) the proposed dataset can improve the HDR reconstruction performance on real scenes for three benchmark networks; 2) Compared with sRGB inputs, utilizing raw inputs can further improve the reconstruction quality and our proposed Raw-HDRNet is a strong baseline for raw HDR reconstruction. Our dataset and code will be released after the acceptance of this paper. | 翻訳日:2023-04-14 10:40:24 公開日:2023-04-12 |
# SoK:ディープニューラルネットワークのロバスト性認定 SoK: Certified Robustness for Deep Neural Networks ( http://arxiv.org/abs/2009.04131v9 ) ライセンス: Link先を確認 | Linyi Li, Tao Xie, Bo Li | (参考訳) ディープニューラルネットワーク(DNN)の大幅な進歩により、幅広いタスクにおける最先端のパフォーマンスが向上した。
しかし、最近の研究では、DNNは敵の攻撃に弱いことが示されており、これらのモデルを自律運転のような安全クリティカルなアプリケーションにデプロイする際に大きな懸念をもたらしている。
敵対的攻撃に対する様々な防御アプローチが提案されている。
a) 強靭性証明を提供することなく、通常、再び適応的に攻撃される経験的防御
b) 一定の条件下での攻撃に対するロバストな精度の低い境界とそれに対応するロバストなトレーニングアプローチを提供するロバストな検証とからなるロバストなアプローチ
本稿では,実証可能な堅牢なアプローチと,それに関連する実用的・理論的意味と知見を体系化する。
また、既存のロバスト性検証と、異なるデータセットに対するトレーニングアプローチに関する最初の包括的なベンチマークも提供します。
特に私たちは
1)ロバスト性検証とトレーニングアプローチのための分類法を提供し、代表的なアルゴリズムの方法論を要約する。
2)これらのアプローチの特徴,強み,限界,基本的つながりを明らかにする。
3)DNN研究の進展、理論的障壁、主な課題、今後の方向性、DNNの堅牢なアプローチについて論じる。
4) 20以上の代表的堅牢なアプローチを評価するオープンソース統一プラットフォームを提供する。 Great advances in deep neural networks (DNNs) have led to state-of-the-art performance on a wide range of tasks. However, recent studies have shown that DNNs are vulnerable to adversarial attacks, which have brought great concerns when deploying these models to safety-critical applications such as autonomous driving. Different defense approaches have been proposed against adversarial attacks, including: a) empirical defenses, which can usually be adaptively attacked again without providing robustness certification; and b) certifiably robust approaches, which consist of robustness verification providing the lower bound of robust accuracy against any attacks under certain conditions and corresponding robust training approaches. In this paper, we systematize certifiably robust approaches and related practical and theoretical implications and findings. We also provide the first comprehensive benchmark on existing robustness verification and training approaches on different datasets. In particular, we 1) provide a taxonomy for the robustness verification and training approaches, as well as summarize the methodologies for representative algorithms, 2) reveal the characteristics, strengths, limitations, and fundamental connections among these approaches, 3) discuss current research progresses, theoretical barriers, main challenges, and future directions for certifiably robust approaches for DNNs, and 4) provide an open-sourced unified platform to evaluate 20+ representative certifiably robust approaches. | 翻訳日:2023-04-13 20:24:06 公開日:2023-04-12 |
# 論理推論による統計的学習による認定ロバスト性の改善 Improving Certified Robustness via Statistical Learning with Logical Reasoning ( http://arxiv.org/abs/2003.00120v9 ) ライセンス: Link先を確認 | Zhuolin Yang, Zhikuan Zhao, Boxin Wang, Jiawei Zhang, Linyi Li, Hengzhi Pei, Bojan Karlas, Ji Liu, Heng Guo, Ce Zhang, and Bo Li | (参考訳) 近年,複雑なmlモデルの証明書ロバスト性が急速に向上するために,集中型アルゴリズムが開発されている。
しかし、現在の堅牢性認証法は、限られた摂動半径の下でのみ認証できる。
そこで本稿では,マルコフ論理ネットワーク(MLN)を用いて,統計的MLモデルと知識(論理規則として表現される)を推論コンポーネントとして統合し,総合的信頼性の向上を図ることを提案する。
これにより、そのようなパラダイムの堅牢性、特に推論要素(例えばMLN)の証明に関する新しい研究の疑問が開かれる。
これらの疑問を理解するための最初のステップとして、MLNの堅牢性を証明する計算複雑性が#P-hardであることを最初に証明する。
この硬さの結果に導かれ、異なるモデル体制を慎重に分析することにより、MLNに対して初めて認証された堅牢性を導出する。
最後に、高次元画像と自然言語テキストの両方を含む5つのデータセットについて広範な実験を行い、知識に基づく論理的推論による証明されたロバスト性は、明らかに最先端技術よりも優れていることを示す。 Intensive algorithmic efforts have been made to enable the rapid improvements of certificated robustness for complex ML models recently. However, current robustness certification methods are only able to certify under a limited perturbation radius. Given that existing pure data-driven statistical approaches have reached a bottleneck, in this paper, we propose to integrate statistical ML models with knowledge (expressed as logical rules) as a reasoning component using Markov logic networks (MLN, so as to further improve the overall certified robustness. This opens new research questions about certifying the robustness of such a paradigm, especially the reasoning component (e.g., MLN). As the first step towards understanding these questions, we first prove that the computational complexity of certifying the robustness of MLN is #P-hard. Guided by this hardness result, we then derive the first certified robustness bound for MLN by carefully analyzing different model regimes. Finally, we conduct extensive experiments on five datasets including both high-dimensional images and natural language texts, and we show that the certified robustness with knowledge-based logical reasoning indeed significantly outperforms that of the state-of-the-arts. | 翻訳日:2023-04-13 20:23:30 公開日:2023-04-12 |
# 美学とニューラルネットワーク画像表現 Aesthetics and neural network image representations ( http://arxiv.org/abs/2109.08103v2 ) ライセンス: Link先を確認 | Romuald A. Janik | (参考訳) 我々はBigGANアーキテクチャの生成ニューラルネットワークによって符号化された画像の空間を分析する。
ニューラルネットワークパラメータをフォトリアリスティックな点から遠ざかる一般的な乗法的摂動は、しばしば対応するオブジェクトの「芸術的回帰」として現れる画像を生成する。
これは、ニューラルネットワークのパラメトリゼーションで符号化されたフォトリアリスティック視覚環境の構造から直接、美的特性の出現を示す。
さらに、ニューラルネットワークの深い意味部分を変更することで、象徴的な視覚表現の出現につながる。
いずれのネットワークも、人造芸術のイメージにアクセスできなかった。 We analyze the spaces of images encoded by generative neural networks of the BigGAN architecture. We find that generic multiplicative perturbations of neural network parameters away from the photo-realistic point often lead to networks generating images which appear as "artistic renditions" of the corresponding objects. This demonstrates an emergence of aesthetic properties directly from the structure of the photo-realistic visual environment as encoded in its neural network parametrization. Moreover, modifying a deep semantic part of the neural network leads to the appearance of symbolic visual representations. None of the considered networks had any access to images of human-made art. | 翻訳日:2023-04-13 19:42:11 公開日:2023-04-12 |
# 高次元におけるマルコフ連鎖モンテカルロ法の漸近バイアス Asymptotic bias of inexact Markov Chain Monte Carlo methods in high dimension ( http://arxiv.org/abs/2108.00682v2 ) ライセンス: Link先を確認 | Alain Oliviero Durmus and Andreas Eberle | (参考訳) 不正確なマルコフ連鎖モンテカルロ法は、ターゲット分布を正確に保存しないマルコフ連鎖に依存する。
例えば、未調整のランゲヴィンアルゴリズム (ULA) や非調整のハミルトンモンテカルロ (uHMC) がある。
本稿では,この漸近バイアスの次元と離散化ステップサイズに対する正確な依存性を理解することを目的として,mmc法の不変確率測度と対象分布との間のワッサースタイン距離の境界を定式化する。
Wasserstein が正確なあるいは近似力学の平衡への収束に依存すると仮定すると、ULA と uHMC の両方において、漸近バイアスがスキームの目標分布または定常確率測度に関連する鍵量に依存することを示す。
その結果、平均場モデル、有限範囲のグラフィカルモデル、およびそれらの摂動といった限られた相互作用を持つモデルに対して、漸近バイアスは、積測度と同様にステップサイズと次元に類似していることがわかった。 Inexact Markov Chain Monte Carlo methods rely on Markov chains that do not exactly preserve the target distribution. Examples include the unadjusted Langevin algorithm (ULA) and unadjusted Hamiltonian Monte Carlo (uHMC). This paper establishes bounds on Wasserstein distances between the invariant probability measures of inexact MCMC methods and their target distributions with a focus on understanding the precise dependence of this asymptotic bias on both dimension and discretization step size. Assuming Wasserstein bounds on the convergence to equilibrium of either the exact or the approximate dynamics, we show that for both ULA and uHMC, the asymptotic bias depends on key quantities related to the target distribution or the stationary probability measure of the scheme. As a corollary, we conclude that for models with a limited amount of interactions such as mean-field models, finite range graphical models, and perturbations thereof, the asymptotic bias has a similar dependence on the step size and the dimension as for product measures. | 翻訳日:2023-04-13 19:42:02 公開日:2023-04-12 |
# 量子非対称性とノイズマルチモード干渉法 Quantum asymmetry and noisy multi-mode interferometry ( http://arxiv.org/abs/2107.11057v2 ) ライセンス: Link先を確認 | Francesco Albarelli, Mateusz Mazelanik, Micha{\l} Lipka, Alexander Streltsov, Micha{\l} Parniak, Rafal Demkowicz-Dobrzanski | (参考訳) 量子非対称性(quantum asymmetry)は、干渉実験における位相符号化を担う発電機の固有空間間のコヒーレンス量と一致する物理資源である。
退化部分空間内でのコヒーレンスの結果、非対称性が \emph{increase} となるという明らかに反直観的な振る舞いを強調する。
一つのアームが信号を持ち、2つのノイズの基準アームが変動する3つのモードの単光子干渉実験を行うことで、直感的に現象を説明し、説明する。
観測された感度向上の源は、これらのゆらぎ間の相関の低減であり、単一光子量子レベルから古典的レジームへの移行における効果の影響についてのコメントである。
最後に, 絡み合い資源理論における効果の類似性も確立する。 Quantum asymmetry is a physical resource which coincides with the amount of coherence between the eigenspaces of a generator responsible for phase encoding in interferometric experiments. We highlight an apparently counter-intuitive behavior that the asymmetry may \emph{increase} as a result of a \emph{decrease} of coherence inside a degenerate subspace. We intuitively explain and illustrate the phenomena by performing a three-mode single-photon interferometric experiment, where one arm carries the signal and two noisy reference arms have fluctuating phases. We show that the source of the observed sensitivity improvement is the reduction of correlations between these fluctuations and comment on the impact of the effect when moving from the single-photon quantum level to the classical regime. Finally, we also establish the analogy of the effect in the case of entanglement resource theory. | 翻訳日:2023-04-13 19:41:45 公開日:2023-04-12 |
# ネットワーク学習 - ネットワークにおける分散トレーニングと推論 In-Network Learning: Distributed Training and Inference in Networks ( http://arxiv.org/abs/2107.03433v3 ) ライセンス: Link先を確認 | Matei Moldoveanu, Abdellatif Zaidi | (参考訳) 現代の機械学習技術をモバイルデバイスやワイヤレスネットワークに活用することで、重要な新しいサービスを実現する可能性があると広く認識されている。
しかし、これは本質的にデータと処理能力の両方が無線ネットワーク内で高度に分散しているため、重大な課題となる。
本稿では,複数のデータストリームと処理ユニットを用いた学習アルゴリズムとアーキテクチャを開発した。
特に、この分析は、推論がどのようにネットワークを伝播し、融合するかを明らかにする。
提案手法の設計基準と帯域幅要件について検討した。
また、一般的な無線無線アクセスにおけるニューラルネットワークを用いた実装の側面についても論じ、最先端技術に対するメリットを示す実験を行う。 It is widely perceived that leveraging the success of modern machine learning techniques to mobile devices and wireless networks has the potential of enabling important new services. This, however, poses significant challenges, essentially due to that both data and processing power are highly distributed in a wireless network. In this paper, we develop a learning algorithm and an architecture that make use of multiple data streams and processing units, not only during the training phase but also during the inference phase. In particular, the analysis reveals how inference propagates and fuses across a network. We study the design criterion of our proposed method and its bandwidth requirements. Also, we discuss implementation aspects using neural networks in typical wireless radio access; and provide experiments that illustrate benefits over state-of-the-art techniques. | 翻訳日:2023-04-13 19:41:27 公開日:2023-04-12 |
# GitTables:リレーショナルテーブルの大規模コーパス GitTables: A Large-Scale Corpus of Relational Tables ( http://arxiv.org/abs/2106.07258v5 ) ライセンス: Link先を確認 | Madelon Hulsebos, \c{C}a\u{g}atay Demiralp, Paul Groth | (参考訳) ディープラーニングの成功は、大規模なテーブルコーパスで訓練されたテーブル表現モデルを用いて、データ準備や検索といったリレーショナルテーブルタスクの改善への関心を喚起した。
既存のテーブルコーパスは、主にHTMLページから抽出されたテーブルを含み、オフラインのデータベーステーブルを表現する能力を制限する。
Web以外のアプリケーションの高容量モデルをトレーニングし、評価するには、関係データベーステーブルに似たテーブルを持つリソースが必要です。
ここでは、githubから抽出した1mのリレーショナルテーブルのコーパスであるgittablesを紹介する。
私たちの継続的なキュレーションは、コーパスを少なくとも1000mのテーブルに拡大することを目的としています。
GitTablesの分析によると、その構造、コンテンツ、トピックのカバレッジは既存のテーブルコーパスと大きく異なる。
テーブル列に意味型、階層的関係、schema.orgとdbpediaからの記述をアノテートします。
t2dv2ベンチマークにおけるアノテーションパイプラインの評価は、我々のアプローチが人間のアノテーションと同等の結果を提供することを示している。
本稿では,gittablesの3つの応用例を示し,学習した意味型検出モデル,スキーマ補完手法,テーブル間マッチング,データ検索,準備のためのベンチマークについて述べる。
コーパスとコードはhttps://gittables.github.io.com/で利用可能です。 The success of deep learning has sparked interest in improving relational table tasks, like data preparation and search, with table representation models trained on large table corpora. Existing table corpora primarily contain tables extracted from HTML pages, limiting the capability to represent offline database tables. To train and evaluate high-capacity models for applications beyond the Web, we need resources with tables that resemble relational database tables. Here we introduce GitTables, a corpus of 1M relational tables extracted from GitHub. Our continuing curation aims at growing the corpus to at least 10M tables. Analyses of GitTables show that its structure, content, and topical coverage differ significantly from existing table corpora. We annotate table columns in GitTables with semantic types, hierarchical relations and descriptions from Schema.org and DBpedia. The evaluation of our annotation pipeline on the T2Dv2 benchmark illustrates that our approach provides results on par with human annotations. We present three applications of GitTables, demonstrating its value for learned semantic type detection models, schema completion methods, and benchmarks for table-to-KG matching, data search, and preparation. We make the corpus and code available at https://gittables.github.io. | 翻訳日:2023-04-13 19:41:16 公開日:2023-04-12 |
# Vec2GC - テキスト表現のためのグラフベースのクラスタリング手法 Vec2GC -- A Graph Based Clustering Method for Text Representations ( http://arxiv.org/abs/2104.09439v2 ) ライセンス: Link先を確認 | Rajesh N Rao, Manojit Chakraborty | (参考訳) ラベル付きデータに制限があるNLPパイプラインは、ドキュメント処理の教師なし手法に依存している。
教師なしのアプローチは一般的に用語や文書のクラスタリングに依存する。
本稿では,新たなクラスタリングアルゴリズムであるVec2GC(Vector to Graph Communities)を導入する。
本手法は,テキスト表現学習を用いて作成した用語や文書の重み付きグラフ上で,コミュニティ検出を用いる。
vec2gcクラスタリングアルゴリズムは密度ベースのアプローチであり、階層的クラスタリングもサポートする。 NLP pipelines with limited or no labeled data, rely on unsupervised methods for document processing. Unsupervised approaches typically depend on clustering of terms or documents. In this paper, we introduce a novel clustering algorithm, Vec2GC (Vector to Graph Communities), an end-to-end pipeline to cluster terms or documents for any given text corpus. Our method uses community detection on a weighted graph of the terms or documents, created using text representation learning. Vec2GC clustering algorithm is a density based approach, that supports hierarchical clustering as well. | 翻訳日:2023-04-13 19:40:55 公開日:2023-04-12 |
# オフライン強化学習における性能向上のためのエキスパート誘導対称性検出によるデータ拡張 Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning ( http://arxiv.org/abs/2112.09943v3 ) ライセンス: Link先を確認 | Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel | (参考訳) マルコフ決定過程(MDP)の動的モデルのオフライン推定は、学習フェーズで利用可能なデータに大きく依存する非自明なタスクである。
時々、モデルのダイナミクスは、現在の状態と作用のいくつかの変換に関して不変である。
近年の研究では,Deep Neural Network based Normalizing Flows として密度推定手法に依存する専門家誘導パイプラインが,分類的・連続的評価の両面で決定論的環境において,この構造を効果的に検出することを示した。
獲得した知識を利用して元のデータセットを拡大し、最終的には真と学習モデルの間の分布シフトを減少させる。
このようなデータ拡張技術は、オフライン強化学習アーキテクチャを採用する前に実行される予備的なプロセスとして利用でき、その性能が向上する。
本研究では、パラダイムを拡張し、特に非決定論的MDPに取り組む。
1)統計的距離に基づくカテゴリー環境における検出しきい値を提案する。
2) 学習したMDPを解き, 実環境に最適化されたポリシーを適用すると, 前者の結果が性能改善につながることを示す。 Offline estimation of the dynamical model of a Markov Decision Process (MDP) is a non-trivial task that greatly depends on the data available in the learning phase. Sometimes the dynamics of the model is invariant with respect to some transformations of the current state and action. Recent works showed that an expert-guided pipeline relying on Density Estimation methods as Deep Neural Network based Normalizing Flows effectively detects this structure in deterministic environments, both categorical and continuous-valued. The acquired knowledge can be exploited to augment the original data set, leading eventually to a reduction in the distributional shift between the true and the learned model. Such data augmentation technique can be exploited as a preliminary process to be executed before adopting an Offline Reinforcement Learning architecture, increasing its performance. In this work we extend the paradigm to also tackle non-deterministic MDPs, in particular, 1) we propose a detection threshold in categorical environments based on statistical distances, and 2) we show that the former results lead to a performance improvement when solving the learned MDP and then applying the optimized policy in the real environment. | 翻訳日:2023-04-13 19:33:42 公開日:2023-04-12 |
# 2つの射影ビューに対する臨界構成 : 新しいアプローチ Critical configurations for two projective views, a new approach ( http://arxiv.org/abs/2112.05074v3 ) ライセンス: Link先を確認 | Martin Br{\aa}telund | (参考訳) 動きからの構造問題は、物体の3次元構造を2次元画像の集合から復元することに関わる。
一般に、十分な画像と画像ポイントが提供されると、すべての情報が一意に復元できるが、一意の回復が不可能な場合もあり、これらはクリティカルな構成と呼ばれる。
本稿では、2つの射影カメラの臨界構成を研究するために代数的手法を用いる。
すべての臨界構成は二次曲面上にあり、どの二次構成が臨界構成を構成するかを正確に分類する。
また, ユニークな再建が不可能な場合の異なる復元との関係についても述べる。 The problem of structure from motion is concerned with recovering 3-dimensional structure of an object from a set of 2-dimensional images. Generally, all information can be uniquely recovered if enough images and image points are provided, but there are certain cases where unique recovery is impossible; these are called critical configurations. In this paper we use an algebraic approach to study the critical configurations for two projective cameras. We show that all critical configurations lie on quadric surfaces, and classify exactly which quadrics constitute a critical configuration. The paper also describes the relation between the different reconstructions when unique reconstruction is impossible. | 翻訳日:2023-04-13 19:33:23 公開日:2023-04-12 |
# ゼロショット転送学習のための複合スケーリング Combined Scaling for Zero-shot Transfer Learning ( http://arxiv.org/abs/2111.10050v3 ) ライセンス: Link先を確認 | Hieu Pham, Zihang Dai, Golnaz Ghiasi, Kenji Kawaguchi, Hanxiao Liu, Adams Wei Yu, Jiahui Yu, Yi-Ting Chen, Minh-Thang Luong, Yonghui Wu, Mingxing Tan, Quoc V. Le | (参考訳) 我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,ラベル付きImageNet例から学習することなく85.7%のトップ1の精度を実現する,BASICという組み合わせスケーリング手法を提案する。
この精度は、最もよく出版された類似のモデルであるクリップとアライメントを9.3%上回っている。
私たちの基本的なモデルは、ロバスト性ベンチマークも大幅に改善しています。
例えば、ImageNet-{A,R,V2,Sketch} や ObjectNet のような自然な分布シフトを持つ5つのテストセットにおいて、我々のモデルは84.3%のTop-1平均精度を達成する。
これらの結果を得るために,データサイズ,モデルサイズ,バッチサイズという,CLIPとALIGNの対比学習フレームワークを3次元でスケールアップした。
我々のデータセットには6.6Bのノイズの多い画像テキストペアがあり、ALIGNより4倍、CLIPより16倍大きい。
我々の最大のモデルは3B重みを持ち、パラメータは3.75倍、FLOPはALIGNやCLIPよりも8倍大きい。
最後に、バッチサイズは65536で、CLIPの2倍、ALIGNの4倍です。
BASICのスケーリングルールでは,2つの大きな課題に遭遇した。
まず、basicの複合スケーリングルールを実装する上での最大の課題は、gpuやtpusといったアクセラレータのメモリ制限である。
メモリ制限を克服するために,グラデーションチェックポイントとモデル並列性を用いた2つの簡単な手法を提案する。
第二に、データセットのサイズとモデルサイズを増加させることは、basicのようなディープラーニングモデルのパフォーマンスを改善するためのデファクトな方法であるが、そのようなコントラスト訓練された画像テキストモデルに対する大きなコントラストバッチサイズの影響はよく理解されていない。
そこで我々は,BASICのような画像テキストモデルに対して,大きなコントラストバッチサイズがより小さい一般化ギャップをもたらすことを示す理論的枠組みを開発した。 We present a combined scaling method - named BASIC - that achieves 85.7% top-1 accuracy on the ImageNet ILSVRC-2012 validation set without learning from any labeled ImageNet example. This accuracy surpasses best published similar models - CLIP and ALIGN - by 9.3%. Our BASIC model also shows significant improvements in robustness benchmarks. For instance, on 5 test sets with natural distribution shifts such as ImageNet-{A,R,V2,Sketch} and ObjectNet, our model achieves 84.3% top-1 average accuracy, only a small drop from its original ImageNet accuracy. To achieve these results, we scale up the contrastive learning framework of CLIP and ALIGN in three dimensions: data size, model size, and batch size. Our dataset has 6.6B noisy image-text pairs, which is 4x larger than ALIGN, and 16x larger than CLIP. Our largest model has 3B weights, which is 3.75x larger in parameters and 8x larger in FLOPs than ALIGN and CLIP. Finally, our batch size is 65536 which is 2x more than CLIP and 4x more than ALIGN. We encountered two main challenges with the scaling rules of BASIC. First, the main challenge with implementing the combined scaling rules of BASIC is the limited memory of accelerators, such as GPUs and TPUs. To overcome the memory limit, we propose two simple methods which make use of gradient checkpointing and model parallelism. Second, while increasing the dataset size and the model size has been the defacto method to improve the performance of deep learning models like BASIC, the effect of a large contrastive batch size on such contrastive-trained image-text models is not well-understood. To shed light on the benefits of large contrastive batch sizes, we develop a theoretical framework which shows that larger contrastive batch sizes lead to smaller generalization gaps for image-text models such as BASIC. | 翻訳日:2023-04-13 19:32:43 公開日:2023-04-12 |
# Multi-Glimpse Network: 繰り返しダウンサンプル注意に基づくロバストかつ効率的な分類アーキテクチャ Multi-Glimpse Network: A Robust and Efficient Classification Architecture based on Recurrent Downsampled Attention ( http://arxiv.org/abs/2111.02018v2 ) ライセンス: Link先を確認 | Sia Huat Tan, Runpei Dong, Kaisheng Ma | (参考訳) ほとんどのフィードフォワード畳み込みニューラルネットワークは、各ピクセルに対してほぼ同じ労力を費やす。
しかし、人間の視覚認識は、眼球運動と空間的注意の間の相互作用であり、異なる領域の物体を垣間見ることができる。
そこで本研究では,この観測結果に触発されて,高計算の課題と繰り返しダウンサンプリングされた注意機構に基づくロバスト性の欠如に対処することを目的とした,エンドツーエンドのトレーニング可能なマルチグリンプネットワーク(mgnet)を提案する。
特にmgnetは、画像のタスク関連領域を順次選択し、最終予測のために収集された全ての情報を適応的に結合する。
MGNetは、より少ない計算で敵攻撃や一般的な汚職に対して強い抵抗を示す。
また、mgnetは本質的に解釈しやすいので、各イテレーションで焦点を合わせる場所を明示的に知らせてくれます。
imagenet100における実験は, フィードフォワード方式を改善するために, 繰り返しダウンサンプリングされた注意機構の可能性を実証するものである。
例えば、mgnetは平均で4.76%の精度を向上し、計算コストは36.9%である。
さらに、ベースラインの精度は7.6%に低下するが、MGNetはResNet-50バックボーンと同じPGD攻撃強度で44.2%の精度を維持している。
私たちのコードはhttps://github.com/siahuat0727/mgnetで利用可能です。 Most feedforward convolutional neural networks spend roughly the same efforts for each pixel. Yet human visual recognition is an interaction between eye movements and spatial attention, which we will have several glimpses of an object in different regions. Inspired by this observation, we propose an end-to-end trainable Multi-Glimpse Network (MGNet) which aims to tackle the challenges of high computation and the lack of robustness based on recurrent downsampled attention mechanism. Specifically, MGNet sequentially selects task-relevant regions of an image to focus on and then adaptively combines all collected information for the final prediction. MGNet expresses strong resistance against adversarial attacks and common corruptions with less computation. Also, MGNet is inherently more interpretable as it explicitly informs us where it focuses during each iteration. Our experiments on ImageNet100 demonstrate the potential of recurrent downsampled attention mechanisms to improve a single feedforward manner. For example, MGNet improves 4.76% accuracy on average in common corruptions with only 36.9% computational cost. Moreover, while the baseline incurs an accuracy drop to 7.6%, MGNet manages to maintain 44.2% accuracy in the same PGD attack strength with ResNet-50 backbone. Our code is available at https://github.com/siahuat0727/MGNet. | 翻訳日:2023-04-13 19:32:06 公開日:2023-04-12 |
# 重複するユーザやコンテキストを伴わないレビューベースのドメイン・ディスタングル Review-Based Domain Disentanglement without Duplicate Users or Contexts for Cross-Domain Recommendation ( http://arxiv.org/abs/2110.12648v3 ) ライセンス: Link先を確認 | Yoonhyuk Choi, Jiho Choi, Taewook Ko, Hyungho Byun, Chong-Kwon Kim | (参考訳) ドメイン横断のレコメンデーションは、データスパーシリティとコールドスタート問題を解決する上で有望な結果を示している。
このような進展にもかかわらず、既存の手法は知識伝達のためのドメイン共有可能な情報(オーバーラップされたユーザまたは同じコンテキスト)に焦点を当てており、そのような要求なしにはうまく一般化できない。
これらの問題に対処するために、ほとんどの電子商取引システムに一般的なレビューテキストを活用することを提案する。
我々のモデル(SER)は、3つのテキスト解析モジュールを使用し、1つのドメイン識別器で案内され、非絡み合い表現学習を行う。
ここでは,ドメインの絡み合いの質を高めるとともに,ソースドメインの有害情報を安定化する新たな最適化手法を提案する。
また、エンコーディングネットワークを単一のドメインから複数のドメインに拡張し、レビューベースのレコメンダシステムで強力であることが証明された。
集約的な実験とアブレーション研究により、我々の手法は最先端の単ドメインおよびクロスドメインレコメンデーション手法と比較して効率的で堅牢でスケーラブルであることが示された。 A cross-domain recommendation has shown promising results in solving data-sparsity and cold-start problems. Despite such progress, existing methods focus on domain-shareable information (overlapped users or same contexts) for a knowledge transfer, and they fail to generalize well without such requirements. To deal with these problems, we suggest utilizing review texts that are general to most e-commerce systems. Our model (named SER) uses three text analysis modules, guided by a single domain discriminator for disentangled representation learning. Here, we suggest a novel optimization strategy that can enhance the quality of domain disentanglement, and also debilitates detrimental information of a source domain. Also, we extend the encoding network from a single to multiple domains, which has proven to be powerful for review-based recommender systems. Extensive experiments and ablation studies demonstrate that our method is efficient, robust, and scalable compared to the state-of-the-art single and cross-domain recommendation methods. | 翻訳日:2023-04-13 19:31:32 公開日:2023-04-12 |
# 曲率アウェアデリバティブフリー最適化 Curvature-Aware Derivative-Free Optimization ( http://arxiv.org/abs/2109.13391v2 ) ライセンス: Link先を確認 | Bumsu Kim, HanQin Cai, Daniel McKenzie, Wotao Yin | (参考訳) 本稿では、勾配や方向微分へのアクセスを伴わない関数の最小化を伴う微分自由最適化(DFO)について論じる。
Nelder-Meadやダイレクトサーチといった勾配に基づく手法を模倣した古典的なDFO法は、高次元問題に対するスケーラビリティを制限している。
大規模機械学習アプリケーションの需要により,ゼロオーダー法が人気を集めており,本研究ではステップサイズ$\alpha_k$を選択することに焦点を当てている。
提案手法はCurvature-Aware Random Search (CARS) と呼ばれ, 1階と2階の差分近似を用いて候補の$\alpha_{+}$を計算する。
強凸対象関数に対しては, 探索方向が極めて穏やかな条件を満たす分布から引き出されるように, 車体が線形収束することを示す。
また、CARS の立方正規化変種である CARS-CR も、強い凸性の仮定なしで$\mathcal{O}(k^{-1})$ の速度で収束する。
数値実験により、CARSとCARS-CRは、ベンチマーク問題セットの最先端と一致するか、あるいは超えることを示した。 The paper discusses derivative-free optimization (DFO), which involves minimizing a function without access to gradients or directional derivatives, only function evaluations. Classical DFO methods, which mimic gradient-based methods, such as Nelder-Mead and direct search have limited scalability for high-dimensional problems. Zeroth-order methods have been gaining popularity due to the demands of large-scale machine learning applications, and the paper focuses on the selection of the step size $\alpha_k$ in these methods. The proposed approach, called Curvature-Aware Random Search (CARS), uses first- and second-order finite difference approximations to compute a candidate $\alpha_{+}$. We prove that for strongly convex objective functions, CARS converges linearly provided that the search direction is drawn from a distribution satisfying very mild conditions. We also present a Cubic Regularized variant of CARS, named CARS-CR, which converges in a rate of $\mathcal{O}(k^{-1})$ without the assumption of strong convexity. Numerical experiments show that CARS and CARS-CR match or exceed the state-of-the-arts on benchmark problem sets. | 翻訳日:2023-04-13 19:30:32 公開日:2023-04-12 |
# 最近のFew-Shotオブジェクト検出アルゴリズム:性能比較による調査 Recent Few-Shot Object Detection Algorithms: A Survey with Performance Comparison ( http://arxiv.org/abs/2203.14205v2 ) ライセンス: Link先を確認 | Tianying Liu, Lu Zhang, Yang Wang, Jihong Guan, Yanwei Fu, Jiajia Zhao, Shuigeng Zhou | (参考訳) ジェネリックオブジェクト検出(GOD)タスクは、いくつかの一般的なクラスからの注釈付きトレーニングサンプルの雪崩によってトレーニングされた、最近のディープニューラルネットワークによってうまく取り組まれている。
しかし、これらの物体検出器を、ラベル付きトレーニングサンプルがほとんどない新しいロングテールオブジェクトクラスに一般化することは、いまだに自明ではない。
この目的のために、Few-Shot Object Detection (FSOD) は、人間の学習能力を模倣し、学習対象の知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに伝達するものとして、最近話題となっている。
特に、この新興分野の研究は近年盛んであり、様々なベンチマーク、バックボーン、方法論が提案されている。
これらのFSODの成果を概観するために,FSOD の調査論文 [58, 59, 74, 78] を,微調整/トランスファー学習とメタラーニング手法の群として体系的に比較した。
対照的に,既存のfsodアルゴリズムを,データ指向,モデル指向,アルゴリズム指向といった貢献に基づく新たな分類法の下で,新たな視点から検討する。
そこで,最近のFSODの業績について,性能比較による総合的な調査を行った。
さらに,これらの手法の技術的課題,メリット,デメリットを分析し,FSODの今後の方向性を考察する。
具体的には、問題定義、共通データセット、評価プロトコルを含むFSODの概要を示す。
分類学は、FSOD法を3つのタイプに分類する。
この分類に続き、FSODの進歩を体系的にレビューする。
最後に,パフォーマンス,課題,今後の方向性に関するさらなる議論を行う。 The generic object detection (GOD) task has been successfully tackled by recent deep neural networks, trained by an avalanche of annotated training samples from some common classes. However, it is still non-trivial to generalize these object detectors to the novel long-tailed object classes, which have only few labeled training samples. To this end, the Few-Shot Object Detection (FSOD) has been topical recently, as it mimics the humans' ability of learning to learn, and intelligently transfers the learned generic object knowledge from the common heavy-tailed, to the novel long-tailed object classes. Especially, the research in this emerging field has been flourishing in recent years with various benchmarks, backbones, and methodologies proposed. To review these FSOD works, there are several insightful FSOD survey articles [58, 59, 74, 78] that systematically study and compare them as the groups of fine-tuning/transfer learning, and meta-learning methods. In contrast, we review the existing FSOD algorithms from a new perspective under a new taxonomy based on their contributions, i.e., data-oriented, model-oriented, and algorithm-oriented. Thus, a comprehensive survey with performance comparison is conducted on recent achievements of FSOD. Furthermore, we also analyze the technical challenges, the merits and demerits of these methods, and envision the future directions of FSOD. Specifically, we give an overview of FSOD, including the problem definition, common datasets, and evaluation protocols. The taxonomy is then proposed that groups FSOD methods into three types. Following this taxonomy, we provide a systematic review of the advances in FSOD. Finally, further discussions on performance, challenges, and future directions are presented. | 翻訳日:2023-04-13 19:25:19 公開日:2023-04-12 |
# 単一モードキャビティに強く結合した2レベル人工原子からの共鳴蛍光 Resonance Fluorescence from a two-level artificial atom strongly coupled to a single-mode cavity ( http://arxiv.org/abs/2202.12080v4 ) ライセンス: Link先を確認 | Z.H. Peng and D. He and Y. Zhou and J.H. Ding and J. Lu and L. Zhou and J.Q. Liao and L.M. Kuang and Yu-xi Liu and Oleg V. Astafiev and J.S. Tsai | (参考訳) 単モードキャビティ場に強く結合した2レベル人工原子の共鳴蛍光を実験的に実証した。
この効果は30年前にサヴェージ(Phys. Lett. 63, 1376 (1989))によって理論的に予測された。
このシステムは超伝導量子ビット回路と1次元伝送線路共振器からなる。
さらに、原子に強く結合した1次元の伝送線が開空間として機能する。
この効果は、マイクロ波が空洞に印加され、原子に共鳴的に結合されるときに起こる。
蛍光スペクトルは、透過線への放射によって測定される。
中心ピークは開空間への原子自然放出によって決定され、側ピークの幅は、原子と空洞の間のコヒーレント相互作用、すなわち、ここでの蛍光スペクトルとモロー三重項のスペクトルとは大きく異なることにより決定される。
また、スペクトルの分析形式も導出します。
実験結果は理論計算とよく一致する。 We experimentally demonstrate the resonance fluorescence of a two-level artificial atom strongly coupled to a single-mode cavity field. The effect was theoretically predicted thirty years ago by Savage [Phys. Rev. Lett. 63, 1376 (1989)]. The system consists of a superconducting qubit circuit and a one-dimensional transmission line resonator. In addition, a one-dimensional transmission line strongly coupled to the atom serves as an open space. The effect takes place, when a microwave field is applied to the cavity, which in turn is resonantly coupled to the atom. The fluorescence spectrum is measured via the emission into the transmission line. We find that the central peak is determined by the atom spontaneous emission to the open space and the widths of side peaks are largely determined by the coherent interaction between the atom and the cavity, that is, the fluorescence spectrum here is very different from that of the Mollow triplet. We also derive analytical form for the spectrum. Our experimental results agree well with theoretical calculations. | 翻訳日:2023-04-13 19:24:28 公開日:2023-04-12 |
# OLIVE: スパシフィケーションのリスクに対する信頼された実行環境に関するオープンなフェデレーションラーニング OLIVE: Oblivious Federated Learning on Trusted Execution Environment against the risk of sparsification ( http://arxiv.org/abs/2202.07165v4 ) ライセンス: Link先を確認 | Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa | (参考訳) FL(Federated Learning)とTrusted Execution Environment(TEE)を組み合わせることは、近年大きな学術的注目を集めているプライバシー保護FLを実現するための有望なアプローチである。
サーバ側でTEEを実装することで、クライアントの勾配情報を信頼できないサーバに公開することなく、FLの各ラウンドを進行させることができる。
これにより、既存のセキュアアグリゲーションスキームにおけるユーザビリティギャップと、差分プライベートflにおけるユーティリティギャップが解決される。
しかし、TEEを使ってこの問題に対処するには、サーバーサイドのTEEの脆弱性を考慮する必要がある。
本研究の主な技術的貢献は、FLおよび防衛におけるTEEの脆弱性の分析である。
まず,メモリアクセスパターンの漏洩を理論的に解析し,通信効率とモデル精度を高めるためにFLで一般的に使用されるスカラー化勾配のリスクを明らかにする。
第2に,トレーニングデータセット内のセンシティブな情報にメモリアクセスパターンをリンクする推論攻撃を考案する。
最後に,メモリアクセスパターンの漏洩を防止し,かつ効率的なアグリゲーションアルゴリズムを提案する。
実世界データを用いた実験により,提案手法が実用的なスケールで効率的に機能することを示す。 Combining Federated Learning (FL) with a Trusted Execution Environment (TEE) is a promising approach for realizing privacy-preserving FL, which has garnered significant academic attention in recent years. Implementing the TEE on the server side enables each round of FL to proceed without exposing the client's gradient information to untrusted servers. This addresses usability gaps in existing secure aggregation schemes as well as utility gaps in differentially private FL. However, to address the issue using a TEE, the vulnerabilities of server-side TEEs need to be considered -- this has not been sufficiently investigated in the context of FL. The main technical contribution of this study is the analysis of the vulnerabilities of TEE in FL and the defense. First, we theoretically analyze the leakage of memory access patterns, revealing the risk of sparsified gradients, which are commonly used in FL to enhance communication efficiency and model accuracy. Second, we devise an inference attack to link memory access patterns to sensitive information in the training dataset. Finally, we propose an oblivious yet efficient aggregation algorithm to prevent memory access pattern leakage. Our experiments on real-world data demonstrate that the proposed method functions efficiently in practical scales. | 翻訳日:2023-04-13 19:24:13 公開日:2023-04-12 |
# ゼロサムニューロシンボリック同時確率ゲームのための戦略合成 Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games ( http://arxiv.org/abs/2202.06255v5 ) ライセンス: Link先を確認 | Rui Yan, Gabriel Santos, Gethin Norman, David Parker and Marta Kwiatkowska | (参考訳) ニューラルネットワークと古典的な記号技法を組み合わせた人工知能へのニューロシンボリックアプローチは、その正しさを判断するために正式なアプローチを必要とする。
本稿では,ニューラル・シンボリック・コンカレント・確率ゲーム (NS-CSG) と呼ばれる,ニューラル・ネットワーク (NN) として実装された知覚機構を通して観測される共有連続状態環境において相互作用する確率的有限状態エージェントからなるモデリング形式を提案する。
本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,このモデルの成分に対する一括的制約の下でゼロサム割引累積報酬に対する値関数の存在と可測性を示す。
価値を計算し,戦略を合成するために,実装可能なバリューイテレーション (vi) とポリシーイテレーション (pi) のアルゴリズムを初めて提示し,連続状態csgのクラスを解く。
これらは環境のNN知覚機構の前像の有限表現を必要とし、VIまたはPIの下で閉じた値関数と戦略の有限抽象表現に依存する。
まず、値関数のBorel測定可能なピースワイズ定数(B-PWC)表現を導入し、ミニマックスバックアップをこの表現に拡張し、B-PWC VIを提案する。
第二に、値関数と戦略に対する2つの新しい表現、それぞれ定数ピースリニア(CON-PWL)と定数ピースリニア(CON-PWC)を導入し、有限状態空間のプレイヤー選択の交互化に基づく最近のPI法をボレル状態空間に拡張し、通常の形式ゲームを必要としないミニマックスアクションフリーPIを提案する。
提案手法は,b-pwc viアルゴリズムのプロトタイプ実装を用いて,およそ最適戦略を生成することで,動的車両パーキングの例を示す。 Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise probabilistic finite-state agents interacting in a shared continuous-state environment observed through perception mechanisms implemented as neural networks (NNs). We focus on the class of NS-CSGs with Borel state spaces and prove the existence and measurability of the value function for zero-sum discounted cumulative rewards under piecewise-constant restrictions on the components of this class of models. To compute values and synthesise strategies, we present, for the first time, implementable value iteration (VI) and policy iteration (PI) algorithms to solve a class of continuous-state CSGs. These require a finite representation of the pre-image of the environment's NN perception mechanism and rely on finite abstract representations of value functions and strategies closed under VI or PI. First, we introduce a Borel measurable piecewise-constant (B-PWC) representation of value functions, extend minimax backups to this representation and propose B-PWC VI. Second, we introduce two novel representations for the value functions and strategies, constant-piecewise-linear (CON-PWL) and constant-piecewise-constant (CON-PWC) respectively, and propose Minimax-action-free PI by extending a recent PI method based on alternating player choices for finite state spaces to Borel state spaces, which does not require normal-form games to be solved. We illustrate our approach with a dynamic vehicle parking example by generating approximately optimal strategies using a prototype implementation of the B-PWC VI algorithm. | 翻訳日:2023-04-13 19:23:54 公開日:2023-04-12 |
# ランダムな量子ゲートの普遍集合の行列濃度不等式と効率 Matrix concentration inequalities and efficiency of random universal sets of quantum gates ( http://arxiv.org/abs/2202.05371v3 ) ライセンス: Link先を確認 | Piotr Dulian and Adam Sawicki | (参考訳) 量子ゲートのランダム集合 $\mathcal{s} \subset u(d)$ に対して、$\mathcal{s}$ が $\delta$-approximate $t$-design となる確率の境界を与える。
In particular we have found that for $\mathcal{S}$ drawn from an exact $t$-design the probability that it forms a $\delta$-approximate $t$-design satisfies the inequality $\mathbb{P}\left(\delta \geq x \right)\leq 2D_t \, \frac{e^{-|\mathcal{S}| x \, \mathrm{arctanh}(x)}}{(1-x^2)^{|\mathcal{S}|/2}} = O\left( 2D_t \left( \frac{e^{-x^2}}{\sqrt{1-x^2}} \right)^{|\mathcal{S}|} \right)$, where $D_t$ is a sum over dimensions of unique irreducible representations appearing in the decomposition of $U \mapsto U^{\otimes t}\otimes \bar{U}^{\otimes t}$.
この結果を用いて、確率$p$ で$\delta$-approximate $t$-design を得るには、$o( \delta^{-2}(t\log(d)-\log(1-p))) 個のランダムゲートが必要であることを示す。
また、$\delta$はその期待値$\mathbb{E}\delta$ for random $\mathcal{S}$にどのように集中するかを分析する。
我々の結果は対称ゲートと非対称ゲートの両方に対して有効である。 For a random set $\mathcal{S} \subset U(d)$ of quantum gates we provide bounds on the probability that $\mathcal{S}$ forms a $\delta$-approximate $t$-design. In particular we have found that for $\mathcal{S}$ drawn from an exact $t$-design the probability that it forms a $\delta$-approximate $t$-design satisfies the inequality $\mathbb{P}\left(\delta \geq x \right)\leq 2D_t \, \frac{e^{-|\mathcal{S}| x \, \mathrm{arctanh}(x)}}{(1-x^2)^{|\mathcal{S}|/2}} = O\left( 2D_t \left( \frac{e^{-x^2}}{\sqrt{1-x^2}} \right)^{|\mathcal{S}|} \right)$, where $D_t$ is a sum over dimensions of unique irreducible representations appearing in the decomposition of $U \mapsto U^{\otimes t}\otimes \bar{U}^{\otimes t}$. We use our results to show that to obtain a $\delta$-approximate $t$-design with probability $P$ one needs $O( \delta^{-2}(t\log(d)-\log(1-P)))$ many random gates. We also analyze how $\delta$ concentrates around its expected value $\mathbb{E}\delta$ for random $\mathcal{S}$. Our results are valid for both symmetric and non-symmetric sets of gates. | 翻訳日:2023-04-13 19:23:17 公開日:2023-04-12 |
# 偽零点によるスパースマルチウェイカウントデータに対するゼロトランク付きポアソン回帰 Zero-Truncated Poisson Regression for Sparse Multiway Count Data Corrupted by False Zeros ( http://arxiv.org/abs/2201.10014v2 ) ライセンス: Link先を確認 | Oscar L\'opez, Daniel M. Dunlavy, Richard B. Lehoucq | (参考訳) 本稿では,真のゼロカウントとは区別がつかない偽の零点によって崩壊する多元数データに対する新しい統計的推論手法を提案する。
我々のアプローチはポアソン分布をゼロに切り換えてすべてのゼロ値を無視している。
この単純な切り詰められたアプローチは、真と偽のゼロカウントを区別する必要がなく、処理されるデータの量を減らす。
推論はポアソンパラメータ空間に低ランクテンソル構造を課すテンソル完全性によって達成される。
我々の主な結果は、N$-way rank-$R$ parametric tensor $\boldsymbol{\mathscr{M}}\in(0,\infty)^{I\times \cdots\times I}$$ Poisson observedを、約$IR^2\log_2^2(I)$ non-zero countsの非負の正準ポリアディック分解によるゼロトランカクテッドポアソン回帰によって正確に推定できることを示している。
また,パラメータが下から一様に有界である場合,ポアソン分布をゼロトラッピングすることで得られる誤差を定量化する。
そこで, 低ランクマルチパラメータモデルを用いて, 偽零点による実質的破損を伴う未決定シナリオにおいて, 精度の高い回帰を実現するための実装可能な手法を提案する。
理論的な結果を調べるためにいくつかの数値実験が行われた。 We propose a novel statistical inference methodology for multiway count data that is corrupted by false zeros that are indistinguishable from true zero counts. Our approach consists of zero-truncating the Poisson distribution to neglect all zero values. This simple truncated approach dispenses with the need to distinguish between true and false zero counts and reduces the amount of data to be processed. Inference is accomplished via tensor completion that imposes low-rank tensor structure on the Poisson parameter space. Our main result shows that an $N$-way rank-$R$ parametric tensor $\boldsymbol{\mathscr{M}}\in(0,\infty)^{I\times \cdots\times I}$ generating Poisson observations can be accurately estimated by zero-truncated Poisson regression from approximately $IR^2\log_2^2(I)$ non-zero counts under the nonnegative canonical polyadic decomposition. Our result also quantifies the error made by zero-truncating the Poisson distribution when the parameter is uniformly bounded from below. Therefore, under a low-rank multiparameter model, we propose an implementable approach guaranteed to achieve accurate regression in under-determined scenarios with substantial corruption by false zeros. Several numerical experiments are presented to explore the theoretical results. | 翻訳日:2023-04-13 19:22:11 公開日:2023-04-12 |
# ノイズレスおよびノイズの多いプログラマブル量子プロセッサの熱状態の準備 Preparing thermal states on noiseless and noisy programmable quantum processors ( http://arxiv.org/abs/2112.14688v2 ) ライセンス: Link先を確認 | Oles Shtanko, Ramis Movassagh | (参考訳) 自然は正確な物理法則によって支配され、新しいコンピュータ実行シミュレーションアルゴリズムの発見を促すことができる。
熱状態は物質の平衡状態であるため最もユビキタスである。
量子物質の熱状態のシミュレーションには、量子機械学習から高温超伝導や量子化学の理解を深める応用がある。
このタスクの計算複雑性は、古典的なコンピュータでは絶望的に難しい。
既存の量子アルゴリズムには注意事項がある: ほとんどは量子位相推定が必要で、現在のうるさいハードウェアでは実用的でないか、初期化、不毛高原、証明可能な保証の一般的な欠如といった障害に直面した変分である。
我々は、これらの欠点を避けるために、(短期)量子コンピュータ上で熱状態を作成することが保証される2つの量子アルゴリズムを提供する。
最初のアルゴリズムは、アシラキュービットが無限の熱浴として機能する自然熱化プロセスにインスパイアされている。
このアルゴリズムは多項式時間で実行でき、エルゴード系の熱分布をサンプリングすることができる。
第2のアルゴリズムは任意のシステムで動作し、一般に指数時間で実行される。
しかし、従来のアルゴリズムよりもはるかに小さな量子資源を必要とする。
さらに,両アルゴリズムがデコヒーレンス(decoherence)に対抗して,短期的な量子デバイス上でアルゴリズムを実行するための誤り軽減技術を提供する。
本稿では,次世代量子コンピュータにおけるハードコアBose-Hubbardモデルの熱状態のシミュレーションを行う。 Nature is governed by precise physical laws, which can inspire the discovery of new computer-run simulation algorithms. Thermal states are the most ubiquitous for they are the equilibrium states of matter. Simulating thermal states of quantum matter has applications ranging from quantum machine learning to better understanding of high-temperature superconductivity and quantum chemistry. The computational complexity of this task is hopelessly hard for classical computers. The existing quantum algorithms come with caveats: most either require quantum phase estimation rendering them impractical for current noisy hardware, or are variational which face obstacles such as initialization, barren plateaus, and a general lack of provable guarantee. We provide two quantum algorithms with provable guarantees to prepare thermal states on (near-term) quantum computers that avoid these drawbacks. The first algorithm is inspired by the natural thermalization process where the ancilla qubits act as the infinite thermal bath. This algorithm can potentially run in polynomial time to sample thermal distributions of ergodic systems -- the vast class of physical systems that equilibrate in isolation with respect to local observables. The second algorithm works for any system and in general runs in exponential time. However, it requires significantly smaller quantum resources than previous such algorithms. In addition, we provide an error mitigation technique for both algorithms to fight back decoherence, which enables us to run our algorithms on the near-term quantum devices. To illustration, we simulate the thermal state of the hardcore Bose-Hubbard model on the latest generation of available quantum computers. | 翻訳日:2023-04-13 19:21:45 公開日:2023-04-12 |
# TemporalWiki: 進化し続ける言語モデルのトレーニングと評価のための生涯ベンチマーク TemporalWiki: A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models ( http://arxiv.org/abs/2204.14211v3 ) ライセンス: Link先を確認 | Joel Jang, Seonghyeon Ye, Changho Lee, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, Minjoon Seo | (参考訳) 言語モデル(lms)は、世界が変化するにつれて時代遅れになり、訓練中に欠如または異なっていた最近の事実情報を必要とするタスクの実行に失敗する。
研究コミュニティには、ウィキペディアのような頻繁に更新された知識コーパスに対するLMの適応性を評価するための一貫性のあるデータセットがないため、これは特に難しい問題である。
そこで本研究では,英語ウィキペディアの連続スナップショットと英語ウィキデータとの差を利用した,生涯にわたるLMのベンチマークであるTemporalWikiを紹介した。
このベンチマークにより、研究者はLMの以前の知識を定期的に追跡し、各時点の更新/更新知識を取得することができる。
また、連続学習手法による差分データ上でのLMのトレーニングは、ベンチマークのスナップショット全体の12倍の計算コストで同様の、あるいはより複雑な処理を実現し、連続学習による最小限のトレーニングデータでLMの事実知識を安全に更新できることを確認する。
データセットとコードはhttps://github.com/joeljang/temporalwikiで入手できる。 Language Models (LMs) become outdated as the world changes; they often fail to perform tasks requiring recent factual information which was absent or different during training, a phenomenon called temporal misalignment. This is especially a challenging problem because the research community still lacks a coherent dataset for assessing the adaptability of LMs to frequently-updated knowledge corpus such as Wikipedia. To this end, we introduce TemporalWiki, a lifelong benchmark for ever-evolving LMs that utilizes the difference between consecutive snapshots of English Wikipedia and English Wikidata for training and evaluation, respectively. The benchmark hence allows researchers to periodically track an LM's ability to retain previous knowledge and acquire updated/new knowledge at each point in time. We also find that training an LM on the diff data through continual learning methods achieves similar or better perplexity than on the entire snapshot in our benchmark with 12 times less computational cost, which verifies that factual knowledge in LMs can be safely updated with minimal training data via continual learning. The dataset and the code are available at https://github.com/joeljang/temporalwiki. | 翻訳日:2023-04-13 19:14:16 公開日:2023-04-12 |
# ブロック系複素アダマール行列 Block-Circulant Complex Hadamard Matrices ( http://arxiv.org/abs/2204.11727v3 ) ライセンス: Link先を確認 | Wojciech Bruzda | (参考訳) ブロック循環構造に基づく次元$N\geqslant 7$に対する孤立複素アダマール行列(CHM)の列を得る新しい方法を提案する。
本稿では,Sinkhornアルゴリズムの修正によって得られたいくつかの解析例について論じる。
特に、新しく分離されたオーダーの行列を9ドル、10ドル、11ドルとし、要素はユニティのルーツではないし、新しい複数パラメトリックのオーダーのファミリも10ドルである。
特定の8次元行列間の新しい接続に注目し、$N\geqslant 7$に対するCHMの分類に対する新しい洞察を提供する。
これらのコントリビューションは、量子情報理論や、Mutually Unbiased Bases または Unitary Error Bases の新しいファミリーの構築において、実際の応用を見出すことができる。 A new method of obtaining a sequence of isolated complex Hadamard matrices (CHM) for dimensions $N\geqslant 7$, based on block-circulant structures, is presented. We discuss, several analytic examples resulted from a modification of the Sinkhorn algorithm. In particular, we present new isolated matrices of orders $9$, $10$ and $11$, which elements are not roots of unity, and also several new multiparametric families of order $10$. We note novel connections between certain eight-dimensional matrices and provide new insights towards classification of CHM for $N\geqslant 7$. These contributions can find real applications in Quantum Information Theory and constructions of new families of Mutually Unbiased Bases or Unitary Error Bases. | 翻訳日:2023-04-13 19:13:55 公開日:2023-04-12 |
# AutoMLBench: 自動機械学習フレームワークの総合的な実験的評価 AutoMLBench: A Comprehensive Experimental Evaluation of Automated Machine Learning Frameworks ( http://arxiv.org/abs/2204.08358v2 ) ライセンス: Link先を確認 | Hassan Eldeeb, Mohamed Maher, Radwa Elshawi, and Sherif Sakr | (参考訳) 機械学習アプリケーションの需要が急増する中で、知識のあるデータサイエンティストの数は、デジタル世界におけるデータボリュームやアプリケーションニーズの増大とともにスケールできないことが認識されている。
この要求に応えるために、機械学習パイプラインを構築するプロセスを自動化することで、人間の専門知識のギャップを埋めるために、いくつかの自動機械学習(AutoML)フレームワークが開発されている。
各フレームワークには、さまざまなヒューリスティックベースの設計決定が付属する。
本研究では,既存のAutoMLベンチマークスイートから得られた100データセットに対して,AutoWeka,AutoSKlearn,TPOT,Recipe,ATM,SmartMLの6つの人気フレームワークの性能評価と比較を行った。
実験評価では,時間予算,検索空間の大きさ,メタラーニング,アンサンブル構成など,いくつかの設計判断のパフォーマンスへの影響について検討した。
調査の結果から,AutoMLフレームワークの設計をガイドし,影響を与える,さまざまな興味深い洞察が得られた。 With the booming demand for machine learning applications, it has been recognized that the number of knowledgeable data scientists can not scale with the growing data volumes and application needs in our digital world. In response to this demand, several automated machine learning (AutoML) frameworks have been developed to fill the gap of human expertise by automating the process of building machine learning pipelines. Each framework comes with different heuristics-based design decisions. In this study, we present a comprehensive evaluation and comparison of the performance characteristics of six popular AutoML frameworks, namely, AutoWeka, AutoSKlearn, TPOT, Recipe, ATM, and SmartML, across 100 data sets from established AutoML benchmark suites. Our experimental evaluation considers different aspects for its comparison, including the performance impact of several design decisions, including time budget, size of search space, meta-learning, and ensemble construction. The results of our study reveal various interesting insights that can significantly guide and impact the design of AutoML frameworks. | 翻訳日:2023-04-13 19:13:43 公開日:2023-04-12 |
# マルチエージェント学習におけるcredoの重要性 The Importance of Credo in Multiagent Learning ( http://arxiv.org/abs/2204.07471v2 ) ライセンス: Link先を確認 | David Radke, Kate Larson, Tim Brecht | (参考訳) 本稿では,複数のグループ(チーム)に構成されたシステム内のエージェントに対する,多目的最適化のモデルであるクレドを提案する。
credoのモデルは、エージェントが属するグループに対する行動をどのように最適化するかを規定します。
我々は,強化学習エージェントを用いて社会ジレンマに挑戦する文脈でクレドを評価する。
結果から,チームメイトやシステム全体の利益は,グローバルな成果を達成するために完全に整合する必要はないことが示唆された。
我々は、すべてのエージェントの利益が一致している場合と比較して、高い平等と著しく高い平均人口報酬を達成する、完全な共通の関心を持たない2つのシナリオを特定する。 We propose a model for multi-objective optimization, a credo, for agents in a system that are configured into multiple groups (i.e., teams). Our model of credo regulates how agents optimize their behavior for the groups they belong to. We evaluate credo in the context of challenging social dilemmas with reinforcement learning agents. Our results indicate that the interests of teammates, or the entire system, are not required to be fully aligned for achieving globally beneficial outcomes. We identify two scenarios without full common interest that achieve high equality and significantly higher mean population rewards compared to when the interests of all agents are aligned. | 翻訳日:2023-04-13 19:13:27 公開日:2023-04-12 |
# 確率整合性と公正保証を用いたレコメンダシステムのためのテンソル補完 Tensor Completion with Provable Consistency and Fairness Guarantees for Recommender Systems ( http://arxiv.org/abs/2204.01815v3 ) ライセンス: Link先を確認 | Tung Nguyen and Jeffrey Uhlmann | (参考訳) 非負・正の行列とテンソル完備問題を定義・解決するための新しい一貫性に基づくアプローチを導入する。
フレームワークの新規性は、問題をアプリケーション・任意最適化問題という形で、人工的に適切に配置する代わりにいる。
例えば
階数やノルムなどのバルク構造的測度を最小化することにより、単元的整合性を維持し、解の存在を保証し、比較的弱い支持仮定の下では、一意性を示す。
フレームワークと解アルゴリズムは任意の次元のテンソルに直接一般化し、固定次元に対して問題サイズで線形な計算複雑性を維持している。
d.レコメンデータ・システム(RS)アプリケーションのコンテキストにおいて,RS問題に対する解決を期待すべき2つの妥当な特性が,我々のフレームワーク内で一意性を保証するのに十分であることを示す。
主要な理論的貢献には、その性質の証明を持つ一般単位整合テンソル補完フレームワークが含まれる。
例えば
コンセンサス順序と公正性、最適なランタイムと空間の複雑さを持つアルゴリズム。
例えば
行列/テンソルの既知の項の数で線形である前処理複雑性を伴うo(1)項補完。
現実的な見地から言えば、鍵状態変数間の高次元構造的関係を一般化するためのフレームワークのシームレスな能力である。
例えば
ユーザと製品属性は、直接のユーザと製品の関係を超越して一般化できない代替手法において、可能以上の情報を抽出する手段を提供する。
最後に,提案するrs法の許容基準として,コンセンサス順序付け特性を提案する。 We introduce a new consistency-based approach for defining and solving nonnegative/positive matrix and tensor completion problems. The novelty of the framework is that instead of artificially making the problem well-posed in the form of an application-arbitrary optimization problem, e.g., minimizing a bulk structural measure such as rank or norm, we show that a single property/constraint: preserving unit-scale consistency, guarantees the existence of both a solution and, under relatively weak support assumptions, uniqueness. The framework and solution algorithms also generalize directly to tensors of arbitrary dimensions while maintaining computational complexity that is linear in problem size for fixed dimension d. In the context of recommender system (RS) applications, we prove that two reasonable properties that should be expected to hold for any solution to the RS problem are sufficient to permit uniqueness guarantees to be established within our framework. Key theoretical contributions include a general unit-consistent tensor-completion framework with proofs of its properties, e.g., consensus-order and fairness, and algorithms with optimal runtime and space complexities, e.g., O(1) term-completion with preprocessing complexity that is linear in the number of known terms of the matrix/tensor. From a practical perspective, the seamless ability of the framework to generalize to exploit high-dimensional structural relationships among key state variables, e.g., user and product attributes, offers a means for extracting significantly more information than is possible for alternative methods that cannot generalize beyond direct user-product relationships. Finally, we propose our consensus ordering property as an admissibility criterion for any proposed RS method. | 翻訳日:2023-04-13 19:12:41 公開日:2023-04-12 |
# 広量子ニューラルネットワークのダイナミクスに関する解析理論 Analytic theory for the dynamics of wide quantum neural networks ( http://arxiv.org/abs/2203.16711v3 ) ライセンス: Link先を確認 | Junyu Liu, Khadijeh Najafi, Kunal Sharma, Francesco Tacchino, Liang Jiang, Antonio Mezzacapo | (参考訳) パラメタライズド量子回路は量子ニューラルネットワークとして使用することができ、学習問題に対処するために訓練された場合、古典的な量子回路よりも優れる可能性がある。
これまでのところ、実践的な問題におけるパフォーマンスに関する結果は、本質的にヒューリスティックである。
特に、量子ニューラルネットワークのトレーニングの収束率は、完全には理解されていない。
本稿では,変分量子機械学習モデルの訓練誤差に対する勾配降下のダイナミクスを解析する。
広い量子ニューラルネットワークを、多数の量子ビットと変動パラメータの極限におけるパラメータ化量子回路として定義する。
次に、損失関数の平均的な挙動を捉える単純な解析式を見つけ、その結果について考察する。
例えば、ランダムな量子回路では、残差トレーニング誤差の指数的減衰をシステムのパラメータの関数として予測し、特徴付ける。
解析結果を数値実験により検証した。 Parameterized quantum circuits can be used as quantum neural networks and have the potential to outperform their classical counterparts when trained for addressing learning problems. To date, much of the results on their performance on practical problems are heuristic in nature. In particular, the convergence rate for the training of quantum neural networks is not fully understood. Here, we analyze the dynamics of gradient descent for the training error of a class of variational quantum machine learning models. We define wide quantum neural networks as parameterized quantum circuits in the limit of a large number of qubits and variational parameters. We then find a simple analytic formula that captures the average behavior of their loss function and discuss the consequences of our findings. For example, for random quantum circuits, we predict and characterize an exponential decay of the residual training error as a function of the parameters of the system. We finally validate our analytic results with numerical experiments. | 翻訳日:2023-04-13 19:11:47 公開日:2023-04-12 |
# ニューラルデータ・テキスト生成のイノベーション:サーベイ Innovations in Neural Data-to-text Generation: A Survey ( http://arxiv.org/abs/2207.12571v2 ) ライセンス: Link先を確認 | Mandar Sharma, Ajay Gogineni, Naren Ramakrishnan | (参考訳) 過去10年間に自然言語処理(NLP)研究を引き起こした神経ブームは、同様に、データ・テキスト生成(DTG)に大きな革新をもたらした。
本調査は,アプローチ,ベンチマークデータセット,評価プロトコルの構造化検討を通じて,ニューラルネットワークのdtgパラダイムへの統合ビューを提供する。
この調査は、DTGを他の自然言語生成(NLG)の風景から切り離す境界線を描き、文献の最新の合成を包含し、より大きなNLG傘の内外からの技術的採用のステージを強調した。
この包括的視点では、言語能力のあるシステムの設計だけでなく、公平性と説明責任を示すシステムにも焦点をあてたdtg研究の有望な道筋を強調する。 The neural boom that has sparked natural language processing (NLP) research through the last decade has similarly led to significant innovations in data-to-text generation (DTG). This survey offers a consolidated view into the neural DTG paradigm with a structured examination of the approaches, benchmark datasets, and evaluation protocols. This survey draws boundaries separating DTG from the rest of the natural language generation (NLG) landscape, encompassing an up-to-date synthesis of the literature, and highlighting the stages of technological adoption from within and outside the greater NLG umbrella. With this holistic view, we highlight promising avenues for DTG research that not only focus on the design of linguistically capable systems but also systems that exhibit fairness and accountability. | 翻訳日:2023-04-13 19:05:47 公開日:2023-04-12 |
# 機械学習におけるランクベースの分解可能な損失:調査 Rank-based Decomposable Losses in Machine Learning: A Survey ( http://arxiv.org/abs/2207.08768v2 ) ライセンス: Link先を確認 | Shu Hu, Xin Wang, Siwei Lyu | (参考訳) 最近の研究で、個々の損失と集約損失を区別する損失関数を設計する上で不可欠なパラダイムが明らかになった。
個々の損失はサンプルのモデルの品質を測定し、集合的損失は各トレーニングサンプルに対する個々の損失/スコアを結合する。
どちらも、個々の値の集合を単一の数値に集約する共通の手順を持っている。
ランキング順は、設計損失における個々の値の最も基本的な関係を反映している。
さらに、損失を個々の項の集合に分解できる分解可能性(decomposability)は、損失/スコアを整理する重要な特性となる。
この調査は、機械学習におけるランクベースの分解可能な損失の体系的で包括的なレビューを提供する。
具体的には,集合的損失と個人的損失の観点に従う損失関数の新しい分類法を提案する。
集合関数の例であるそのような損失を形成するためにアグリゲータを識別する。
ランクベースの分解可能な損失を8つのカテゴリに分類する。
これらのカテゴリに従い、ランクベース総損失とランクベースの個人損失に関する文献をレビューする。
これらの損失の一般式を記述し,既存の研究課題と結びつける。
また,非探索的・残存的・新たな課題にまたがる今後の研究の方向性も提案する。 Recent works have revealed an essential paradigm in designing loss functions that differentiate individual losses vs. aggregate losses. The individual loss measures the quality of the model on a sample, while the aggregate loss combines individual losses/scores over each training sample. Both have a common procedure that aggregates a set of individual values to a single numerical value. The ranking order reflects the most fundamental relation among individual values in designing losses. In addition, decomposability, in which a loss can be decomposed into an ensemble of individual terms, becomes a significant property of organizing losses/scores. This survey provides a systematic and comprehensive review of rank-based decomposable losses in machine learning. Specifically, we provide a new taxonomy of loss functions that follows the perspectives of aggregate loss and individual loss. We identify the aggregator to form such losses, which are examples of set functions. We organize the rank-based decomposable losses into eight categories. Following these categories, we review the literature on rank-based aggregate losses and rank-based individual losses. We describe general formulas for these losses and connect them with existing research topics. We also suggest future research directions spanning unexplored, remaining, and emerging issues in rank-based decomposable losses. | 翻訳日:2023-04-13 19:05:32 公開日:2023-04-12 |
# 時間的注意ユニット:時空間予測学習の効率化を目指して Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.12126v3 ) ライセンス: Link先を確認 | Cheng Tan, Zhangyang Gao, Lirong Wu, Yongjie Xu, Jun Xia, Siyuan Li, Stan Z. Li | (参考訳) 時空間予測学習は、歴史的枠組みから学習することで将来のフレームを生成することを目的としている。
本稿では,既存の手法を調査し,空間エンコーダとデコーダがフレーム内特徴を捉え,中間時間モジュールがフレーム間相関を捉える時空間予測学習の一般的な枠組みを提案する。
主流の手法は長期の時間的依存を捉えるために繰り返し単位を用いるが、並列化不可能なアーキテクチャのために計算効率が低い。
時間的モジュールを並列化するために,時間的注意をフレーム内静的な注意とフレーム間動的注意に分解する時間的注意ユニット(TAU)を提案する。
さらに、平均二乗誤差損失はフレーム内誤差に焦点をあてる一方で、フレーム間変動を考慮した新しい差分分岐正規化を導入する。
大規模な実験により,提案手法により,種々の時空間予測ベンチマークにおいて,導出モデルによる競合性能の達成が可能となった。 Spatiotemporal predictive learning aims to generate future frames by learning from historical frames. In this paper, we investigate existing methods and present a general framework of spatiotemporal predictive learning, in which the spatial encoder and decoder capture intra-frame features and the middle temporal module catches inter-frame correlations. While the mainstream methods employ recurrent units to capture long-term temporal dependencies, they suffer from low computational efficiency due to their unparallelizable architectures. To parallelize the temporal module, we propose the Temporal Attention Unit (TAU), which decomposes the temporal attention into intra-frame statical attention and inter-frame dynamical attention. Moreover, while the mean squared error loss focuses on intra-frame errors, we introduce a novel differential divergence regularization to take inter-frame variations into account. Extensive experiments demonstrate that the proposed method enables the derived model to achieve competitive performance on various spatiotemporal prediction benchmarks. | 翻訳日:2023-04-13 19:04:47 公開日:2023-04-12 |
# NusaX: インドネシアの10のローカル言語のための多言語並列感データセット NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages ( http://arxiv.org/abs/2205.15960v2 ) ライセンス: Link先を確認 | Genta Indra Winata, Alham Fikri Aji, Samuel Cahyawijaya, Rahmad Mahendra, Fajri Koto, Ade Romadhony, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Pascale Fung, Timothy Baldwin, Jey Han Lau, Rico Sennrich, Sebastian Ruder | (参考訳) 自然言語処理(nlp)は機械翻訳や検索エンジンといった技術によって社会に大きな影響を与える。
その成功にもかかわらず、NLP技術は英語や中国語のような高リソース言語でしか利用できないが、データリソースやベンチマークが利用できないため、多くの言語で利用できない。
本研究は,インドネシアにおける言語資源の開発に焦点をあてる。
最も言語的に多様であるにもかかわらず、インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
我々はインドネシアで10の低リソース言語で最初の並列リソースを開発する。
私たちのリソースには、データセット、マルチタスクベンチマーク、レキシコン、並列インドネシア英語データセットが含まれています。
このような資源を創出する際の課題について,広範な分析と解説を行う。
インドネシアや他の少数言語に関するNLP研究のきっかけになることを期待しています。 Natural language processing (NLP) has a significant impact on society via technologies such as machine translation and search engines. Despite its success, NLP technology is only widely available for high-resource languages such as English and Chinese, while it remains inaccessible to many languages due to the unavailability of data resources and benchmarks. In this work, we focus on developing resources for languages in Indonesia. Despite being the second most linguistically diverse country, most languages in Indonesia are categorized as endangered and some are even extinct. We develop the first-ever parallel resource for 10 low-resource languages in Indonesia. Our resource includes datasets, a multi-task benchmark, and lexicons, as well as a parallel Indonesian-English dataset. We provide extensive analyses and describe the challenges when creating such resources. We hope that our work can spark NLP research on Indonesian and other underrepresented languages. | 翻訳日:2023-04-13 19:04:23 公開日:2023-04-12 |
# 非摂食型摂動型ポストホック説明器 Unfooling Perturbation-Based Post Hoc Explainers ( http://arxiv.org/abs/2205.14772v3 ) ライセンス: Link先を確認 | Zachariah Carmichael, Walter J Scheirer | (参考訳) 人工知能(AI)の目覚ましい進歩は、医師、貸し手、裁判官、その他の専門家の関心を引き付けている。
これらの高度な意思決定者はテクノロジーについて楽観的であるが、AIシステムに詳しい人々は、意思決定プロセスの透明性の欠如に警戒している。
摂動に基づくポストホック説明器は、クエリレベルのアクセスのみを必要としながら、これらのシステムを解釈するモデルに依存しない手段を提供する。
しかし、近年の研究は、これらの説明者は逆さまに騙される可能性があることを実証している。
この発見は監査人、規制当局、その他のセンチネルに悪影響を及ぼす。
このことを念頭に置いて、いくつかの自然な疑問 - これらのブラックボックスシステムを監査するにはどうすればよいのか?
そして、監査人が誠実に監査に従っていることをどうやって確認できますか。
本研究では,この問題を厳格に定式化し,摂動型説明器に対する敵攻撃に対する防御を考案する。
我々は,これらの攻撃の検出(CAD-Detect)と防御(CAD-Defend)のためのアルゴリズムを提案する。
提案手法は,ブラックボックスが意思決定過程を逆行的に隠蔽するか否かを検知し,実世界のデータに対する敵攻撃を緩和するものである。 Monumental advancements in artificial intelligence (AI) have lured the interest of doctors, lenders, judges, and other professionals. While these high-stakes decision-makers are optimistic about the technology, those familiar with AI systems are wary about the lack of transparency of its decision-making processes. Perturbation-based post hoc explainers offer a model agnostic means of interpreting these systems while only requiring query-level access. However, recent work demonstrates that these explainers can be fooled adversarially. This discovery has adverse implications for auditors, regulators, and other sentinels. With this in mind, several natural questions arise - how can we audit these black box systems? And how can we ascertain that the auditee is complying with the audit in good faith? In this work, we rigorously formalize this problem and devise a defense against adversarial attacks on perturbation-based explainers. We propose algorithms for the detection (CAD-Detect) and defense (CAD-Defend) of these attacks, which are aided by our novel conditional anomaly detection approach, KNN-CAD. We demonstrate that our approach successfully detects whether a black box system adversarially conceals its decision-making process and mitigates the adversarial attack on real-world data for the prevalent explainers, LIME and SHAP. | 翻訳日:2023-04-13 19:04:10 公開日:2023-04-12 |
# NLP技術の多様性・等価性・包含性の評価:インドの言語を事例として Evaluating the Diversity, Equity and Inclusion of NLP Technology: A Case Study for Indian Languages ( http://arxiv.org/abs/2205.12676v3 ) ライセンス: Link先を確認 | Simran Khanuja, Sebastian Ruder, Partha Talukdar | (参考訳) NLP技術が広く適用され、公平で有用なものにするためには、世界中の様々な話者、すなわち特定の言語に不適切な偏見を持たず、特に計算制約が一般的である低リソース環境において、すべてのユーザを包括的に扱う必要がある。
本稿では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。
多様性と包摂性は近年の文献で注目されているが、株式は現在未調査である。
社会的な富の不平等を推定するためによく確立された指標であるジニ係数を用いて,このギャップに対処することを提案する。
本パラダイムでは,インド(IN)言語(言語的に大きく多様であり,話者数も様々である)の現在の技術の現状を3次元にわたって強調する。
これらのメトリクスを改善するために,モデル構築とデータセット作成において,地域固有の選択の重要性を実証し,さらに重要なこととして,最適リソース割り当てのための新しい汎用的手法を提案する。
最後に,これらのバイアスを緩和するためのステップについて議論し,言語学的に多様で平等な技術を構築する際に,多面的な評価を行うことをコミュニティに促す。 In order for NLP technology to be widely applicable, fair, and useful, it needs to serve a diverse set of speakers across the world's languages, be equitable, i.e., not unduly biased towards any particular language, and be inclusive of all users, particularly in low-resource settings where compute constraints are common. In this paper, we propose an evaluation paradigm that assesses NLP technologies across all three dimensions. While diversity and inclusion have received attention in recent literature, equity is currently unexplored. We propose to address this gap using the Gini coefficient, a well-established metric used for estimating societal wealth inequality. Using our paradigm, we highlight the distressed state of current technologies for Indian (IN) languages (a linguistically large and diverse set, with a varied speaker population), across all three dimensions. To improve upon these metrics, we demonstrate the importance of region-specific choices in model building and dataset creation, and more importantly, propose a novel, generalisable approach to optimal resource allocation during fine-tuning. Finally, we discuss steps to mitigate these biases and encourage the community to employ multi-faceted evaluation when building linguistically diverse and equitable technologies. | 翻訳日:2023-04-13 19:03:50 公開日:2023-04-12 |
# 微調整済み言語モデルにラベル規則化が必要か? Do we need Label Regularization to Fine-tune Pre-trained Language Models? ( http://arxiv.org/abs/2205.12428v2 ) ライセンス: Link先を確認 | Ivan Kobyzev, Aref Jafari, Mehdi Rezagholizadeh, Tianda Li, Alan Do-Omri, Peng Lu, Pascal Poupart, Ali Ghodsi | (参考訳) 知識蒸留(KD)は、教師のネットワーク予測に大きく依存し、学生モデルのトレーニングを指導する顕著なニューラルモデル圧縮技術である。
プレトレーニング言語モデル (PLM) の長期化を考えると、KD は PLM を含む多くの NLP タスクでよく採用されている。
しかしながら、KDでは、トレーニング中に教師ネットワークをデプロイすることで、トレーニングのメモリと計算の要求が増すことは明らかである。
コンピュータビジョン文献では、KDがラベル正規化技術であり、ラベル平滑化技術のようなより軽い教師なしの変種に置き換えることができることを示すことにより、教師ネットワークの必要性を精査する。
しかしながら、我々の知る限りでは、この問題はNLPでは調査されていない。
そこで本研究は,異なるラベル正規化手法について検討し,下流タスクにおける小さなPLMネットワークの微調整を改善するために実際に必要なのかを考察する。
本研究では,BERT,RoBERTa,GPTなどの異なるPLMの総合的な実験を行い,600以上の異なる試行を行い,各構成を5回実施した。
この調査は、学生モデルが事前訓練された場合、KDや他のラベル正規化技術が通常の微調整よりも意味のある役割を果たさないという驚くべき観察につながった。
さらに、NLPとコンピュータビジョンタスクの異なる設定でこの現象を探求し、事前学習自体が正規化の一種であり、追加のラベル正規化は不要であることを示す。 Knowledge Distillation (KD) is a prominent neural model compression technique that heavily relies on teacher network predictions to guide the training of a student model. Considering the ever-growing size of pre-trained language models (PLMs), KD is often adopted in many NLP tasks involving PLMs. However, it is evident that in KD, deploying the teacher network during training adds to the memory and computational requirements of training. In the computer vision literature, the necessity of the teacher network is put under scrutiny by showing that KD is a label regularization technique that can be replaced with lighter teacher-free variants such as the label-smoothing technique. However, to the best of our knowledge, this issue is not investigated in NLP. Therefore, this work concerns studying different label regularization techniques and whether we actually need them to improve the fine-tuning of smaller PLM networks on downstream tasks. In this regard, we did a comprehensive set of experiments on different PLMs such as BERT, RoBERTa, and GPT with more than 600 distinct trials and ran each configuration five times. This investigation led to a surprising observation that KD and other label regularization techniques do not play any meaningful role over regular fine-tuning when the student model is pre-trained. We further explore this phenomenon in different settings of NLP and computer vision tasks and demonstrate that pre-training itself acts as a kind of regularization, and additional label regularization is unnecessary. | 翻訳日:2023-04-13 19:03:30 公開日:2023-04-12 |
# パッチの学習によるCNNの次元曲線回避 CNNs Avoid Curse of Dimensionality by Learning on Patches ( http://arxiv.org/abs/2205.10760v4 ) ライセンス: Link先を確認 | Vamshi C. Madala and Shivkumar Chandrasekaran and Jason Bunk | (参考訳) 多くのコンピュータビジョンタスクにおける畳み込みニューラルネットワーク(CNN)の成功と、その異常な一般化性能にもかかわらず、CNNの一般化エラーを予測しようとする試みは、これまでのところ、後続解析に限られている。
ディープニューラルネットワークの一般化性能を説明する先駆的な理論は、畳み込みの側面をほとんど無視しており、CNNが画像次元が数千である画像分類のようなコンピュータビジョンタスクにおいて、次元性の呪いを克服できる理由を明らかにしていない。
本研究では,CNNが画像パッチの領域で動作するという仮説の下で,画像分類におけるCNNの一般化性能を説明する。
我々の研究は、cnnの一般化誤差に束縛された事前誤差を導出する最初の研究であり、我々の理論を支持するために定量的かつ定性的な証拠を提示する。
我々のパッチベースの理論はまた、CNNの一般化誤差を改善するために、Cutout、CutMix、ランダムトリミングといったデータ拡張技術が有効である理由を説明する。 Despite the success of convolutional neural networks (CNNs) in numerous computer vision tasks and their extraordinary generalization performances, several attempts to predict the generalization errors of CNNs have only been limited to a posteriori analyses thus far. A priori theories explaining the generalization performances of deep neural networks have mostly ignored the convolutionality aspect and do not specify why CNNs are able to seemingly overcome curse of dimensionality on computer vision tasks like image classification where the image dimensions are in thousands. Our work attempts to explain the generalization performance of CNNs on image classification under the hypothesis that CNNs operate on the domain of image patches. Ours is the first work we are aware of to derive an a priori error bound for the generalization error of CNNs and we present both quantitative and qualitative evidences in the support of our theory. Our patch-based theory also offers explanation for why data augmentation techniques like Cutout, CutMix and random cropping are effective in improving the generalization error of CNNs. | 翻訳日:2023-04-13 19:03:05 公開日:2023-04-12 |
# ニューラルコンビネーション最適化はどの程度優れているか?
旅行セールスマン問題に関するシステム評価 How Good Is Neural Combinatorial Optimization? A Systematic Evaluation on the Traveling Salesman Problem ( http://arxiv.org/abs/2209.10913v2 ) ライセンス: Link先を確認 | Shengcai Liu, Yu Zhang, Ke Tang, Xin Yao | (参考訳) 組合せ最適化(co)問題に取り組む従来の解法は通常、人間の専門家によって設計される。
近年, 深層学習, 特に深層強化学習の活用への関心が高まっており, COの効率的な解法を自動学習している。
結果として得られる新しいパラダイムはneural combinatorial optimization(nco)と呼ばれる。
しかしながら、他のアプローチと比較してNCOの利点と欠点は経験的あるいは理論的によく研究されていない。
この研究は、NCOソルバと代替ソルバの総合的な比較研究を示す。
具体的には, 走行セールスマン問題をテストベッド問題として, 有効性, 効率性, 安定性, スケーラビリティ, 一般化能力の5つの側面で評価する。
以上の結果から, NCO アプローチで学習した解法は, 従来の解法には及ばないことが明らかとなった。
NCOソルバの潜在的な利点は、十分なトレーニングインスタンスが利用可能であれば、小さな問題インスタンスの時間とエネルギー効率が優れていることである。
この研究は、NCOの強みと弱みをより深く理解し、NCOアプローチをさらにベンチマークするための包括的な評価プロトコルを提供するのに役立つことを期待している。 Traditional solvers for tackling combinatorial optimization (CO) problems are usually designed by human experts. Recently, there has been a surge of interest in utilizing deep learning, especially deep reinforcement learning, to automatically learn effective solvers for CO. The resultant new paradigm is termed neural combinatorial optimization (NCO). However, the advantages and disadvantages of NCO relative to other approaches have not been empirically or theoretically well studied. This work presents a comprehensive comparative study of NCO solvers and alternative solvers. Specifically, taking the traveling salesman problem as the testbed problem, the performance of the solvers is assessed in five aspects, i.e., effectiveness, efficiency, stability, scalability, and generalization ability. Our results show that the solvers learned by NCO approaches, in general, still fall short of traditional solvers in nearly all these aspects. A potential benefit of NCO solvers would be their superior time and energy efficiency for small-size problem instances when sufficient training instances are available. Hopefully, this work would help with a better understanding of the strengths and weaknesses of NCO and provide a comprehensive evaluation protocol for further benchmarking NCO approaches in comparison to other approaches. | 翻訳日:2023-04-13 18:56:50 公開日:2023-04-12 |
# フランジプラットフォームからの反社会的行動のスパイル : コミュニティ禁止の意図しない結果 Spillover of Antisocial Behavior from Fringe Platforms: The Unintended Consequences of Community Banning ( http://arxiv.org/abs/2209.09803v2 ) ライセンス: Link先を確認 | Giuseppe Russo, Luca Verginer, Manoel Horta Ribeiro, Giona Casiraghi | (参考訳) オンラインプラットフォームは、コミュニティを公然と尊重し続けるよう圧力にさらされている。
このように、redditやfacebookのような主流プラットフォームから問題のあるオンラインコミュニティの禁止は、しばしば熱烈な世論の反応に遭っている。
しかし、このポリシーにより、ユーザーはより低モデレーション基準の代替プラットフォームに移行することができ、トロルやハラスメントといった反社会的行動が広く受け入れられる。
これらのコミュニティのユーザは、主流プラットフォームとフリンジプラットフォームをまたいで共同活動を続けることが多いため、反社会的行動が主流プラットフォームにこぼれる可能性がある。
r/The_Donald, r/GenderCritical, r/Incelsの3つの禁止されたコミュニティから, 約70,000人のユーザを分析して, この流出の可能性を調査した。
差異・イン・ディファレンス・デザインを用いて、reddit上のユーザーの反社会的行動に対するフリンジ・プラットフォーム参加の因果効果を推定するために、一致したユーザとの共同アクティブなユーザを比較した。
私たちの結果は、フリンジコミュニティに参加することで、Reddit上での(パースペクティブAPIによって測定された)ユーザの毒性が増加し、禁止されているコミュニティと同様のサブレディットへの関与が増加します。
この効果は、時間とフリンジプラットフォームへの露出によって強化される。
要するに私たちは、fringeプラットフォームからredditへの共同参加を通じて、反社会的行動が流出した証拠を見つけました。 Online platforms face pressure to keep their communities civil and respectful. Thus, the bannings of problematic online communities from mainstream platforms like Reddit and Facebook are often met with enthusiastic public reactions. However, this policy can lead users to migrate to alternative fringe platforms with lower moderation standards and where antisocial behaviors like trolling and harassment are widely accepted. As users of these communities often remain co-active across mainstream and fringe platforms, antisocial behaviors may spill over onto the mainstream platform. We study this possible spillover by analyzing around 70,000 users from three banned communities that migrated to fringe platforms: r/The_Donald, r/GenderCritical, and r/Incels. Using a difference-in-differences design, we contrast co-active users with matched counterparts to estimate the causal effect of fringe platform participation on users' antisocial behavior on Reddit. Our results show that participating in the fringe communities increases users' toxicity on Reddit (as measured by Perspective API) and involvement with subreddits similar to the banned community -- which often also breach platform norms. The effect intensifies with time and exposure to the fringe platform. In short, we find evidence for a spillover of antisocial behavior from fringe platforms onto Reddit via co-participation. | 翻訳日:2023-04-13 18:56:31 公開日:2023-04-12 |
# 量子トッフォリゲートのハードウェアによる最適化 Hardware-Conscious Optimization of the Quantum Toffoli Gate ( http://arxiv.org/abs/2209.02669v3 ) ライセンス: Link先を確認 | Max Aksel Bowman, Pranav Gokhale, Jeffrey Larson, Ji Liu, Martin Suchara | (参考訳) 量子コンピューティングは組合せ最適化、電子構造計算、数論において大きな可能性を秘めているが、現在の量子コンピューティングの時代はノイズの多いハードウェアによって制限されている。
多くの量子コンパイルアプローチは、臨界経路長などの目的のために量子回路を最適化することで不完全なハードウェアの効果を軽減できる。
ターゲットハードウェアで利用可能なベンダー校正操作(ネイティブゲート)の集合の観点から量子回路を考えるアプローチはほとんどない。
この論文は、この抽象レベルで量子回路を最適化するための解析的および数値的アプローチを拡張している。
本稿では,解析的ネイティブゲートレベル最適化の強みと数値最適化を組み合わせる手法を提案する。
ibmqネイティブゲートセット上での toffoli ゲートの最適化に重点を置いているが,提案手法は任意のゲートと超伝導キュービットアーキテクチャに一般化可能である。
最適化されたToffoliゲートの実装は、IBM Jakartaで量子プロセストモグラフィーでベンチマークされた標準実装と比較して、18 %の不忠実さの低減を示す。
ibmqネイティブゲートセットにマルチキュービット相互共振 (mcr) ゲートが組み込まれていると仮定すると、6つのマルチキュービットゲートしか持たない toffoli 実装を作成し、リニア接続されたキュービットに対する標準の8つのマルチキュービット実装から$25\%の削減を行う。 While quantum computing holds great potential in combinatorial optimization, electronic structure calculation, and number theory, the current era of quantum computing is limited by noisy hardware. Many quantum compilation approaches can mitigate the effects of imperfect hardware by optimizing quantum circuits for objectives such as critical path length. Few approaches consider quantum circuits in terms of the set of vendor-calibrated operations (i.e., native gates) available on target hardware. This manuscript expands the analytical and numerical approaches for optimizing quantum circuits at this abstraction level. We present a procedure for combining the strengths of analytical native gate-level optimization with numerical optimization. Although we focus on optimizing Toffoli gates on the IBMQ native gate set, the methods presented are generalizable to any gate and superconducting qubit architecture. Our optimized Toffoli gate implementation demonstrates an $18\%$ reduction in infidelity compared with the canonical implementation as benchmarked on IBM Jakarta with quantum process tomography. Assuming the inclusion of multi-qubit cross-resonance (MCR) gates in the IBMQ native gate set, we produce Toffoli implementations with only six multi-qubit gates, a $25\%$ reduction from the canonical eight multi-qubit implementations for linearly connected qubits. | 翻訳日:2023-04-13 18:55:46 公開日:2023-04-12 |
# 一般化ピーターマン因子による非エルミート系におけるバルクおよびエッジ例外点の検出 Detecting bulk and edge exceptional points in non-Hermitian systems through generalized Petermann factors ( http://arxiv.org/abs/2208.14944v2 ) ライセンス: Link先を確認 | Yue-Yu Zou, Yao Zhou, Li-Mei Chen, Peng Ye | (参考訳) 非エルミート量子系における非直交性は、非ユニタリティに遡り、複素エネルギースペクトルよりも基礎的かつ普遍的な、非常にエキゾチックな量子現象をもたらす。
本稿では、ピーターマン因子の新しい変種として興味深い量($\eta$)を導入し、非ユニタリティーと関連する非エルミート物理学を直接的かつ効率的に測定する。
非エルミート系のモデルパラメータをチューニングすることにより、$\eta$とその一階微分($\partial \eta$)の不連続性は、本質的に非ユニタリ性によって引き起こされるリッチな物理学を顕著に捉えていることが分かる。
より具体的には、1次元非エルミート位相系において、2つの境界にそれぞれ局在化されている2つの相互直交エッジ状態は、モデルパラメータの関数として$\eta$の不連続の近傍で非直交となる。
理論的解析により、エッジ状態遷移の出現は、位相的エッジ状態における例外点~(EPs)の存在を示す。
我々は,$\partial\eta$ の不連続性について,二段階非エルミートモデルを調べ,$\partial \eta$ の不連続点とバルク状態の eps との接続を確立する。
この関係をより一般的な格子モデルで研究することにより、いくつかのモデルは$\partial\eta$の不連続性を持ち、バルク状態におけるEPの存在を示唆する。 Non-orthogonality in non-Hermitian quantum systems gives rise to tremendous exotic quantum phenomena, which can be fundamentally traced back to non-unitarity and is much more fundamental and universal than complex energy spectrum. In this paper, we introduce an interesting quantity (denoted as $\eta$) as a new variant of the Petermann factor to directly and efficiently measure non-unitarity and the associated non-Hermitian physics. By tuning the model parameters of underlying non-Hermitian systems, we find that the discontinuity of both $\eta$ and its first-order derivative (denoted as $\partial \eta$) pronouncedly captures rich physics that is fundamentally caused by non-unitarity. More concretely, in the 1D non-Hermitian topological systems, two mutually orthogonal edge states that are respectively localized on two boundaries become non-orthogonal in the vicinity of discontinuity of $\eta$ as a function of the model parameter, which is dubbed ``edge state transition''. Through theoretical analysis, we identify that the appearance of edge state transition indicates the existence of exceptional points~(EPs) in topological edge states. Regarding the discontinuity of $\partial\eta$, we investigate a two-level non-Hermitian model and establish a connection between the points of discontinuity of $\partial \eta$ and EPs of bulk states. By studying this connection in more general lattice models, we find that some models have discontinuity of $\partial\eta$, implying the existence of EPs in bulk states. | 翻訳日:2023-04-13 18:55:23 公開日:2023-04-12 |
# 複雑なネットワーク理論を用いた分散型エネルギー資源を用いた配電システムの計画と運用のレジリエンス評価 Evaluating the Planning and Operational Resilience of Electrical Distribution Systems with Distributed Energy Resources using Complex Network Theory ( http://arxiv.org/abs/2208.11543v3 ) ライセンス: Link先を確認 | Divyanshi Dwivedi, Pradeep Kumar Yemula, Mayukha Pal | (参考訳) 電気系統は分散エネルギー資源(ders)によって広範囲に浸透し、エネルギー需要にシステムのレジリエンスを高めるという一般的な認識を満たしている。
しかし、dersの統合はグリッド操作に悪影響を与え、その断続的な可用性、気象条件のダイナミクス、非線形性、複雑さ、悪意のある脅威の数、消費者の信頼性要求の改善といった様々な要因によってシステムのレジリエンスに影響を与える可能性がある。
本稿では,極端事象下での配電系統の計画と運用のレジリエンスを評価する手法を提案し,電力系統の耐久能力について検討する。
提案手法は複雑なネットワーク理論を効果的に活用して開発された。
電力ネットワークのノードで監視されるアクティブ電力の時系列データから、望ましくない構成のための関連ネットワークを開発する。
これらの相関ネットワークに対しては,クラスタリング係数,アソシエイト係数,平均度,電力法指数などのネットワークパラメータを計算し,極端な条件下でのネットワークの耐力判定のためのパーコレーション閾値を算出した。
提案手法は, 異なる条件下でレジリエンスを維持しつつ, システム内のソーラーパネルのホスト容量を同定し, システムの非レジリエンス化に寄与する最重要ノードを特定するのにも適している。
このフレームワークは、シミュレーションソフトウェアGridLAB-Dを用いて、様々な電気条件のアクティブ電力時系列データを生成することにより、IEEE 123ノードテストフィード上で実証される。
パーコレーション閾値は配電システムの計画と運用のレジリエンスの決定に有効な指標となった。 Electrical Distribution Systems are extensively penetrated with Distributed Energy Resources (DERs) to cater the energy demands with the general perception that it enhances the system's resilience. However, integration of DERs may adversely affect the grid operation and affect the system resilience due to various factors like their intermittent availability, dynamics of weather conditions, non-linearity, complexity, number of malicious threats, and improved reliability requirements of consumers. This paper proposes a methodology to evaluate the planning and operational resilience of power distribution systems under extreme events and determines the withstand capability of the electrical network. The proposed framework is developed by effectively employing the complex network theory. Correlated networks for undesirable configurations are developed from the time series data of active power monitored at nodes of the electrical network. For these correlated networks, computed the network parameters such as clustering coefficient, assortative coefficient, average degree and power law exponent for the anticipation; and percolation threshold for the determination of the network withstand capability under extreme conditions. The proposed methodology is also suitable for identifying the hosting capacity of solar panels in the system while maintaining resilience under different unfavourable conditions and identifying the most critical nodes of the system that could drive the system into non-resilience. This framework is demonstrated on IEEE 123 node test feeder by generating active power time-series data for a variety of electrical conditions using simulation software, GridLAB-D. The percolation threshold resulted as an effective metric for the determination of the planning and operational resilience of the power distribution system. | 翻訳日:2023-04-13 18:54:52 公開日:2023-04-12 |
# 習熟度に基づく日射量予測のメタ分析 A Meta-Analysis of Solar Forecasting Based on Skill Score ( http://arxiv.org/abs/2208.10536v2 ) ライセンス: Link先を確認 | Thi Ngoc Nguyen and Felix M\"usgens | (参考訳) Google Scholarから1,447枚の論文をスクリーニングし,データ抽出のための320枚の論文の全文をレビューした。
4,687点のデータベースを構築し,多変量適応回帰スプラインモデル,部分依存プロット,線形回帰を用いて解析した。
10因子のスキルスコアに対する限界影響を定量化した。
解析は、データベース内の変数間の非線形性と複雑な相互作用を示す。
予測地平線は中心的な影響を持ち、他の要因の影響を支配している。
したがって、太陽予報の分析は各地平線ごとに別々に行うべきである。
気候変数は、スキルスコアと統計的に有意な相関がある。
入力に関しては、歴史的データと時空間情報が非常に有用である。
日中は、空と衛星画像が最も重要である。
日中の天気予報や局地的な気象データは非常に効率的である。
予測モデルは全て比較された。
アンサンブルハイブリッドモデルは、すべての地平線の最も正確な予測を達成する。
ハイブリッドモデルは時間内予測に優れ、画像ベース手法は日内予測に最も効率的である。
トレーニングデータが増えれば、スキルスコアが向上する。
しかし、トレーニングデータ(2000日以上)が多すぎると、過剰適合が観察される。
特に近年では、太陽の予測精度が大幅に向上している。
時間内および日内予測は日頭予測よりも改善が見られた。
位置変数を含む予測間の重要な違いを制御することで,この知見をグローバルに適用することができる。 We conduct the first comprehensive meta-analysis of deterministic solar forecasting based on skill score, screening 1,447 papers from Google Scholar and reviewing the full texts of 320 papers for data extraction. A database of 4,687 points was built and analyzed with multivariate adaptive regression spline modelling, partial dependence plots, and linear regression. The marginal impacts on skill score of ten factors were quantified. The analysis shows the non-linearity and complex interaction between variables in the database. Forecast horizon has a central impact and dominates other factors' impacts. Therefore, the analysis of solar forecasts should be done separately for each horizon. Climate zone variables have statistically significant correlation with skill score. Regarding inputs, historical data and spatial temporal information are highly helpful. For intra-day, sky and satellite images show the most importance. For day-ahead, numerical weather predictions and locally measured meteorological data are very efficient. All forecast models were compared. Ensemble-hybrid models achieve the most accurate forecasts for all horizons. Hybrid models show superiority for intra-hour while image-based methods are the most efficient for intra-day forecasts. More training data can enhance skill score. However, over-fitting is observed when there is too much training data (longer than 2000 days). There has been a substantial improvement in solar forecast accuracy, especially in recent years. More improvement is observed for intra-hour and intra-day than day-ahead forecasts. By controlling for the key differences between forecasts, including location variables, our findings can be applied globally. | 翻訳日:2023-04-13 18:54:24 公開日:2023-04-12 |
# 放射線学におけるゼロショットオーバストインテリジェンスを可能にする画像とレポートからの自己教師型マルチモーダルトレーニング Self-supervised Multi-modal Training from Uncurated Image and Reports Enables Zero-shot Oversight Artificial Intelligence in Radiology ( http://arxiv.org/abs/2208.05140v4 ) ライセンス: Link先を確認 | Sangjoon Park, Eun Sun Lee, Kyung Sook Shin, Jeong Eun Lee, and Jong Chul Ye | (参考訳) oversight aiは放射線医学における新たな概念であり、放射線科医の意思決定を継続的に支援することにより、放射線科医との共生を形成する。
視覚言語モデルの最近の進歩は、視覚とテキストの概念とその意味的対応を理解することによって、監視aiの長年の問題に光を当てている。
しかし、現在の視覚言語モデルや写真やキャプションの学習戦略では、医学領域ではあまり実現できない画像とテキストペアのwebスケールのデータコーパスを要求するため、医療領域での視覚言語モデルの適用は限定的に成功している。
そこで本論文では,医療領域に適した重要な要素を活かした医療用クロスアテンション・ビジョン・ランゲージ・モデル(医療用X-VL)を提案する。
医用X-VLモデルは,医療領域における自己教師型ユニモーダルモデルと融合エンコーダをブリッジする融合エンコーダ,モーメント蒸留,医療報告における文のコントラスト学習,および文の類似性調整型ハードネガティブマイニングを基礎としている。
我々は、ゼロショット分類からゼロショット誤り訂正まで、AIのさまざまなゼロショットタスクを可能にする実験を行った。
我々のモデルは2つの異なる医用画像データベースにおいて最先端のモデルよりも優れており、人間の誤りを監視するための監視aiモデルの新たな臨床利用が示唆されている。
本手法は,臨床で頻繁に発生するデータ制限設定において特に成功し,医療領域に広く適用できる可能性が示唆された。 Oversight AI is an emerging concept in radiology where the AI forms a symbiosis with radiologists by continuously supporting radiologists in their decision-making. Recent advances in vision-language models sheds a light on the long-standing problems of the oversight AI by the understanding both visual and textual concepts and their semantic correspondences. However, there have been limited successes in the application of vision-language models in the medical domain, as the current vision-language models and learning strategies for photographic images and captions call for the web-scale data corpus of image and text pairs which was not often feasible in the medical domain. To address this, here we present a model dubbed Medical Cross-attention Vision-Language model (Medical X-VL), leveraging the key components to be tailored for the medical domain. Our medical X-VL model is based on the following components: self-supervised uni-modal models in medical domain and fusion encoder to bridge them, momentum distillation, sentence-wise contrastive learning for medical reports, and the sentence similarity-adjusted hard negative mining. We experimentally demonstrated that our model enables various zero-shot tasks for oversight AI, ranging from the zero-shot classification to zero-shot error correction. Our model outperformed the current state-of-the-art models in two different medical image database, suggesting the novel clinical usage of our oversight AI model for monitoring human errors. Our method was especially successful in the data-limited setting, which is frequently encountered in the clinics, suggesting the potential widespread applicability in medical domain. | 翻訳日:2023-04-13 18:54:07 公開日:2023-04-12 |
# 集合量子エンジンの信頼性の二次的向上 Quadratic Enhancement in the Reliability of Collective Quantum Engines ( http://arxiv.org/abs/2208.04250v2 ) ライセンス: Link先を確認 | Noufal Jaseem, Sai Vinjanampathy and Victor Mukherjee | (参考訳) 集合系-バス相互作用の存在下で動作する多体量子熱エンジンの変動について検討する。
オープン量子系における集合効果は、高度に一貫した多体量子エンジンの開発に有効であることを示す。
我々は、熱浴に結合した$n$スピンでモデル化された量子オットーエンジンを考える。
その結果, 集団効果は高い信頼性 (r$) と低い熱力学的不確実性によって定量化され, 出力の変動を著しく低減できることがわかった。
独立系エンジンとは対照的に, 集合型エンジンの信頼性が2次的に向上することを示す。
解析は、リプキン・メシュコフ・グリック(LMG)モデルのような多体物理学でよく研究される相互作用スピンモデルにまで拡張し、量子熱機械における集合効果の適用性を大幅に拡大する。
これは、多くの身体システムにおける現実的な集合量子熱機械への道を開く。 We study fluctuations in many-body quantum heat engines operating in the presence of collective system-bath interactions. We show that collective effects in open quantum systems can be harnessed to develop highly consistent many-body quantum engines. We consider quantum Otto engines, modeled by $n$ spins collectively coupled to thermal baths. Our results show that collective effects can significantly reduce the fluctuations in the output work, quantified by high reliability ($r$) and low thermodynamic uncertainty. In contrast to independent engines, we demonstrate a quadratic enhancement of the reliability $r$ for their collective counterparts. We extend our analysis to the case of interacting spin models commonly studied in many-body physics, such as the Lipkin-Meshkov-Glick (LMG) model, thereby broadening the regime of applicability of collective effects in quantum thermal machines significantly. This paves the way forward for realistic collective quantum thermal machines in many body systems. | 翻訳日:2023-04-13 18:53:34 公開日:2023-04-12 |
# 言語モデルはより良いプログラミングを教えることができる Language Models Can Teach Themselves to Program Better ( http://arxiv.org/abs/2207.14502v4 ) ライセンス: Link先を確認 | Patrick Haluptzok, Matthew Bowers, Adam Tauman Kalai | (参考訳) 最近の言語モデル(LM)は、人間による問題や、競争力のあるプログラミングの問題を解決することで、コード生成において画期的なパフォーマンスを達成する。
セルフプレイはgoのようなゲームで有用であることが証明されており、lmsがパフォーマンスを改善するために独自の指導的プログラミング問題を生成することができるかどうかを問うのは自然である。
そこで本研究では,Pythonインタプリタの正しさをフィルタするプログラミング問題と解を,LMが合成可能であることを示す。
lmのパフォーマンスは、自身の合成問題と検証済みソリューションで微調整された場合に改善されると見なされるため、pythonインタプリタを使ってモデルが「改善」される。
問題はプログラミングパズル[schuster et al., 2021]として公式に指定され、コードベースの問題フォーマットで、ソリューションは実行時に容易に検証できる。
一般に利用可能なLMの実験では、テスト精度は2倍以上である。
この研究は、コードLMがインタプリタとともに、インストラクティブな問題を引き起こし、自身のパフォーマンスを改善する可能性を実証している。 Recent Language Models (LMs) achieve breakthrough performance in code generation when trained on human-authored problems, even solving some competitive-programming problems. Self-play has proven useful in games such as Go, and thus it is natural to ask whether LMs can generate their own instructive programming problems to improve their performance. We show that it is possible for an LM to synthesize programming problems and solutions, which are filtered for correctness by a Python interpreter. The LM's performance is then seen to improve when it is fine-tuned on its own synthetic problems and verified solutions; thus the model 'improves itself' using the Python interpreter. Problems are specified formally as programming puzzles [Schuster et al., 2021], a code-based problem format where solutions can easily be verified for correctness by execution. In experiments on publicly-available LMs, test accuracy more than doubles. This work demonstrates the potential for code LMs, with an interpreter, to generate instructive problems and improve their own performance. | 翻訳日:2023-04-13 18:53:22 公開日:2023-04-12 |
# 異なる次元にわたる入力変換を用いた多変量時系列分類の実証評価 An Empirical Evaluation of Multivariate Time Series Classification with Input Transformation across Different Dimensions ( http://arxiv.org/abs/2210.07713v2 ) ライセンス: Link先を確認 | Leonardos Pantiskas, Kees Verstoep, Mark Hoogendoorn, Henri Bal | (参考訳) 現在の研究では、時間データの分類のための機械学習とディープラーニングのソリューションが、単一チャネルデータセット(ユニバリケート)から複数のチャネル情報(マルチバリケート)の問題へとシフトしている。
これらの著作の大部分はメソッドのノベルティとアーキテクチャに焦点を当てており、入力データの形式はしばしば暗黙的に扱われる。
特に、多変量データセットは入力前処理の観点から不定時系列のスタックとして扱われることが多く、各チャネルにまたがるスケーリング手法が別々に適用される。
本評価では, 追加チャネル次元が自明なものではなく, スケーリングに対する異なるアプローチが解の精度を著しく異なる結果に導くことを実証することを目的とする。
そこで本研究では,4次元の時間次元で7つの異なるデータ変換手法をテストし,最近の5つの手法の分類精度に及ぼす影響について検討した。
テストされたデータセットの大部分において、最高の変換-分割構成は、0.16から76.79パーセンテージポイントまで、同じハイパーパラメータを持つ各モデルの結果と比較して精度が向上することを示している。
また,変換法を一定に保つと,0.23から47.79ポイントの精度差で,異なる次元で適用した場合の精度に統計的に有意な差があることが示される。
最後に,変換手法と次元と分類器との関係について検討し,一般的な傾向はなく,最適な構成はデータセットと分類器固有のものであると結論付けた。 In current research, machine and deep learning solutions for the classification of temporal data are shifting from single-channel datasets (univariate) to problems with multiple channels of information (multivariate). The majority of these works are focused on the method novelty and architecture, and the format of the input data is often treated implicitly. Particularly, multivariate datasets are often treated as a stack of univariate time series in terms of input preprocessing, with scaling methods applied across each channel separately. In this evaluation, we aim to demonstrate that the additional channel dimension is far from trivial and different approaches to scaling can lead to significantly different results in the accuracy of a solution. To that end, we test seven different data transformation methods on four different temporal dimensions and study their effect on the classification accuracy of five recent methods. We show that, for the large majority of tested datasets, the best transformation-dimension configuration leads to an increase in the accuracy compared to the result of each model with the same hyperparameters and no scaling, ranging from 0.16 to 76.79 percentage points. We also show that if we keep the transformation method constant, there is a statistically significant difference in accuracy results when applying it across different dimensions, with accuracy differences ranging from 0.23 to 47.79 percentage points. Finally, we explore the relation of the transformation methods and dimensions to the classifiers, and we conclude that there is no prominent general trend, and the optimal configuration is dataset- and classifier-specific. | 翻訳日:2023-04-13 18:48:05 公開日:2023-04-12 |
# Mask3D: 3Dセマンティックインスタンスセグメンテーションのためのマスク変換器 Mask3D: Mask Transformer for 3D Semantic Instance Segmentation ( http://arxiv.org/abs/2210.03105v2 ) ライセンス: Link先を確認 | Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe | (参考訳) 現代の3dセマンティクスインスタンスセグメンテーションのアプローチは、主に特殊な投票機構と、注意深く設計された幾何学的クラスタリング技術に依存している。
近年のオブジェクト検出と画像分割におけるトランスフォーマティブ手法の成功を踏まえ,3次元意味インスタンスセグメンテーションのための最初のトランスフォーマティブ方式を提案する。
汎用的なトランスフォーマービルディングブロックを利用して,3dポイントクラウドからインスタンスマスクを直接予測できることを示す。
Mask3Dと呼ばれるモデルでは、各オブジェクトインスタンスはインスタンスクエリとして表現されます。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
ポイント機能と組み合わせて、インスタンスクエリは、すべてのインスタンスマスクを並列に生成する。
mask3dは,(1)手動で選択した幾何学的特性(中心など)を必要とする投票スキーム,(2)手動で調整されたハイパーパラメータ(radiiなど)を必要とする幾何学的グループ化機構,(3)インスタンスマスクを直接最適化する損失など,最先端のアプローチよりもいくつかのメリットがある。
Mask3Dは新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、STPLS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)をセットする。 Modern 3D semantic instance segmentation approaches predominantly rely on specialized voting mechanisms followed by carefully designed geometric clustering techniques. Building on the successes of recent Transformer-based methods for object detection and image segmentation, we propose the first Transformer-based approach for 3D semantic instance segmentation. We show that we can leverage generic Transformer building blocks to directly predict instance masks from 3D point clouds. In our model called Mask3D each object instance is represented as an instance query. Using Transformer decoders, the instance queries are learned by iteratively attending to point cloud features at multiple scales. Combined with point features, the instance queries directly yield all instance masks in parallel. Mask3D has several advantages over current state-of-the-art approaches, since it neither relies on (1) voting schemes which require hand-selected geometric properties (such as centers) nor (2) geometric grouping mechanisms requiring manually-tuned hyper-parameters (e.g. radii) and (3) enables a loss that directly optimizes instance masks. Mask3D sets a new state-of-the-art on ScanNet test (+6.2 mAP), S3DIS 6-fold (+10.1 mAP), STPLS3D (+11.2 mAP) and ScanNet200 test (+12.4 mAP). | 翻訳日:2023-04-13 18:47:16 公開日:2023-04-12 |
# TimesNet: 時系列解析のための時間的2次元変動モデリング TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis ( http://arxiv.org/abs/2210.02186v3 ) ライセンス: Link先を確認 | Haixu Wu, Tengge Hu, Yong Liu, Hang Zhou, Jianmin Wang, Mingsheng Long | (参考訳) 時系列解析は、天気予報、異常検出、行動認識などの広範囲の応用において非常に重要である。
本稿では,広範囲な解析課題の共通課題である時間変動モデリングに焦点を当てた。
従来の手法では、複雑な時間パターンのために非常に難しい1次元時系列から直接これを達成しようと試みていた。
時系列における多周期性の観測に基づいて,複数の周期内および周期間変動の複雑な時間変化を探索する。
表現能力における1次元時系列の限界に取り組むために、1次元時系列を複数の周期に基づいて2次元テンソルの集合に変換することにより、2次元空間への時間変化の解析を拡張する。
この変換は、周期内変分と周期間変分をそれぞれ2Dテンソルの列と行に埋め込むことができ、2D-変分は2Dカーネルによって容易にモデル化できる。
技術的には、timesblockを時系列分析のためのタスクジェネラルバックボーンとしてtimesnetを提案する。
タイムブロックは適応的に多周期性を発見し、パラメーター効率の良いインセプションブロックによって変換された2次元テンソルから複雑な時間変化を抽出することができる。
提案するTimesNetは,短期および長期の予測,計算,分類,異常検出を含む5つの主流時系列解析タスクにおいて,一貫した最先端性を実現する。
コードは、このリポジトリで入手できる。 Time series analysis is of immense importance in extensive applications, such as weather forecasting, anomaly detection, and action recognition. This paper focuses on temporal variation modeling, which is the common key problem of extensive analysis tasks. Previous methods attempt to accomplish this directly from the 1D time series, which is extremely challenging due to the intricate temporal patterns. Based on the observation of multi-periodicity in time series, we ravel out the complex temporal variations into the multiple intraperiod- and interperiod-variations. To tackle the limitations of 1D time series in representation capability, we extend the analysis of temporal variations into the 2D space by transforming the 1D time series into a set of 2D tensors based on multiple periods. This transformation can embed the intraperiod- and interperiod-variations into the columns and rows of the 2D tensors respectively, making the 2D-variations to be easily modeled by 2D kernels. Technically, we propose the TimesNet with TimesBlock as a task-general backbone for time series analysis. TimesBlock can discover the multi-periodicity adaptively and extract the complex temporal variations from transformed 2D tensors by a parameter-efficient inception block. Our proposed TimesNet achieves consistent state-of-the-art in five mainstream time series analysis tasks, including short- and long-term forecasting, imputation, classification, and anomaly detection. Code is available at this repository: https://github.com/thuml/TimesNet. | 翻訳日:2023-04-13 18:46:22 公開日:2023-04-12 |
# 3層サンプリングとパノプティカル表現を用いた都市規模インクリメンタルニューラルマッピング City-scale Incremental Neural Mapping with Three-layer Sampling and Panoptic Representation ( http://arxiv.org/abs/2209.14072v2 ) ライセンス: Link先を確認 | Yongliang Shi, Runyi Yang, Pengfei Li, Zirui Wu, Hao Zhao, Guyue Zhou | (参考訳) ニューラルな暗黙の表現は、表現力があり、連続的でコンパクトであるため、最近ロボットコミュニティから多くの注目を集めている。
しかし、疎LiDAR入力に基づく都市規模連続暗黙マッピングは、まだ未探索の課題である。
この目的のために,パンオプティカル表現を環境レベルおよびインスタンスレベルモデルとした,都市規模の連続的ニューラルマッピングシステムの構築に成功した。
疎いLiDAR点雲のストリームが与えられると、3D座標を符号付き距離場(SDF)値にマッピングする動的生成モデルを維持する。
都市空間の異なるレベルにおける幾何学的情報を表現することの難しさに対処するために,グローバル,ローカル,および近地領域を動的にサンプリングする3層サンプリング戦略を提案する。
一方、不完全観測下でのインスタンスの忠実度マッピングを実現するために、幾何学的詳細をよりよくモデル化するためにカテゴリ固有事前を導入する。
本研究では,semantickittiデータセットの評価と,新たに提案する3層サンプリング戦略とパンオプティカル表現の意義を定量的および定性的に検証した。
コードとモデルは公開されます。 Neural implicit representations are drawing a lot of attention from the robotics community recently, as they are expressive, continuous and compact. However, city-scale continual implicit dense mapping based on sparse LiDAR input is still an under-explored challenge. To this end, we successfully build a city-scale continual neural mapping system with a panoptic representation that consists of environment-level and instance-level modelling. Given a stream of sparse LiDAR point cloud, it maintains a dynamic generative model that maps 3D coordinates to signed distance field (SDF) values. To address the difficulty of representing geometric information at different levels in city-scale space, we propose a tailored three-layer sampling strategy to dynamically sample the global, local and near-surface domains. Meanwhile, to realize high fidelity mapping of instance under incomplete observation, category-specific prior is introduced to better model the geometric details. We evaluate on the public SemanticKITTI dataset and demonstrate the significance of the newly proposed three-layer sampling strategy and panoptic representation, using both quantitative and qualitative results. Codes and model will be publicly available. | 翻訳日:2023-04-13 18:45:42 公開日:2023-04-12 |
# トリパーティイト非局所性を用いたデバイス非依存暗号の高速化 Boosting device-independent cryptography with tripartite nonlocality ( http://arxiv.org/abs/2209.12828v2 ) ライセンス: Link先を確認 | Federico Grasselli, Gl\'aucia Murta, Hermann Kampermann, Dagmar Bru{\ss} | (参考訳) DI会議鍵契約(DICKA)やDIランダムネス拡張(DIRE)のようなデバイス非依存(DI)プロトコルは、2つ以上のパーティがベルの不等式をテストすると、非局所的相関を観察することによってプライベートランダム性を検証する。
ほとんどのdiプロトコルは2部ベルテストに制限されているが、複数部非局所相関を利用するとパフォーマンスが向上する可能性がある。
本稿では,マルチパーティライトベルの不等式,特にMermin-Ardehali-Belinskii-Klyshkoの不等式,HolzとParity-CHSHの不等式をテストしたDICKAとDIREプロトコルについて考察する。
ディッカプロトコル(dire)の漸近的性能を会議鍵率(ネット乱数生成率)を用いて評価し、一方の当事者の結果の条件付きフォン・ノイマンエントロピーと2つの当事者の成果を導出することで評価した。
ホルツの不等式に対しては、一元エントロピー上の強固な解析的下界を証明し、二元エントロピー上の強固な下界を予想する。
さらに,mabk不等式に対する解析的一元エントロピーをより簡単な方法で再導出し,パリティ・chsh不等式に対する二元エントロピーの数値下界を得る。
シミュレーションの結果,DICKAとDIREプロトコルの3部構成のベル不等式は両部構成よりも優れていた。
さらに,DICKAの必要性は疑問視されているものの,真の多部絡み合いは多部DIREの前提条件ではないことが確認された。 Device-independent (DI) protocols, such as DI conference key agreement (DICKA) and DI randomness expansion (DIRE), certify private randomness by observing nonlocal correlations when two or more parties test a Bell inequality. While most DI protocols are restricted to bipartite Bell tests, harnessing multipartite nonlocal correlations may lead to better performance. Here, we consider tripartite DICKA and DIRE protocols based on testing multipartite Bell inequalities, specifically: the Mermin-Ardehali-Belinskii-Klyshko (MABK) inequality, and the Holz and the Parity-CHSH inequalities introduced in the context of DICKA protocols. We evaluate the asymptotic performance of the DICKA (DIRE) protocols in terms of their conference key rate (net randomness generation rate), by deriving lower bounds on the conditional von Neumann entropy of one party's outcome and two parties' outcomes. For the Holz inequality, we prove a tight analytical lower bound on the one-outcome entropy and conjecture a tight lower bound on the two-outcome entropy. We additionally re-derive the analytical one-outcome entropy bound for the MABK inequality with a much simpler method and obtain a numerical lower bound on the two-outcome entropy for the Parity-CHSH inequality. Our simulations show that DICKA and DIRE protocols employing tripartite Bell inequalities can significantly outperform their bipartite counterparts. Moreover, we establish that genuine multipartite entanglement is not a precondition for multipartite DIRE while its necessity for DICKA remains an open question. | 翻訳日:2023-04-13 18:45:20 公開日:2023-04-12 |
# 実演からの高速長寿命適応逆強化学習 Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2209.11908v7 ) ライセンス: Link先を確認 | Letian Chen, Sravan Jayanthi, Rohan Paleja, Daniel Martin, Viacheslav Zakharov, Matthew Gombolay | (参考訳) 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。
しかしながら、現在のLfDフレームワークは、異種人間のデモへの迅速な適応や、ユビキタスなロボティクスアプリケーションへの大規模展開ができない。
本稿では,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
提案手法は,学習した戦略を活用して,新しいデモンストレーションに迅速に適応するためのポリシミックスを構築し,エンドユーザーパーソナライズを迅速に行えるようにし,(2)デモ全体にわたって共通知識を蒸留し,正確なタスク推論を実現し,(3)生涯展開に必要な場合にのみモデルを拡張し,ポリシミックスを通じてすべての行動を近似可能な,簡潔なプロトタイプ戦略のセットを維持する。
flairが適応性(不均質なユーザ固有のタスク選択に適応するロボット)、効率性(サンプル効率の高い適応を実現するロボット)、スケーラビリティ(ハイパフォーマンスを維持しながらデモ数とサブリニアに成長するモデル)を達成することを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、ポリシーミックスを使用したデモモデリングに必要なエピソードが平均78%減少した。
最後に,テーブルテニスにおけるFLAIRの成功を実証し,FLAIRをより高いタスク (p<.05) とパーソナライズ性能 (p<.05) で評価した。 Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization, (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a table tennis task and find users rate FLAIR as having higher task (p<.05) and personalization (p<.05) performance. | 翻訳日:2023-04-13 18:44:46 公開日:2023-04-12 |
# 非線形熱電流の量子力学理論 Quantum kinetic theory of nonlinear thermal current ( http://arxiv.org/abs/2211.01895v2 ) ライセンス: Link先を確認 | Harsh Varshney, Kamal Das, Pankaj Bhalla, and Amit Agarwal | (参考訳) 温度勾配による2次非線形電子熱輸送について検討する。
温度勾配が存在する場合の熱輸送を記述するための量子力学理論フレームワークを開発する。
これを用いて, 固有散乱時間独立非線形熱電流と, 既知の非線形ドリュードおよびベリー曲率双極子寄与を予測した。
固有熱電流はバンド幾何量によって決定され、空間反転と時間反転の対称性が両立しない系でのみゼロでないことを示す。
傾斜した大規模ディラック系における熱応答の研究に, 理論を応用した。
異なる散乱時間依存性に加えて, 種々の電流寄与は低温限界において異なる温度依存性を有することを示す。
非線形熱輸送の系統的および包括的理論は,本質的熱応答に関する将来の理論的および実験的研究の道を開く。 We investigate the second-order nonlinear electronic thermal transport induced by temperature gradient. We develop the quantum kinetic theory framework to describe thermal transport in presence of a temperature gradient. Using this, we predict an intrinsic scattering time independent nonlinear thermal current in addition to the known extrinsic nonlinear Drude and Berry curvature dipole contributions. We show that the intrinsic thermal current is determined by the band geometric quantities and is non-zero only in systems where both the space inversion and time-reversal symmetries are broken. We employ the developed theory to study the thermal response in tilted massive Dirac systems. We show that besides the different scattering time dependence, the various current contributions have distinct temperature dependence in the low temperature limit. Our systematic and comprehensive theory for nonlinear thermal transport paves the way for future theoretical and experimental studies on intrinsic thermal responses. | 翻訳日:2023-04-13 18:37:04 公開日:2023-04-12 |
# M3FGM:ノードマスキングと多粒度メッセージパスベースフェデレーショングラフモデルによる時空間データ予測 M3FGM:a node masking and multi-granularity message passing-based federated graph model for spatial-temporal data prediction ( http://arxiv.org/abs/2210.16193v2 ) ライセンス: Link先を確認 | Yuxing Tian, Zheng Liu, Yanwen Qu, Song Li, Jiachi Luo | (参考訳) 研究者たちは、プライバシーとセキュリティの制約に関して、連合学習(fl)とグラフモデルを組み合わせることで、空間-時間予測の課題を解決している。
グラフモデルのパワーをよりよく活用するために、いくつかの研究は分割学習(SL)も組み合わせている。
しかし、未解決の問題がいくつか残っている。
1) クライアントは,推論フェーズ中にサーバにアクセスできないかもしれない。
2) サーバモデルで手動で設計したクライアントのグラフは,クライアント間の適切な関係を明らかにするものではない。
本稿では,これらの問題に対して,新しいgnn指向分割フェデレート学習法であるnode {\bfseries m}asking と {\bfseries m}ulti-granularity {\bfseries m}essage passing-based federated graph model (m$^3$fgm)を提案する。
最初の問題として、m$^3$fgmのサーバモデルは、クライアントがオフラインの場合をシミュレートするためにマスクノード層を使用している。
また、クライアントモデルのデコーダをデュアルサブデコーダ構造で再設計し、各クライアントモデルがそのローカルデータをオフライン時に独立して予測できるようにします。
2つ目の問題として、MGMP(Multi-Granularity Message Passing)層と呼ばれる新しいGNN層が、各クライアントノードがグローバルおよびローカル情報を知覚できるようにする。
2つの実トラフィックデータセット上で2つの異なるシナリオで広範な実験を行った。
その結果、M$^3$FGMはベースラインと変種モデルより優れており、データセットとシナリオの両方で最高の結果が得られることがわかった。 Researchers are solving the challenges of spatial-temporal prediction by combining Federated Learning (FL) and graph models with respect to the constrain of privacy and security. In order to make better use of the power of graph model, some researchs also combine split learning(SL). However, there are still several issues left unattended: 1) Clients might not be able to access the server during inference phase; 2) The graph of clients designed manually in the server model may not reveal the proper relationship between clients. This paper proposes a new GNN-oriented split federated learning method, named node {\bfseries M}asking and {\bfseries M}ulti-granularity {\bfseries M}essage passing-based Federated Graph Model (M$^3$FGM) for the above issues. For the first issue, the server model of M$^3$FGM employs a MaskNode layer to simulate the case of clients being offline. We also redesign the decoder of the client model using a dual-sub-decoders structure so that each client model can use its local data to predict independently when offline. As for the second issue, a new GNN layer named Multi-Granularity Message Passing (MGMP) layer enables each client node to perceive global and local information. We conducted extensive experiments in two different scenarios on two real traffic datasets. Results show that M$^3$FGM outperforms the baselines and variant models, achieves the best results in both datasets and scenarios. | 翻訳日:2023-04-13 18:36:26 公開日:2023-04-12 |
# LittleBird: 質問応答のための高速でより長い変換器 LittleBird: Efficient Faster & Longer Transformer for Question Answering ( http://arxiv.org/abs/2210.11870v2 ) ライセンス: Link先を確認 | Minchul Lee (1), Kijong Han (1), Myeong Cheol Shin (1) ((1) Kakao Enterprise Corp.) | (参考訳) BERTは様々なNLPタスクで多くのサスメントを示してきた。
しかし、注意機構のために長い入力を扱う制限がある。
Longformer、ETC、BigBirdはこの問題に対処し、2次依存性問題を効果的に解決した。
しかし,これらのモデルでは不十分であることが判明し,精度を保ちながら速度とメモリフットプリントを改善した,BigBirdをベースとした新しいモデルであるLittleBirdを提案する。
特に,Attention with Linear Biases (ALiBi) に基づく,より柔軟で効率的な位置表現法を提案する。
また,bigbird に代表されるグローバル情報を pack や unpack attention に置き換えることがより効果的であることを示す。
提案モデルでは,短い入力を事前学習した後でも長い入力を処理でき,既存の事前学習された言語モデルを短時間入力に効率的に再利用できる。
これは、大量の長いテキストデータを得るのが難しい低リソース言語にとって大きな利点である。
その結果、LittleBirdは様々な言語で非常にうまく機能し、特にKorQuAD2.0, Korean Question Answering Datasetにおいて、質問応答タスクの高性能化を実現していることがわかった。 BERT has shown a lot of sucess in a wide variety of NLP tasks. But it has a limitation dealing with long inputs due to its attention mechanism. Longformer, ETC and BigBird addressed this issue and effectively solved the quadratic dependency problem. However we find that these models are not sufficient, and propose LittleBird, a novel model based on BigBird with improved speed and memory footprint while maintaining accuracy. In particular, we devise a more flexible and efficient position representation method based on Attention with Linear Biases (ALiBi). We also show that replacing the method of global information represented in the BigBird with pack and unpack attention is more effective. The proposed model can work on long inputs even after being pre-trained on short inputs, and can be trained efficiently reusing existing pre-trained language model for short inputs. This is a significant benefit for low-resource languages where large amounts of long text data are difficult to obtain. As a result, our experiments show that LittleBird works very well in a variety of languages, achieving high performance in question answering tasks, particularly in KorQuAD2.0, Korean Question Answering Dataset for long paragraphs. | 翻訳日:2023-04-13 18:35:06 公開日:2023-04-12 |
# 構造クラスタリングに基づく自己教師付き不均質グラフ事前学習 Self-supervised Heterogeneous Graph Pre-training Based on Structural Clustering ( http://arxiv.org/abs/2210.10462v2 ) ライセンス: Link先を確認 | Yaming Yang, Ziyu Guan, Zhe Wang, Wei Zhao, Cai Xu, Weigang Lu, Jianbin Huang | (参考訳) 近年, 従来の半教師付きヘテロジニアスグラフニューラルネットワーク (HGNN) と比較して, 有望な競争力を示した。
残念ながら、彼らのパフォーマンスは、高品質なポジティブな例やネガティブな例を生成するための様々な戦略を慎重にカスタマイズすることに大きく依存している。
本研究では,自己教師付き不均一グラフ事前学習手法であるSHGPを提案する。
同じ注目集約スキームを共有する2つのモジュールで構成されている。
各イテレーションにおいて、Att-LPAモジュールは構造クラスタリングを通じて擬似ラベルを生成し、Att-HGNNモジュールを誘導し、オブジェクトの埋め込みと注意係数を学習するセルフスーパービジョン信号として機能する。
2つのモジュールは互いに有効に利用し、強化し、識別的埋め込みを学ぶためのモデルを促進する。
4つの実世界のデータセットに対する大規模な実験は、最先端の教師なしベースラインや半教師なしベースラインに対してSHGPの優れた効果を示す。
ソースコードはhttps://github.com/kepsail/shgp。 Recent self-supervised pre-training methods on Heterogeneous Information Networks (HINs) have shown promising competitiveness over traditional semi-supervised Heterogeneous Graph Neural Networks (HGNNs). Unfortunately, their performance heavily depends on careful customization of various strategies for generating high-quality positive examples and negative examples, which notably limits their flexibility and generalization ability. In this work, we present SHGP, a novel Self-supervised Heterogeneous Graph Pre-training approach, which does not need to generate any positive examples or negative examples. It consists of two modules that share the same attention-aggregation scheme. In each iteration, the Att-LPA module produces pseudo-labels through structural clustering, which serve as the self-supervision signals to guide the Att-HGNN module to learn object embeddings and attention coefficients. The two modules can effectively utilize and enhance each other, promoting the model to learn discriminative embeddings. Extensive experiments on four real-world datasets demonstrate the superior effectiveness of SHGP against state-of-the-art unsupervised baselines and even semi-supervised baselines. We release our source code at: https://github.com/kepsail/SHGP. | 翻訳日:2023-04-13 18:34:46 公開日:2023-04-12 |
# 不完全情報に基づく知識グラフの品質評価 Knowledge Graph Quality Evaluation under Incomplete Information ( http://arxiv.org/abs/2212.00994v3 ) ライセンス: Link先を確認 | Xiaodong Li, Chenxin Zou, Yi Cai, Yuelong Zhu | (参考訳) 知識グラフ(KG)は多くのタスクにおける基本的な役割のため、ますます注目を集めている。
したがって、KGsの品質評価は重要で不可欠である。
この分野での既存の手法では、異なる次元からの新しい品質指標を提案するか、kg建設段階での性能を測定するかによってkgを評価する。
しかし、これらの方法には2つの大きな問題がある。
まず、KGsの内部情報を品質評価中に露出させるKGsの生データに強く依存する。
第二に、ダウンストリームアプリケーションにとって後者がより重要となる能力レベルではなく、データレベルの品質についてより深く検討する。
そこで本研究では,不完全情報に基づく知識グラフ品質評価フレームワーク(qeii)を提案する。
品質評価タスクは、2つのKG間の逆Q&Aゲームに変換される。
したがって、ゲームの勝者はより良い品質を持つと考えられる。
評価プロセス中は、情報保護を保証する生データを露出しない。
4組のKGの実験結果から,QEIIはベースラインと比較して,不完全情報下での能力レベルにおいて合理的な品質評価を行うことを示した。 Knowledge graphs (KGs) have attracted more and more attentions because of their fundamental roles in many tasks. Quality evaluation for KGs is thus crucial and indispensable. Existing methods in this field evaluate KGs by either proposing new quality metrics from different dimensions or measuring performances at KG construction stages. However, there are two major issues with those methods. First, they highly rely on raw data in KGs, which makes KGs' internal information exposed during quality evaluation. Second, they consider more about the quality at data level instead of ability level, where the latter one is more important for downstream applications. To address these issues, we propose a knowledge graph quality evaluation framework under incomplete information (QEII). The quality evaluation task is transformed into an adversarial Q&A game between two KGs. Winner of the game is thus considered to have better qualities. During the evaluation process, no raw data is exposed, which ensures information protection. Experimental results on four pairs of KGs demonstrate that, compared with baselines, the QEII implements a reasonable quality evaluation at ability level under incomplete information. | 翻訳日:2023-04-13 18:28:10 公開日:2023-04-12 |
# 非エルミート量子系に対する半古典的フシミ分布 Semiclassical Husimi distributions for non-Hermitian quantum systems ( http://arxiv.org/abs/2211.15336v2 ) ライセンス: Link先を確認 | Joesph Hall, Simon Malzard, and Eva-Maria Graefe | (参考訳) 非エルミート量子系におけるシュールベクトルの半古典位相空間密度を構築する。
各schurベクトルは単一のプランクセルに関連付けられる。
シュール状態は位相空間上の古典的ノルムの風景(非エルミート系の特徴である寿命の古典的表現)に従って組織される。
この構成の一般性を示すために、混合的およびカオス的古典力学の条件下でのPT対称キックローターを非常に非自明な例に適用する。 We construct a semiclassical phase-space density of Schur vectors in non-Hermitian quantum systems. Each Schur vector is associated to a single Planck cell. The Schur states are organised according to a classical norm landscape on phase space - a classical manifestation of the lifetimes which are characteristic of non-Hermitian systems. To demonstrate the generality of this construction we apply it to a highly non-trivial example, a PT-symmetric kicked rotor in the regimes of mixed and chaotic classical dynamics. | 翻訳日:2023-04-13 18:27:43 公開日:2023-04-12 |
# クラス適応型ネットワーク校正 Class Adaptive Network Calibration ( http://arxiv.org/abs/2211.15088v2 ) ライセンス: Link先を確認 | Bingyuan Liu, J\'er\^ome Rony, Adrian Galdran, Jose Dolz, Ismail Ben Ayed | (参考訳) 最近の研究では、従来の精度以上のキャリブレーションは、現代のディープニューラルネットワークのトレーニングにも考慮すべきであることが示されている。
学習中の誤校正に対処するために,各項の相対的寄与を制御するハイパーパラメータを用いて,学習目標の一部として異なるペナルティ関数を探索した手法がある。
しかしながら、これらの手法には2つの大きな欠点がある。
1) スカラーバランスの重みは,すべてのクラスにおいて同じであり,クラス間の内在的困難や不均衡に対処する能力を妨げる。
2) バランスウェイトは適応戦略を使わずに固定され, 精度とキャリブレーションの最良の妥協点に達するのを防ぎ, 各アプリケーションに対してハイパーパラメーター探索が必要となる。
そこで本研究では,深層ネットワークを校正するクラス適応ラベル平滑化(cals)を提案する。
提案手法は,制約付き最適化における確立された手法である一般拡張ラグランジアンアプローチに基づいているが,大規模クラス適応型トレーニングのための修正がいくつか導入されている。
標準およびロングテール画像分類、意味セグメンテーション、テキスト分類を含む様々なベンチマークにおける総合的評価と多重比較は、提案手法の優位性を示している。
コードはhttps://github.com/by-liu/CALSで公開されている。 Recent studies have revealed that, beyond conventional accuracy, calibration should also be considered for training modern deep neural networks. To address miscalibration during learning, some methods have explored different penalty functions as part of the learning objective, alongside a standard classification loss, with a hyper-parameter controlling the relative contribution of each term. Nevertheless, these methods share two major drawbacks: 1) the scalar balancing weight is the same for all classes, hindering the ability to address different intrinsic difficulties or imbalance among classes; and 2) the balancing weight is usually fixed without an adaptive strategy, which may prevent from reaching the best compromise between accuracy and calibration, and requires hyper-parameter search for each application. We propose Class Adaptive Label Smoothing (CALS) for calibrating deep networks, which allows to learn class-wise multipliers during training, yielding a powerful alternative to common label smoothing penalties. Our method builds on a general Augmented Lagrangian approach, a well-established technique in constrained optimization, but we introduce several modifications to tailor it for large-scale, class-adaptive training. Comprehensive evaluation and multiple comparisons on a variety of benchmarks, including standard and long-tailed image classification, semantic segmentation, and text classification, demonstrate the superiority of the proposed method. The code is available at https://github.com/by-liu/CALS. | 翻訳日:2023-04-13 18:27:35 公開日:2023-04-12 |
# ジョブショップスケジューリングのための教師付き学習による制約プログラミングの強化 Enhancing Constraint Programming via Supervised Learning for Job Shop Scheduling ( http://arxiv.org/abs/2211.14492v2 ) ライセンス: Link先を確認 | Yuan Sun, Su Nguyen, Dhananjay Thiruvady, Xiaodong Li, Andreas T. Ernst and Uwe Aickelin | (参考訳) 制約プログラミング(cp)は制約満足度と最適化問題を解決する強力な手法である。
cpソルバにおいて、解法プロセスで最初に探索する変数を選択するために用いられる変数順序付け戦略は、解法の有効性に大きな影響を与える。
そこで本研究では,ジョブショップスケジューリング問題の文脈で評価する教師付き学習に基づく可変順序付け戦略を提案する。
提案手法は,問題インスタンスの最適解を予測し,予測解を用いてcpソルバに対して変数を順序付けする。
従来の変数順序付け手法とは異なり,本手法では各問題インスタンスの特徴から学習し,それに応じて変数順序付け戦略をカスタマイズすることで,解法の性能が向上する。
実験では,機械学習モデルの学習が極めて効率的であり,精度が高いことを示した。
さらに,学習した変数順序付け手法は,既存の4つの手法と比較して競合的に機能する。
最後に,機械学習に基づく変数順序付け手法を従来のドメインベース手法と併用することが有用であることを示す。 Constraint programming (CP) is a powerful technique for solving constraint satisfaction and optimization problems. In CP solvers, the variable ordering strategy used to select which variable to explore first in the solving process has a significant impact on solver effectiveness. To address this issue, we propose a novel variable ordering strategy based on supervised learning, which we evaluate in the context of job shop scheduling problems. Our learning-based methods predict the optimal solution of a problem instance and use the predicted solution to order variables for CP solvers. \added[]{Unlike traditional variable ordering methods, our methods can learn from the characteristics of each problem instance and customize the variable ordering strategy accordingly, leading to improved solver performance.} Our experiments demonstrate that training machine learning models is highly efficient and can achieve high accuracy. Furthermore, our learned variable ordering methods perform competitively when compared to four existing methods. Finally, we demonstrate that hybridising the machine learning-based variable ordering methods with traditional domain-based methods is beneficial. | 翻訳日:2023-04-13 18:27:11 公開日:2023-04-12 |
# pic-score:複数生体認証における最適一致信頼度のための確率的解釈可能な比較スコア PIC-Score: Probabilistic Interpretable Comparison Score for Optimal Matching Confidence in Single- and Multi-Biometric (Face) Recognition ( http://arxiv.org/abs/2211.12483v2 ) ライセンス: Link先を確認 | Pedro C. Neto, Ana F. Sequeira, Jaime S. Cardoso, Philipp Terh\"orst | (参考訳) 生体認証学の文脈では、信頼の一致とは、与えられた一致した決定が正しいという自信を指す。
多くの生体認証システムは、法医学的な調査などの重要な意思決定プロセスで運用されているため、信頼の一致を正確かつ確実に述べることが重要となる。
バイオメトリックな信頼度推定に関する以前の研究は、高い信頼度と低い信頼度をよく区別するが、解釈可能性に欠ける。
したがって、決定の正しさの正確な確率的推定は提供されない。
本研究では,確率論的解釈可能比較(PIC)スコアを提案し,そのスコアが同一のアイデンティティのサンプルから生じる確率を正確に反映する。
提案手法が最適一致信頼度をもたらすことを実証する。
他の手法とは対照的に、複数のサンプルを共同PICスコアに最適に組み合わせることで、認識および信頼度推定性能をさらに向上させることができる。
実験では、4つの公開データベースと5つの最先端顔認識システムで利用可能な全ての生体信頼度推定手法と比較した。
その結果、PICは類似したアプローチよりもはるかに正確な確率論的解釈を持ち、マルチバイオメトリック認識に非常に有効であることが示されている。
コードは公開されている。 In the context of biometrics, matching confidence refers to the confidence that a given matching decision is correct. Since many biometric systems operate in critical decision-making processes, such as in forensics investigations, accurately and reliably stating the matching confidence becomes of high importance. Previous works on biometric confidence estimation can well differentiate between high and low confidence, but lack interpretability. Therefore, they do not provide accurate probabilistic estimates of the correctness of a decision. In this work, we propose a probabilistic interpretable comparison (PIC) score that accurately reflects the probability that the score originates from samples of the same identity. We prove that the proposed approach provides optimal matching confidence. Contrary to other approaches, it can also optimally combine multiple samples in a joint PIC score which further increases the recognition and confidence estimation performance. In the experiments, the proposed PIC approach is compared against all biometric confidence estimation methods available on four publicly available databases and five state-of-the-art face recognition systems. The results demonstrate that PIC has a significantly more accurate probabilistic interpretation than similar approaches and is highly effective for multi-biometric recognition. The code is publicly-available. | 翻訳日:2023-04-13 18:26:55 公開日:2023-04-12 |
# セルフアンサンブル保護:トレーニングチェックポイントは優れたデータプロテクター Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors ( http://arxiv.org/abs/2211.12005v3 ) ライセンス: Link先を確認 | Sizhe Chen, Geng Yuan, Xinwen Cheng, Yifan Gong, Minghai Qin, Yanzhi Wang, Xiaolin Huang | (参考訳) データがますます重要になるにつれて、競争相手が高性能モデルのトレーニングに使用するため、企業はデータを公開することに非常に慎重になるでしょう。
データ上の良いモデルをトレーニングすることを防ぐために、知覚不能な摂動を加えることができる。
このような混乱はトレーニングプロセス全体を損なうことを目的としているため、単一のモデルではなく、DNNトレーニングの脆弱性を反映すべきである。
この新しいアイデアに基づいて、トレーニングにおいて常に認識されていない(必ずしも正しく分類されていない)混乱した例を求めます。
本稿では,(1)正常なトレーニングで無視された例を学習することで,通常の例を無視したdnnが得られる傾向があること,(2)チェックポイントのクロスモデル勾配は直交的に近いこと,すなわち,異なるアーキテクチャを持つdnnと同じくらい多様であること,等から,モデルチェックポイントの勾配を明らかにする。
つまり、我々の素晴らしいアンサンブルのパフォーマンスは、1つのモデルのトレーニングの計算だけを必要とするのです。
3つのデータセットと5つのアーキテクチャの9つのベースラインによる広範囲な実験により、sepは新たな最先端である、例えば、cifar-10 resnet18の精度を94.56%から14.68%に低下させる。
コードはhttps://github.com/Sizhe-Chen/SEPで入手できる。 As data becomes increasingly vital, a company would be very cautious about releasing data, because the competitors could use it to train high-performance models, thereby posing a tremendous threat to the company's commercial competence. To prevent training good models on the data, we could add imperceptible perturbations to it. Since such perturbations aim at hurting the entire training process, they should reflect the vulnerability of DNN training, rather than that of a single model. Based on this new idea, we seek perturbed examples that are always unrecognized (never correctly classified) in training. In this paper, we uncover them by model checkpoints' gradients, forming the proposed self-ensemble protection (SEP), which is very effective because (1) learning on examples ignored during normal training tends to yield DNNs ignoring normal examples; (2) checkpoints' cross-model gradients are close to orthogonal, meaning that they are as diverse as DNNs with different architectures. That is, our amazing performance of ensemble only requires the computation of training one model. By extensive experiments with 9 baselines on 3 datasets and 5 architectures, SEP is verified to be a new state-of-the-art, e.g., our small $\ell_\infty=2/255$ perturbations reduce the accuracy of a CIFAR-10 ResNet18 from 94.56% to 14.68%, compared to 41.35% by the best-known method. Code is available at https://github.com/Sizhe-Chen/SEP. | 翻訳日:2023-04-13 18:26:37 公開日:2023-04-12 |
# web ベース質問応答とマルチモーダル融合を用いた知識ベース補完 Knowledge Base Completion using Web-Based Question Answering and Multimodal Fusion ( http://arxiv.org/abs/2211.07098v3 ) ライセンス: Link先を確認 | Yang Peng | (参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。
しかし、これらの知識は極めて不完全である。
この問題を解決するために,構造化されていない情報と構造化されていない情報をマルチモーダルに融合したWebベースの質問応答システムを提案する。
知識ベース補完のためにWebからの非構造化情報を活用するために,多モーダル特徴と質問テンプレートを用いたWebベースの質問応答システムを設計し,欠落した事実を抽出し,極めて少ない質問で優れた性能を実現する。
抽出品質を向上させるため、質問応答システムは、エンティティタイプやエンティティ間関連性といった知識ベースからの構造化情報を用いる。 Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete. To solve this problem, we propose a web-based question answering system system with multimodal fusion of unstructured and structured information, to fill in missing information for knowledge bases. To utilize unstructured information from the Web for knowledge base completion, we design a web-based question answering system using multimodal features and question templates to extract missing facts, which can achieve good performance with very few questions. To help improve extraction quality, the question answering system employs structured information from knowledge bases, such as entity types and entity-to-entity relatedness. | 翻訳日:2023-04-13 18:26:05 公開日:2023-04-12 |
# 単位キュービットチャネルについて On unital qubit channels ( http://arxiv.org/abs/2301.01358v2 ) ライセンス: Link先を確認 | Chi-Kwong Li and Man-Duen Choi | (参考訳) 局所ユニタリ変換の下でのユニタリ量子ビットチャネルの正準形式を得る。
特に、単位量子チャネルのチェイ行列の固有値が正準形式の不変量の完全な集合を形成することが示されている。
直ちに、すべてのユニタリキュービットチャネルが4つのユニタリチャネルの平均である。
より一般に、ユニタリな量子ビットチャネルは、対流係数 $p_1, \dots, p_m$ を持つユニタリチャネルの凸結合として表現することができ、また、チャネルのchoi行列の固有値のベクトルによって、$(p_1, \dots, p_m)$ がメジャー化される。
正準形式の単位量子ビットチャネルは、ブロッホ球面を楕円体に変換する。
ブロッホ球面を対応する楕円体に送る自然線型写像の詳細な構造を考察する。 A canonical form for unital qubit channels under local unitary transforms is obtained. In particular, it is shown that the eigenvalues of the Choi matrix of a unital quantum channel form a complete set of invariants of the canonical form. It follows immediately that every unital qubit channel is the average of four unitary channels. More generally, a unital qubit channel can be expressed as the convex combination of unitary channels with convex coefficients $p_1, \dots, p_m$ as long as $2(p_1, \dots, p_m)$ is majorized by the vector of eigenvalues of the Choi matrix of the channel. A unital qubit channel in the canonical form will transform the Bloch sphere onto an ellipsoid. We look into the detailed structure of the natural linear maps sending the Bloch sphere onto a corresponding ellipsoid. | 翻訳日:2023-04-13 18:18:32 公開日:2023-04-12 |
# Floquetエンジニアリングによるソリトン列車の生成 Generating soliton trains through Floquet engineering ( http://arxiv.org/abs/2212.11904v2 ) ライセンス: Link先を確認 | Pablo Blanco-Mas and Charles E. Creffield | (参考訳) 光格子電位の存在下でパラボリックトラップに保持された超低温粒子の相互作用ガスについて検討した。
系を離散Gross-Pitaevskiiモデルとして扱うと、Floquet工学は格子を高速に'シェーキング'することで、ホッピングエネルギーの符号を反転させることで、系の基底状態が明るいソリトンに変換されることを示す。
生成したソリトンの数がどのようにシステムの非線形性やトラップの曲率に依存するかを調べ,高周波と低周波の双方に適用可能な手法を示し,その現象の雑音に対する安定性を実証する。
Floquet法は, 低温原子系におけるソリトン生成法として有用かつ安定した手法である。 We study a gas of interacting ultracold bosons held in a parabolic trap in the presence of an optical lattice potential. Treating the system as a discretised Gross-Pitaevskii model, we show how Floquet engineering, by rapidly ``shaking'' the lattice, allows the ground-state of the system to be converted into a train of bright solitons by inverting the sign of the hopping energy. We study how the number of solitons produced depends on the system's nonlinearity and the curvature of the trap, show how the technique can be applied both in the high and low driving-frequency regimes, and demonstrate the phenomenon's stability against noise. We conclude that the Floquet approach is a useful and stable method of preparing solitons in cold atom systems. | 翻訳日:2023-04-13 18:18:02 公開日:2023-04-12 |
# ddcolor:デュアルデコーダによるフォトリアリスティック・セマンティックアウェア画像のカラー化に向けて DDColor: Towards Photo-Realistic and Semantic-Aware Image Colorization via Dual Decoders ( http://arxiv.org/abs/2212.11613v3 ) ライセンス: Link先を確認 | Xiaoyang Kang, Tao Yang, Wenqi Ouyang, Peiran Ren, Lingzhi Li, Xuansong Xie | (参考訳) 画像の自動着色は難しい問題だ。
高い病気とマルチモーダルの不確実性のため、ディープニューラルネットワークを直接トレーニングすることは、通常、誤ったセマンティックカラーと低い色豊かさをもたらす。
最近のトランスフォーマーベースの手法はより良い結果をもたらすが、それらはしばしば手動で設計した事前処理に依存している。
また,単発的特徴に色覚が作用するので,十分な意味情報を活用できないため,深刻な発色効果を呈する傾向がある。
これらの問題に対処するため、画像のカラー化のためのデュアルデコーダを備えた新しいエンドツーエンド手法DDColorを提案する。
提案手法は,マルチスケール画像デコーダとトランスフォーマベースのカラーデコーダを含む。
前者は画像の空間分解能を復元し、後者はクロスアテンションによって色と意味表現の相関を確立する。
追加のプリエントを使う代わりに、2つのデコーダが協力してマルチスケールの画像機能を活用して、適応的なカラークエリの最適化を導いており、色出血の影響を著しく軽減しています。
さらに、生成した結果の色豊かさをさらに高めるために、単純で効果的な色度損失を導入する。
DDColorは既存の最先端技術よりも定量的かつ定性的に優れた性能を発揮することを示す。
コードはhttps://github.com/piddnad/DDColor.comで公開される。 Automatic image colorization is a challenging problem. Due to the high illness and multi-modal uncertainty, directly training a deep neural network usually leads to incorrect semantic colors and low color richness. Recent transformer-based methods can deliver better results, but they often rely on manually designed priors, which are hard to implement and suffer from poor generalization ability. Moreover, they tend to introduce serious color bleeding effects since color attention is performed on single-scale features, thus fail to exploit sufficient semantic information. To address these issues, we propose DDColor, a new end-to-end method with dual decoders for image colorization. Our approach includes a multi-scale image decoder and a transformer-based color decoder. The former restores the spatial resolution of the image, while the latter establishes the correlation between color and semantic representations via cross-attention. Rather than using additional priors, our two decoders work together to leverage multi-scale image features to guide optimization of adaptive color queries, significantly alleviating color bleeding effects. In addition, a simple yet effective colorfulness loss is introduced to further enhance the color richness of generated results. Our extensive experiments demonstrate that DDColor achieves significantly superior performance to existing state-of-the-art works both quantitatively and qualitatively. Codes will be made publicly available at https://github.com/piddnad/DDColor. | 翻訳日:2023-04-13 18:17:49 公開日:2023-04-12 |
# 質問応答のためのモーメントコントラスト事前学習 Momentum Contrastive Pre-training for Question Answering ( http://arxiv.org/abs/2212.05762v2 ) ライセンス: Link先を確認 | Minda Hu, Muzhi Li, Yasheng Wang and Irwin King | (参考訳) 既存の抽出質問回答(QA)の事前学習手法は、構文構造において自然質問とは異なるクローゼのようなクエリを生成する。
そこで本研究では,抽出QAのための新しいMomentum Contrastive pRe-training fOr queStion anSwering(MCROSS)法を提案する。
具体的には、MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
したがって、事前訓練されたモデルは、クローゼのようなサンプルで学んだ知識を自然の疑問に答えることができる。
3つのベンチマークQAデータセットによる実験結果から,本手法は教師付きシナリオとゼロショットシナリオの両方のベースラインと比較して顕著な改善が得られた。 Existing pre-training methods for extractive Question Answering (QA) generate cloze-like queries different from natural questions in syntax structure, which could overfit pre-trained models to simple keyword matching. In order to address this problem, we propose a novel Momentum Contrastive pRe-training fOr queStion anSwering (MCROSS) method for extractive QA. Specifically, MCROSS introduces a momentum contrastive learning framework to align the answer probability between cloze-like and natural query-passage sample pairs. Hence, the pre-trained models can better transfer the knowledge learned in cloze-like samples to answering natural questions. Experimental results on three benchmarking QA datasets show that our method achieves noticeable improvement compared with all baselines in both supervised and zero-shot scenarios. | 翻訳日:2023-04-13 18:17:07 公開日:2023-04-12 |
# 人間互換自動車を目指して:感情遷移モデルを用いた自動走行における非言語チューリングテストの検討 Towards human-compatible autonomous car: A study of non-verbal Turing test in automated driving with affective transition modelling ( http://arxiv.org/abs/2212.02908v5 ) ライセンス: Link先を確認 | Zhaoning Li, Qiaoli Jiang, Zhengming Wu, Anqi Liu, Haiyan Wu, Miner Huang, Kai Huang and Yixuan Ku | (参考訳) 人間がハンズフリーの道を進むとき、自動運転車は不可欠だ。
既存の文献では、人間のように運転すれば自動運転車の受容が増加すると強調されているが、スパースリサーチは、現在の自動運転車の人間的類似性を調べるために乗客の席の観点から自然主義的な経験を提供する。
本研究は、69人の参加者のフィードバックに基づいて、AIドライバーが乗客のための人間ライクな乗車体験を作成できるかどうかを実路シナリオで検証した。
我々は、自動走行のためのノンバーバルチューリングテストの乗車体験ベースのバージョンを設計した。
参加者は、人間かAIドライバーが運転する自動運転車に乗って乗客となり、ドライバーが人間なのかAIなのかを判断した。
aiドライバーは、乗客が偶然にaiドライバーを検知したため、テストに合格できなかった。
対照的に、人間の運転者が車を運転したとき、乗客の判断は偶然だった。
実験では、人間の乗客が人間性をいかに受け入れるかについても検討した。
レーウィンのフィールド理論に基づいて,信号検出理論と事前学習言語モデルを組み合わせて,乗客の人間性評価行動を予測する計算モデルを開発した。
実験前のベースライン感情とそれに対応するポストステージ感情との情緒的遷移をモデルの信号強度として用いた。
その結果、乗客の人間性の記述は、より感情的な移行によって増加することが判明した。
本研究は、自律運転の今後の方向性となる乗客の人間性記述における情緒変化の重要な役割を示唆する。 Autonomous cars are indispensable when humans go further down the hands-free route. Although existing literature highlights that the acceptance of the autonomous car will increase if it drives in a human-like manner, sparse research offers the naturalistic experience from a passenger's seat perspective to examine the human likeness of current autonomous cars. The present study tested whether the AI driver could create a human-like ride experience for passengers based on 69 participants' feedback in a real-road scenario. We designed a ride experience-based version of the non-verbal Turing test for automated driving. Participants rode in autonomous cars (driven by either human or AI drivers) as a passenger and judged whether the driver was human or AI. The AI driver failed to pass our test because passengers detected the AI driver above chance. In contrast, when the human driver drove the car, the passengers' judgement was around chance. We further investigated how human passengers ascribe humanness in our test. Based on Lewin's field theory, we advanced a computational model combining signal detection theory with pre-trained language models to predict passengers' humanness rating behaviour. We employed affective transition between pre-study baseline emotions and corresponding post-stage emotions as the signal strength of our model. Results showed that the passengers' ascription of humanness would increase with the greater affective transition. Our study suggested an important role of affective transition in passengers' ascription of humanness, which might become a future direction for autonomous driving. | 翻訳日:2023-04-13 18:16:38 公開日:2023-04-12 |
# 最適輸送としての階層的政策 Hierarchical Policy Blending As Optimal Transport ( http://arxiv.org/abs/2212.01938v3 ) ライセンス: Link先を確認 | An T. Le, Kay Hansel, Jan Peters, Georgia Chalvatzaki | (参考訳) 最適輸送 (HiPBOT) として階層的政策ブレンディングを提案する。
hipbotはパラメータ空間にルックアヘッド計画層を追加することで、さまざまなエージェントの低レベルのリアクティブエキスパートポリシの重み付けを階層的に調整する。
高レベルプランナーは、基礎となるリーマン運動ポリシーのスケーリングを統一する不均衡な最適輸送としてポリシーブレンディングを行う。
その結果、HiPBOTは専門家ポリシーとエージェントの優先順位を効果的に決定し、タスクの成功と安全性を保証する。
低次元ナビゲーションから高次元全体制御に至るまで、いくつかの応用シナリオにおける実験結果から、HiPBOTの有効性と効率が示された。
我々の手法は、確率的推論を採用するか、専門家のツリー構造を定義するかのどちらかで、最先端のベースラインよりも優れている。
詳細はhttps://sites.google.com/view/hipobotを参照。 We present hierarchical policy blending as optimal transport (HiPBOT). HiPBOT hierarchically adjusts the weights of low-level reactive expert policies of different agents by adding a look-ahead planning layer on the parameter space. The high-level planner renders policy blending as unbalanced optimal transport consolidating the scaling of the underlying Riemannian motion policies. As a result, HiPBOT effectively decides the priorities between expert policies and agents, ensuring the task's success and guaranteeing safety. Experimental results in several application scenarios, from low-dimensional navigation to high-dimensional whole-body control, show the efficacy and efficiency of HiPBOT. Our method outperforms state-of-the-art baselines -- either adopting probabilistic inference or defining a tree structure of experts -- paving the way for new applications of optimal transport to robot control. More material at https://sites.google.com/view/hipobot | 翻訳日:2023-04-13 18:16:17 公開日:2023-04-12 |
# マルチモーダル知識グラフ上のマルチモーダルパス融合を用いたクエリ駆動知識ベース補完 Query-Driven Knowledge Base Completion using Multimodal Path Fusion over Multimodal Knowledge Graph ( http://arxiv.org/abs/2212.01923v2 ) ライセンス: Link先を確認 | Yang Peng | (参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。
しかし、これらの知識ベースは非常に不完全であり、例えば、freebaseの70%以上の人は出生地を知らない。
そこで本研究では,非構造化情報と構造化情報のマルチモーダル融合による問合せ型知識ベース補完システムを提案する。
構造化されていない情報をwebと知識ベースに効果的に融合し、優れた性能を実現するため、本システムは質問応答と規則推論に基づくマルチモーダル知識グラフを構築する。
本稿では,マルチモーダル知識グラフの異なる経路に基づいて候補回答をランク付けし,質問応答,ルール推論,ベースライン融合アルゴリズムよりも優れた性能を実現するマルチモーダルパス融合アルゴリズムを提案する。
システム効率を向上させるために,クエリ駆動技術を用いてシステムの実行時間を短縮し,ユーザクエリに対する迅速な応答を提供する。
システムの有効性と効率を実証する大規模な実験が実施されている。 Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete, for example, over 70% of people in Freebase have no known place of birth. To solve this problem, we propose a query-driven knowledge base completion system with multimodal fusion of unstructured and structured information. To effectively fuse unstructured information from the Web and structured information in knowledge bases to achieve good performance, our system builds multimodal knowledge graphs based on question answering and rule inference. We propose a multimodal path fusion algorithm to rank candidate answers based on different paths in the multimodal knowledge graphs, achieving much better performance than question answering, rule inference and a baseline fusion algorithm. To improve system efficiency, query-driven techniques are utilized to reduce the runtime of our system, providing fast responses to user queries. Extensive experiments have been conducted to demonstrate the effectiveness and efficiency of our system. | 翻訳日:2023-04-13 18:16:02 公開日:2023-04-12 |
# 多体物理学からの強い量子メトロロジー限界 Strong quantum metrological limit from many-body physics ( http://arxiv.org/abs/2301.12113v2 ) ライセンス: Link先を確認 | Yaoming Chu, Xiangbei Li, and Jianming Cai | (参考訳) 標準の量子限界を超え、量子エンタングルメントを用いてハイゼンベルク限界に達することさえも、量子メトロロジーの聖杯を表している。
しかし、量子絡み合いは、価格なしでは得られない貴重な資源である。
大規模に絡み合った状態を作るための例外的な時間的オーバーヘッドは、ハイゼンベルク限界が根本的に達成可能であるかどうかについての不満を引き起こす。
ここでは、量子フィッシャー情報成長のためのリーブ・ロビンソン光円錐によって設定された普遍的な速度制限を見つけ、その準備中の量子資源状態の計量ポテンシャルを特徴づける。
我々の主な成果は、多体量子資源状態準備の複雑さを考慮に入れた量子力学の強い精度限界を確立し、有界な一部位エネルギーを持つ一般多体格子系においてハイゼンベルク限界に達するための基本的な制約を明らかにする。
これにより、量子力学の量子的優位性を達成するのに不可欠な量子多体系の本質的特徴を特定でき、多体量子力学と量子メートル法の間に興味深いつながりをもたらす。 Surpassing the standard quantum limit and even reaching the Heisenberg limit using quantum entanglement, represents the Holy Grail of quantum metrology. However, quantum entanglement is a valuable resource that does not come without a price. The exceptional time overhead for the preparation of large-scale entangled states raises disconcerting concerns about whether the Heisenberg limit is fundamentally achievable. Here we find a universal speed limit set by the Lieb-Robinson light cone for the quantum Fisher information growth to characterize the metrological potential of quantum resource states during their preparation. Our main result establishes a strong precision limit of quantum metrology accounting for the complexity of many-body quantum resource state preparation and reveals a fundamental constraint for reaching the Heisenberg limit in a generic many-body lattice system with bounded one-site energy. It enables us to identify the essential features of quantum many-body systems that are crucial for achieving the quantum advantage of quantum metrology, and brings an interesting connection between many-body quantum dynamics and quantum metrology. | 翻訳日:2023-04-13 18:10:30 公開日:2023-04-12 |
# LDMIC:学習型分散マルチビュー画像符号化 LDMIC: Learning-based Distributed Multi-view Image Coding ( http://arxiv.org/abs/2301.09799v3 ) ライセンス: Link先を確認 | Xinjie Zhang, Jiawei Shao, Jun Zhang | (参考訳) マルチビュー画像圧縮は3D関連アプリケーションにおいて重要な役割を果たす。
既存の手法では予測符号化アーキテクチャが採用されており、その場合の差分と残差情報を圧縮するために共同符号化が必要となる。
これにより、カメラ間のコラボレーションが要求され、異なるビュー間のエピポーラ幾何学的制約が強制されるため、ランダムに重なり合う視野を持つ分散カメラシステムにおいて、これらの方法の展開が困難になる。
一方、分散音源符号化理論は、独立符号化と共同復号により相関音源の効率的なデータ圧縮を実現することが可能であり、学習に基づく分散多視点画像符号化(LDMIC)フレームワークの設計を動機付けている。
独立エンコーダでは、画像間の幾何学的関係に敏感なグローバルなビュー間相関を効果的に捉えるために、デコーダのクロスアテンション機構に基づくシンプルで効果的なジョイントコンテキスト転送モジュールを導入する。
実験の結果,LDMICは符号化速度を高速に保ちながら,従来のMIC法と学習ベースのMIC法の両方に優れていた。
コードはhttps://github.com/Xinjie-Q/LDMICでリリースされる。 Multi-view image compression plays a critical role in 3D-related applications. Existing methods adopt a predictive coding architecture, which requires joint encoding to compress the corresponding disparity as well as residual information. This demands collaboration among cameras and enforces the epipolar geometric constraint between different views, which makes it challenging to deploy these methods in distributed camera systems with randomly overlapping fields of view. Meanwhile, distributed source coding theory indicates that efficient data compression of correlated sources can be achieved by independent encoding and joint decoding, which motivates us to design a learning-based distributed multi-view image coding (LDMIC) framework. With independent encoders, LDMIC introduces a simple yet effective joint context transfer module based on the cross-attention mechanism at the decoder to effectively capture the global inter-view correlations, which is insensitive to the geometric relationships between images. Experimental results show that LDMIC significantly outperforms both traditional and learning-based MIC methods while enjoying fast encoding speed. Code will be released at https://github.com/Xinjie-Q/LDMIC. | 翻訳日:2023-04-13 18:09:59 公開日:2023-04-12 |
# フィールドインストールファイバリンク上の決定論的単一光子源を用いた量子鍵分布 Quantum Key Distribution using Deterministic Single-Photon Sources over a Field-Installed Fibre Link ( http://arxiv.org/abs/2301.09399v2 ) ライセンス: Link先を確認 | Mujtaba Zahidy, Mikkel T. Mikkelsen, Ronny M\"uller, Beatrice Da Lio, Martin Krehbiel, Ying Wang, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Michael Galili, S{\o}ren Forchhammer, Peter Lodahl, Leif K. Oxenl{\o}we, Davide Bacco, and Leonardo Midolo | (参考訳) 量子ドットベースの単一光子源は、コンピューティングと通信のためにオンデマンドのスケーラブルな量子リソースを提供する量子情報技術にとって重要な資産である。
しかし、長期的安定性や光源輝度の制限といった長期的問題は、伝統的に現実世界のアプリケーションでの採用を妨げてきた。
ここでは,コペンハーゲン大都市圏に分布する18kmの暗光ファイバーをまたいだ真の単一光子を用いた量子鍵分布場実験を,テレコム波長に最適化された量子ドット単一光子源周波数変換を用いて実現した。
9.6dbチャネル損失を超える2kbits/s以上の秘密鍵生成速度は、偏光エンコードbb84方式により達成され、24時間以上の連続動作で顕著な安定性を示す。
本研究は、量子インターネットの目標に向けて、デバイス非依存の量子鍵分布を含む高度な単一光子ベースの通信プロトコルを整備しつつ、決定論的単一光子ソース技術の成熟度を強調した。 Quantum-dot-based single-photon sources are key assets for quantum information technology, supplying on-demand scalable quantum resources for computing and communication. However, longlasting issues such as limited long-term stability and source brightness have traditionally impeded their adoption in real-world applications. Here, we realize a quantum key distribution field trial using true single photons across an 18-km-long dark fibre, located in the Copenhagen metropolitan area, using an optimized, state-of-the-art, quantum-dot single-photon source frequency-converted to the telecom wavelength. A secret key generation rate of >2 kbits/s realized over a 9.6 dB channel loss is achieved with a polarization-encoded BB84 scheme, showing remarkable stability for more than 24 hours of continuous operation. Our results highlight the maturity of deterministic single-photon source technology while paving the way for advanced single-photon-based communication protocols, including fully device-independent quantum key distribution, towards the goal of a quantum internet. | 翻訳日:2023-04-13 18:09:39 公開日:2023-04-12 |
# 不確実性定量化を用いた物理システムモデリングのための物理情報場理論 Physics-informed Information Field Theory for Modeling Physical Systems with Uncertainty Quantification ( http://arxiv.org/abs/2301.07609v3 ) ライセンス: Link先を確認 | Alex Alberts, Ilias Bilionis | (参考訳) データ駆動アプローチと物理知識は、システムをモデル化するための強力なテクニックである。
このようなモデルの目標は、測定を既知の物理法則と組み合わせることで、基礎となる分野を効率的に解くことである。
多くのシステムは、欠落パラメータ、ノイズデータ、不完全物理法則などの未知の要素を含むため、これは不確実な定量化問題として広くアプローチされている。
すべての変数を扱う一般的な手法は、一般に後部を近似するために使用される数値スキームに依存しており、そのような離散化に依存しない方法を持つことが望ましい。
情報場理論(IFT)は、必ずしもガウス的ではない分野の統計を行うために必要なツールを提供する。
IFT を物理インフォームド IFT (PIFT) に拡張し,フィールドを記述する物理法則に関する情報を符号化する。
このPIFTから派生した後部は任意の数値スキームとは独立であり、複数のモードをキャプチャできるため、不適切な問題の解が得られる。
Klein-Gordon方程式を含む解析的な例を通して、我々のアプローチを実証する。
次に, 確率勾配ランジュバン力学の変種を開発し, 関節後方からフィールド上およびモデルパラメータ上にサンプルを抽出した。
本手法は, モデル形式誤差の異なる数値例と非線形微分方程式を含む逆問題に適用する。
加算として、後部がモデル形式の不確実性を自動的に定量化できるメートル法を備える。
このため, 数値実験により, この手法は十分なデータが得られる物理の誤った表現に対しても頑健であることがわかった。
本手法は,物理が信頼できない場合に正しく識別できることを数値的に証明し,その場合,フィールドの学習を回帰問題として自動的に扱う。 Data-driven approaches coupled with physical knowledge are powerful techniques to model systems. The goal of such models is to efficiently solve for the underlying field by combining measurements with known physical laws. As many systems contain unknown elements, such as missing parameters, noisy data, or incomplete physical laws, this is widely approached as an uncertainty quantification problem. The common techniques to handle all the variables typically depend on the numerical scheme used to approximate the posterior, and it is desirable to have a method which is independent of any such discretization. Information field theory (IFT) provides the tools necessary to perform statistics over fields that are not necessarily Gaussian. We extend IFT to physics-informed IFT (PIFT) by encoding the functional priors with information about the physical laws which describe the field. The posteriors derived from this PIFT remain independent of any numerical scheme and can capture multiple modes, allowing for the solution of problems which are ill-posed. We demonstrate our approach through an analytical example involving the Klein-Gordon equation. We then develop a variant of stochastic gradient Langevin dynamics to draw samples from the joint posterior over the field and model parameters. We apply our method to numerical examples with various degrees of model-form error and to inverse problems involving nonlinear differential equations. As an addendum, the method is equipped with a metric which allows the posterior to automatically quantify model-form uncertainty. Because of this, our numerical experiments show that the method remains robust to even an incorrect representation of the physics given sufficient data. We numerically demonstrate that the method correctly identifies when the physics cannot be trusted, in which case it automatically treats learning the field as a regression problem. | 翻訳日:2023-04-13 18:09:02 公開日:2023-04-12 |
# ビデオイベント関連予測のための構造記号表現の防御 In Defense of Structural Symbolic Representation for Video Event-Relation Prediction ( http://arxiv.org/abs/2301.03410v2 ) ライセンス: Link先を確認 | Andrew Lu, Xudong Lin, Yulei Niu, Shih-Fu Chang | (参考訳) ビデオ内のイベント関係を理解するには、イベントの基盤となる構造(イベントタイプ、関連する引数ロール、対応するエンティティ)と推論の事実的知識を理解するモデルが必要である。
構造記号表現(SSR)に基づく手法は、イベントタイプと関連する引数ロール/エンティティを直接入力として取り込んで推論を行う。
しかし、最先端のビデオイベント関連予測システムでは、入力ビデオから連続的な特徴ベクトルを使用することの必要性が示されており、与えられたオラクルイベントタイプや引数ロールであっても、SSR入力のみに基づく既存のメソッドは完全に失敗する。
本稿では,以下の質問に答えるために,広範な実験分析を行う。
1) SSR ベースの方法が失敗した理由
2) 映像イベント関連予測の評価設定を適切に理解する方法
3) SSR に基づく手法の可能性を明らかにする方法。
まず,先行するssrベースのビデオイベント予測モデルの障害の原因として,最適以下のトレーニング設定を特定した。
そして,定性的かつ定量的な分析を通じて,映像のみを入力とする評価が現在不可能であることを示すとともに,オラクルのイベント情報に依存することによって正確な評価が得られることを示す。
そこで本研究では,ssrに基づくモデルをイベント系列モデルにさらにコンテキスト化し,外部視覚コモンセンス知識ベースをイベントリレーティング予測データセットに再構成する簡易かつ効果的な手法により,より事実的な知識を具備することを提案する。
その結果、新たな最先端モデルによって、25%のマクロ精度のパフォーマンス向上が実現される。 Understanding event relationships in videos requires a model to understand the underlying structures of events (i.e. the event type, the associated argument roles, and corresponding entities) and factual knowledge for reasoning. Structural symbolic representation (SSR) based methods directly take event types and associated argument roles/entities as inputs to perform reasoning. However, the state-of-the-art video event-relation prediction system shows the necessity of using continuous feature vectors from input videos; existing methods based solely on SSR inputs fail completely, even when given oracle event types and argument roles. In this paper, we conduct an extensive empirical analysis to answer the following questions: 1) why SSR-based method failed; 2) how to understand the evaluation setting of video event relation prediction properly; 3) how to uncover the potential of SSR-based methods. We first identify suboptimal training settings as causing the failure of previous SSR-based video event prediction models. Then through qualitative and quantitative analysis, we show how evaluation that takes only video as inputs is currently unfeasible, as well as the reliance on oracle event information to obtain an accurate evaluation. Based on these findings, we propose to further contextualize the SSR-based model to an Event-Sequence Model and equip it with more factual knowledge through a simple yet effective way of reformulating external visual commonsense knowledge bases into an event-relation prediction pretraining dataset. The resultant new state-of-the-art model eventually establishes a 25% Macro-accuracy performance boost. | 翻訳日:2023-04-13 18:07:22 公開日:2023-04-12 |
# 半教師付きノード分類のための信頼度に基づくサブグラフマッチングによる親和性近傍の探索 Finding Heterophilic Neighbors via Confidence-based Subgraph Matching for Semi-supervised Node Classification ( http://arxiv.org/abs/2302.09755v2 ) ライセンス: Link先を確認 | Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim | (参考訳) グラフニューラルネットワーク(GNN)は多くのグラフベースのアプリケーションで強力であることが証明されている。
しかし、近隣ノードが異なるラベルを持つヘテロ親和的な設定では、うまく一般化できない。
この課題に対処するために、エッジの一部が相反する(ヘテロ親和性)ことを前提として、信頼率を超パラメータとして採用する。
本稿では,二相アルゴリズムを提案する。
まず,補足モジュールを用いた部分グラフマッチングによりエッジ係数を決定する。
次に, エッジ係数を効果的に活用するために, 改良ラベル伝搬機構をgnnに適用する。
具体的には,与えられた信頼率に基づいてタスク関連エッジの一定割合を補足モジュールで特定する。
残りのエッジを用いて,2つのノード間の類似度をサブグラフで測定するために,広く使用される最適トランスポートを用いる。
最後に,GNNの補足情報として係数を用いることで,より小さな重みを持つ2ノードの接近を防止するラベル伝搬機構を改善する。
ベンチマークデータセットにおける実験は、モデルが過剰動作を緩和し、パフォーマンスが向上することを示している。 Graph Neural Networks (GNNs) have proven to be powerful in many graph-based applications. However, they fail to generalize well under heterophilic setups, where neighbor nodes have different labels. To address this challenge, we employ a confidence ratio as a hyper-parameter, assuming that some of the edges are disassortative (heterophilic). Here, we propose a two-phased algorithm. Firstly, we determine edge coefficients through subgraph matching using a supplementary module. Then, we apply GNNs with a modified label propagation mechanism to utilize the edge coefficients effectively. Specifically, our supplementary module identifies a certain proportion of task-irrelevant edges based on a given confidence ratio. Using the remaining edges, we employ the widely used optimal transport to measure the similarity between two nodes with their subgraphs. Finally, using the coefficients as supplementary information on GNNs, we improve the label propagation mechanism which can prevent two nodes with smaller weights from being closer. The experiments on benchmark datasets show that our model alleviates over-smoothing and improves performance. | 翻訳日:2023-04-13 18:00:39 公開日:2023-04-12 |
# MixNeRF:スパース入力からの新しいビュー合成のための混合密度線をモデル化する MixNeRF: Modeling a Ray with Mixture Density for Novel View Synthesis from Sparse Inputs ( http://arxiv.org/abs/2302.08788v2 ) ライセンス: Link先を確認 | Seunghyeon Seo, Donghoon Han, Yeonjin Chang, Nojun Kwak | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、そのシンプルな概念と最先端の品質のために、新しいビュー合成の新たな基盤を壊した。
しかし、異なるカメラポーズの濃密な画像セットで訓練されない限り、パフォーマンスの低下に苦しむため、実用的利用を妨げている。
この課題に対処する従来の手法は有望な結果を得たが、訓練効率を追求するスパース・インプット・ノベルビュー合成の哲学に反する追加の訓練資源に大きく依存していた。
本研究では,混合密度モデルを用いて光線をモデル化し,スパース入力からの新規ビュー合成のための効果的なトレーニング戦略であるMixNeRFを提案する。
我々のMixNeRFは、RGB色と光線サンプルの混合分布をモデル化することにより、RGB色の結合分布を推定する。
また,3次元シーン形状と高度に相関する有用なトレーニング目標として,線深度推定の新たなタスクを提案する。
さらに、推定光深度に基づいて混合重量を再生した色を再構成し、色と視点の堅牢性をさらに向上する。
当社のmixnerfは、トレーニングと推論の効率が優れた、さまざまな標準ベンチマークで、最先端のメソッドよりも優れています。 Neural Radiance Field (NeRF) has broken new ground in the novel view synthesis due to its simple concept and state-of-the-art quality. However, it suffers from severe performance degradation unless trained with a dense set of images with different camera poses, which hinders its practical applications. Although previous methods addressing this problem achieved promising results, they relied heavily on the additional training resources, which goes against the philosophy of sparse-input novel-view synthesis pursuing the training efficiency. In this work, we propose MixNeRF, an effective training strategy for novel view synthesis from sparse inputs by modeling a ray with a mixture density model. Our MixNeRF estimates the joint distribution of RGB colors along the ray samples by modeling it with mixture of distributions. We also propose a new task of ray depth estimation as a useful training objective, which is highly correlated with 3D scene geometry. Moreover, we remodel the colors with regenerated blending weights based on the estimated ray depth and further improves the robustness for colors and viewpoints. Our MixNeRF outperforms other state-of-the-art methods in various standard benchmarks with superior efficiency of training and inference. | 翻訳日:2023-04-13 18:00:23 公開日:2023-04-12 |
# viewmaker networkを用いたマルチスペクトルコントラスト学習 Multispectral Contrastive Learning with Viewmaker Networks ( http://arxiv.org/abs/2302.05757v2 ) ライセンス: Link先を確認 | Jasmine Bayrooti, Noah Goodman, Alex Tamkin | (参考訳) 対照的な学習方法は、データポイントの類似した「ビュー」を識別する訓練モデルにより、様々な領域やモダリティに適用されている。
しかし、専門的な科学的モダリティは、各科学機器の良質な見方が複雑で時間を要するため、このパラダイムに挑戦する。
本稿では,様々なリモートセンシングデータセットにコントラスト学習アプローチを適用することに焦点を当てる。
最近提案されたビュー作成手法であるViewmaker Networkは、ドメイン知識や試行錯誤を伴わずに、この環境でビューを生成することを約束している。
下流の分類タスクで評価した場合,ビューメーカは4つのマルチスペクトルイメージング問題にそれぞれ異なるフォーマットで適用し,コントラスト学習のためのトリミング法とリフレクション法より優れることを示した。
このことは、ドメインに依存しない手法が対照的な学習を現実世界の科学領域に拡張する上で有効であることを示す。
ソースコードはhttps://github.com/jbayrooti/divmakerにある。 Contrastive learning methods have been applied to a range of domains and modalities by training models to identify similar "views" of data points. However, specialized scientific modalities pose a challenge for this paradigm, as identifying good views for each scientific instrument is complex and time-intensive. In this paper, we focus on applying contrastive learning approaches to a variety of remote sensing datasets. We show that Viewmaker networks, a recently proposed method for generating views, are promising for producing views in this setting without requiring extensive domain knowledge and trial and error. We apply Viewmaker to four multispectral imaging problems, each with a different format, finding that Viewmaker can outperform cropping- and reflection-based methods for contrastive learning in every case when evaluated on downstream classification tasks. This provides additional evidence that domain-agnostic methods can empower contrastive learning to scale to real-world scientific domains. Open source code can be found at https://github.com/jbayrooti/divmaker. | 翻訳日:2023-04-13 17:59:17 公開日:2023-04-12 |
# 言語モデルの連続事前学習 Continual Pre-training of Language Models ( http://arxiv.org/abs/2302.03241v4 ) ライセンス: Link先を確認 | Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, and Bing Liu | (参考訳) 言語モデル(LM)は、自然言語処理の急速な進歩に役立っている。
本稿では, LMの連続的事前訓練, 特に連続的ドメイン適応型事前訓練(あるいは連続的DAP訓練)について検討する。
既存の研究によると、ドメインコーパスを使ってドメインにlmを適応させるためにlmを事前トレーニングすることで、ドメインのエンドタスクパフォーマンスが向上する。
本稿では,未ラベルのドメインコーパスを連続してDAP訓練してこれらのドメインに適応させ,エンドタスク性能を向上させる手法を提案する。
本手法の重要な特徴は,LMの更新を直接制御するソフトマスキング機構である。
従来のLMにおける一般的な知識を維持するために、新しいプロキシも提案されている。
さらに、学習済みのドメイン知識(事前学習されたLMの一般的な知識を含む)の表現と、知識統合を達成するための現在の完全なネットワークからの知識とを対比する。
この方法は破滅的な忘れを克服するだけでなく、エンドタスクのパフォーマンスを改善するための知識伝達も達成する。
実験評価の結果,提案手法の有効性が示された。 Language models (LMs) have been instrumental for the rapid advance of natural language processing. This paper studies continual pre-training of LMs, in particular, continual domain-adaptive pre-training (or continual DAP-training). Existing research has shown that further pre-training an LM using a domain corpus to adapt the LM to the domain can improve the end-task performance in the domain. This paper proposes a novel method to continually DAP-train an LM with a sequence of unlabeled domain corpora to adapt the LM to these domains to improve their end-task performances. The key novelty of our method is a soft-masking mechanism that directly controls the update to the LM. A novel proxy is also proposed to preserve the general knowledge in the original LM. Additionally, it contrasts the representations of the previously learned domain knowledge (including the general knowledge in the pre-trained LM) and the knowledge from the current full network to achieve knowledge integration. The method not only overcomes catastrophic forgetting, but also achieves knowledge transfer to improve end-task performances. Empirical evaluation demonstrates the effectiveness of the proposed method. | 翻訳日:2023-04-13 17:58:58 公開日:2023-04-12 |
# 副次的評価を有するエージェント間の良質・良質な項目の分割 Dividing Good and Better Items Among Agents with Submodular Valuations ( http://arxiv.org/abs/2302.03087v2 ) ライセンス: Link先を確認 | Cyrus Cousins, Vignesh Viswanathan and Yair Zick | (参考訳) 我々は,二価のサブモジュラー価値を持つエージェント間で,一組の不可分な商品を公平に割り当てる問題について検討する。
これは2つのよく研究された付値クラスの自然な一般化である。
本稿では,最近導入されたYankee Swap機構に基づいて,レキシミン,最大ナッシュ福祉(MNW),および$a$が$b$を分割した場合のアロケーションを最大化する$p$平均福祉など,様々なソリューション概念を計算できる簡単な逐次アルゴリズムフレームワークを提案する。
この結果は、$a$ が$b$ を割らない場合、レキシミンとmnwの割り当ての計算不能性に関する既存の結果によって補完される。
さらに、よく知られた2つの性質、うらやましい自由度と最大シェア保証に関して、レキシミンとMNWの割り当てについて検討する。
envy freenessでは、レキシミンとmnwの割り当ては1つの良いものまでenvy freeであることが保証されていない(ef1)。
二値加法評価と二値部分モジュラー評価のより単純なクラスでは、MNWアロケーションはどんな良いもの(EFX)にもうらやましいことが知られているので、これは驚くべきことである。
マキシミン共有保証では、MNWとレキシミン割り当てが各エージェントの$\frac14$と$\frac{a}{b+3a}$をそれぞれ保証していることを示す。
この分率は、エージェントが2値の付加価値を持つ場合、それぞれ$\frac13$と$\frac{a}{b+2a}$に改善される。 We study the problem of fairly allocating a set of indivisible goods among agents with bivalued submodular valuations -- each good provides a marginal gain of either $a$ or $b$ ($a < b$) and goods have decreasing marginal gains. This is a natural generalization of two well-studied valuation classes -- bivalued additive valuations and binary submodular valuations. We present a simple sequential algorithmic framework, based on the recently introduced Yankee Swap mechanism, that can be adapted to compute a variety of solution concepts, including leximin, max Nash welfare (MNW) and $p$-mean welfare maximizing allocations when $a$ divides $b$. This result is complemented by an existing result on the computational intractability of leximin and MNW allocations when $a$ does not divide $b$. We further examine leximin and MNW allocations with respect to two well-known properties -- envy freeness and the maximin share guarantee. On envy freeness, we show that neither the leximin nor the MNW allocation is guaranteed to be envy free up to one good (EF1). This is surprising since for the simpler classes of bivalued additive valuations and binary submodular valuations, MNW allocations are known to be envy free up to any good (EFX). On the maximin share guarantee, we show that MNW and leximin allocations guarantee each agent $\frac14$ and $\frac{a}{b+3a}$ of their maximin share respectively when $a$ divides $b$. This fraction improves to $\frac13$ and $\frac{a}{b+2a}$ respectively when agents have bivalued additive valuations. | 翻訳日:2023-04-13 17:58:41 公開日:2023-04-12 |
# 小さな$^4he_n$クラスターに対する深層ニューラルネットワークと変分モンテカルロ法との相乗効果 Synergy between deep neural networks and the variational Monte Carlo method for small $^4He_N$ clusters ( http://arxiv.org/abs/2302.00599v2 ) ライセンス: Link先を確認 | William Freitas and S. A. Vitiello | (参考訳) 本稿ではBose-Einstein統計量を満たす波動関数をモデル化するためのニューラルネットワークに基づくアプローチを提案する。
このモデルを2原子から14原子までの小さな$^4he_n$クラスターに適用することにより、弱ユニタリティに関連する基底状態エネルギー、対密度関数、および2体接触パラメータ$c^{(n)}_2$を正確に予測することができた。
変分モンテカルロ法を用いて得られた結果は、拡散モンテカルロ法を使用した以前の研究と顕著に一致している。
これは、我々のニューラルネットワークアプローチが、ボース=アインシュタイン統計に従う多体システムを調べる強力なツールであることを示唆している。 We present a neural network-based approach for modeling wave functions that satisfies Bose-Einstein statistics. By applying this model to small $^4He_N$ clusters with N ranging from 2 to 14 atoms, we were able to accurately predict ground state energies, pair density functions, and two-body contact parameters $C^{(N)}_2$ associated with weak unitarity. The results obtained through the use of the variational Monte Carlo method are in remarkable agreement with previous studies that employed the diffusion Monte Carlo method. This suggests that our neural network approach is a powerful tool for investigating many-body systems that obey Bose-Einstein statistics. | 翻訳日:2023-04-13 17:57:49 公開日:2023-04-12 |
# 低温原子のための時間軌道型チップトラップ A time-orbiting potential chip trap for cold atoms ( http://arxiv.org/abs/2302.00078v2 ) ライセンス: Link先を確認 | C. A. Sackett and J. A. Stickney | (参考訳) 本稿では、時間軌道ポテンシャル技術を用いた原子チップトラップの設計について述べる。
この設計は他のチップトラップ方式に比べていくつかの利点がある。
チップには単純なクロスワイヤパターンと回転バイアスフィールドが使われている。
トラップは自然に球対称に近く、座標の2次順序で正確に対称に修正することができる。
光磁気トラップからの負荷は、トラップをチップから任意の距離に配置できるため容易である。
磁場を変形させて重力に対する支持勾配を与えることができ、三次元トラップを2次元ガイドに変換することができる。 We present a design for an atom chip trap that uses the time-orbiting potential technique. The design offers several advantages compared to other chip-trap methods. It uses a simple crossed-wire pattern on the chip, along with a rotating bias field. The trap is naturally close to spherically symmetric, and it can be modified to be exactly symmetric in quadratic order of the coordinates. Loading from a magneto-optical trap is facilitated because the trap can be positioned an arbitrary distance from the chip. The fields can be modified to provide a gradient for support against gravity, and the three-dimensional trap can be adiabatically transformed into a two-dimensional guide. | 翻訳日:2023-04-13 17:57:37 公開日:2023-04-12 |
# 拡散の識別における時系列分類法のベンチマーク最適性 Benchmarking optimality of time series classification methods in distinguishing diffusions ( http://arxiv.org/abs/2301.13112v3 ) ライセンス: Link先を確認 | Zehong Zhang, Fei Lu, Esther Xu Fei, Terry Lyons, Yannis Kevrekidis, and Tom Woolf | (参考訳) 統計的最適性ベンチマークは時系列分類(TSC)アルゴリズムの解析と設計に不可欠である。
本研究では, 拡散過程を高次比検定(LRT)により識別するTSCアルゴリズムの最適性を評価することを提案する。
lrt は neyman-pearson lemma による最適分類器である。
LRTベンチマークは、LRTがトレーニングを必要とせず、拡散過程を効率的にシミュレートでき、現実世界のアプリケーションの特徴を反映する柔軟性があるため、計算的に効率的である。
我々は、ランダムフォレスト、ResNet、ROCKETの3つの広く使われているTSCアルゴリズムを用いて、ベンチマークを実証する。
これらのアルゴリズムは単変量時系列と多変量ガウス過程に対するLRT最適性を達成することができる。
しかし、これらのモデルに依存しないアルゴリズムは高次元非線形多変量時系列の分類に最適である。
さらに、LRTベンチマークは、時間長、寸法、時間サンプリング周波数、時系列のランダム性に対する分類精度の依存性を分析するツールを提供する。 Statistical optimality benchmarking is crucial for analyzing and designing time series classification (TSC) algorithms. This study proposes to benchmark the optimality of TSC algorithms in distinguishing diffusion processes by the likelihood ratio test (LRT). The LRT is an optimal classifier by the Neyman-Pearson lemma. The LRT benchmarks are computationally efficient because the LRT does not need training, and the diffusion processes can be efficiently simulated and are flexible to reflect the specific features of real-world applications. We demonstrate the benchmarking with three widely-used TSC algorithms: random forest, ResNet, and ROCKET. These algorithms can achieve the LRT optimality for univariate time series and multivariate Gaussian processes. However, these model-agnostic algorithms are suboptimal in classifying high-dimensional nonlinear multivariate time series. Additionally, the LRT benchmark provides tools to analyze the dependence of classification accuracy on the time length, dimension, temporal sampling frequency, and randomness of the time series. | 翻訳日:2023-04-13 17:57:28 公開日:2023-04-12 |
# 最適な採餌戦略を学習し、L''evy ウォークを上回る Optimal foraging strategies can be learned and outperform L\'evy walks ( http://arxiv.org/abs/2303.06050v2 ) ライセンス: Link先を確認 | Gorka Mu\~noz-Gil, Andrea L\'opez-Incera, Lukas J. Fiderer and Hans J. Briegel | (参考訳) L'evy walkとその他の理論モデルが実世界のシナリオを記述するのに成功し、経済、物理学、生態学、進化生物学などいくつかの分野に注目が集まっている。
しかし、どの戦略が効率を最大化するのか、またそのような戦略が生物によって学べるのかは、ほとんどの場合不明である。
これらの問題に対処するため、私たちはフォアジャーを強化学習エージェントとしてモデル化する。
まず, 強化学習モデルにおける報酬の最大化が, 捕食効率の最適化と等価であることを理論的に証明する。
次に, エージェントがL''evy walkのような既知の戦略の効率を上回り, 捕食戦略を学習する数値実験を行った。 L\'evy walks and other theoretical models of optimal foraging have been successfully used to describe real-world scenarios, attracting attention in several fields such as economy, physics, ecology, and evolutionary biology. However, it remains unclear in most cases which strategies maximize foraging efficiency and whether such strategies can be learned by living organisms. To address these questions, we model foragers as reinforcement learning agents. We first prove theoretically that maximizing rewards in our reinforcement learning model is equivalent to optimizing foraging efficiency. We then show with numerical experiments that our agents learn foraging strategies which outperform the efficiency of known strategies such as L\'evy walks. | 翻訳日:2023-04-13 17:52:12 公開日:2023-04-12 |
# cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換 CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment ( http://arxiv.org/abs/2303.05725v4 ) ライセンス: Link先を確認 | Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia, Yidong Chen, Stan Z. Li | (参考訳) 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
ほとんどのslrは事前訓練されたビジュアルモジュールを採用し、2つのメインストリームソリューションを開発する。
マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。
あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。
本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。
単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。
VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。
一方、整合性制約を明確に拡張するために、対照的なクロスモーダルアライメントアルゴリズムが設計されている。
公開データセット(PHOENIX-2014およびPHOENIX-2014T)の大規模な実験により,提案したCVT-SLRは既存の単一キュー法より一貫して優れ,SOTAマルチキュー法よりも優れていた。 Sign language recognition (SLR) is a weakly supervised task that annotates sign videos as textual glosses. Recent studies show that insufficient training caused by the lack of large-scale available sign datasets becomes the main bottleneck for SLR. Most SLR works thereby adopt pretrained visual modules and develop two mainstream solutions. The multi-stream architectures extend multi-cue visual features, yielding the current SOTA performances but requiring complex designs and might introduce potential noise. Alternatively, the advanced single-cue SLR frameworks using explicit cross-modal alignment between visual and textual modalities are simple and effective, potentially competitive with the multi-cue framework. In this work, we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained knowledge of both the visual and language modalities. Based on the single-cue cross-modal alignment framework, we propose a variational autoencoder (VAE) for pretrained contextual knowledge while introducing the complete pretrained language module. The VAE implicitly aligns visual and textual modalities while benefiting from pretrained contextual knowledge as the traditional contextual module. Meanwhile, a contrastive cross-modal alignment algorithm is designed to explicitly enhance the consistency constraints. Extensive experiments on public datasets (PHOENIX-2014 and PHOENIX-2014T) demonstrate that our proposed CVT-SLR consistently outperforms existing single-cue methods and even outperforms SOTA multi-cue methods. | 翻訳日:2023-04-13 17:51:58 公開日:2023-04-12 |
# 希少部分群における画像分類器の系統誤差の同定 Identification of Systematic Errors of Image Classifiers on Rare Subgroups ( http://arxiv.org/abs/2303.05072v2 ) ライセンス: Link先を確認 | Jan Hendrik Metzen, Robin Hutmacher, N. Grace Hua, Valentyn Boreiko, Dan Zhang | (参考訳) 多くの画像分類器の平均ケース性能にもかかわらず、それらの性能はトレーニングデータで表現されていないデータのセマンティックコヒーレントな部分群で著しく低下する。
これらの系統的誤りは、少数民族集団の公平性と、ドメインシフト下での堅牢性と安全性の両方に影響を与える可能性がある。
主要な課題は、これらの部分群がアノテートされず、その発生が非常に稀なときに、サブパー性能を持つ部分群を特定することである。
我々は,テキスト・ツー・イメージ・モデルにおける最近の進歩と,プロンプト付き合成データに対する目標モデルの性能が低いサブグループに対するサブグループのテキスト記述空間の探索を利用する。
指数関数的に増加するサブグループに対処するために、組合せテストを採用する。
本稿では,プロンプトアタック(PromptAttack)と表現し,プロンプト空間における敵攻撃と解釈できる。
制御された環境では,プロンプトアタックによるサブグループカバレッジと識別性を調査し,高い精度で系統的誤りを識別できることを見いだした。
本稿では、ImageNet分類器にPromptAttackを適用し、稀なサブグループの新しい体系的エラーを特定する。 Despite excellent average-case performance of many image classifiers, their performance can substantially deteriorate on semantically coherent subgroups of the data that were under-represented in the training data. These systematic errors can impact both fairness for demographic minority groups as well as robustness and safety under domain shift. A major challenge is to identify such subgroups with subpar performance when the subgroups are not annotated and their occurrence is very rare. We leverage recent advances in text-to-image models and search in the space of textual descriptions of subgroups ("prompts") for subgroups where the target model has low performance on the prompt-conditioned synthesized data. To tackle the exponentially growing number of subgroups, we employ combinatorial testing. We denote this procedure as PromptAttack as it can be interpreted as an adversarial attack in a prompt space. We study subgroup coverage and identifiability with PromptAttack in a controlled setting and find that it identifies systematic errors with high accuracy. Thereupon, we apply PromptAttack to ImageNet classifiers and identify novel systematic errors on rare subgroups. | 翻訳日:2023-04-13 17:51:28 公開日:2023-04-12 |
# 進化的強化学習:調査 Evolutionary Reinforcement Learning: A Survey ( http://arxiv.org/abs/2303.04150v3 ) ライセンス: Link先を確認 | Hui Bai and Ran Cheng and Yaochu Jin | (参考訳) 強化学習(Reinforcement Learning, RL)は、エージェントに環境とのインタラクションを通じて累積報酬を最大化する機械学習アプローチである。
RLとディープラーニングの統合は、ボードゲーム、アーケードゲーム、ロボット制御など、幅広い課題において、目覚ましい成果をもたらした。
これらの成功にもかかわらず、センシティブなハイパーパラメータによって引き起こされる不安定な収束性、長期水平線とスパース報酬による時間的クレジット割り当ての難しさ、探索空間の連続的なシナリオにおける多様な探索の欠如、マルチエージェント強化学習におけるクレジット割り当ての難しさ、報酬の相反など、いくつかの重要な課題がある。
学習エージェントの個体数を維持する進化的計算(EC)は,これらの制限に対処する上で有望な性能を示した。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を行う。
本稿では,超パラメータ最適化,政策探索,探索,報酬形成,メタRL,多目的RLなど,RLの重要研究分野に基づいてEvoRL法を分類する。
次に、効率的な方法、ベンチマーク、スケーラブルなプラットフォームの観点から、今後の研究の方向性について論じる。
この調査は、EvoRLの分野に関心を持つ研究者や実践者のリソースとなり、今後の研究における重要な課題と機会を強調している。
この調査の助けを借りて、研究者や実践者はより効率的な方法やEvoRLのベンチマークを作成できるようになり、この有望な学際的な研究分野をさらに進めることができる。 Reinforcement learning (RL) is a machine learning approach that trains agents to maximize cumulative rewards through interactions with environments. The integration of RL with deep learning has recently resulted in impressive achievements in a wide range of challenging tasks, including board games, arcade games, and robot control. Despite these successes, there remain several crucial challenges, including brittle convergence properties caused by sensitive hyperparameters, difficulties in temporal credit assignment with long time horizons and sparse rewards, a lack of diverse exploration, especially in continuous search space scenarios, difficulties in credit assignment in multi-agent reinforcement learning, and conflicting objectives for rewards. Evolutionary computation (EC), which maintains a population of learning agents, has demonstrated promising performance in addressing these limitations. This article presents a comprehensive survey of state-of-the-art methods for integrating EC into RL, referred to as evolutionary reinforcement learning (EvoRL). We categorize EvoRL methods according to key research fields in RL, including hyperparameter optimization, policy search, exploration, reward shaping, meta-RL, and multi-objective RL. We then discuss future research directions in terms of efficient methods, benchmarks, and scalable platforms. This survey serves as a resource for researchers and practitioners interested in the field of EvoRL, highlighting the important challenges and opportunities for future research. With the help of this survey, researchers and practitioners can develop more efficient methods and tailored benchmarks for EvoRL, further advancing this promising cross-disciplinary research field. | 翻訳日:2023-04-13 17:51:10 公開日:2023-04-12 |
# ノイズ系の共鳴蛍光 Resonance fluorescence of noisy systems ( http://arxiv.org/abs/2303.01531v2 ) ライセンス: Link先を確認 | Rafa{\l} A. Bogaczewicz, Pawe{\l} Machnikowski | (参考訳) 共鳴蛍光と呼ばれる共鳴またはほぼ共鳴励起系からの光散乱は、物質の量子状態の調査や量子情報の読み出しのための汎用的なツールとして重要視されている。
本研究では、遷移エネルギーが2つの重要なノイズ過程(位相拡散につながる白色雑音ゆらぎと有限状態の任意の定常マルコフ雑音過程)のノイズを受ける系の低励起限界における共鳴蛍光の一般理論を考案する。
後者は、ランダムなテレグラフノイズの場合と、任意の数の同一のランダムなテレグラフノイズコントリビューションの和に適用する。
ノイズの異なるクラスが特性的にRFスペクトルに影響を与えることを示す。
したがって、RFスペクトルは物理系に存在する雑音の特性に関する情報を伝達する。 Light scattering from resonantly or nearly resonantly excited systems, known as resonance fluorescence, has been gaining importance as a versatile tool for investigating quantum states of matter and readout of quantum information, recently including also the inherently noisy solid state systems. In this work we develop a general theory of resonance fluorescence in the low excitation limit on systems in which the transition energy is subject to noise for two important classes of noise processes: white noise fluctuations that lead to phase diffusion and an arbitrary stationary Markovian noise process on a finite set of states. We apply the latter to the case of random telegraph noise and a sum of an arbitrary number of identical random telegraph noise contributions. We show that different classes of noise influence the RF spectrum in a characteristic way. Hence, the RF spectrum carries information on the characteristics of noise present in the physical system. | 翻訳日:2023-04-13 17:50:16 公開日:2023-04-12 |
# 2つのリンドブラッド浴に結合したスピン1/2xxz鎖:平衡相関関数による非平衡定常状態の構築 The spin-1/2 XXZ chain coupled to two Lindblad baths: Constructing nonequilibrium steady states from equilibrium correlation functions ( http://arxiv.org/abs/2303.00430v2 ) ライセンス: Link先を確認 | Tjark Heitmann, Jonas Richter, Fengping Jin, Sourav Nandy, Zala Lenar\v{c}i\v{c}, Jacek Herbrych, Kristel Michielsen, Hans De Raedt, Jochen Gemmer, Robin Steinigeweg | (参考訳) 多体量子システムの輸送係数を抽出するための最先端のアプローチは、広く2つのカテゴリに分類される。
(i)閉システムの平衡相関関数の観点から、線形応答レジームを対象とするか。
(ii)リンドブラッド方程式によってモデル化される開系状態を考えると、非平衡定常状態がその境界で系の駆動から現れる。
定量的な合意は
(i)および
(ii) 選択されたモデルとパラメータの選択については, 文献で異論が指摘されている。
スピン1/2 xxz鎖における磁化輸送の研究から, 弱駆動では, 開系における非平衡定常状態は, 時間的構築を含めて, 閉系における相関関数に基づいて, 著しく構成できることを示した。
この閉系と開系力学の直接対応を数値的に説明し、一般に行列積状態のシミュレーションにのみアクセス可能な比較的大きな開系を扱えることを示す。
また,有限系の非平衡定常状態から輸送係数を抽出する場合の潜在的な落とし穴を指摘する。 State-of-the-art approaches to extract transport coefficients of many-body quantum systems broadly fall into two categories: (i) they target the linear-response regime in terms of equilibrium correlation functions of the closed system; or (ii) they consider an open-system situation typically modeled by a Lindblad equation, where a nonequilibrium steady state emerges from driving the system at its boundaries. While quantitative agreement between (i) and (ii) has been found for selected model and parameter choices, also disagreement has been pointed out in the literature. Studying magnetization transport in the spin-1/2 XXZ chain, we here demonstrate that at weak driving, the nonequilibrium steady state in an open system, including its buildup in time, can remarkably be constructed just on the basis of correlation functions in the closed system. We numerically illustrate this direct correspondence of closed-system and open-system dynamics, and show that it allows the treatment of comparatively large open systems, usually only accessible to matrix product state simulations. We also point out potential pitfalls when extracting transport coefficients from nonequilibrium steady states in finite systems. | 翻訳日:2023-04-13 17:50:02 公開日:2023-04-12 |
# Few-Shot Name Entity Recognition のためのジョイントコントラスト学習による特徴的セマンティックデカップリング法 A Prototypical Semantic Decoupling Method via Joint Contrastive Learning for Few-Shot Name Entity Recognition ( http://arxiv.org/abs/2302.13610v2 ) ライセンス: Link先を確認 | Guanting Dong and Zechen Wang and Liwen Wang and Daichi Guo and Dayuan Fu and Yuxiang Wu and Chen Zeng and Xuefeng Li and Tingfeng Hui and Keqing He and Xinyue Cui and Qixiang Gao and Weiran Xu | (参考訳) 名前付きエンティティ認識(NER)は、わずかにラベル付きインスタンスに基づいて名前付きエンティティを識別することを目的としている。
既存のプロトタイプベースのシーケンスラベリングモデルの多くは、近接したプロトタイプによって容易に混同されるエンティティ参照を記憶する傾向がある。
本稿では,数発のNERに対して,共同コントラスト学習(PSDC)を用いたプロトタイプセマンティックデカップリング手法を提案する。
具体的には、クラス固有のプロトタイプとコンテキストセマンティクスのプロトタイプを2つのマスキング戦略で分離し、モデルを推論のために2つの異なるセマンティクス情報に集中させる。
さらに,2種類の分離情報の統合と意味的崩壊の防止を図るために,統合コントラスト学習目標も導入する。
2つの数ショットのNERベンチマークによる実験結果から、PSDCは全体の性能において従来のSOTA法よりも一貫して優れていた。
拡張解析はPSDCの有効性と一般化をさらに検証する。 Few-shot named entity recognition (NER) aims at identifying named entities based on only few labeled instances. Most existing prototype-based sequence labeling models tend to memorize entity mentions which would be easily confused by close prototypes. In this paper, we proposed a Prototypical Semantic Decoupling method via joint Contrastive learning (PSDC) for few-shot NER. Specifically, we decouple class-specific prototypes and contextual semantic prototypes by two masking strategies to lead the model to focus on two different semantic information for inference. Besides, we further introduce joint contrastive learning objectives to better integrate two kinds of decoupling information and prevent semantic collapse. Experimental results on two few-shot NER benchmarks demonstrate that PSDC consistently outperforms the previous SOTA methods in terms of overall performance. Extensive analysis further validates the effectiveness and generalization of PSDC. | 翻訳日:2023-04-13 17:49:43 公開日:2023-04-12 |
# vlsp2022-evjvqaチャレンジ:多言語視覚質問応答 VLSP2022-EVJVQA Challenge: Multilingual Visual Question Answering ( http://arxiv.org/abs/2302.11752v4 ) ライセンス: Link先を確認 | Ngan Luu-Thuy Nguyen, Nghia Hieu Nguyen, Duong T.D Vo, Khanh Quoc Tran, Kiet Van Nguyen | (参考訳) VQA(Visual Question Answering)は自然言語処理(NLP)とコンピュータビジョン(CV)の課題であり、研究者から大きな注目を集めている。
英語はリソースに富む言語であり、視覚的な質問応答のためのデータセットやモデルで様々な発展を目撃してきた。
他の言語での視覚的な質問応答も、リソースやモデルのために開発される。
加えて、独自の対象と文化的特徴を持つ、特定の国の視覚コンテンツをターゲットにした多言語データセットは存在しない。
ベトナム語、英語、日本語の3つの言語に対する33,000組以上の質問応答を含む、多言語vqaシステムやモデルを評価するためにベトナムから撮影された約5,000枚の画像を含む、研究コミュニティにevjvqaというベンチマークデータセットを提供する。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答の課題に対するベンチマークデータセットとして使用されている。
この作業は、様々な大学や組織から62の参加者を惹きつけた。
本稿では,課題の組織の詳細,共有タスク参加者が採用する手法の概要,その結果について述べる。
最高パフォーマンスはF1スコアの0.4392、プライベートテストセットのBLUEの0.4009である。
トップ2チームが提案した多言語QAシステムは、事前訓練された視覚モデルにViT、事前訓練された言語モデルにmT5を使用している。
EVJVQAは、NLPとCV研究者が視覚的質問応答システムのための多言語モデルやシステムをさらに探求するために、難しいデータセットである。
我々は,さらなる研究のために,codalab評価システムに関する課題を公開した。 Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems. We released the challenge on the Codalab evaluation system for further research. | 翻訳日:2023-04-13 17:49:28 公開日:2023-04-12 |
# bipotent architectureにおけるqaoaの最適化 Optimizing QAOA on Bipotent Architectures ( http://arxiv.org/abs/2303.13109v2 ) ライセンス: Link先を確認 | Yanjun Ji, Kathrin F. Koenig, and Ilia Polian | (参考訳) 量子ゲートの活発な最適化は、最適化されたゲートがいくつかの量子ビットで利用できるが、他の量子ビットでは利用できない二元的量子アーキテクチャをもたらす。
しかし、このようなゲートレベルの改善は、量子近似最適化アルゴリズム(QAOA)のアンサッツ回路のような高い正則性を持つ量子回路に有効なユーザ側パルスレベル最適化の適用を制限する。
本稿では,二元量子アーキテクチャにおけるハードウェアレベルとアルゴリズムレベルの改善のトレードオフについて検討する。
IBMが提供している2つの量子コンピュータ上の様々なQAOAインスタンスの結果、パルスレベルの最適化の利点は、鮮やかに最適化されたモノリシックゲートによる改善よりも優れていることが示された。
さらに,本研究では,回路プリミティブの忠実性がアルゴリズム全体の性能を示す最善の指標であるとは限らないことを示す。
この効果はqaoaがポートフォリオの密集した最適化問題に対して特に顕著であり、それらのトランスパイル化には多くのスワップゲートが必要であり、効率的なパルスレベルの最適化が存在する。
本研究は,2次量子アーキテクチャにおける最適量子ビット選択に関する実践的ガイダンスを提供し,それらのアーキテクチャの改善の必要性を示唆し,最終的にすべてのゲートタイプに対してパルスレベルの最適化を実現する。 Vigorous optimization of quantum gates has led to bipotent quantum architectures, where the optimized gates are available for some qubits but not for others. However, such gate-level improvements limit the application of user-side pulse-level optimizations, which have proven effective for quantum circuits with a high level of regularity, such as the ansatz circuit of the Quantum Approximate Optimization Algorithm (QAOA). In this paper, we investigate the trade-off between hardware-level and algorithm-level improvements on bipotent quantum architectures. Our results for various QAOA instances on two quantum computers offered by IBM indicate that the benefits of pulse-level optimizations currently outweigh the improvements due to vigorously optimized monolithic gates. Furthermore, our data indicate that the fidelity of circuit primitives is not always the best indicator for the overall algorithm performance; also their gate type and schedule duration should be taken into account. This effect is particularly pronounced for QAOA on dense portfolio optimization problems, since their transpilation requires many SWAP gates, for which efficient pulse-level optimization exists. Our findings provide practical guidance on optimal qubit selection on bipotent quantum architectures and suggest the need for improvements of those architectures, ultimately making pulse-level optimization available for all gate types. | 翻訳日:2023-04-13 17:41:53 公開日:2023-04-12 |
# 人工知能の火花:GPT-4による初期の実験 Sparks of Artificial General Intelligence: Early experiments with GPT-4 ( http://arxiv.org/abs/2303.12712v4 ) ライセンス: Link先を確認 | S\'ebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang | (参考訳) 人工知能(AI)の研究者たちは、さまざまなドメインやタスクにまたがる優れた能力を示す大規模な言語モデル(LLM)を開発し、洗練し、学習と認知の理解に挑戦しています。
OpenAIが開発した最新のモデルであるGPT-4は、前例のない規模の計算とデータを使って訓練された。
本稿では,openaiによる開発が盛んであったgpt-4の初期バージョンについて報告する。
GPT-4は(例えばChatGPTやGoogleのPaLMとともに)従来のAIモデルよりも汎用的なインテリジェンスを示すLLMの新たなコホートの一部である、と私たちは主張する。
我々は、これらのモデルの能力と影響について論じる。
GPT-4は、言語習得以外にも、数学、コーディング、ビジョン、医学、法、心理学など、特別なプロンプトを必要とせずに、新しくて困難なタスクを解くことができる。
さらに、これらすべてのタスクにおいて、GPT-4のパフォーマンスは人間レベルのパフォーマンスに非常に近く、しばしばChatGPTのような以前のモデルを大きく上回っている。
GPT-4の能力の広さと深さを考えると、人工知能(AGI)システムの早期(まだ未完成)バージョンと見なすことができると信じている。
我々は, GPT-4の探索において, 限界の発見に特に重点を置いており, 次世代の予測を超えて新たなパラダイムを追求する必要性を含む, より深く包括的なAGIバージョンに向けて進む上での課題について論じている。
我々は,最近の技術的飛躍と今後の研究方向の社会的な影響を振り返って結論づける。 Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions. | 翻訳日:2023-04-13 17:41:31 公開日:2023-04-12 |
# 潜在グラフ推論のためのモデル空間の投影 Projections of Model Spaces for Latent Graph Inference ( http://arxiv.org/abs/2303.11754v3 ) ライセンス: Link先を確認 | Haitz S\'aez de Oc\'ariz Borde, \'Alvaro Arroyo, Ingmar Posner | (参考訳) グラフニューラルネットワークは、グラフの接続構造を帰納バイアスとして利用する。
潜在グラフ推論は、適切なグラフ構造を学習して、モデルの下流のパフォーマンスを拡散し改善することに焦点を当てる。
本研究では,双曲型および球面型モデル空間の立体射影とリーマン多様体の積を用いて,潜在グラフ推論を行う。
立体射影モデル空間は、曲率が0になる場合の空間の分岐を避ける理論的保証を提供しながら、その非射影モデル空間と同等の性能を達成する。
ホモフィルグラフとヘテロフィルグラフの両方で実験を行う。 Graph Neural Networks leverage the connectivity structure of graphs as an inductive bias. Latent graph inference focuses on learning an adequate graph structure to diffuse information on and improve the downstream performance of the model. In this work we employ stereographic projections of the hyperbolic and spherical model spaces, as well as products of Riemannian manifolds, for the purpose of latent graph inference. Stereographically projected model spaces achieve comparable performance to their non-projected counterparts, while providing theoretical guarantees that avoid divergence of the spaces when the curvature tends to zero. We perform experiments on both homophilic and heterophilic graphs. | 翻訳日:2023-04-13 17:41:05 公開日:2023-04-12 |
# mind meets machine: gpt-4の認知心理学を解き放つ Mind meets machine: Unravelling GPT-4's cognitive psychology ( http://arxiv.org/abs/2303.11436v2 ) ライセンス: Link先を確認 | Sifatkaur Dhingra, Manmeet Singh, Vaisakh SB, Neetiraj Malviya, Sukhpal Singh Gill | (参考訳) 認知心理学は、知覚、注意、記憶、言語、問題解決、意思決定、推論を理解することに集中する。
大規模言語モデル(llm)は、人間レベルのタスクを実行するための強力なツールとして登場している。
GPT-4の形での最近の発展と、人間の試験と複雑な問題に複雑なタスクが成功し、LLMが完全な知能の道具になるという自信が増した。
GPT-4の報告は認知心理学的タスクのパフォーマンスを示しているが、既存の確立されたデータセットによるGPT-4の総合的な評価が必要である。
本研究では,コモンセンスカ,スーパーグルー,数学,ハンスなどの認知心理学データセットにおけるgpt-4の性能評価に焦点を当てた。
そこで我々は,GPT-4が認知心理学をどのように処理し,文脈情報と統合するかを理解し,その反応を生成できる認知過程の洞察を与える。
GPT-4は,従来の最先端モデルと比較して認知心理学的タスクにおいて高い精度を示す。
その結果, GPT-4の認知心理学的能力に対する評価と信頼性が向上した。
機械が人間と機械の推論のギャップを埋めることによって、AIの分野に革命をもたらす大きな可能性を秘めている。 Cognitive psychology delves on understanding perception, attention, memory, language, problem-solving, decision-making, and reasoning. Large language models (LLMs) are emerging as potent tools increasingly capable of performing human-level tasks. The recent development in the form of GPT-4 and its demonstrated success in tasks complex to humans exam and complex problems has led to an increased confidence in the LLMs to become perfect instruments of intelligence. Although GPT-4 report has shown performance on some cognitive psychology tasks, a comprehensive assessment of GPT-4, via the existing well-established datasets is required. In this study, we focus on the evaluation of GPT-4's performance on a set of cognitive psychology datasets such as CommonsenseQA, SuperGLUE, MATH and HANS. In doing so, we understand how GPT-4 processes and integrates cognitive psychology with contextual information, providing insight into the underlying cognitive processes that enable its ability to generate the responses. We show that GPT-4 exhibits a high level of accuracy in cognitive psychology tasks relative to the prior state-of-the-art models. Our results strengthen the already available assessments and confidence on GPT-4's cognitive psychology abilities. It has significant potential to revolutionize the field of AI, by enabling machines to bridge the gap between human and machine reasoning. | 翻訳日:2023-04-13 17:40:55 公開日:2023-04-12 |
# 児童中心型aiにおけるgoldilocksゾーンに向けて Towards Goldilocks Zone in Child-centered AI ( http://arxiv.org/abs/2303.11221v2 ) ライセンス: Link先を確認 | Tahiya Chowdhury | (参考訳) この研究では、YouTube Kidsを例として、子どものAIとのインタラクションプロセスを理解することの必要性と、子どもの感情的、社会的、創造的な開発に広く影響することについて議論する。
子ども中心のaiで価値駆動のインタラクションを作成するためのデザインの推奨事項をいくつか紹介する。 Using YouTube Kids as an example, in this work, we argue the need to understand a child's interaction process with AI and its broader implication on a child's emotional, social, and creative development. We present several design recommendations to create value-driven interaction in child-centric AI that can guide designing compelling, age-appropriate, beneficial AI experiences for children. | 翻訳日:2023-04-13 17:40:36 公開日:2023-04-12 |
# テキスト誘導拡散画像スタイル転送のためのゼロショットコントラスト損失 Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style Transfer ( http://arxiv.org/abs/2303.08622v2 ) ライセンス: Link先を確認 | Serin Yang, Hyunmin Hwang, Jong Chul Ye | (参考訳) 拡散モデルはテキスト誘導型画像スタイル転送において大きな可能性を示しているが、その確率的な性質から、スタイル変換とコンテンツ保存のトレードオフがある。
既存の方法は、拡散モデルや追加のニューラルネットワークの計算コストのかかる微調整を必要とする。
そこで本研究では,追加の微調整や補助ネットワークを必要としない拡散モデルに対するゼロショットコントラスト損失を提案する。
予め訓練した拡散モデルにおいて,生成したサンプルとオリジナル画像の埋め込みのパッチワイド・コントラストの損失を利用して,ゼロショットでソース画像と同じ意味的内容の画像を生成できる。
提案手法は,画像のスタイル変換だけでなく,画像から画像への翻訳や操作においても,既存の手法よりも優れており,追加のトレーニングも必要としない。
提案手法の有効性を実験的に検証した。 Diffusion models have shown great promise in text-guided image style transfer, but there is a trade-off between style transformation and content preservation due to their stochastic nature. Existing methods require computationally expensive fine-tuning of diffusion models or additional neural network. To address this, here we propose a zero-shot contrastive loss for diffusion models that doesn't require additional fine-tuning or auxiliary networks. By leveraging patch-wise contrastive loss between generated samples and original image embeddings in the pre-trained diffusion model, our method can generate images with the same semantic content as the source image in a zero-shot manner. Our approach outperforms existing methods while preserving content and requiring no additional training, not only for image style transfer but also for image-to-image translation and manipulation. Our experimental results validate the effectiveness of our proposed method. | 翻訳日:2023-04-13 17:40:28 公開日:2023-04-12 |
# 血液細胞形態におけるロバスト単一細胞分類のための不均衡領域の一般化 Imbalanced Domain Generalization for Robust Single Cell Classification in Hematological Cytomorphology ( http://arxiv.org/abs/2303.07771v2 ) ライセンス: Link先を確認 | Rao Muhammad Umer, Armin Gruber, Sayedali Shetab Boushehri, Christian Metak, Carsten Marr | (参考訳) 白血球の正確な形態分類(WBCs)は白血病の診断において重要なステップであり、非機能的ブラスト細胞が骨髄に蓄積する疾患である。
近年、深層畳み込みニューラルネットワーク(CNN)は特定の領域からの単細胞画像に基づいて、白血球の分類に成功している。
ほとんどのcnnモデルは、トレーニングデータとテストデータの分布が類似していると仮定している。
したがって、異なる染色方法、倍率、解像度、スキャナー、イメージングプロトコル、および臨床センターや患者のコホートの変化に対して堅牢ではない。
さらに、ドメイン固有のデータ不均衡は分類器の一般化性能に影響する。
本稿では,wbc分類のためのロバストなcnnを,クロスドメインデータ不均衡とドメインシフトに対処して訓練する。
この目的のために,2つの損失関数を用いて,アウト・オブ・ディストリビューション(OOD)の一般化の有効性を示す。
本手法は他の方法と比較してF1マクロスコアが最適であり,稀な細胞型を考慮できる。
これは血液形態学における不均衡領域の一般化の初めての実証であり、実験室や診療所への応用のための堅牢な単細胞分類方法の道を開くものである。 Accurate morphological classification of white blood cells (WBCs) is an important step in the diagnosis of leukemia, a disease in which nonfunctional blast cells accumulate in the bone marrow. Recently, deep convolutional neural networks (CNNs) have been successfully used to classify leukocytes by training them on single-cell images from a specific domain. Most CNN models assume that the distributions of the training and test data are similar, i.e., the data are independently and identically distributed. Therefore, they are not robust to different staining procedures, magnifications, resolutions, scanners, or imaging protocols, as well as variations in clinical centers or patient cohorts. In addition, domain-specific data imbalances affect the generalization performance of classifiers. Here, we train a robust CNN for WBC classification by addressing cross-domain data imbalance and domain shifts. To this end, we use two loss functions and demonstrate their effectiveness in out-of-distribution (OOD) generalization. Our approach achieves the best F1 macro score compared to other existing methods and is able to consider rare cell types. This is the first demonstration of imbalanced domain generalization in hematological cytomorphology and paves the way for robust single cell classification methods for the application in laboratories and clinics. | 翻訳日:2023-04-13 17:40:13 公開日:2023-04-12 |
# 量子ダブルロックイン増幅器 Quantum Double Lock-in Amplifier ( http://arxiv.org/abs/2303.07559v2 ) ライセンス: Link先を確認 | Sijie Chen, Min Zhuang, Ruihuang Fang, Yun Chen, Chengyin Han, Bo Lu, Jiahao Huang, and Chaohong Lee | (参考訳) 量子ロックイン増幅器は、量子戦略を用いて強いノイズ背景内の交互信号を抽出することを目的としている。
しかし、ターゲット信号が通常未知の初期位相を持つため、単一のロックイン測定でその振幅、周波数、位相の完全な情報を得ることはできない。
ここでは、この課題を克服するために、量子二重ロックイン増幅器を実現するための一般的なプロトコルを提供し、その実現例を示す。
古典的な二重ロックイン増幅器と同様に、このプロトコルは直交パルス列の下で2つの量子ミキサーによって実現される。
2つの直交パルスシーケンスは、古典的な二重ロックイン増幅器において2つの直交参照信号の役割を果たす。
出力信号を組み合わせることで、目標信号の完全な特性を得ることができる。
例えば、$^{87}$rb原子を持つ5レベルダブル-$\lambda$コヒーレント集団トラップシステムにより、量子二重ロックイン増幅器が実現され、各$\lambda$構造が量子ミキサーとして作用し、2つの適用される2つの動的デカップリングシーケンスが2つの直交参照信号の役割を担う。
数値計算により、量子二重ロックイン増幅器は有限パルス長や確率雑音などの実験的な欠陥に対して頑健であることが示された。
本研究は, 強い雑音背景下での交互信号の完全な特性を抽出するための道を開き, 実用的な量子センシング技術の開発に有用である。 Quantum lock-in amplifier aims to extract an alternating signal within strong noise background by using quantum strategy. However, as the target signal usually has an unknown initial phase, we can't obtain the complete information of its amplitude, frequency and phase in a single lock-in measurement. Here, to overcome this challenge, we give a general protocol for achieving a quantum double lock-in amplifier and illustrate its realization. In analog to a classical double lock-in amplifier, our protocol is accomplished via two quantum mixers under orthogonal pulse sequences. The two orthogonal pulse sequences act the roles of two orthogonal reference signals in a classical double lock-in amplifier. Combining the output signals, the complete characteristics of the target signal can be obtained. As an example, we illustrate the realization of our quantum double lock-in amplifier via a five-level double-$\Lambda$ coherent population trapping system with $^{87}$Rb atoms, in which each $\Lambda$ structure acts as a quantum mixer and the two applied dynamical decoupling sequences take the roles of two orthogonal reference signals. Our numerical calculations show that the quantum double lock-in amplifier is robust against experimental imperfections, such as finite pulse length and stochastic noise. Our study opens an avenue for extracting complete characteristics of an alternating signal within strong noise background, which is beneficial for developing practical quantum sensing technologies. | 翻訳日:2023-04-13 17:39:51 公開日:2023-04-12 |
# 最適nによるnステップ時間差学習 n-Step Temporal Difference Learning with Optimal n ( http://arxiv.org/abs/2303.07068v2 ) ライセンス: Link先を確認 | Lakshmi Mandal and Shalabh Bhatnagar | (参考訳) 我々は,n-step temporal difference (TD) アルゴリズムにおいて,n の最適値を求める問題を考える。
我々は,同時摂動確率近似 (spsa) のモデルフリー最適化手法を用いて最適な n を求める。
我々は, 離散最適化フレームワークへの連続最適化を目的として, 巡回摂動列を組み込んだ1シミュレーションのspsa手法を採用する。
提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求める。
実験により、n の最適値は任意の任意の初期値に対して SDPSA を用いて達成されることを示す。 We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) algorithm. We find the optimal n by resorting to the model-free optimization technique of simultaneous perturbation stochastic approximation (SPSA). We adopt a one-simulation SPSA procedure that is originally for continuous optimization to the discrete optimization framework but incorporates a cyclic perturbation sequence. We prove the convergence of our proposed algorithm, SDPSA, and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for any arbitrary initial value of the same. | 翻訳日:2023-04-13 17:38:56 公開日:2023-04-12 |
# ワンウェイ関数によるタンパ耐性公開鍵を用いた量子公開鍵暗号 Quantum Public-Key Encryption with Tamper-Resilient Public Keys from One-Way Functions ( http://arxiv.org/abs/2304.01800v2 ) ライセンス: Link先を確認 | Fuyuki Kitagawa, Tomoyuki Morimae, Ryo Nishimaki, Takashi Yamakawa | (参考訳) 量子公開鍵暗号を一方向関数から構築する。
私たちの構成では、公開鍵は量子ですが、暗号文は古典的です。
ワンウェイ関数(または擬似ランダム関数のような弱いプリミティブ)からの量子公開鍵暗号も近年の著作(森前-山川, eprint:2022/1336, Coladangelo, eprint:2023/282, Grilo-Sattath-Vu, eprint:2023/345, Barooti-Malavolta-Walter, eprint:2023/306]で提案されている。
しかし、それらには大きな欠点がある: 量子公開鍵が送信者(暗号化アルゴリズムを実行する)に送信され、相手に邪魔されることなく、セキュアな量子チャネルのような不満足な物理設定の仮定を必要とする場合にのみ、安全である。
たとえ認証されていない量子チャネルのみを仮定しても、暗号化されたメッセージの秘密を保証します。
したがって、暗号化は敵対的に改ざんされた量子公開鍵で行われる。
従来の公開鍵暗号の目的を達成する最初の量子公開鍵暗号であり,安全でない通信路上でセキュアな通信を確立することを目的としている。 We construct quantum public-key encryption from one-way functions. In our construction, public keys are quantum, but ciphertexts are classical. Quantum public-key encryption from one-way functions (or weaker primitives such as pseudorandom function-like states) are also proposed in some recent works [Morimae-Yamakawa, eprint:2022/1336; Coladangelo, eprint:2023/282; Grilo-Sattath-Vu, eprint:2023/345; Barooti-Malavolta-Walter, eprint:2023/306]. However, they have a huge drawback: they are secure only when quantum public keys can be transmitted to the sender (who runs the encryption algorithm) without being tampered with by the adversary, which seems to require unsatisfactory physical setup assumptions such as secure quantum channels. Our construction is free from such a drawback: it guarantees the secrecy of the encrypted messages even if we assume only unauthenticated quantum channels. Thus, the encryption is done with adversarially tampered quantum public keys. Our construction based only on one-way functions is the first quantum public-key encryption that achieves the goal of classical public-key encryption, namely, to establish secure communication over insecure channels. | 翻訳日:2023-04-13 17:34:03 公開日:2023-04-12 |
# 臨界1+1Dアベリアン・ヒッグス模型のスペクトル特性 Spectral properties of critical 1+1D Abelian-Higgs model ( http://arxiv.org/abs/2304.01030v2 ) ライセンス: Link先を確認 | Titas Chanda, Marcello Dalmonte, Maciej Lewenstein, Jakub Zakrzewski, Luca Tagliacozzo | (参考訳) 1+1d におけるゲージ対称性の存在は、動的ゲージボソンの存在を意味するものではないため冗長であることが知られている。
その結果、連続体において、光子と相互作用するボソニック物質の理論は、高次元ヒッグスとクーロン相が非摂動効果によって連結されるため、単一の位相を持つ。
しかし, [phys. rev. lett. 18, 090601 (2022)] で発表された最近の研究により, 格子上で系を離散化した場合の予期せぬ相転移が明らかになった。
この遷移は中心電荷が$c=3/2$である共形場理論によって記述される。
本稿では、この$c=3/2$理論の2つの成分、すなわち自由マヨラナフェルミオンおよびボゾン成分を平衡および外平衡スペクトル分析によって特徴づけることを目的とする。 The presence of gauge symmetry in 1+1D is known to be redundant, since it does not imply the existence of dynamical gauge bosons. As a consequence, in the continuum, the Abelian-Higgs model, the theory of bosonic matter interacting with photons, just possesses a single phase, as the higher dimensional Higgs and Coulomb phases are connected via non-perturbative effects. However, recent research published in [Phys. Rev. Lett. 128, 090601 (2022)] has revealed an unexpected phase transition when the system is discretized on the lattice. This transition is described by a conformal field theory with a central charge of $c=3/2$. In this paper, we aim to characterize the two components of this $c=3/2$ theory -- namely the free Majorana fermionic and bosonic parts -- through equilibrium and out-of-equilibrium spectral analyses. | 翻訳日:2023-04-13 17:33:34 公開日:2023-04-12 |
# FedIN: モデル不均一性のためのフェデレーション中間層学習 FedIN: Federated Intermediate Layers Learning for Model Heterogeneity ( http://arxiv.org/abs/2304.00759v2 ) ライセンス: Link先を確認 | Yun-Hin Chan, Zhihan Jiang, Jing Deng, Edith C.-H. Ngai | (参考訳) フェデレートラーニング(FL)は、エッジデバイスがローカルおよびプライベートにトレーニングデータを維持しながら、グローバルな共有モデルを協調的にトレーニングすることを促進する。
しかし、FLにおける一般的だが非現実的な仮定は、参加するエッジデバイスは同じリソースを持ち、同じグローバルモデルアーキテクチャを共有することである。
本研究では,FedIN(Federated Intermediate Layers Learning)と呼ばれる新しいFL手法を提案する。
FedINのトレーニングモデルは、抽出器、中間層、分類器を含む3つの部分に分けられる。
抽出器と分類器のモデルアーキテクチャは、中間層の特徴の一貫性を維持するためにすべてのデバイスで同じであるが、中間層のアーキテクチャはリソース容量に応じて異種デバイスに対して異なる。
特徴から知識を生かすため、我々は、他のクライアントの機能に合わせて中間層を訓練し、訓練することを提案する。
さらに,INトレーニングと局所トレーニングの競合によって引き起こされる勾配分散問題を緩和するため,凸最適化問題を定式化し,解決する。
実験結果から,FedINは異種モデル環境において,最先端のアルゴリズムと比較して最高の性能を発揮することが示された。
さらに,本研究では,イントレーニングの有効性と凸最適化問題に対する解法を示す。 Federated learning (FL) facilitates edge devices to cooperatively train a global shared model while maintaining the training data locally and privately. However, a common but impractical assumption in FL is that the participating edge devices possess the same required resources and share identical global model architecture. In this study, we propose a novel FL method called Federated Intermediate Layers Learning (FedIN), supporting heterogeneous models without utilizing any public dataset. The training models in FedIN are divided into three parts, including an extractor, the intermediate layers, and a classifier. The model architectures of the extractor and classifier are the same in all devices to maintain the consistency of the intermediate layer features, while the architectures of the intermediate layers can vary for heterogeneous devices according to their resource capacities. To exploit the knowledge from features, we propose IN training, training the intermediate layers in line with the features from other clients. Additionally, we formulate and solve a convex optimization problem to mitigate the gradient divergence problem induced by the conflicts between the IN training and the local training. The experiment results show that FedIN achieves the best performance in the heterogeneous model environment compared with the state-of-the-art algorithms. Furthermore, our ablation study demonstrates the effectiveness of IN training and the solution to the convex optimization problem. | 翻訳日:2023-04-13 17:33:18 公開日:2023-04-12 |
# 拡散モデルにおけるパラメータ効率のチューニングについて A Closer Look at Parameter-Efficient Tuning in Diffusion Models ( http://arxiv.org/abs/2303.18181v2 ) ライセンス: Link先を確認 | Chendong Xiang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu | (参考訳) 安定拡散のような大規模拡散モデルは強力であり、様々な実世界のアプリケーションを見つける一方で、微調整によるモデルカスタマイズはメモリと時間の両方で非効率である。
近年の自然言語処理の進歩により, 学習可能な小モジュール(終端アダプタ)を挿入することにより, 大規模拡散モデルにおけるパラメータ効率の調整について検討した。
特に,アダプタの設計空間を直交因子(入力位置,出力位置,および関数形式)に分解し,離散(設計オプション)と連続変数(評価指標)の相関を解析するための古典的統計手法であるANOVA(Analytic of Variance)を実行する。
分析の結果,アダプタの入力位置が下流タスクの性能に影響を与える重要な要因であることが示唆された。
そして, 入力位置の選択を慎重に検討し, 追加の可視化分析により, クロスアテンションブロックの後に入力位置を置けば, 最高の性能が得られることを示した。
最後に,完全微調整ベースライン(DreamBoothなど)に匹敵せず,パラメータを0.75 %追加するだけで,様々なカスタマイズタスクに匹敵する拡散モデルのパラメータ効率性チューニングのレシピを提供する。 Large-scale diffusion models like Stable Diffusion are powerful and find various real-world applications while customizing such models by fine-tuning is both memory and time inefficient. Motivated by the recent progress in natural language processing, we investigate parameter-efficient tuning in large diffusion models by inserting small learnable modules (termed adapters). In particular, we decompose the design space of adapters into orthogonal factors -- the input position, the output position as well as the function form, and perform Analysis of Variance (ANOVA), a classical statistical approach for analyzing the correlation between discrete (design options) and continuous variables (evaluation metrics). Our analysis suggests that the input position of adapters is the critical factor influencing the performance of downstream tasks. Then, we carefully study the choice of the input position, and we find that putting the input position after the cross-attention block can lead to the best performance, validated by additional visualization analyses. Finally, we provide a recipe for parameter-efficient tuning in diffusion models, which is comparable if not superior to the fully fine-tuned baseline (e.g., DreamBooth) with only 0.75 \% extra parameters, across various customized tasks. | 翻訳日:2023-04-13 17:32:57 公開日:2023-04-12 |
# 画像データにおける物体検出のためのモデル非依存説明可能な人工知能 Model-agnostic explainable artificial intelligence for object detection in image data ( http://arxiv.org/abs/2303.17249v2 ) ライセンス: Link先を確認 | Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari | (参考訳) 物体検出はコンピュータビジョンの基本的な課題であり、大規模かつ複雑なディープラーニングモデルを開発することで大きく進歩してきた。
しかし、透明性の欠如は、これらのモデルの普及を許さない大きな課題である。
説明可能な人工知能は、ユーザーがaiベースのシステムの振る舞い、決定ロジック、脆弱性を理解するのに役立つ方法を開発する研究分野である。
ブラックボックスの説明は、内部にアクセスせずにAIシステムの決定を説明することを指す。
本稿では,AIを用いた物体検出システムに新たなマスキング手法を採用することにより,マスキングによるブラックボックスオブジェクト検出記述法(BODEM)の設計と実装を行う。
入力画像の複数バージョンを生成するために,局所マスキングと遠隔マスキングを提案する。
ローカルマスクは対象オブジェクト内のピクセルを妨害し、物体検出器がこれらの変化にどう反応するかを理解するために使用され、遠方のマスクは物体の外側のピクセルを乱すことによって検出モデルの判断がどのように影響を受けるかを評価するために使用される。
次に、マスキング前後の検出出力の差を測定することにより、画素の重要性を推定し、サリエンシマップを作成する。
最後に、検出されたオブジェクトに対する入力画像内の重要画素の可視化を行うヒートマップを作成する。
様々なオブジェクト検出データセットとモデルの実験により、BODEMはオブジェクト検出の振る舞いを効果的に説明し、その脆弱性を明らかにすることができることが示された。
これにより、BODEMはブラックボックスソフトウェアテストシナリオにおけるAIベースのオブジェクト検出システムの説明と検証に適している。
さらに,BODEMが生成する局所マスクを用いて物体検出器のさらなる訓練を行い,検出精度とロバスト性を向上させるデータ拡張実験を行った。 Object detection is a fundamental task in computer vision, which has been greatly progressed through developing large and intricate deep learning models. However, the lack of transparency is a big challenge that may not allow the widespread adoption of these models. Explainable artificial intelligence is a field of research where methods are developed to help users understand the behavior, decision logics, and vulnerabilities of AI-based systems. Black-box explanation refers to explaining decisions of an AI system without having access to its internals. In this paper, we design and implement a black-box explanation method named Black-box Object Detection Explanation by Masking (BODEM) through adopting a new masking approach for AI-based object detection systems. We propose local and distant masking to generate multiple versions of an input image. Local masks are used to disturb pixels within a target object to figure out how the object detector reacts to these changes, while distant masks are used to assess how the detection model's decisions are affected by disturbing pixels outside the object. A saliency map is then created by estimating the importance of pixels through measuring the difference between the detection output before and after masking. Finally, a heatmap is created that visualizes how important pixels within the input image are to the detected objects. The experimentations on various object detection datasets and models showed that BODEM can be effectively used to explain the behavior of object detectors and reveal their vulnerabilities. This makes BODEM suitable for explaining and validating AI based object detection systems in black-box software testing scenarios. Furthermore, we conducted data augmentation experiments that showed local masks produced by BODEM can be used for further training the object detectors and improve their detection accuracy and robustness. | 翻訳日:2023-04-13 17:32:35 公開日:2023-04-12 |
# Seer:潜時拡散モデルを用いた言語指示ビデオ予測 Seer: Language Instructed Video Prediction with Latent Diffusion Models ( http://arxiv.org/abs/2303.14897v2 ) ライセンス: Link先を確認 | Xianfan Gu, Chuan Wen, Jiaming Song, Yang Gao | (参考訳) 将来の軌道を想像することは、ロボットが音を立てて目標を達成するための鍵だ。
したがって、テキストコンディショニングビデオ予測(tvp)は、与えられた言語命令と参照フレームによる将来のビデオフレームの予測など、一般的なロボットポリシー学習を促進するために必要なタスクである。
命令と高忠実度フレームで指定されたタスクレベルの目標を、大規模データと計算を必要とする、非常に難しいタスクである。
この課題に対処し,ロボットに未来を予知する能力を与えるため,時間軸に沿ったテキスト・トゥ・イメージ(T2I)安定拡散モデルを膨らませることで,サンプルと計算効率のよいモデルである「textbf{Seer}」を提案する。
フレーム間の事前学習T2Iモデルの豊富な事前知識を伝播させるために, 自己回帰的空間的注意とフレーム列テキスト分解という2つの新しい手法を用いて, U-Netと言語条件モデルを構築した。
十分に設計されたアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に沿ったビデオフレームを生成することができる。
v2(ssv2)とbridgedataデータセットによる実験結果は、4つのrtx 3090 gpuで約210時間トレーニングを行い、ssv2上で現在のsomaモデルのfvdを290から200に減らし、人間評価において少なくとも70\%の選好を達成するという、優れたビデオ予測性能を示している。 Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning, i.e., predicting future video frames with a given language instruction and reference frames. It is a highly challenging task to ground task-level goals specified by instructions and high-fidelity frames together, requiring large-scale data and computation. To tackle this task and empower robots with the ability to foresee the future, we propose a sample and computation-efficient model, named \textbf{Seer}, by inflating the pretrained text-to-image (T2I) stable diffusion models along the temporal axis. We inflate the denoising U-Net and language conditioning model with two novel techniques, Autoregressive Spatial-Temporal Attention and Frame Sequential Text Decomposer, to propagate the rich prior knowledge in the pretrained T2I models across the frames. With the well-designed architecture, Seer makes it possible to generate high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a few layers on a small amount of data. The experimental results on Something Something V2 (SSv2) and Bridgedata datasets demonstrate our superior video prediction performance with around 210-hour training on 4 RTX 3090 GPUs: decreasing the FVD of the current SOTA model from 290 to 200 on SSv2 and achieving at least 70\% preference in the human evaluation. | 翻訳日:2023-04-13 17:31:18 公開日:2023-04-12 |
# chatgptをメタバースに解き放つ:救世主か破壊者か? Unleashing ChatGPT on the Metaverse: Savior or Destroyer? ( http://arxiv.org/abs/2303.13856v2 ) ライセンス: Link先を確認 | Pengyuan Zhou | (参考訳) 人工知能(AI)技術の組み込み、特に自然言語処理(NLP)は、没入的で対話的なメタバース体験の開発にますます不可欠になりつつある。
メタバースで注目を集めている人工知能ツールのひとつに、OpenAIがトレーニングした大規模な言語モデルであるChatGPTがある。
この記事は、メタバースベースの教育、エンターテイメント、パーソナライゼーション、サポートにChatGPTを活用することの長所と短所を掘り下げている。
この技術では動的でパーソナライズされた体験が可能だが、正当なプライバシー、バイアス、倫理的な問題もある。
本稿は,ChatGPTがメタバースに与える影響と,これらの機会と障害を評価することで,より没入的で魅力的な仮想環境を効果的に構築する方法について,読者の理解を支援することを目的とする。 The incorporation of artificial intelligence (AI) technology, and in particular natural language processing (NLP), is becoming increasingly vital for the development of immersive and interactive metaverse experiences. One such artificial intelligence tool that is gaining traction in the metaverse is ChatGPT, a large language model trained by OpenAI. The article delves into the pros and cons of utilizing ChatGPT for metaverse-based education, entertainment, personalization, and support. Dynamic and personalized experiences are possible with this technology, but there are also legitimate privacy, bias, and ethical issues to consider. This article aims to help readers understand the possible influence of ChatGPT on the metaverse and how it may be used to effectively create a more immersive and engaging virtual environment by evaluating these opportunities and obstacles. | 翻訳日:2023-04-13 17:30:45 公開日:2023-04-12 |
# GPT-4の医学的課題 Capabilities of GPT-4 on Medical Challenge Problems ( http://arxiv.org/abs/2303.13375v2 ) ライセンス: Link先を確認 | Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, Eric Horvitz | (参考訳) 大規模言語モデル(LLM)は、医学を含む様々な領域にわたる自然言語理解と生成において顕著な能力を示した。
本稿では,最先端llmであるgpt-4の医療能力検査とベンチマークデータセットに関する包括的評価を行う。
gpt-4は、医学的な問題に対して訓練や臨床課題の解決に特化していない汎用モデルである。
米国における臨床能力の評価とライセンス付与のための3段階の試験プログラムであるUSMLEの2つの公式実践資料について分析した。
また,ベンチマークデータセットのMultiMedQAスイートの性能評価を行った。
実験では, モデル性能の測定以外にも, テキストと画像を含むテスト質問がモデル性能に及ぼす影響, トレーニング中の内容の記憶の探究, 医療などのハイテイクな応用において重要な確率校正について検討した。
以上の結果から, GPT-4は, 特別なプロンプト工法を使わずにUSMLEのパススコアを20点以上越え, 先進汎用モデル(GPT-3.5)と, 医療知識に特化されたモデル(Flan-PaLM 540Bのプロンプト調整版であるMed-PaLM)よりも優れていた。
さらに、GPT-4 は GPT-3.5 よりも格付けがかなり良く、その答えが正しい可能性を予測する能力が大幅に改善されている。
また,GPT-4による医学的推論の説明,学生への説明のパーソナライズ,医療事例に関する新たな反現実的シナリオを対話的に構築する能力を示すケーススタディを通じて,モデルの質的な振る舞いを探索する。
本研究の意義は,医学教育,評価,臨床実習におけるGPT-4の有用性について考察し,精度と安全性の課題に適切な注意を払っている。 Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding and generation across various domains, including medicine. We present a comprehensive evaluation of GPT-4, a state-of-the-art LLM, on medical competency examinations and benchmark datasets. GPT-4 is a general-purpose model that is not specialized for medical problems through training or engineered to solve clinical tasks. Our analysis covers two sets of official practice materials for the USMLE, a three-step examination program used to assess clinical competency and grant licensure in the United States. We also evaluate performance on the MultiMedQA suite of benchmark datasets. Beyond measuring model performance, experiments were conducted to investigate the influence of test questions containing both text and images on model performance, probe for memorization of content during training, and study probability calibration, which is of critical importance in high-stakes applications like medicine. Our results show that GPT-4, without any specialized prompt crafting, exceeds the passing score on USMLE by over 20 points and outperforms earlier general-purpose models (GPT-3.5) as well as models specifically fine-tuned on medical knowledge (Med-PaLM, a prompt-tuned version of Flan-PaLM 540B). In addition, GPT-4 is significantly better calibrated than GPT-3.5, demonstrating a much-improved ability to predict the likelihood that its answers are correct. We also explore the behavior of the model qualitatively through a case study that shows the ability of GPT-4 to explain medical reasoning, personalize explanations to students, and interactively craft new counterfactual scenarios around a medical case. Implications of the findings are discussed for potential uses of GPT-4 in medical education, assessment, and clinical practice, with appropriate attention to challenges of accuracy and safety. | 翻訳日:2023-04-13 17:30:30 公開日:2023-04-12 |
# 学習における再現性と安定性 Replicability and stability in learning ( http://arxiv.org/abs/2304.03757v2 ) ライセンス: Link先を確認 | Zachary Chase, Shay Moran, Amir Yehudayoff | (参考訳) 研究結果の検証と検証を可能にするため、科学において再現性は不可欠である。
impagliazzo, lei, pitassi, sorrell (`22)は最近、機械学習における再現性の研究を開始した。
学習アルゴリズムは、内部ランダム性を用いて2つのi.d.入力に適用した場合に通常同じ出力を生成する場合、複製可能である。
ランダム性の修正を伴わない複製可能性の変種について検討する。
アルゴリズムは、2つのi.d.入力に適用した場合(内部ランダム性を修正することなく)、通常同じ出力を生成する場合、この形式の複製性を満たす。
この変種はグローバル安定性と呼ばれ、Bun, Livni and Moran ('20) によって差分プライバシーの文脈で導入された。
Impagliazzo et al. は、任意の複製可能なアルゴリズムを、任意の確率が 1 に近く同じ出力を生成するように、どのように向上させるかを示した。
対照的に、多くの学習タスクにおいて、グローバル安定性は弱くしか達成できず、同じアウトプットが生成されるのは確率が1から外れた場合に限られる。
この制限を克服するために,地球規模の安定性に相当するリスト再現性の概念を導入する。
さらに、リストの複製性は、確率を任意に 1 に近づけることで達成できることを示す。
また,標準学習理論的複雑性尺度とレプリカブル数との基本的な関係について述べる。
さらに,自明な場合に加えて,(impagliazzoなどの意味で)レプリカブルアルゴリズムをランダム化する必要があることを示唆した。
不可能性の証明は位相的不動点定理に基づいている。
すべてのアルゴリズムに対して、関連する位相的設定でポアンカー・マランダの定理を適用することで「ハードな入力分布」を見つけることができる。
グローバル安定性とリストリプライ可能性の等価性はアルゴリズム的である。 Replicability is essential in science as it allows us to validate and verify research findings. Impagliazzo, Lei, Pitassi and Sorrell (`22) recently initiated the study of replicability in machine learning. A learning algorithm is replicable if it typically produces the same output when applied on two i.i.d. inputs using the same internal randomness. We study a variant of replicability that does not involve fixing the randomness. An algorithm satisfies this form of replicability if it typically produces the same output when applied on two i.i.d. inputs (without fixing the internal randomness). This variant is called global stability and was introduced by Bun, Livni and Moran ('20) in the context of differential privacy. Impagliazzo et al. showed how to boost any replicable algorithm so that it produces the same output with probability arbitrarily close to 1. In contrast, we demonstrate that for numerous learning tasks, global stability can only be accomplished weakly, where the same output is produced only with probability bounded away from 1. To overcome this limitation, we introduce the concept of list replicability, which is equivalent to global stability. Moreover, we prove that list replicability can be boosted so that it is achieved with probability arbitrarily close to 1. We also describe basic relations between standard learning-theoretic complexity measures and list replicable numbers. Our results, in addition, imply that besides trivial cases, replicable algorithms (in the sense of Impagliazzo et al.) must be randomized. The proof of the impossibility result is based on a topological fixed-point theorem. For every algorithm, we are able to locate a "hard input distribution" by applying the Poincar\'{e}-Miranda theorem in a related topological setting. The equivalence between global stability and list replicability is algorithmic. | 翻訳日:2023-04-13 17:22:50 公開日:2023-04-12 |
# RFAConv: 空間的意識と標準的畳み込み運用の革新 RFAConv: Innovating Spatital Attention and Standard Convolutional Operation ( http://arxiv.org/abs/2304.03198v2 ) ライセンス: Link先を確認 | Xin Zhang, Chen Liu, Degang Yang, Tingting Song, Yichen Ye, Ke Li, and Yingze Song | (参考訳) 空間的注意は、重要な情報に焦点を当てることで畳み込みニューラルネットワークの性能を向上させるために広く使われている。
しかし、一定の制限がある。
本稿では、畳み込みカーネルパラメータ共有の問題を解くことができる空間的注意力の有効性に関する新しい視点を提案する。
それにもかかわらず、空間的注意によって生成された注意マップに含まれる情報は、大規模畳み込み核では不十分である。
そこで我々は、RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を導入する。
CBAM(Convolutional Block Attention Module)やCA(Coordinate Attention)といった以前の注目メカニズムは空間的特徴のみにのみ焦点をあてていたが、畳み込みカーネルパラメータ共有の問題を完全に解決することはできない。
対照的に、RFAは受容場空間の特徴だけでなく、大きな畳み込みカーネルに対して効果的な注意重みを与える。
RFA が開発した Receptive-Field Attention Convolutional Operation (RFAConv) は、標準の畳み込み操作を置き換える新しいアプローチである。
計算コストとパラメータの増大はほぼ無視できるが、ネットワーク性能は大幅に向上している。
imagenet-1k,ms coco,vocデータセットの一連の実験を行い,分類,オブジェクト検出,セマンティクスセグメンテーションなど,さまざまなタスクにおけるアプローチの優位性を実証した。
特に重要なのは、現在の空間的注意のメカニズムにおいて、焦点を空間的特徴から受容的場的特徴にシフトする時だと信じている。
これにより、ネットワーク性能をさらに改善し、よりよい結果を得ることができる。
関連するタスクのコードと事前トレーニングされたモデルは、https://github.com/liuchen1997/rfaconvで見ることができる。 Spatial attention has been widely used to improve the performance of convolutional neural networks by allowing them to focus on important information. However, it has certain limitations. In this paper, we propose a new perspective on the effectiveness of spatial attention, which is that it can solve the problem of convolutional kernel parameter sharing. Despite this, the information contained in the attention map generated by spatial attention is not sufficient for large-size convolutional kernels. Therefore, we introduce a new attention mechanism called Receptive-Field Attention (RFA). While previous attention mechanisms such as the Convolutional Block Attention Module (CBAM) and Coordinate Attention (CA) only focus on spatial features, they cannot fully address the issue of convolutional kernel parameter sharing. In contrast, RFA not only focuses on the receptive-field spatial feature but also provides effective attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv), developed by RFA, represents a new approach to replace the standard convolution operation. It offers nearly negligible increment of computational cost and parameters, while significantly improving network performance. We conducted a series of experiments on ImageNet-1k, MS COCO, and VOC datasets, which demonstrated the superiority of our approach in various tasks including classification, object detection, and semantic segmentation. Of particular importance, we believe that it is time to shift focus from spatial features to receptive-field spatial features for current spatial attention mechanisms. By doing so, we can further improve network performance and achieve even better results. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv. | 翻訳日:2023-04-13 17:22:21 公開日:2023-04-12 |
# 非定常時系列のモーメント移動推定器を用いた適応的学生のt分布 Adaptive Student's t-distribution with method of moments moving estimator for nonstationary time series ( http://arxiv.org/abs/2304.03069v2 ) ライセンス: Link先を確認 | Jarek Duda | (参考訳) 実寿命の時系列は通常非定常であり、モデル適応の難しい問題を引き起こす。
ARMA-ARCHのような古典的なアプローチは任意のタイプの依存を前提としている。
例えば、$f_t=\sum_{\tau<t} (1-\eta)^{t-\tau} \ln(\rho_\theta (x_\tau))$ move log-likelihood などである。
例えば、1つまたは複数のパワーに対して進化する絶対中心モーメント $E[|x-\mu|^p]$ $p\in\mathbb{R}^+$ using $m_{p,t+1} = m_{p,t} + \eta (|x_t-\mu_t|^p-m_{p,t})$のように、安価な指数移動平均(EMA)を用いてパラメータを推定することができる。
このような一般的なモーメントの適応的手法の応用は、特に経済的な応用で人気がある学生のt分布について、DJIA企業のログリターンに適用する。
標準的なarma-archアプローチは$\mu$と$\sigma$の進化を提供するが、ここでは$\nu$が$\rho(x)\sim |x|^{-\nu-1}$のテール形状、極端なイベントの確率を記述している。 The real life time series are usually nonstationary, bringing a difficult question of model adaptation. Classical approaches like ARMA-ARCH assume arbitrary type of dependence. To avoid such bias, we will focus on recently proposed agnostic philosophy of moving estimator: in time $t$ finding parameters optimizing e.g. $F_t=\sum_{\tau<t} (1-\eta)^{t-\tau} \ln(\rho_\theta (x_\tau))$ moving log-likelihood, evolving in time. It allows for example to estimate parameters using inexpensive exponential moving averages (EMA), like absolute central moments $E[|x-\mu|^p]$ evolving for one or multiple powers $p\in\mathbb{R}^+$ using $m_{p,t+1} = m_{p,t} + \eta (|x_t-\mu_t|^p-m_{p,t})$. Application of such general adaptive methods of moments will be presented on Student's t-distribution, popular especially in economical applications, here applied to log-returns of DJIA companies. While standard ARMA-ARCH approaches provide evolution of $\mu$ and $\sigma$, here we also get evolution of $\nu$ describing $\rho(x)\sim |x|^{-\nu-1}$ tail shape, probability of extreme events - which might turn out catastrophic, destabilizing the market. | 翻訳日:2023-04-13 17:21:53 公開日:2023-04-12 |
# 一対の代替品のほぼ最適操作 Almost optimal manipulation of a pair of alternatives ( http://arxiv.org/abs/2304.03060v2 ) ライセンス: Link先を確認 | Jacek Szybowski and Konrad Ku{\l}akowski and Sebastian Ernst | (参考訳) 意思決定プロセスにおける専門家の役割は、最終勧告が彼の処分、心の明確さ、経験、問題の知識に依存するため、非常に重要である。
しかし、その勧告は彼らの誠実さにも左右される。
しかし、もし専門家が不正直なら?
すると、あるケースで操作するのがいかに難しいかという答えが不可欠になる。
提案手法では,対の選択肢を比較することで得られるランキングの操作について検討する。
具体的には、選択された2つの選択肢の位置を置換するほぼ最適な方法を見つけるアルゴリズムを提案する。
これにより、そのような操作が特定のケースでどれだけ難しいかを決定することができる。
理論的考察は実例で示される。 The role of an expert in the decision-making process is crucial, as the final recommendation depends on his disposition, clarity of mind, experience, and knowledge of the problem. However, the recommendation also depends on their honesty. But what if the expert is dishonest? Then, the answer on how difficult it is to manipulate in a given case becomes essential. In the presented work, we consider manipulation of a ranking obtained by comparing alternatives in pairs. More specifically, we propose an algorithm for finding an almost optimal way to swap the positions of two selected alternatives. Thanks to this, it is possible to determine how difficult such manipulation is in a given case. Theoretical considerations are illustrated by a practical example. | 翻訳日:2023-04-13 17:21:16 公開日:2023-04-12 |
# 勾配解析によるニューラルネットワークのパービューの探索 Probing the Purview of Neural Networks via Gradient Analysis ( http://arxiv.org/abs/2304.02834v2 ) ライセンス: Link先を確認 | Jinsol Lee, Charlie Lehman, Mohit Prabhushankar, Ghassan AlRegib | (参考訳) ニューラルネットワークのデータ依存キャパシティを分析し、推論中のネットワークの観点から入力の異常を評価する。
データ依存能力の概念は、学習した特徴に代表されるモデルの知識ベースをトレーニングデータから分析することができる。
トレーニングデータと異なる推論サンプルを特徴付けるのに必要な追加能力としてパービューを定義する。
ネットワークのパービューを調べるために、モデルが与えられた入力をより正確に特徴付けるのに必要な変更量を測定するために勾配を利用する。
グラデーションの生成における接地ラベルへの依存をなくすため,複数のカテゴリラベルを組み合わせることで定式化した結合ラベルを導入する。
我々の勾配に基づくアプローチは、学習した特徴で正確に表現できない入力を効果的に区別できることを実証する。
本手法は, 分布外, 敵対的, 腐敗したサンプルを含む異常な入力の検出に応用する。
このアプローチでは、ハイパーパラメータチューニングや追加のデータ処理を必要とせず、aurocスコアの最大2.7%、19.8%、35.6%を上回っている。 We analyze the data-dependent capacity of neural networks and assess anomalies in inputs from the perspective of networks during inference. The notion of data-dependent capacity allows for analyzing the knowledge base of a model populated by learned features from training data. We define purview as the additional capacity necessary to characterize inference samples that differ from the training data. To probe the purview of a network, we utilize gradients to measure the amount of change required for the model to characterize the given inputs more accurately. To eliminate the dependency on ground-truth labels in generating gradients, we introduce confounding labels that are formulated by combining multiple categorical labels. We demonstrate that our gradient-based approach can effectively differentiate inputs that cannot be accurately represented with learned features. We utilize our approach in applications of detecting anomalous inputs, including out-of-distribution, adversarial, and corrupted samples. Our approach requires no hyperparameter tuning or additional data processing and outperforms state-of-the-art methods by up to 2.7%, 19.8%, and 35.6% of AUROC scores, respectively. | 翻訳日:2023-04-13 17:21:04 公開日:2023-04-12 |
# ペナライズド・ダイバーシティを必要とするソースフリードメイン適応 Source-free Domain Adaptation Requires Penalized Diversity ( http://arxiv.org/abs/2304.02798v2 ) ライセンス: Link先を確認 | Laya Rafiee Sevyeri, Ivaxi Sheth, Farhood Farahnak, Alexandre See, Samira Ebrahimi Kahou, Thomas Fevens, Mohammad Havaei | (参考訳) ニューラルネットワークは、画像分類などの多くのタスクで人間のようなパフォーマンスを達成することができるが、各モデルの印象的なパフォーマンスは、独自のデータセットに限られている。
ソースフリードメイン適応(SFDA)は、ソースデータがない場合に異なるドメイン間の知識伝達に対処するために導入された。
表現空間の多様性は、様々な困難な領域におけるモデルの適応性にとって不可欠である。
教師なしsfdaでは、多様性はソース上で1つの仮説を学ぶか、共有特徴抽出器で複数の仮説を学ぶことに限られる。
本研究では,異なる特徴抽出器をDBA(Distinct Backbone Architectures)と組み合わせることで,表現の多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
特徴空間の多様性は増大するが、制約のない相互情報(MI)の最大化は弱い仮説の増幅をもたらす可能性がある。
したがって,弱仮説ペナリゼーション(whp)正則化を緩和戦略として導入する。
本研究は, DBAとWHPの相乗効果を非教師なし領域適応に適用し, 共変量シフトに適用するPinalized Diversity (PD)を提案する。
さらに、ラベル分布シフトのためのMI最大化目標を重み付けしてPDを増強する。
自然, 合成, 医療領域における実験結果から, 分散シフトの違いによるPDの有効性が示された。 While neural networks are capable of achieving human-like performance in many tasks such as image classification, the impressive performance of each model is limited to its own dataset. Source-free domain adaptation (SFDA) was introduced to address knowledge transfer between different domains in the absence of source data, thus, increasing data privacy. Diversity in representation space can be vital to a model`s adaptability in varied and difficult domains. In unsupervised SFDA, the diversity is limited to learning a single hypothesis on the source or learning multiple hypotheses with a shared feature extractor. Motivated by the improved predictive performance of ensembles, we propose a novel unsupervised SFDA algorithm that promotes representational diversity through the use of separate feature extractors with Distinct Backbone Architectures (DBA). Although diversity in feature space is increased, the unconstrained mutual information (MI) maximization may potentially introduce amplification of weak hypotheses. Thus we introduce the Weak Hypothesis Penalization (WHP) regularizer as a mitigation strategy. Our work proposes Penalized Diversity (PD) where the synergy of DBA and WHP is applied to unsupervised source-free domain adaptation for covariate shift. In addition, PD is augmented with a weighted MI maximization objective for label distribution shift. Empirical results on natural, synthetic, and medical domains demonstrate the effectiveness of PD under different distributional shifts. | 翻訳日:2023-04-13 17:20:46 公開日:2023-04-12 |
# galactic chitchat: 大きな言語モデルを使って天文学文献と会話する Galactic ChitChat: Using Large Language Models to Converse with Astronomy Literature ( http://arxiv.org/abs/2304.05406v1 ) ライセンス: Link先を確認 | Ioana Ciuc\u{a} and Yuan-Sen Ting | (参考訳) 我々は,現在最先端のOpenAI GPT-4大言語モデルが,文脈内プロンプトを用いて天文学論文と有意義な対話を行う可能性を示す。
効率を最適化するために, 段落構造と全体的な意味的整合性を維持しつつ, 元の入力紙のサイズを50倍に効果的に削減する蒸留技術を用いる。
次に、マルチドキュメントコンテキスト(10個の蒸留文書)を用いてモデルの応答を探索する。
以上の結果から, GPT-4は多文書領域で優れており, 関連する研究成果の枠組み内での詳細な回答が得られた。
以上の結果から,天文学コミュニティにおける大規模言語モデルの可能性を示し,さらなる探索,特に仮説生成にモデルを活用する可能性を示唆した。 We demonstrate the potential of the state-of-the-art OpenAI GPT-4 large language model to engage in meaningful interactions with Astronomy papers using in-context prompting. To optimize for efficiency, we employ a distillation technique that effectively reduces the size of the original input paper by 50\%, while maintaining the paragraph structure and overall semantic integrity. We then explore the model's responses using a multi-document context (ten distilled documents). Our findings indicate that GPT-4 excels in the multi-document domain, providing detailed answers contextualized within the framework of related research findings. Our results showcase the potential of large language models for the astronomical community, offering a promising avenue for further exploration, particularly the possibility of utilizing the models for hypothesis generation. | 翻訳日:2023-04-13 17:13:24 公開日:2023-04-12 |
# 透過性センシングのためのベイズ最小平均二乗誤差 Bayesian minimum mean square error for transmissivity sensing ( http://arxiv.org/abs/2304.05539v1 ) ライセンス: Link先を確認 | Boyu Zhou, Boulat A. Bash, Saikat Guha, Christos N. Gagatsos | (参考訳) ベイジアンの観点からは、純損失チャネルの透過率を推定する問題、すなわち、未知変数上の事前確率分布関数 (pdf) が利用可能であると考え、ベイジアン最小平均二乗誤差 (mmse) を計算する手法を用いる。
具体的には、2点とベータの2つのPDFについて検討する。
入力平均光子数を整数に固定することにより、最適状態がフォック状態であり、最適測定がフォトンカウントであることを解析的に証明し、ベータPDFではフォック状態とフォトンカウントの最適性を示す。
さらに,入力平均光子数が任意の(負でない)実数である状況について検討する。
その場合、最適入力状態の形式を推測し、準最適で実用的な測定である光子計数の性能について検討する。
我々の手法は任意の以前のpdfに適用できる。
我々は,漁獲アプローチに基づく平均二乗誤差のベイズ下限の代わりにmmseを計算することを強調する。 We address the problem of estimating the transmissivity of the pure-loss channel from the Bayesian point of view, i.e., we consider that some prior probability distribution function (PDF) on the unknown variable is available and we employ methods to compute the Bayesian minimum mean square error (MMSE). Specifically, we consider two prior PDFs: the two-point and the beta distributions. By fixing the input mean photon number to an integer, for the two-point PDF we prove analytically that the optimal state is the Fock state and the optimal measurement is photon-counting, while for the beta PDF our numerical investigation provides evidence on the optimality of the Fock state and photon-counting. Moreover, we investigate the situation where the input mean photon number is any (non-negative) real number. For said case, we conjecture the form of the optimal input states and we study the performance of photon-counting, which is a sub-optimal yet practical measurement. Our methods can be applied for any prior PDF. We emphasize that we compute the MMSE instead of Bayesian lower bounds on the mean square error based on the Fisherian approach. | 翻訳日:2023-04-13 16:38:00 公開日:2023-04-12 |
# ニューラルインバータブル可変光収差補正 Neural Invertible Variable-degree Optical Aberrations Correction ( http://arxiv.org/abs/2304.05564v1 ) ライセンス: Link先を確認 | Shuang Cui, Bingnan Wang, Quan Zheng | (参考訳) 光学系の光学収差は撮像品質を著しく低下させる。
高度なレンズ設計と特殊なガラス材料による収差補正は、一般的に製造コストが高く、光学系の重量の増加を招き、近年では深層学習による後処理による収差補正に移行している。
実世界の光学収差は程度によって異なるが、既存の方法では、特に深刻な劣化の程度では、可変度の収差をうまく排除できない。
また、従来の手法では単一のフィードフォワードニューラルネットワークを使用しており、出力の情報損失に苦しんでいる。
そこで本研究では,その情報損失特性を活かし,可逆アーキテクチャを用いた新しい収差補正手法を提案する。
アーキテクチャ内では、可変次数の収差の処理を可能にする条件付き可逆ブロックを開発する。
本手法は,物理画像シミュレーションによる合成データセットと実捕集データセットの両方を用いて評価する。
定量的および定性的な実験結果から,本手法は可変度光収差補正法よりも優れることが示された。 Optical aberrations of optical systems cause significant degradation of imaging quality. Aberration correction by sophisticated lens designs and special glass materials generally incurs high cost of manufacturing and the increase in the weight of optical systems, thus recent work has shifted to aberration correction with deep learning-based post-processing. Though real-world optical aberrations vary in degree, existing methods cannot eliminate variable-degree aberrations well, especially for the severe degrees of degradation. Also, previous methods use a single feed-forward neural network and suffer from information loss in the output. To address the issues, we propose a novel aberration correction method with an invertible architecture by leveraging its information-lossless property. Within the architecture, we develop conditional invertible blocks to allow the processing of aberrations with variable degrees. Our method is evaluated on both a synthetic dataset from physics-based imaging simulation and a real captured dataset. Quantitative and qualitative experimental results demonstrate that our method outperforms compared methods in correcting variable-degree optical aberrations. | 翻訳日:2023-04-13 16:27:27 公開日:2023-04-12 |
# シュミット位と行列位によるエンタングルメント蒸留 Entanglement distillation in terms of Schmidt rank and matrix rank ( http://arxiv.org/abs/2304.05563v1 ) ライセンス: Link先を確認 | Tianyi Ding, Lin Chen | (参考訳) エンタングルメント蒸留は量子情報処理において重要なタスクである。
本稿では,Schmidt階数と行列階数の非正分位 (NPT) バイパルタイト状態を蒸留する。
シュミットランク2の全ての二成分状態は古典古典的状態と局所的に等価であり、シュミットランク3の全ての二成分状態は1-不飽和状態であることを示す。
次に, 生成物ベクトルを含む低ランクのB値のNPT状態が蒸留可能であることを示し, 低ランクのB値のNPT状態は, 大容量の密度演算子に対して蒸留可能であることを示した。
最終的には、$M\times N$ bipartite state of rank $\max\{M,N\}+1$ を蒸留する等価条件を示す。 Entanglement distillation is a key task in quantum-information processing. In this paper, we distill non-positive-partial-transpose (NPT) bipartite states of some given Schmidt rank and matrix rank. We show that all bipartite states of Schmidt rank two are locally equivalent to classical-classical states, and all bipartite states of Schmidt rank three are 1-undistillable. Subsequently, we show that low-rank B-irreducible NPT states are distillable for large-rank reduced density operators by proving low-rank B-irreducible NPT state whose range contains a product vector is distillable. Eventually, we present an equivalent condition to distill $M\times N$ bipartite states of rank $\max\{M,N\}+1$. | 翻訳日:2023-04-13 16:27:10 公開日:2023-04-12 |
# 深部バイオメトリック表現の逆変換について On the Adversarial Inversion of Deep Biometric Representations ( http://arxiv.org/abs/2304.05561v1 ) ライセンス: Link先を確認 | Gioacchino Tangari and Shreesh Keskar and Hassan Jameel Asghar and Dali Kaafar | (参考訳) 生体認証サービスプロバイダは、しばしば、数学的(特徴空間)表現から指紋や顔画像などのユーザーの生の生体認証サンプルをリバースエンジニアリングすることは不可能であると主張する。
本稿では、ディープニューラルネットワーク(DNN)埋め込みの具体的な例について、この主張を考察する。
DNN埋め込みのインバージョンは、深部画像表現の説明や正規化画像の合成のために研究されている。
既存の研究では、元のモデルのすべてのレイヤへの完全なアクセスと、元のデータセットに関するすべての可能な情報を活用する。
生体認証のユースケースでは、攻撃者が機能空間表現にアクセスするが、正確なオリジナルデータセットや元の学習モデルに直接アクセスできない、敵対的な設定の下でこれを調査する必要があります。
代わりに、データセットの分散に関する攻撃者の背景知識と、オリジナルの学習モデル(アーキテクチャとトレーニングプロセス)の多様さを想定する。
これらの場合、攻撃者は、既成のDNNモデルと公開データセットを利用して、得られた表現と攻撃者の事前知識に基づいて、元の学習モデルの振る舞いを様々な成功度に模倣することができることを示す。
本稿では,まず,埋め込みのモデルフットプリントを利用して元のDNNを推定し,次に推定モデルを用いて生データを再構成する2段階攻撃を提案する。
顔と指紋の認識という2つの顕著な生体特性を訓練したDNNに対する攻撃の実用性を示す。
この攻撃は、元の認識モデル(顔の精度83\%、指紋の86\%)を効果的に推定でき、いくつかのモデルで1-vs-1認証精度で認証された効果的な生体認証再構築を成功させることができる。 Biometric authentication service providers often claim that it is not possible to reverse-engineer a user's raw biometric sample, such as a fingerprint or a face image, from its mathematical (feature-space) representation. In this paper, we investigate this claim on the specific example of deep neural network (DNN) embeddings. Inversion of DNN embeddings has been investigated for explaining deep image representations or synthesizing normalized images. Existing studies leverage full access to all layers of the original model, as well as all possible information on the original dataset. For the biometric authentication use case, we need to investigate this under adversarial settings where an attacker has access to a feature-space representation but no direct access to the exact original dataset nor the original learned model. Instead, we assume varying degree of attacker's background knowledge about the distribution of the dataset as well as the original learned model (architecture and training process). In these cases, we show that the attacker can exploit off-the-shelf DNN models and public datasets, to mimic the behaviour of the original learned model to varying degrees of success, based only on the obtained representation and attacker's prior knowledge. We propose a two-pronged attack that first infers the original DNN by exploiting the model footprint on the embedding, and then reconstructs the raw data by using the inferred model. We show the practicality of the attack on popular DNNs trained for two prominent biometric modalities, face and fingerprint recognition. The attack can effectively infer the original recognition model (mean accuracy 83\% for faces, 86\% for fingerprints), and can craft effective biometric reconstructions that are successfully authenticated with 1-vs-1 authentication accuracy of up to 92\% for some models. | 翻訳日:2023-04-13 16:26:57 公開日:2023-04-12 |
# パノラマ画像の直立調整のためのエンドツーエンドネットワーク An End-to-End Network for Upright Adjustment of Panoramic Images ( http://arxiv.org/abs/2304.05556v1 ) ライセンス: Link先を確認 | Heyu Chen, Jianfeng Li and Shigang Li | (参考訳) 現在、パノラマカメラで簡単にパノラマ画像を得ることができる。
しかし、パノラマカメラの向きが傾くと、直立しないパノラマ画像が撮影される。
既存のアップライト調整モデルは、より正確なカメラの向きを推定する方法、オフラインまたは後処理タスクへの属性画像再構成に焦点を当てている。
そこで本研究では,アップライト調整のためのオンラインエンドツーエンドネットワークを提案する。
我々のネットワークは、角度を見つけながら画像を再構成するように設計されている。
我々のネットワークは,向き推定,LUTオンライン生成,直立再構成という3つのモジュールから構成されている。
方向推定はパノラマ画像の傾き角度を推定する。
次に、アップサンプリング機能を有するコンバータブロックを、LUTに対する角度を生成するように設計する。
このモジュールは、異なる入力角度に対して対応するオンラインLUTを出力することができる。
最後に、浅い特徴から直立画像を生成することを目的とした、軽量な生成逆ネットワーク(GAN)を提案する。
実験の結果,角度の面では,小さな角度誤差の精度が向上したことがわかった。
画像再構成に関して、画像再構成において、ディープラーニングネットワークを用いたパノラマ画像のリアルタイムオンラインアップライト再構築を初めて達成した。 Nowadays, panoramic images can be easily obtained by panoramic cameras. However, when the panoramic camera orientation is tilted, a non-upright panoramic image will be captured. Existing upright adjustment models focus on how to estimate more accurate camera orientation, and attribute image reconstruction to offline or post-processing tasks. To this end, we propose an online end-to-end network for upright adjustment. Our network is designed to reconstruct the image while finding the angle. Our network consists of three modules: orientation estimation, LUT online generation, and upright reconstruction. Direction estimation estimates the tilt angle of the panoramic image. Then, a converter block with upsampling function is designed to generate angle to LUT. This module can output corresponding online LUT for different input angles. Finally, a lightweight generative adversarial network (GAN) aims to generate upright images from shallow features. The experimental results show that in terms of angles, we have improved the accuracy of small angle errors. In terms of image reconstruction, In image reconstruction, we have achieved the first real-time online upright reconstruction of panoramic images using deep learning networks. | 翻訳日:2023-04-13 16:26:30 公開日:2023-04-12 |
# マルチモーダル情報監督による移動可能な歩行者表現の学習 Learning Transferable Pedestrian Representation from Multimodal Information Supervision ( http://arxiv.org/abs/2304.05554v1 ) ライセンス: Link先を確認 | Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi Tian | (参考訳) 教師なし人物の再識別〜(reID)に関する最近の研究は、ラベルなし人物画像の事前訓練が、ImageNetの事前訓練よりも下流のreIDタスクにおいて優れた性能を発揮することを示した。
しかし、これらの事前訓練された方法は、reid用に特別に設計され、他の歩行者分析タスクに柔軟に対応できる。
本稿では,移動可能表現を学習し,マルチモーダル情報を用いた歩行者分析タスクを効率化する新しいフレームワークであるval-patを提案する。
フレームワークの学習には,自己指導型コントラスト学習,画像テキスト型コントラスト学習,マルチ属性分類という3つの学習目標を導入する。
自己教師付きコントラスト学習は、本質的な歩行者特性の学習を促進させ、画像テキストコントラスト学習は、モデルが歩行者の外観情報に焦点を当てるように誘導する一方、複数属性分類は、モデルが細粒度の歩行者情報を発掘するために属性を認識することを奨励する。
まず、luperson-taデータセットで事前トレーニングを行い、各画像にテキストと属性のアノテーションが含まれ、学習した表現をパーソナリド、パーソナリティ認識、テキストベースのパーソナライズなど、さまざまな下流タスクに転送する。
広範な実験により,提案手法は一般歩行者表現の学習を容易にし,様々な歩行者分析タスクに有望な結果をもたらすことを実証した。 Recent researches on unsupervised person re-identification~(reID) have demonstrated that pre-training on unlabeled person images achieves superior performance on downstream reID tasks than pre-training on ImageNet. However, those pre-trained methods are specifically designed for reID and suffer flexible adaption to other pedestrian analysis tasks. In this paper, we propose VAL-PAT, a novel framework that learns transferable representations to enhance various pedestrian analysis tasks with multimodal information. To train our framework, we introduce three learning objectives, \emph{i.e.,} self-supervised contrastive learning, image-text contrastive learning and multi-attribute classification. The self-supervised contrastive learning facilitates the learning of the intrinsic pedestrian properties, while the image-text contrastive learning guides the model to focus on the appearance information of pedestrians.Meanwhile, multi-attribute classification encourages the model to recognize attributes to excavate fine-grained pedestrian information. We first perform pre-training on LUPerson-TA dataset, where each image contains text and attribute annotations, and then transfer the learned representations to various downstream tasks, including person reID, person attribute recognition and text-based person search. Extensive experiments demonstrate that our framework facilitates the learning of general pedestrian representations and thus leads to promising results on various pedestrian analysis tasks. | 翻訳日:2023-04-13 16:26:16 公開日:2023-04-12 |
# dynamicdet: オブジェクト検出のための統一的な動的アーキテクチャ DynamicDet: A Unified Dynamic Architecture for Object Detection ( http://arxiv.org/abs/2304.05552v1 ) ライセンス: Link先を確認 | Zhihao Lin, Yongtao Wang, Jinhe Zhang, Xiaojie Chu | (参考訳) 動的ニューラルネットワークは、ディープラーニングにおける新たな研究トピックである。
適応推論により、動的モデルは驚くべき精度と計算効率を達成することができる。
しかし、適切な動的アーキテクチャや物体検出の基準を外すことができないため、強力な動的検出器を設計することは困難である。
このような問題に対処するため,DynamicDetというオブジェクト検出のための動的フレームワークを提案する。
まず,オブジェクト検出タスクの性質に基づいて動的アーキテクチャを慎重に設計する。
そこで我々は,マルチスケール情報を分析し,推論経路を自動的に決定する適応ルータを提案する。
また, 動的検出器の検出損失に基づいて, 出口基準を用いた新しい最適化手法を提案する。
最後に,1つの動的検出器だけで広範囲の精度・速度トレードオフを実現するための可変速推論戦略を提案する。
COCOベンチマークで実施された大規模な実験により、提案したDynamicDetは、最先端の精度-速度トレードオフを新たに達成することを示した。
例えば、我々の動的検出器Dy-YOLOv7-W6の推論速度は、YOLOv7-E6を12%上回り、YOLOv7-D6を17%上回り、YOLOv7-E6Eを39%上回る。
コードはhttps://github.com/VDIGPKU/DynamicDet.comで入手できる。 Dynamic neural network is an emerging research topic in deep learning. With adaptive inference, dynamic models can achieve remarkable accuracy and computational efficiency. However, it is challenging to design a powerful dynamic detector, because of no suitable dynamic architecture and exiting criterion for object detection. To tackle these difficulties, we propose a dynamic framework for object detection, named DynamicDet. Firstly, we carefully design a dynamic architecture based on the nature of the object detection task. Then, we propose an adaptive router to analyze the multi-scale information and to decide the inference route automatically. We also present a novel optimization strategy with an exiting criterion based on the detection losses for our dynamic detectors. Last, we present a variable-speed inference strategy, which helps to realize a wide range of accuracy-speed trade-offs with only one dynamic detector. Extensive experiments conducted on the COCO benchmark demonstrate that the proposed DynamicDet achieves new state-of-the-art accuracy-speed trade-offs. For instance, with comparable accuracy, the inference speed of our dynamic detector Dy-YOLOv7-W6 surpasses YOLOv7-E6 by 12%, YOLOv7-D6 by 17%, and YOLOv7-E6E by 39%. The code is available at https://github.com/VDIGPKU/DynamicDet. | 翻訳日:2023-04-13 16:25:52 公開日:2023-04-12 |
# 2次元ヒューマン・ポーズ推定のための蒸留乾式ポース変圧器 Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation ( http://arxiv.org/abs/2304.05548v1 ) ライセンス: Link先を確認 | Feixiang Ren | (参考訳) 近年、人間のポーズ推定にはトランスフォーマーモデルが広く使われている。
姿勢変換器は、人間の関節トークンと画像の相関をキャプチャする自己注意マップの恩恵を受ける。
しかし、そのようなモデルのトレーニングは計算コストが高い。
最近のトークン処理されたPose Transformer (PPT)は、画像の背景トークンをプルーニングすることでこの問題を解決する。
しかし、効率は向上するが、pptは必然的にトークンの刈り取りによるtokenposeよりもパフォーマンスが悪くなる。
この問題を解決するために,人間のポーズ推定(DPPT)のためのDistilling Pruned-Token Transformerを提案する。
本手法は,事前学習したTokenPoseの出力を利用して,PPTの学習プロセスを監督する。
また,ポーズ変換器の内部構造とPTT,例えばアテンションマップやジョイント特徴との接続を確立する。
MPIIデータセットによる実験結果から,DPPTは計算複雑性を低減しつつ,従来のPPTモデルと比較してPCKを大幅に改善できることが示された。 Human pose estimation has seen widespread use of transformer models in recent years. Pose transformers benefit from the self-attention map, which captures the correlation between human joint tokens and the image. However, training such models is computationally expensive. The recent token-Pruned Pose Transformer (PPT) solves this problem by pruning the background tokens of the image, which are usually less informative. However, although it improves efficiency, PPT inevitably leads to worse performance than TokenPose due to the pruning of tokens. To overcome this problem, we present a novel method called Distilling Pruned-Token Transformer for human pose estimation (DPPT). Our method leverages the output of a pre-trained TokenPose to supervise the learning process of PPT. We also establish connections between the internal structure of pose transformers and PPT, such as attention maps and joint features. Our experimental results on the MPII datasets show that our DPPT can significantly improve PCK compared to previous PPT models while still reducing computational complexity. | 翻訳日:2023-04-13 16:25:30 公開日:2023-04-12 |
# 分類学クラスインクリメンタル学習 Taxonomic Class Incremental Learning ( http://arxiv.org/abs/2304.05547v1 ) ライセンス: Link先を確認 | Yuzhao Chen, Zonghuan Li, Zhiyuan Hu, Nuno Vasconcelos | (参考訳) 継続的学習の問題は近年注目を集めている。
しかし、ランダムクラスのタスクカリキュラムに基づいて、一般的に使用される学習設定に疑問を呈する作品はほとんどない。
これは、分類学のカリキュラムによって導かれる人間の連続学習とは大きく異なる。
そこで本研究では,Taxonomic Class Incremental Learning (TCIL) 問題を提案する。
tcilでは、タスクシーケンスは分類学クラスツリーに基づいて構成される。
我々はCILと分類学学習の既存のアプローチをパラメータ継承スキームとして統合し、TCIL学習のための新しい手法を導入する。
これにより、クラス分類学の祖先から子孫クラスへの知識の段階的にパラメータ継承が可能である。
CIFAR-100 と ImageNet-100 の実験では,既存の SOTA 法を CIFAR-100 と ImageNet-100 で最終精度で2% 上回った TCIL 法の有効性を示した。 The problem of continual learning has attracted rising attention in recent years. However, few works have questioned the commonly used learning setup, based on a task curriculum of random class. This differs significantly from human continual learning, which is guided by taxonomic curricula. In this work, we propose the Taxonomic Class Incremental Learning (TCIL) problem. In TCIL, the task sequence is organized based on a taxonomic class tree. We unify existing approaches to CIL and taxonomic learning as parameter inheritance schemes and introduce a new such scheme for the TCIL learning. This enables the incremental transfer of knowledge from ancestor to descendant class of a class taxonomy through parameter inheritance. Experiments on CIFAR-100 and ImageNet-100 show the effectiveness of the proposed TCIL method, which outperforms existing SOTA methods by 2% in terms of final accuracy on CIFAR-100 and 3% on ImageNet-100. | 翻訳日:2023-04-13 16:25:12 公開日:2023-04-12 |
# MEMA Runtime Framework:マイクロコントローラ上のTinyMLの外部メモリアクセスを最小化 MEMA Runtime Framework: Minimizing External Memory Accesses for TinyML on Microcontrollers ( http://arxiv.org/abs/2304.05544v1 ) ライセンス: Link先を確認 | Andrew Sabot, Vikas Natesh, H.T. Kung, Wei-Te Ting | (参考訳) 本稿では,行列乗算のための外部メモリアクセスを最小限に抑える効率的な推論ランタイムの簡易かつ迅速な導出のためのmemaフレームワークを提案する。
このフレームワークは、メモリアクセスを最小限に抑える最適化されたスケジュールとカーネルを解析的に決定する際のハードウェアリソースの制約と問題サイズを考慮に入れている。
MEMAは、現在の実践においてよく知られた問題の解決策を提供する、すなわち、最適なスケジュールは、大規模なスケジューリング空間の時間とヒューリスティックな探索によってのみ見つかる傾向がある。
我々は,MEMAから派生したランタイムと,ARMベースのTinyMLシステム上の既存の最先端ライブラリのパフォーマンスを比較した。
例えば、ARM Cortex-M4のニューラルネットワークベンチマークでは、最大1.8倍のスピードアップと44%のエネルギー削減を実現しています。 We present the MEMA framework for the easy and quick derivation of efficient inference runtimes that minimize external memory accesses for matrix multiplication on TinyML systems. The framework accounts for hardware resource constraints and problem sizes in analytically determining optimized schedules and kernels that minimize memory accesses. MEMA provides a solution to a well-known problem in the current practice, that is, optimal schedules tend to be found only through a time consuming and heuristic search of a large scheduling space. We compare the performance of runtimes derived from MEMA to existing state-of-the-art libraries on ARM-based TinyML systems. For example, for neural network benchmarks on the ARM Cortex-M4, we achieve up to a 1.8x speedup and 44% energy reduction over CMSIS-NN. | 翻訳日:2023-04-13 16:24:58 公開日:2023-04-12 |
# CLCLSA:非完全マルチオミクスデータとのマルチオミクス統合のためのコントラスト学習と自己注意によるクロスオミクスの埋め込み CLCLSA: Cross-omics Linked embedding with Contrastive Learning and Self Attention for multi-omics integration with incomplete multi-omics data ( http://arxiv.org/abs/2304.05542v1 ) ライセンス: Link先を確認 | Chen Zhao, Anqi Liu, Xiao Zhang, Xuewei Cao, Zhengming Ding, Qiuying Sha, Hui Shen, Hong-Wen Deng, Weihua Zhou | (参考訳) 不均一・高次元マルチオミクスデータの統合は、遺伝データの理解においてますます重要になっている。
それぞれのオデックテクニックは、基礎となる生物学的過程の限られたビューを提供し、不均一なオデック層を同時に統合することで、より包括的かつ詳細な疾患や表現型の理解に繋がる。
しかし、マルチオミクスデータ統合を行う際の1つの障害は、機器の感度とコストのため、非ペアのマルチオミクスデータが存在することである。
研究は、被験者の特定の側面が欠如しているか不完全であれば失敗する。
本稿では,クロスオミクス結合型統一埋め込みとコントラスト学習と自己注意(clclsa)による不完全データとのマルチオミクス統合のための深層学習手法を提案する。
完全なマルチオミクスデータを監視として利用し、クロスオミクスのオートエンコーダを使用して、さまざまな種類の生物学的データにまたがる特徴表現を学習する。
異なるタイプのオミクス間の相互情報の最大化に使用されるマルチオミクスコントラスト学習は、潜在的特徴結合の前に使用される。
さらに、マルチオミクスデータ統合において最も有用な特徴を動的に識別するために、機能レベルの自己注意とオミクスレベルの自己注意が使用される。
4つの公開マルチオミクスデータセットで広範な実験が行われた。
実験の結果,clclsaは不完全マルチオミクスデータを用いたマルチオミクスデータ分類の最先端手法よりも優れていた。 Integration of heterogeneous and high-dimensional multi-omics data is becoming increasingly important in understanding genetic data. Each omics technique only provides a limited view of the underlying biological process and integrating heterogeneous omics layers simultaneously would lead to a more comprehensive and detailed understanding of diseases and phenotypes. However, one obstacle faced when performing multi-omics data integration is the existence of unpaired multi-omics data due to instrument sensitivity and cost. Studies may fail if certain aspects of the subjects are missing or incomplete. In this paper, we propose a deep learning method for multi-omics integration with incomplete data by Cross-omics Linked unified embedding with Contrastive Learning and Self Attention (CLCLSA). Utilizing complete multi-omics data as supervision, the model employs cross-omics autoencoders to learn the feature representation across different types of biological data. The multi-omics contrastive learning, which is used to maximize the mutual information between different types of omics, is employed before latent feature concatenation. In addition, the feature-level self-attention and omics-level self-attention are employed to dynamically identify the most informative features for multi-omics data integration. Extensive experiments were conducted on four public multi-omics datasets. The experimental results indicated that the proposed CLCLSA outperformed the state-of-the-art approaches for multi-omics data classification using incomplete multi-omics data. | 翻訳日:2023-04-13 16:24:44 公開日:2023-04-12 |
# 微分可能プログラミングと機械学習を用いた学習型マルチフィジカルインバージョン Learned multiphysics inversion with differentiable programming and machine learning ( http://arxiv.org/abs/2304.05592v1 ) ライセンス: Link先を確認 | Mathias Louboutin and Ziyi Yin and Rafael Orozco and Thomas J. Grady II and Ali Siahkoohi and Gabrio Rizzuti and Philipp A. Witte and Olav M{\o}yner and Gerard J. Gorman and Felix J. Herrmann | (参考訳) 本稿では,画像・モデリング・モニタリングのためのslim(quasmic laboratory for imaging and modeling/monitoring)オープンソースソフトウェアフレームワークと,さらに一般的には,波動方程式(地震波・医用超音波など),学習された事前情報による規則化,多相流シミュレーションのための学習ニューラルネットワークサロゲートに関する逆問題について述べる。
複数の抽象化レイヤを統合することで、ソフトウェアは可読性と拡張性を兼ね備えています。
これにより研究者は、高性能コンピューティングの最新の発展を活用しながら、問題を抽象的に容易に定式化することができる。
波動物理学と多相流の結合を別にして,タイムラプスクロスウェル地震データから透過性反転するスケーラブルなプロトタイプを構築することで,当社の設計原理とそのメリットを実証し,実証する。 We present the Seismic Laboratory for Imaging and Modeling/Monitoring (SLIM) open-source software framework for computational geophysics and, more generally, inverse problems involving the wave-equation (e.g., seismic and medical ultrasound), regularization with learned priors, and learned neural surrogates for multiphase flow simulations. By integrating multiple layers of abstraction, our software is designed to be both readable and scalable. This allows researchers to easily formulate their problems in an abstract fashion while exploiting the latest developments in high-performance computing. We illustrate and demonstrate our design principles and their benefits by means of building a scalable prototype for permeability inversion from time-lapse crosswell seismic data, which aside from coupling of wave physics and multiphase flow, involves machine learning. | 翻訳日:2023-04-13 16:19:07 公開日:2023-04-12 |
# FLAN-T5における意味的特徴検証 Semantic Feature Verification in FLAN-T5 ( http://arxiv.org/abs/2304.05591v1 ) ライセンス: Link先を確認 | Siddharth Suresh, Kushin Mukherjee, Timothy T. Rogers | (参考訳) 本研究では,認知科学における概念構造評価のための重要なツールである意味的特徴規範の生成を支援する大規模言語モデルの可能性を評価した。
既存の人間生成データセットから、機械検証された規範は、人間の規範にのみ表されるもの以上の概念構造の側面を捉え、異なる関係のある項目間の意味的類似性の人間の判断をよりよく説明する。
その結果,LLMは従来の意味的特徴ノルム検証手法を大幅に強化し,人間や機械における概念表現の理解に寄与することが示唆された。 This study evaluates the potential of a large language model for aiding in generation of semantic feature norms - a critical tool for evaluating conceptual structure in cognitive science. Building from an existing human-generated dataset, we show that machine-verified norms capture aspects of conceptual structure beyond what is expressed in human norms alone, and better explain human judgments of semantic similarity amongst items that are distally related. The results suggest that LLMs can greatly enhance traditional methods of semantic feature norm verification, with implications for our understanding of conceptual representation in humans and machines. | 翻訳日:2023-04-13 16:18:51 公開日:2023-04-12 |
# 先行画像のない不適切な画像再構成 Ill-Posed Image Reconstruction Without an Image Prior ( http://arxiv.org/abs/2304.05589v1 ) ライセンス: Link先を確認 | Oscar Leong and Angela F. Gao and He Sun and Katherine L. Bouman | (参考訳) 未解決画像や地中サンプルにアクセスせずに逆問題を解くことを検討する。
これらの逆問題における過大な課題は、観測された測定値と矛盾しない多くの画像を含む無限の数の画像が一致していることである。
したがって、より望まれる再構築への解決策の空間を縮小するために、画像の事前が必要である。
しかし、多くのアプリケーションでは、前もって画像を構築するためにサンプル画像を取得することは困難または不可能である。
したがって、不正確な前もしばしば使われ、必然的に偏りのある解となる。
本研究では,任意の画像の空間構造を符号化する先行問題を用いて逆問題を解決する代わりに,画像の集合構造に事前制約を組み込んだ逆問題集合を共同で解くことを提案する。
私たちの研究の重要な前提は、再構築を目指す基盤となるイメージが共通の低次元構造を共有することである。
共有画像生成器を低次元の潜在空間で推定することにより,先行して空間画像を用いることなく,このような逆問題を同時に解くことができることを示す。
ジェネレータと潜伏埋め込みのパラメータは、エビデンス下界(ELBO)のプロキシを最大化することによって得られる。
認識されると、生成元と潜伏埋め込みを組み合わせ、逆問題毎に再構成された画像を提供する。
我々が提案するフレームワークは, 一般的な前方モデル破壊を処理可能であり, 少数の地上画像 (\leqslant 150$) から得られる測定値が, 「優先的」な画像再構成に十分であることを示す。
我々は, 様々な凸・非凸逆問題に対して, ノイズ除去, 位相抽出, ブラックホールビデオ再構成などのアプローチを実証する。 We consider solving ill-posed imaging inverse problems without access to an image prior or ground-truth examples. An overarching challenge in these inverse problems is that an infinite number of images, including many that are implausible, are consistent with the observed measurements. Thus, image priors are required to reduce the space of possible solutions to more desireable reconstructions. However, in many applications it is difficult or potentially impossible to obtain example images to construct an image prior. Hence inaccurate priors are often used, which inevitably result in biased solutions. Rather than solving an inverse problem using priors that encode the spatial structure of any one image, we propose to solve a set of inverse problems jointly by incorporating prior constraints on the collective structure of the underlying images. The key assumption of our work is that the underlying images we aim to reconstruct share common, low-dimensional structure. We show that such a set of inverse problems can be solved simultaneously without the use of a spatial image prior by instead inferring a shared image generator with a low-dimensional latent space. The parameters of the generator and latent embeddings are found by maximizing a proxy for the Evidence Lower Bound (ELBO). Once identified, the generator and latent embeddings can be combined to provide reconstructed images for each inverse problem. The framework we propose can handle general forward model corruptions, and we show that measurements derived from only a small number of ground-truth images ($\leqslant 150$) are sufficient for "prior-free" image reconstruction. We demonstrate our approach on a variety of convex and non-convex inverse problems, ranging from denoising, phase retrieval, and black hole video reconstruction. | 翻訳日:2023-04-13 16:18:40 公開日:2023-04-12 |
# スパイクニューラルネットワークシミュレーション、シリアライズ、相互運用性のための分散圧縮スパース列フォーマット Distributed Compressed Sparse Row Format for Spiking Neural Network Simulation, Serialization, and Interoperability ( http://arxiv.org/abs/2304.05587v1 ) ライセンス: Link先を確認 | Felix Wang | (参考訳) ニューロモルフィックプラットフォームとその関連ソフトウェアツールの開発が増加し、スパイクニューラルネットワーク(SNN)モデルの規模が増大するにつれ、ネットワーク状態の相互運用可能でスケーラブルな表現に対する圧力が高まっている。
これに対し、大規模SNNのシミュレーションとシリアライゼーションをサポートする文脈において、スパース行列、圧縮スパース行(CSR)を効率的に表現するための広く使われているフォーマットの並列拡張について論じる。
グラフ隣接構造のためのスパース行列は、SNNの接続性を記述するのに自然なものであり、並列グラフ分割の分野における先行研究は、大きなグラフの保存と取り込みのための分散CSR(dCSR)フォーマットを開発した。
我々は, ニューロンやシナプス状態などの付加的なネットワーク情報を, dCSR がネットワーク状態のパーティショニングに基づく直接分布を提供するため, その隣接性に合わせて整理する。
大規模なシミュレーションでは、それぞれの並列プロセスが自身の状態分割にのみ責任を持ち、SNNのサイズが単一の計算ノードのメモリリソースを超えると特に有用になる。
潜在的に長期にわたるシミュレーションでは、ディスクへのネットワークシリアライゼーション(例えば、チェックポイント/リスタートフォールトトレラントコンピューティング)が並列プロセス間で独立して実行される。
私たちはまた、潜在的な実装を提供し、ニューラルコンピューティングコミュニティ内での採用を前進させています。 With the increasing development of neuromorphic platforms and their related software tools as well as the increasing scale of spiking neural network (SNN) models, there is a pressure for interoperable and scalable representations of network state. In response to this, we discuss a parallel extension of a widely used format for efficiently representing sparse matrices, the compressed sparse row (CSR), in the context of supporting the simulation and serialization of large-scale SNNs. Sparse matrices for graph adjacency structure provide a natural fit for describing the connectivity of an SNN, and prior work in the area of parallel graph partitioning has developed the distributed CSR (dCSR) format for storing and ingesting large graphs. We contend that organizing additional network information, such as neuron and synapse state, in alignment with its adjacency as dCSR provides a straightforward partition-based distribution of network state. For large-scale simulations, this means each parallel process is only responsible for its own partition of state, which becomes especially useful when the size of an SNN exceeds the memory resources of a single compute node. For potentially long-running simulations, this also enables network serialization to and from disk (e.g. for checkpoint/restart fault-tolerant computing) to be performed largely independently between parallel processes. We also provide a potential implementation, and put it forward for adoption within the neural computing community. | 翻訳日:2023-04-13 16:18:10 公開日:2023-04-12 |
# 情報性は重要か?
教育対話行為分類のためのアクティブラーニング Does Informativeness Matter? Active Learning for Educational Dialogue Act Classification ( http://arxiv.org/abs/2304.05578v1 ) ライセンス: Link先を確認 | Wei Tan, Jionghao Lin, David Lang, Guanliang Chen, Dragan Gasevic, Lan Du, Wray Buntine | (参考訳) 対話法(DA)は、専門家の家庭教師が何をし、授業中に学生が知っていることを説明するために用いられる。
実験的な研究の多くは、DAのマニュアルアノテーションのサンプルを得るためにランダムサンプリング法を採用しており、DA分類器の訓練に使用される。
しかし,これらの研究は,選択したサンプルの情報量を反映し,分類器がパターンを学習できる範囲を知らせる,サンプル情報にはほとんど注意を払わなかった。
特に、情報化レベルはサンプルによって異なり、分類器はパターンを学ぶために少量の低い情報化サンプルを必要とする。
ランダムサンプリングは、人間のラベル付けコストを消費し、分類器の訓練に寄与しないサンプルインフォメーションを見逃す可能性がある。
代替として、研究者は、分類器を訓練するための情報的サンプルを特定するために、アクティブラーニング(AL)の統計的サンプリング手法を採用することを提案している。
しかし,教育da分類課題におけるal法の利用は未検討である。
本稿では,注釈付き文サンプルのインフォメーション性について検討する。
そこで本研究では, ALサンプリングプロセスにおいて, DA分類器をサポートするために, AL法が情報的サンプルを選択する方法について検討した。
その結果,ほとんどの注釈文は訓練データセットに低情報性を示し,これらの文のパターンはDA分類器で容易に把握できることがわかった。
また,alサンプリングプロセスにおいて,alメソッドが手動アノテーションのコストを削減する方法を示す。 Dialogue Acts (DAs) can be used to explain what expert tutors do and what students know during the tutoring process. Most empirical studies adopt the random sampling method to obtain sentence samples for manual annotation of DAs, which are then used to train DA classifiers. However, these studies have paid little attention to sample informativeness, which can reflect the information quantity of the selected samples and inform the extent to which a classifier can learn patterns. Notably, the informativeness level may vary among the samples and the classifier might only need a small amount of low informative samples to learn the patterns. Random sampling may overlook sample informativeness, which consumes human labelling costs and contributes less to training the classifiers. As an alternative, researchers suggest employing statistical sampling methods of Active Learning (AL) to identify the informative samples for training the classifiers. However, the use of AL methods in educational DA classification tasks is under-explored. In this paper, we examine the informativeness of annotated sentence samples. Then, the study investigates how the AL methods can select informative samples to support DA classifiers in the AL sampling process. The results reveal that most annotated sentences present low informativeness in the training dataset and the patterns of these sentences can be easily captured by the DA classifier. We also demonstrate how AL methods can reduce the cost of manual annotation in the AL sampling process. | 翻訳日:2023-04-13 16:17:44 公開日:2023-04-12 |
# SGL:カメラローカライゼーションのための構造指導学習 SGL: Structure Guidance Learning for Camera Localization ( http://arxiv.org/abs/2304.05571v1 ) ライセンス: Link先を確認 | Xudong Zhang, Shuang Gao, Xiaohu Nan, Haikuan Ning, Yuchen Yang, Yishan Ping, Jixiang Wan, Shuzhou Dong, Jijunnan Li, Yandong Guo | (参考訳) カメラのローカライゼーション(英: camera localization)は、さまざまな人工知能やロボット工学の応用に役立つ古典的なコンピュータビジョンタスクである。
近年、Deep Neural Networks(DNN)の急速な発展に伴い、エンド・ツー・エンドの視覚的ローカライゼーション手法が繁栄している。
本研究では,シーン座標の予測に焦点をあて,受容分岐と構造分岐を利用して高次・低次両方の特徴を抽出して3次元座標を推定する構造誘導学習(SGL)と呼ばれるネットワークアーキテクチャを提案する。
我々は,予測した3次元観察を洗練・フィルタリングするための信頼度戦略を考案し,カメラのポーズをransacを用いてpnpを用いて推定する。
トレーニングパートでは、ネットワークのシーンの適合性を改善するために、バンドル調整トレーナーを設計する。
sota(state-of-the-art)法と十分なアブレーション実験との比較により,提案手法の有効性を確認した。 Camera localization is a classical computer vision task that serves various Artificial Intelligence and Robotics applications. With the rapid developments of Deep Neural Networks (DNNs), end-to-end visual localization methods are prosperous in recent years. In this work, we focus on the scene coordinate prediction ones and propose a network architecture named as Structure Guidance Learning (SGL) which utilizes the receptive branch and the structure branch to extract both high-level and low-level features to estimate the 3D coordinates. We design a confidence strategy to refine and filter the predicted 3D observations, which enables us to estimate the camera poses by employing the Perspective-n-Point (PnP) with RANSAC. In the training part, we design the Bundle Adjustment trainer to help the network fit the scenes better. Comparisons with some state-of-the-art (SOTA) methods and sufficient ablation experiments confirm the validity of our proposed architecture. | 翻訳日:2023-04-13 16:17:20 公開日:2023-04-12 |
# 非線形転位カー状態とその非古典的性質 Nonlinear displaced Kerr state and its nonclassical properties ( http://arxiv.org/abs/2304.05570v1 ) ライセンス: Link先を確認 | Arpita Chatterjee and Rupamanjari Ghosh | (参考訳) 我々は,よく知られた光子付加コヒーレント状態が通常のケラ媒質を介して送信された状態に対して変位演算子を適用することにより,非線形変位ケラ状態の異なるクラスを構築する。
状態を準備するための実験的なセットアップのスケッチが提案されている。
我々は、光子数分布、マンデルの$Q$パラメータ、Husimi-$Q$およびWigner関数、非線形変位Kerr状態に対する二次的スキーズなどいくつかの統計特性を評価し、これらの標準パラメータの観点から非古典性を分析する。
低ケラパラメータ近似を用いて無限レベル問題を切り詰めた離散2レベル系に還元し、生成した非古典性を線形光学装置の出力状態の2つのモード間を2部的な絡み合いに変換する。 We construct a distinct class of nonlinear displaced Kerr state by application of the displacement operator upon a state which is prepared by sending the well-known photon-added coherent state through a normal Kerr medium. A sketch for the experimental set-up for preparing the state is suggested. We evaluate some statistical properties such as the photon number distribution, Mandel's $Q$ parameter, Husimi-$Q$ and Wigner functions, and quadrature squeezing, for the nonlinear displaced Kerr state, and then analyze the nonclassicality in terms of these standard parameters. We reduce the infinite-level problem to a truncated discrete two-level system by using low Kerr parameter approximation and then convert the generated nonclassicality into bipartite entanglement between the two modes of an output state of a linear optical device. | 翻訳日:2023-04-13 16:17:03 公開日:2023-04-12 |
# デュアルエンコーダを用いたシーンテキスト編集のための拡散モデルの改善 Improving Diffusion Models for Scene Text Editing with Dual Encoders ( http://arxiv.org/abs/2304.05568v1 ) ライセンス: Link先を確認 | Jiabao Ji, Guanhua Zhang, Zhaowen Wang, Bairu Hou, Zhifei Zhang, Brian Price, Shiyu Chang | (参考訳) シーンテキスト編集は、自然でリアルな外観を維持しながら、画像中の特定のテキストを修正または挿入する難しいタスクである。
このタスクに対する以前のアプローチのほとんどは、テキスト領域を抽出し、ganなどの画像転送モデルに供給するスタイル転送モデルに依存している。
しかし、これらの手法はテキストスタイルを変更する能力に制限があり、画像にテキストを挿入できない。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
しかし,経験的分析により,最先端の拡散モデルが正しいテキストのレンダリングやテキストスタイル制御に苦しむことが明らかとなった。
そこで本研究では,テキストの読みやすさを向上させる文字エンコーダと,スタイル制御を改善する命令エンコーダを含むデュアルエンコーダの設計により,事前学習した拡散モデルを改善するためにdiffsteを提案する。
テキスト命令から対応する画像へのマッピングを、背景にある特定のスタイルまたは周辺テキストのスタイルで学習するために、モデルをトレーニングするために、インストラクションチューニングフレームワークが導入された。
このようなトレーニング手法により,ゼロショットの一般化能力を次の3つのシナリオに適用する。例えば,不明瞭なフォントのバリエーションを持つテキストを生成すること,異なるフォントを混合して新しいフォントを構築すること,生成タスクを案内する命令として,よりリラックスした自然言語形式を使用する。
提案手法を5つのデータセットで評価し,テキストの正確性,画像の自然性,スタイル制御性の観点からその優れた性能を示す。
私たちのコードは公開されています。
https://github.com/UCSB-NLP-Chang/DiffSTE Scene text editing is a challenging task that involves modifying or inserting specified texts in an image while maintaining its natural and realistic appearance. Most previous approaches to this task rely on style-transfer models that crop out text regions and feed them into image transfer models, such as GANs. However, these methods are limited in their ability to change text style and are unable to insert texts into images. Recent advances in diffusion models have shown promise in overcoming these limitations with text-conditional image editing. However, our empirical analysis reveals that state-of-the-art diffusion models struggle with rendering correct text and controlling text style. To address these problems, we propose DIFFSTE to improve pre-trained diffusion models with a dual encoder design, which includes a character encoder for better text legibility and an instruction encoder for better style control. An instruction tuning framework is introduced to train our model to learn the mapping from the text instruction to the corresponding image with either the specified style or the style of the surrounding texts in the background. Such a training method further brings our method the zero-shot generalization ability to the following three scenarios: generating text with unseen font variation, e.g., italic and bold, mixing different fonts to construct a new font, and using more relaxed forms of natural language as the instructions to guide the generation task. We evaluate our approach on five datasets and demonstrate its superior performance in terms of text correctness, image naturalness, and style controllability. Our code is publicly available. https://github.com/UCSB-NLP-Chang/DiffSTE | 翻訳日:2023-04-13 16:16:47 公開日:2023-04-12 |
# 2つの減衰量子化場の相互作用の厳密解 Exact solution for the interaction of two decaying quantized fields ( http://arxiv.org/abs/2304.05566v1 ) ライセンス: Link先を確認 | L. Hern\'andez-S\'anchez, I. Ramos-Prieto, F. Soto-Eguibar, H. M. Moya-Cessa | (参考訳) 2つの結合調和振動子のマルコフダイナミクスをschr\"odinger方程式と有効な非エルミートハミルトニアンを用いて解析できることを示した。
このような変換は量子ジャンプスーパーオペレーターの除去を可能にするため、フォン・ノイマンのような方程式を用いてリンドブラッドマスター方程式を効果的な非エルミートハミルトニアンで書き換えることができる。
これは任意の数の相互作用体に一般化することができる。
最後に、余分な非ユニタリ変換を適用することで、有効な非エルミートハミルトニアンを対角化し、完全な量子領域における任意の入力状態の進化を得ることができる。 We show that the Markovian dynamics of two coupled harmonic oscillators may be analyzed using a Schr\"odinger equation and an effective non-Hermitian Hamiltonian. This may be achieved by a non-unitary transformation that involves superoperators; such transformation enables the removal of quantum jump superoperators, that allows us to rewrite the Lindblad master equation in terms of a von Neumann-like equation with an effective non-Hermitian Hamiltonian. This may be generalized to an arbitrary number of interacting fields. Finally, by applying an extra non-unitary transformation, we may diagonalize the effective non-Hermitian Hamiltonian to obtain the evolution of any input state in a fully quantum domain. | 翻訳日:2023-04-13 16:16:22 公開日:2023-04-12 |
# セメストラルコース通過確率の同定における機械学習アルゴリズムを用いた予測モデル A Predictive Model using Machine Learning Algorithm in Identifying Students Probability on Passing Semestral Course ( http://arxiv.org/abs/2304.05565v1 ) ライセンス: Link先を確認 | Anabella C. Doctor | (参考訳) 本研究の目的は,学期前半に受講したコースを受講する確率を学習するための予測モデルを決定することである。
知識の伝達や学生の学業成績向上のプロセスを改善することにより、教育システムにおける意思決定に有用な結果をもたらす、高い受理性、正確、精度のよい予測モデルを発見し、CRISP-DM(Cross-Industry Standard Process for Data Mining)方法論を厳密に踏襲する。
本研究では,データマイニング手法の分類とアルゴリズムの決定木を用いる。
新たに発見された予測モデルを利用することで、生徒の現在のコースを合格する確率の予測は0.7619精度、0.8333精度、0.8823リコール、0.8571f1スコアを与え、予測に使用されるモデルは信頼性、正確、そして推奨できることを示す。
指標と結果を考慮すると,本研究で用いた予測モデルは非常に許容できることがわかった。
データマイニング技術は、学生のパフォーマンスを分析し予測するための効率的かつ効率的な革新的なツールを提供する。
本研究で使用するモデルは,授業における生徒の弱みを理解し,識別する方法,学生を対象とした学習プロセスの有効性の向上,学業失敗率の低下,学習システムの成果の修正支援などに大きく影響する。
さらに、一部の学生の人口統計情報、データセット内の膨大なデータ、生徒がどの基準を規制できる予測基準指標の自動的および手作業によるプロセス、学期半ばから早くも学期末のコースを受講するためには、より多くの改善が必要となる。 This study aims to determine a predictive model to learn students probability to pass their courses taken at the earliest stage of the semester. To successfully discover a good predictive model with high acceptability, accurate, and precision rate which delivers a useful outcome for decision making in education systems, in improving the processes of conveying knowledge and uplifting students academic performance, the proponent applies and strictly followed the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology. This study employs classification for data mining techniques, and decision tree for algorithm. With the utilization of the newly discovered predictive model, the prediction of students probabilities to pass the current courses they take gives 0.7619 accuracy, 0.8333 precision, 0.8823 recall, and 0.8571 f1 score, which shows that the model used in the prediction is reliable, accurate, and recommendable. Considering the indicators and the results, it can be noted that the prediction model used in this study is highly acceptable. The data mining techniques provides effective and efficient innovative tools in analyzing and predicting student performances. The model used in this study will greatly affect the way educators understand and identify the weakness of their students in the class, the way they improved the effectiveness of their learning processes gearing to their students, bring down academic failure rates, and help institution administrators modify their learning system outcomes. Further study for the inclusion of some students demographic information, vast amount of data within the dataset, automated and manual process of predictive criteria indicators where the students can regulate to which criteria, they must improve more for them to pass their courses taken at the end of the semester as early as midterm period are highly needed. | 翻訳日:2023-04-13 16:16:08 公開日:2023-04-12 |
# 知識蒸留によるニューラルネットワークからのディープスパイクニューラルネットワークの構築 Constructing Deep Spiking Neural Networks from Artificial Neural Networks with Knowledge Distillation ( http://arxiv.org/abs/2304.05627v1 ) ライセンス: Link先を確認 | Qi Xu, Yaxin Li, Jiangrong Shen, Jian K Liu, Huajin Tang, Gang Pan | (参考訳) スパイクニューラルネットワーク(snn)は、スパイクを生体神経系に近い情報単位として利用する重要なコンポーネントであるため、高い計算効率を持つ脳に触発されたモデルとしてよく知られている。
スパイクベースモデルは離散スパイク信号を活用することでエネルギー効率が良いが、その性能は現在のネットワーク構造とその訓練方法によって制限される。
離散信号として、一般的なSNNは、ニューラルネットワーク(ANN)としてパラメータ調整に直接勾配降下規則を適用することはできない。
本稿では,ANNを教師モデルとし,SNNを学生モデルとする知識蒸留(KD)を用いた深部SNNモデル構築手法を提案する。
ANN-SNNジョイントトレーニングアルゴリズムにより、学生SNNモデルは教師ANNモデルからKD方法でリッチな特徴情報を学ぶことができるが、非微分スパイクと通信する際にSNNをスクラッチから学習するのを避けることができる。
提案手法は,より効率的かつ合理的な深層スパイク構造を構築するだけでなく,直接訓練やANN to SNN法と比較して,モデル全体をトレーニングするための時間ステップも少ない。
さらに重要なことは、様々なタイプの人工雑音や自然信号に対するノイズ免疫の優れた能力を持つことだ。
提案手法は,より深い構造を高スループットで構築し,実用シナリオの軽量で効率的な脳にインスパイアされた計算に活用することで,snの性能を向上させる効率的な手法を提供する。 Spiking neural networks (SNNs) are well known as the brain-inspired models with high computing efficiency, due to a key component that they utilize spikes as information units, close to the biological neural systems. Although spiking based models are energy efficient by taking advantage of discrete spike signals, their performance is limited by current network structures and their training methods. As discrete signals, typical SNNs cannot apply the gradient descent rules directly into parameters adjustment as artificial neural networks (ANNs). Aiming at this limitation, here we propose a novel method of constructing deep SNN models with knowledge distillation (KD) that uses ANN as teacher model and SNN as student model. Through ANN-SNN joint training algorithm, the student SNN model can learn rich feature information from the teacher ANN model through the KD method, yet it avoids training SNN from scratch when communicating with non-differentiable spikes. Our method can not only build a more efficient deep spiking structure feasibly and reasonably, but use few time steps to train whole model compared to direct training or ANN to SNN methods. More importantly, it has a superb ability of noise immunity for various types of artificial noises and natural signals. The proposed novel method provides efficient ways to improve the performance of SNN through constructing deeper structures in a high-throughput fashion, with potential usage for light and efficient brain-inspired computing of practical scenarios. | 翻訳日:2023-04-13 16:09:12 公開日:2023-04-12 |
# 合成関連拡散画像データを用いた乳がん臨床診断支援のための複数施設のオープンソースベンチマークデータセット A Multi-Institutional Open-Source Benchmark Dataset for Breast Cancer Clinical Decision Support using Synthetic Correlated Diffusion Imaging Data ( http://arxiv.org/abs/2304.05623v1 ) ライセンス: Link先を確認 | Chi-en Amy Tai, Hayden Gunraj, Alexander Wong | (参考訳) 近年, 合成相関拡散(CDI$^s$)画像と呼ばれる新しいMRI法が導入され, 現行の金標準MRI法と比較して, 前立腺癌などのがんに対する臨床診断支援にかなりの期待が持たれている。
しかし、乳がんなどの他の種類のがんに対するcdi$^s$の有効性は十分に検討されておらず、cdi$^s$のデータも以前公開されていた。
CDI$^s$を用いて、乳がんに対するコンピュータ支援臨床診断支援の開発を推進すべく、乳がん患者の画像データであるCDI$^s$の多施設向けオープンソースベンチマークデータセットであるC cancer-Net BCaを紹介した。
癌-Net BCaは10施設にわたる253人の前治療コホートからCDI$^s$の容積画像と、詳細な診断メタデータ(病変型、遺伝子亜型、MRI(MRLD)の最長径、SBR(Scarff-Bloom-Richardson)グレード、治療後の乳癌の病理学的完全反応(pCR)などを含む。
我々はさらに、がん-net bcaデータセットの人口動態と腫瘍多様性を調べ、潜在的なバイアスに対する深い洞察を得る。
Cancer-Net BCaは、機械学習の進歩を加速し、がんと戦う臨床医を助ける、グローバルなオープンソースイニシアチブの一部として、一般公開されている。 Recently, a new form of magnetic resonance imaging (MRI) called synthetic correlated diffusion (CDI$^s$) imaging was introduced and showed considerable promise for clinical decision support for cancers such as prostate cancer when compared to current gold-standard MRI techniques. However, the efficacy for CDI$^s$ for other forms of cancers such as breast cancer has not been as well-explored nor have CDI$^s$ data been previously made publicly available. Motivated to advance efforts in the development of computer-aided clinical decision support for breast cancer using CDI$^s$, we introduce Cancer-Net BCa, a multi-institutional open-source benchmark dataset of volumetric CDI$^s$ imaging data of breast cancer patients. Cancer-Net BCa contains CDI$^s$ volumetric images from a pre-treatment cohort of 253 patients across ten institutions, along with detailed annotation metadata (the lesion type, genetic subtype, longest diameter on the MRI (MRLD), the Scarff-Bloom-Richardson (SBR) grade, and the post-treatment breast cancer pathologic complete response (pCR) to neoadjuvant chemotherapy). We further examine the demographic and tumour diversity of the Cancer-Net BCa dataset to gain deeper insights into potential biases. Cancer-Net BCa is publicly available as a part of a global open-source initiative dedicated to accelerating advancement in machine learning to aid clinicians in the fight against cancer. | 翻訳日:2023-04-13 16:08:47 公開日:2023-04-12 |
# SAMM(Segment Any Medical Model):SAMへの3Dスライダ統合 SAMM (Segment Any Medical Model): A 3D Slicer Integration to SAM ( http://arxiv.org/abs/2304.05622v1 ) ライセンス: Link先を確認 | Yihao Liu, Jiaming Zhang, Zhangcong She, Amir Kheradmand and Mehran Armand | (参考訳) segment anything model(sam)は、現在最大のセグメンテーションデータセットでトレーニングされている新しいイメージセグメンテーションツールである。
モデルにより,プロンプト性と一般化性に優れた画像分割のための高品質マスクを作成できることが実証された。
しかし,医療画像におけるモデルの性能にはさらなる検証が必要である。
医療画像におけるSAMの開発,評価,利用を支援するため,医療画像コミュニティで広く利用されているオープンソース画像処理および可視化ソフトウェアである3Dスライダ上のSAMの拡張であるSegment Any Medical Model (SAMM)を紹介した。
3D Slicerのオープンソース拡張とそのデモはGitHubに投稿されている(https://github.com/bingogome/samm)。
SAMMは完全なサイクルの0.6秒のレイテンシを実現し、ほぼリアルタイムで画像マスクを推測できる。 The Segment Anything Model (SAM) is a new image segmentation tool trained with the largest segmentation dataset at this time. The model has demonstrated that it can create high-quality masks for image segmentation with good promptability and generalizability. However, the performance of the model on medical images requires further validation. To assist with the development, assessment, and utilization of SAM on medical images, we introduce Segment Any Medical Model (SAMM), an extension of SAM on 3D Slicer, a widely-used open-source image processing and visualization software that has been extensively used in the medical imaging community. This open-source extension to 3D Slicer and its demonstrations are posted on GitHub (https://github.com/bingogome/samm). SAMM achieves 0.6-second latency of a complete cycle and can infer image masks in nearly real-time. | 翻訳日:2023-04-13 16:08:17 公開日:2023-04-12 |
# NutritionVerse-Thin:3次元食品モデルのレンダリング改善のための最適化戦略 NutritionVerse-Thin: An Optimized Strategy for Enabling Improved Rendering of 3D Thin Food Models ( http://arxiv.org/abs/2304.05620v1 ) ライセンス: Link先を確認 | Chi-en Amy Tai, Jason Li, Sriram Kumar, Saeejith Nair, Yuhao Chen, Pengcheng Xi, Alexander Wong | (参考訳) 生成モデルの能力向上に伴い、一般的な3D食品のリアルなレンダリングを用いて、食品印刷、栄養予測、食品の無駄管理といった下流業務を改善することへの関心が高まっている。
3Dモデリング機能は、NeRFベースのビュー合成の成功により、これまで以上にアクセスしやすくなっているが、このようなレンダリング手法は、薄い食品を正しく捕獲するのに苦慮し、しばしば大きな穴を持つメッシュを生成する。
本研究では,薄い3d食品モデルのレンダリングを改善するための最適化戦略を提案し,表示品質の質的改善を示す。
提案手法は,提案手法を用いて3dモデルメッシュを生成し,データ収集とトレーニング段階の両方で戦略を調整し,より薄いオブジェクトを処理する。
単純ながら、この技術は細い3Dオブジェクトの迅速かつ高度に一貫したキャプチャに利用できる。 With the growth in capabilities of generative models, there has been growing interest in using photo-realistic renders of common 3D food items to improve downstream tasks such as food printing, nutrition prediction, or management of food wastage. Despite 3D modelling capabilities being more accessible than ever due to the success of NeRF based view-synthesis, such rendering methods still struggle to correctly capture thin food objects, often generating meshes with significant holes. In this study, we present an optimized strategy for enabling improved rendering of thin 3D food models, and demonstrate qualitative improvements in rendering quality. Our method generates the 3D model mesh via a proposed thin-object-optimized differentiable reconstruction method and tailors the strategy at both the data collection and training stages to better handle thin objects. While simple, we find that this technique can be employed for quick and highly consistent capturing of thin 3D objects. | 翻訳日:2023-04-13 16:08:04 公開日:2023-04-12 |
# NutritionVerse-3D:栄養摂取推定のための3次元食品モデルデータセット NutritionVerse-3D: A 3D Food Model Dataset for Nutritional Intake Estimation ( http://arxiv.org/abs/2304.05619v1 ) ライセンス: Link先を確認 | Chi-en Amy Tai, Matthew Keller, Mattie Kerrigan, Yuhao Chen, Saeejith Nair, Pengcheng Xi, Alexander Wong | (参考訳) 50歳以上の成人の77%は今日、適切な栄養摂取を確保する上で大きな課題となっている。
65歳以上の高齢者の4人に1人が栄養失調であり、栄養失調と生活の質の低下の直接関係があると報告されており、食事の栄養摂取を効率的に追跡する方法に関する多くの研究が行われている。
機械学習とコンピュータビジョンの最近の進歩は、食品の自動栄養トラッキング手法が期待されているが、プレート上の食品から栄養素を正確に識別するには、大量の高品質データセットが必要である。
既存のデータセットとは異なり、栄養情報を持つ3dモデルの集合は、ビュー合成によって、関連する栄養情報とともに任意の視点/カメラ角に対して無限の2d画像を生成することができる。
本稿では, 食品の高品質な3Dモデル収集手法を, スピードと一貫性に特化して開発し, 関連量, 食品名, 栄養価とともに, 105個の食品モデルからなる大規模高画質な高解像度データセットであるNutritionVerse-3Dを導入する。
これらのモデルでは、大量の食品摂取シーン、多様でカスタマイズ可能なシーンレイアウト、無限のカメラ設定と照明条件が可能である。
NutritionVerse-3Dは、栄養センシングのための機械学習を加速するオープンイニシアチブの一部として公開されている。 77% of adults over 50 want to age in place today, presenting a major challenge to ensuring adequate nutritional intake. It has been reported that one in four older adults that are 65 years or older are malnourished and given the direct link between malnutrition and decreased quality of life, there have been numerous studies conducted on how to efficiently track nutritional intake of food. Recent advancements in machine learning and computer vision show promise of automated nutrition tracking methods of food, but require a large high-quality dataset in order to accurately identify the nutrients from the food on the plate. Unlike existing datasets, a collection of 3D models with nutritional information allow for view synthesis to create an infinite number of 2D images for any given viewpoint/camera angle along with the associated nutritional information. In this paper, we develop a methodology for collecting high-quality 3D models for food items with a particular focus on speed and consistency, and introduce NutritionVerse-3D, a large-scale high-quality high-resolution dataset of 105 3D food models, in conjunction with their associated weight, food name, and nutritional value. These models allow for large quantity food intake scenes, diverse and customizable scene layout, and an infinite number of camera settings and lighting conditions. NutritionVerse-3D is publicly available as a part of an open initiative to accelerate machine learning for nutrition sensing. | 翻訳日:2023-04-13 16:07:47 公開日:2023-04-12 |
# 配電系統推薦のための深層安定多目的学習 Deep Stable Multi-Interest Learning for Out-of-distribution Sequential Recommendation ( http://arxiv.org/abs/2304.05615v1 ) ライセンス: Link先を確認 | Qiang Liu, Zhaocheng Liu, Zhenxi Zhu, Shu Wu, Liang Wang | (参考訳) 近年,複数表現ベクトルとしてユーザの興味を抽出した多目的モデルが,逐次レコメンデーションに有望な性能を示している。
しかし、既存の多目的レコメンデーションモデルでは、関心分布が変化するような外部分布(OOD)一般化問題を考慮していない。
ユーザの複数の利害関係が高相関であることを考えると、このモデルはノイズのある利害関係とターゲットアイテム間の急激な相関関係を学習する機会がある。
データ分布が変化すれば、興味間の相関も変化し、スプリアス相関は誤った予測を行うためにモデルを誤解させる。
以上の OOD 一般化問題に対処するため,提案手法では,抽出した関心事の非相関化を図るために,Deep Stable Multi-Interest Learning (DESMIL) と呼ばれる新しい多目的ネットワークを提案する。
desmilは注意モジュールを適用して複数の興味を抽出し、最終予測を行う上で最も重要なものを選択する。
一方、DESMILは、トレーニングサンプルを重み付けしたHilbert-Schmidt Independence Criterion(HSIC)に基づく重み付き相関推定損失を取り入れ、抽出された利益間の相関を最小化する。
OODとランダムな設定の両方で大規模な実験が行われ、それぞれ36.8%と21.7%の相対的な改善が達成されている。 Recently, multi-interest models, which extract interests of a user as multiple representation vectors, have shown promising performances for sequential recommendation. However, none of existing multi-interest recommendation models consider the Out-Of-Distribution (OOD) generalization problem, in which interest distribution may change. Considering multiple interests of a user are usually highly correlated, the model has chance to learn spurious correlations between noisy interests and target items. Once the data distribution changes, the correlations among interests may also change, and the spurious correlations will mislead the model to make wrong predictions. To tackle with above OOD generalization problem, we propose a novel multi-interest network, named DEep Stable Multi-Interest Learning (DESMIL), which attempts to de-correlate the extracted interests in the model, and thus spurious correlations can be eliminated. DESMIL applies an attentive module to extract multiple interests, and then selects the most important one for making final predictions. Meanwhile, DESMIL incorporates a weighted correlation estimation loss based on Hilbert-Schmidt Independence Criterion (HSIC), with which training samples are weighted, to minimize the correlations among extracted interests. Extensive experiments have been conducted under both OOD and random settings, and up to 36.8% and 21.7% relative improvements are achieved respectively. | 翻訳日:2023-04-13 16:07:24 公開日:2023-04-12 |
# chatgpt beyond english:多言語学習における大規模言語モデルの包括的評価に向けて ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning ( http://arxiv.org/abs/2304.05613v1 ) ライセンス: Link先を確認 | Viet Dac Lai, Nghia Trung Ngo, Amir Pouran Ben Veyseh, Hieu Man, Franck Dernoncourt, Trung Bui, Thien Huu Nguyen | (参考訳) ここ数年、大規模言語モデル (LLM) が自然言語処理(NLP)における最も重要なブレークスルーとして現れ、この分野の研究と発展を根本的に変えてきた。
ChatGPTは、最近開発された最もエキサイティングなLLMシステムの1つで、言語生成の素晴らしいスキルを示し、大衆の注目を集めています。
英語のChatGPTで発見された様々なエキサイティングなアプリケーションの中で、このモデルは多言語学習データのために複数の言語用のテキストを処理および生成することができる。
様々な問題や分野において、ChatGPTが英語に広く採用されていることを考えると、ChatGPTは他の言語にも効果的に適用できるのか、言語固有の技術を開発する必要があるのか、という自然な疑問がある。
この質問に対する答えは、さまざまな言語と大規模なデータセット(すなわち、報告された逸話を超えて)を持つ複数のタスクに対してChatGPTを徹底的に評価する必要がある。
本研究の目的は,多言語NLPアプリケーションに対してより包括的な情報を提供するため,ChatGPTとLLMの評価のギャップを埋めることである。
本研究は今後の追加実験の実施に向けた取り組みであるが,本論文では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
また,ChatGPTのゼロショット学習設定に着目し,再現性を向上し,一般ユーザのインタラクションをシミュレートする。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下しており,より優れたモデル開発と多言語学習の理解が求められている。 Over the last few years, large language models (LLMs) have emerged as the most important breakthroughs in natural language processing (NLP) that fundamentally transform research and developments in the field. ChatGPT represents one of the most exciting LLM systems developed recently to showcase impressive skills for language generation and highly attract public attention. Among various exciting applications discovered for ChatGPT in English, the model can process and generate texts for multiple languages due to its multilingual training data. Given the broad adoption of ChatGPT for English in different problems and areas, a natural question is whether ChatGPT can also be applied effectively for other languages or it is necessary to develop more language-specific technologies. The answer to this question requires a thorough evaluation of ChatGPT over multiple tasks with diverse languages and large datasets (i.e., beyond reported anecdotes), which is still missing or limited in current research. Our work aims to fill this gap for the evaluation of ChatGPT and similar LLMs to provide more comprehensive information for multilingual NLP applications. While this work will be an ongoing effort to include additional experiments in the future, our current paper evaluates ChatGPT on 7 different tasks, covering 37 diverse languages with high, medium, low, and extremely low resources. We also focus on the zero-shot learning setting for ChatGPT to improve reproducibility and better simulate the interactions of general users. Compared to the performance of previous models, our extensive experimental results demonstrate a worse performance of ChatGPT for different NLP tasks and languages, calling for further research to develop better models and understanding for multilingual learning. | 翻訳日:2023-04-13 16:06:57 公開日:2023-04-12 |
# 環境正義データツールにおける割当害の可能性 Potential for allocative harm in an environmental justice data tool ( http://arxiv.org/abs/2304.05603v1 ) ライセンス: Link先を確認 | Benjamin Q. Huynh, Elizabeth T. Chin, Allison Koenecke, Derek Ouyang, Daniel E. Ho, Mathew V. Kiang, David H. Rehkopf | (参考訳) 政策決定を知らせるために、近隣レベルのスクリーニングアルゴリズムがますます展開されている。
環境正義を促進するために設計されたcalenviroscreenというアルゴリズムを評価し、毎年数億ドルの公的資金の導出に使用しています。
主観的モデル決定に対する高い感度と操作への感受性を観察し、倫理的懸念を伴う割当的なトレードオフをもたらす。
このアルゴリズムは経済的に連続しており、4年間で208億ドル (\$1.56-2.41B) に相当する104% (62-145%) の資金調達の増加と評価されている。
我々は,誤用を防止するために,注意度分析を組み込むことを推奨する。 Neighborhood-level screening algorithms are increasingly being deployed to inform policy decisions. We evaluate one such algorithm, CalEnviroScreen - designed to promote environmental justice and used to guide hundreds of millions of dollars in public funding annually - assessing its potential for allocative harm. We observe high sensitivity to subjective model decisions and susceptibility to manipulation, resulting in allocative tradeoffs with ethical concerns. We find the algorithm to be financially consequential, estimating the effect of its positive designations as a 104% (62-145%) increase in funding, equivalent to \$2.08 billion (\$1.56-2.41 billion) over four years. We recommend incorporating sensitivity analyses to mitigate allocative harm and accountability mechanisms to prevent misuse. | 翻訳日:2023-04-13 16:06:28 公開日:2023-04-12 |
# Floquet $0-\pi$ qubitの量子制御とノイズ保護 Quantum control and noise protection of a Floquet $0-\pi$ qubit ( http://arxiv.org/abs/2304.05601v1 ) ライセンス: Link先を確認 | Zhaoyou Wang, Amir H. Safavi-Naeini | (参考訳) 時間周期系は、限られた物理的相互作用から新しい効果的なハミルトニアンを設計できる。
例えば、カピツァ振り子の反転位置は、ピボット点の高速駆動と安定な平衡として現れる。
本稿では,機械式Kapitza振り子の超伝導回路アナログであるFloquet qubitを$\textit{Kapitzonium}$として提案する。
周期駆動では、出現する量子ビット状態は、現在の量子ビットのデコヒーレンスの原因である散逸に起因するビットと位相フリップに対して指数関数的に保護される。
しかし,Floquet qubit 部分空間から散逸が漏れることが判明した。
送電時の高忠実度量子制御に不可欠な量子ビット部分空間を安定化するために, 受動的冷却方式を考案した。
さらに,量子ビット計測のためのハードウェア効率の高い蛍光法を紹介し,フロッケ量子ビットの実験的実装について考察する。
提案されたkapitzoniumは、現在の技術で実現可能な最も単純なフロッケキュービットの1つであり、すでに多くの興味深い機能と機能を持っている。
我々の研究は、大規模に保護されたエンジニアリングダイナミクスを実現するために、より複雑なフロケ量子システムをゼロから開発する最初のステップを提供する。 Time-periodic systems allow engineering new effective Hamiltonians from limited physical interactions. For example, the inverted position of the Kapitza pendulum emerges as a stable equilibrium with rapid drive of its pivot point. In this work, we propose the $\textit{Kapitzonium}$: a Floquet qubit that is the superconducting circuit analog of a mechanical Kapitza pendulum. Under periodic driving, the emerging qubit states are exponentially protected against bit and phase flips caused by dissipation, which is the primary source of decoherence of current qubits. However, we find that dissipation causes leakage out of the Floquet qubit subspace. We engineer a passive cooling scheme to stabilize the qubit subspace, which is crucial for high fidelity quantum control under dissipation. Furthermore, we introduce a hardware-efficient fluorescence-based method for qubit measurement and discuss the experimental implementation of the Floquet qubit. The proposed Kapitzonium is one of the simplest Floquet qubits that can be realized with current technology -- and it already has many intriguing features and capabilities. Our work provides the first steps to develop more complex Floquet quantum systems from the ground up to realize large-scale protected engineered dynamics. | 翻訳日:2023-04-13 16:06:14 公開日:2023-04-12 |
# 類似しているように聞こえる:オーディオビジュアル表現学習のための反事実的クロスモーダルペアの活用 Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning ( http://arxiv.org/abs/2304.05600v1 ) ライセンス: Link先を確認 | Nikhil Singh, Chih-Wei Wu, Iroro Orife, Mahdi Kalayeh | (参考訳) 視覚表現学習は一般的に視覚と音の対応に依存する。
しかし、視覚的なシーンに対応可能な複数のオーディオトラックがしばしば存在する。
例えば、同じ混雑した通りで異なる会話を考えてみましょう。
このような対物対が視聴覚表現学習に与える影響については,これまで検討されていない。
そこで本研究では,映画と称されるバージョンを用いて,クロスモーダルコントラスト学習を強化した。
提案手法は,同じビデオと同じような音声コンテンツでのみ異なる音声トラックを表現することを学ぶ。
以上の結果から,dub-augmented trainingは,言語的タスク全体のパフォーマンスに大きな影響を与えることなく,聴覚的および聴覚的タスクのパフォーマンスを向上させることが示された。
さらに,このアプローチを,事前学習前の音声除去を行う強固なベースラインと比較し,音声除去がパフォーマンスを低下させるパラ言語的・視聴覚的タスクなど,dub-augmentedトレーニングがより効果的であることを見出した。
これらの知見は、シーンレベルの音声視覚対応を学習する際の音声変化を考慮することの重要性を強調し、より堅牢なパフォーマンスに向けてオーディオ視覚モデルを訓練する上で有用な拡張手法であることを示す。 Audiovisual representation learning typically relies on the correspondence between sight and sound. However, there are often multiple audio tracks that can correspond with a visual scene. Consider, for example, different conversations on the same crowded street. The effect of such counterfactual pairs on audiovisual representation learning has not been previously explored. To investigate this, we use dubbed versions of movies to augment cross-modal contrastive learning. Our approach learns to represent alternate audio tracks, differing only in speech content, similarly to the same video. Our results show that dub-augmented training improves performance on a range of auditory and audiovisual tasks, without significantly affecting linguistic task performance overall. We additionally compare this approach to a strong baseline where we remove speech before pretraining, and find that dub-augmented training is more effective, including for paralinguistic and audiovisual tasks where speech removal leads to worse performance. These findings highlight the importance of considering speech variation when learning scene-level audiovisual correspondences and suggest that dubbed audio can be a useful augmentation technique for training audiovisual models toward more robust performance. | 翻訳日:2023-04-13 16:05:53 公開日:2023-04-12 |
# 開語彙課題における説明力向上のためのCLIP手術 CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks ( http://arxiv.org/abs/2304.05653v1 ) ライセンス: Link先を確認 | Yi Li, Hualiang Wang, Yiqun Duan, Xiaomeng Li | (参考訳) コントラスト型言語イメージ事前学習(clip)は,ゼロショット学習やテキスト誘導型視覚タスクなど,下流タスクに大きなメリットがある強力なマルチモーダル大規模視覚モデルである。
しかし,モデルの信頼性が損なわれ,関連するタスクが妨げられるような説明可能性に関する深刻な問題に気が付く。
特に,CLIPは,人的理解に矛盾する予測類似性マップに従って,前景よりも背景領域を好む。
さらに、無関係な位置での可視化結果には明らかなノイズアクティベーションがある。
この2つの問題に対処するために,我々は詳細な分析を行い,新たな発見と証拠によってその理由を明らかにする。
これらの知見に基づいて,複数のオープン語彙タスクにおいて,推論アーキテクチャや特徴に対する手術的な修正を可能にするCLIPオペレーション(CLIP Surgery)を提案する。
提案手法は、畳み込みネットワークとビジョントランスフォーマーの両方においてCLIPの説明可能性を大幅に改善し、既存の手法を大きなマージンで上回った。
また,オープン語彙のセグメンテーションや複数ラベル認識タスクの大幅な改善も示す。
例えば,NUS-Wideのマルチラベル認識におけるmAPの改善は,追加トレーニングなしで4.41%であり,CLIPオペレーションはmIoUでmIoUで8.74%超えている。
さらに,Segment Anything Model (SAM) のようなマルチモーダルな可視化や対話型セグメンテーションなどのタスクにも有効である。
コードはhttps://github.com/xmed-lab/CLIP_Surgeryで入手できる。 Contrastive Language-Image Pre-training (CLIP) is a powerful multimodal large vision model that has demonstrated significant benefits for downstream tasks, including many zero-shot learning and text-guided vision tasks. However, we notice some severe problems regarding the model's explainability, which undermines its credibility and impedes related tasks. Specifically, we find CLIP prefers the background regions than the foregrounds according to the predicted similarity map, which contradicts human understanding. Besides, there are obvious noisy activations on the visualization results at irrelevant positions. To address these two issues, we conduct in-depth analyses and reveal the reasons with new findings and evidences. Based on these insights, we propose the CLIP Surgery, a method that enables surgery-like modifications for the inference architecture and features, for better explainability and enhancement in multiple open-vocabulary tasks. The proposed method has significantly improved the explainability of CLIP for both convolutional networks and vision transformers, surpassing existing methods by large margins. Besides, our approach also demonstrates remarkable improvements in open-vocabulary segmentation and multi-label recognition tasks. For examples, the mAP improvement on NUS-Wide multi-label recognition is 4.41% without any additional training, and our CLIP Surgery surpasses the state-of-the-art method by 8.74% at mIoU on Cityscapes open-vocabulary semantic segmentation. Furthermore, our method benefits other tasks including multimodal visualization and interactive segmentation like Segment Anything Model (SAM). The code is available at https://github.com/xmed-lab/CLIP_Surgery | 翻訳日:2023-04-13 16:00:33 公開日:2023-04-12 |
# 赤外・可視画像登録のためのモダリティ不変表現 Modality-Invariant Representation for Infrared and Visible Image Registration ( http://arxiv.org/abs/2304.05646v1 ) ライセンス: Link先を確認 | Zhiying Jiang, Zengxi Zhang, Jinyuan Liu, Xin Fan, Risheng Liu | (参考訳) 視野、解像度、相対位置の違いから、赤外線カメラと可視カメラからなるマルチモダリティセンシングモジュールは、より正確なシーン知覚を有するように登録する必要がある。
実際には、手動の校正に基づく登録は最も広く使われているプロセスであり、正確性を維持するために定期的に校正される。
これらの問題に対処するために、シーン適応型赤外線および可視画像登録を提案する。
具体的には、多モード画像間の不一致に関して、可逆変換法を開発し、赤外線と可視モダリティの両方の特徴強度と分布を包括的に受け入れるモダリティ不変領域を確立する。
我々は,異なる平面間の変形をシミュレートし,提案した潜在表現から推定される変形を粗い方法で補正する階層的枠組みを開発する。
このために、スパースオフセットの回帰に伴う残差推定に結合した高度な知覚能力と交互相関探索により、より正確な対応マッチングが容易になる。
さらに,3つの合成セットと1つの実世界セットを含む,赤外・可視画像データセットの誤りを解消する基礎的真理を提案する。
広範囲な実験により,提案手法の有効性が検証され,その後の応用が進展する。 Since the differences in viewing range, resolution and relative position, the multi-modality sensing module composed of infrared and visible cameras needs to be registered so as to have more accurate scene perception. In practice, manual calibration-based registration is the most widely used process, and it is regularly calibrated to maintain accuracy, which is time-consuming and labor-intensive. To cope with these problems, we propose a scene-adaptive infrared and visible image registration. Specifically, in regard of the discrepancy between multi-modality images, an invertible translation process is developed to establish a modality-invariant domain, which comprehensively embraces the feature intensity and distribution of both infrared and visible modalities. We employ homography to simulate the deformation between different planes and develop a hierarchical framework to rectify the deformation inferred from the proposed latent representation in a coarse-to-fine manner. For that, the advanced perception ability coupled with the residual estimation conducive to the regression of sparse offsets, and the alternate correlation search facilitates a more accurate correspondence matching. Moreover, we propose the first ground truth available misaligned infrared and visible image dataset, involving three synthetic sets and one real-world set. Extensive experiments validate the effectiveness of the proposed method against the state-of-the-arts, advancing the subsequent applications. | 翻訳日:2023-04-13 15:59:59 公開日:2023-04-12 |
# WildRefer: マルチモーダルビジュアルデータと自然言語を用いた大規模動的シーンにおける3次元オブジェクトのローカライゼーション WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language ( http://arxiv.org/abs/2304.05645v1 ) ライセンス: Link先を確認 | Zhenxiang Lin, Xidong Peng, Peishan Cong, Yuenan Hou, Xinge Zhu, Sibei Yang, Yuexin Ma | (参考訳) 本稿では,2次元画像と3次元LiDAR点雲を含む,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚グラウンドの課題を紹介する。
本稿では,画像の出現特性,点雲の位置と幾何学的特徴,連続入力フレームの動的特徴を十分に活用し,言語における意味的特徴に適合させる新しい手法であるwildreferを提案する。
特に,3dオブジェクトと自然言語アノテーションが豊富な大規模人間中心の日常シナリオに焦点を当てた,streferとlifereferという2つの新しいデータセットを提案する。
私たちのデータセットは、野生の3d視覚基盤の研究に重要であり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めています。
広範な比較とアブレーション研究により,提案手法が2つのデータセットにおいて最先端の性能を実現することが示された。
コードとデータセットは、論文が公開されたときにリリースされる。 We introduce the task of 3D visual grounding in large-scale dynamic scenes based on natural linguistic descriptions and online captured multi-modal visual data, including 2D images and 3D LiDAR point clouds. We present a novel method, WildRefer, for this task by fully utilizing the appearance features in images, the location and geometry features in point clouds, and the dynamic features in consecutive input frames to match the semantic features in language. In particular, we propose two novel datasets, STRefer and LifeRefer, which focus on large-scale human-centric daily-life scenarios with abundant 3D object and natural language annotations. Our datasets are significant for the research of 3D visual grounding in the wild and has huge potential to boost the development of autonomous driving and service robots. Extensive comparisons and ablation studies illustrate that our method achieves state-of-the-art performance on two proposed datasets. Code and dataset will be released when the paper is published. | 翻訳日:2023-04-13 15:59:37 公開日:2023-04-12 |
# Global Prompt Cell: 効率的なPromptのためのポータブルコントロールモジュール Global Prompt Cell: A Portable Control Module for Effective Prompt ( http://arxiv.org/abs/2304.05642v1 ) ライセンス: Link先を確認 | Chi Liu, Haochun Wang, Nuwa Xi, Sendong Zhao, Bing Qin | (参考訳) 事前学習されたモデルのチューニングにおける新しいアプローチとして、プロンプトチューニングは、第1層の入力にトレーニング可能な埋め込みを挿入しながら、下流タスクのパラメータを凍結する。
適切な方法でプロンプト埋め込みを訓練し活用する方法に関する問題は、プロンプトチューニングの有効性の制限要因となっている。
この問題に対処するために,すべてのエンコーダ層にまたがるプロンプト情報を選択的に保存するプロンプトチューニングモジュールであるGPC(Global Prompt Cell)を導入する。
実験の結果,バニラプロンプトチューニングと比較して,SuperGLUEデータセットは5.8%改善した。 As a novel approach to tuning pre-trained models, prompt tuning involves freezing the parameters in downstream tasks while inserting trainable embeddings into inputs in the first layer.However,previous methods have mainly focused on the initialization of prompt embeddings. The question of how to train and utilize prompt embeddings in a reasonable way has become aa limiting factor in the effectiveness of prompt tuning. To address this issue, we introduce the Global Prompt Cell (GPC), a portable control module for prompt tuning that selectively preserves prompt information across all encoder layers. Our experimental results demonstrate a 5.8% improvement on SuperGLUE datasets compared to vanilla prompt tuning. | 翻訳日:2023-04-13 15:59:20 公開日:2023-04-12 |
# Face Anti-Spoofingのためのインスタンス対応ドメイン一般化 Instance-Aware Domain Generalization for Face Anti-Spoofing ( http://arxiv.org/abs/2304.05640v1 ) ライセンス: Link先を確認 | Qianyu Zhou, Ke-Yue Zhang, Taiping Yao, Xuequan Lu, Ran Yi, Shouhong Ding, Lizhuang Ma | (参考訳) ドメイン一般化(DG)に基づく対面アンチスプーフィング(FAS)は、最近、目に見えないシナリオの一般化を改善するために研究されている。
従来のメソッドはドメインラベルを使って各ドメインの分布を整列してドメイン不変表現を学習する。
しかし、人工ドメインラベルは粗大で主観的であり、実際のドメイン分布を正確に反映できない。
ドメインレベルのアライメントは、学習した表現がドメインスタイルに無関心であることを保証するのに十分な粒度ではない。
これらの問題に対処するために、ドメインラベルを必要とせずに、インスタンスレベルで機能を整列するDG FASの新しい視点を提案する。
特に、インスタンス対応ドメイン一般化フレームワークは、インスタンス固有のスタイルに対する機能の感度を弱めることで、一般化可能な機能を学ぶために提案されている。
具体的には,Asymmetric Instance Adaptive Whiteningを提案し,特徴相関を適応的に排除し,一般化を促進する。
さらに、まずインスタンス固有の特徴を抽出し、その後にスタイルシフトの大きなスタイル拡張特徴を生成し、さらにスタイルに敏感な特徴の学習を促進するために、動的カーネルジェネレータとカテゴリスタイルアセンブリを提案する。
広範な実験と分析により,本手法が最先端の競争相手よりも優れていることが示された。
コードはhttps://github.com/qianyuzqy/IADG.comで公開される。 Face anti-spoofing (FAS) based on domain generalization (DG) has been recently studied to improve the generalization on unseen scenarios. Previous methods typically rely on domain labels to align the distribution of each domain for learning domain-invariant representations. However, artificial domain labels are coarse-grained and subjective, which cannot reflect real domain distributions accurately. Besides, such domain-aware methods focus on domain-level alignment, which is not fine-grained enough to ensure that learned representations are insensitive to domain styles. To address these issues, we propose a novel perspective for DG FAS that aligns features on the instance level without the need for domain labels. Specifically, Instance-Aware Domain Generalization framework is proposed to learn the generalizable feature by weakening the features' sensitivity to instance-specific styles. Concretely, we propose Asymmetric Instance Adaptive Whitening to adaptively eliminate the style-sensitive feature correlation, boosting the generalization. Moreover, Dynamic Kernel Generator and Categorical Style Assembly are proposed to first extract the instance-specific features and then generate the style-diversified features with large style shifts, respectively, further facilitating the learning of style-insensitive features. Extensive experiments and analysis demonstrate the superiority of our method over state-of-the-art competitors. Code will be publicly available at https://github.com/qianyuzqy/IADG. | 翻訳日:2023-04-13 15:59:07 公開日:2023-04-12 |
# 連続セルオートマトンにおける開放型進化の大規模シミュレーションに向けて Towards Large-Scale Simulations of Open-Ended Evolution in Continuous Cellular Automata ( http://arxiv.org/abs/2304.05639v1 ) ライセンス: Link先を確認 | Bert Wang-Chak Chan | (参考訳) 生物と文化の進化に触発されて、人工知能と人工生命の開放性に必要な条件を探求し、解明する試みが数多く行われている。
ベースシステムとしてレニアと呼ばれる連続セルオートマトンを用い,並列計算フレームワーク jax を用いた大規模進化シミュレーションを行い,自己組織的パターンの絶え間ない進化を目標とした。
1) 遺伝的操作者の暗黙的実装, パターンの自己複製による複製, 差在的成功による選択, (2) 遺伝的情報の局在化, 3) 局所化された遺伝子型を動的に維持し表現型に翻訳するアルゴリズムなど, システム設計の選択肢を数多く報告した。
シミュレーションの結果は多様性と創造性の段階を経て、急速に拡大するパターンによって徐々に支配へと収束する傾向にある。
この実験に基づいて,仮想環境設計,質量保存,エネルギー制約など,よりオープンな進化を促進する要因をいくつか提案する。 Inspired by biological and cultural evolution, there have been many attempts to explore and elucidate the necessary conditions for open-endedness in artificial intelligence and artificial life. Using a continuous cellular automata called Lenia as the base system, we built large-scale evolutionary simulations using parallel computing framework JAX, in order to achieve the goal of never-ending evolution of self-organizing patterns. We report a number of system design choices, including (1) implicit implementation of genetic operators, such as reproduction by pattern self-replication, and selection by differential existential success; (2) localization of genetic information; and (3) algorithms for dynamically maintenance of the localized genotypes and translation to phenotypes. Simulation results tend to go through a phase of diversity and creativity, gradually converge to domination by fast expanding patterns, presumably a optimal solution under the current design. Based on our experimentation, we propose several factors that may further facilitate open-ended evolution, such as virtual environment design, mass conservation, and energy constraints. | 翻訳日:2023-04-13 15:58:44 公開日:2023-04-12 |
# PLCに基づく制御プロセスにおける進化的アルゴリズムによる自己最適化と自動コード生成 Self Optimisation and Automatic Code Generation by Evolutionary Algorithms in PLC based Controlling Processes ( http://arxiv.org/abs/2304.05638v1 ) ライセンス: Link先を確認 | Marlon L\"oppenberg and Andreas Schwung | (参考訳) 自動化のデジタルトランスフォーメーションは、産業プロセスにおけるデータ取得と処理に新たな要求をもたらす。
得られたデータと循環プロセスシーケンスの論理的関係を正しく解釈し、評価する必要がある。
この問題を解決するために、複雑なプロセスのシステム論理を自己最適化するために、進化的アルゴリズムに基づく新しいアプローチを提案する。
遺伝的結果に基づいて、システム実装のためのプログラムコードを解を復号化して導出する。
これは上流、中間、下流のユニットを備えた柔軟なシステム構造によって実現される。
中間単位において、指示学習プロセスは、閉ループ内のシステムレプリカと評価関数とを相互作用する。
コード生成戦略は冗長性と優先度、シーケンシング、パフォーマンスの導出によって表される。
提案手法は,多目的最適化問題を考慮した産業用液体ステーションプロセスで評価する。 The digital transformation of automation places new demands on data acquisition and processing in industrial processes. Logical relationships between acquired data and cyclic process sequences must be correctly interpreted and evaluated. To solve this problem, a novel approach based on evolutionary algorithms is proposed to self optimise the system logic of complex processes. Based on the genetic results, a programme code for the system implementation is derived by decoding the solution. This is achieved by a flexible system structure with an upstream, intermediate and downstream unit. In the intermediate unit, a directed learning process interacts with a system replica and an evaluation function in a closed loop. The code generation strategy is represented by redundancy and priority, sequencing and performance derivation. The presented approach is evaluated on an industrial liquid station process subject to a multi-objective optimisation problem. | 翻訳日:2023-04-13 15:58:25 公開日:2023-04-12 |
# 適応表現と集約による弱監督型医用画像分割の統一とパーソナライズ Unifying and Personalizing Weakly-supervised Federated Medical Image Segmentation via Adaptive Representation and Aggregation ( http://arxiv.org/abs/2304.05635v1 ) ライセンス: Link先を確認 | Li Lin, Jiewei Wu, Yixiang Liu, Kenneth K. Y. Wong, Xiaoying Tang | (参考訳) フェデレーション学習(fl)は、データのプライバシとセキュリティを損なうことなく、複数のサイトが協力して強力な深層モデルのトレーニングを可能にする。
統計の不均一性(例えば、非iidデータと領域シフト)はflの主要な障害であり、グローバルモデルの一般化性能を損なう。
弱い教師付きセグメンテーション(sparsely-grained (point-, bounding box-, scribble-, block-wise) によるセグメント化は,アノテーションコストの削減という大きな可能性から,ますます注目されている。
しかし、ラベルの不均一性、すなわちサイト間で異なるアノテーション形式が存在するかもしれない。
本稿では、AdaptIve Contrastive Representation and Aggregationにより、不均一な弱い監督を均一に活用する医療画像セグメンテーションのための新しいFLフレームワークであるFedICRAを提案する。
具体的には、パーソナライズドモデリングを容易にし、混乱を避けるために、サイト内埋め込みとサイト間埋め込みを適応的にクラスタ化するためにチャンネル選択ベースのサイトコントラスト表現モジュールを用いる。
グローバルモデルからの共通知識を各ローカルモデルからのユニークな知識と効果的に統合するために、要素レベルでローカルモデルを更新および初期化するために適応アグリゲーションモジュールを適用する。
さらに、より正確な擬似ラベルを生成し、さらにセグメンテーション性能を高めるために、マルチスケールツリーエネルギー損失とゲートCRF損失を利用する弱教師付き目的関数を用いる。
異なるモダリティの異なる2つの異なる医用画像分割タスクに関する広範な実験を通じて、提案したFedICRAは、他の最先端のパーソナライズされたFL法よりも圧倒的な性能を示す。
そのパフォーマンスは、集中データに対する完全な教師付きトレーニングにさえ近づきます。
私たちのコードとデータはhttps://github.com/llmir/FedICRA.comで公開されています。 Federated learning (FL) enables multiple sites to collaboratively train powerful deep models without compromising data privacy and security. The statistical heterogeneity (e.g., non-IID data and domain shifts) is a primary obstacle in FL, impairing the generalization performance of the global model. Weakly supervised segmentation, which uses sparsely-grained (i.e., point-, bounding box-, scribble-, block-wise) supervision, is increasingly being paid attention to due to its great potential of reducing annotation costs. However, there may exist label heterogeneity, i.e., different annotation forms across sites. In this paper, we propose a novel personalized FL framework for medical image segmentation, named FedICRA, which uniformly leverages heterogeneous weak supervision via adaptIve Contrastive Representation and Aggregation. Concretely, to facilitate personalized modeling and to avoid confusion, a channel selection based site contrastive representation module is employed to adaptively cluster intra-site embeddings and separate inter-site ones. To effectively integrate the common knowledge from the global model with the unique knowledge from each local model, an adaptive aggregation module is applied for updating and initializing local models at the element level. Additionally, a weakly supervised objective function that leverages a multiscale tree energy loss and a gated CRF loss is employed to generate more precise pseudo-labels and further boost the segmentation performance. Through extensive experiments on two distinct medical image segmentation tasks of different modalities, the proposed FedICRA demonstrates overwhelming performance over other state-of-the-art personalized FL methods. Its performance even approaches that of fully supervised training on centralized data. Our code and data are available at https://github.com/llmir/FedICRA. | 翻訳日:2023-04-13 15:58:16 公開日:2023-04-12 |
# 気分はどうですか?
映画シーンにおける感情と精神状態の学習 How you feelin'? Learning Emotions and Mental States in Movie Scenes ( http://arxiv.org/abs/2304.05634v1 ) ライセンス: Link先を確認 | Dhruv Srivastava and Aditya Kumar Singh and Makarand Tapaswi | (参考訳) 映画のストーリー分析にはキャラクターの感情や精神状態を理解する必要がある。
この目標に向けて,映画シーンのレベルと各キャラクタに対する多様な多ラベル感情の集合を予測するものとして感情理解を定式化する。
本研究では,ビデオ,複数文字,対話発話を取り込み,共同予測を行うマルチモーダルトランスフォーマティブアーキテクチャであるemotxを提案する。
MovieGraphsデータセットからのアノテーションを利用することで、古典的な感情(例えば、幸福、怒り)や他の精神状態(例えば、正直、役に立つ)を予測することを目指している。
最も頻繁に発生する10と25のラベルについて実験を行い、181のラベルを26にクラスタするマッピングを行った。
EmoTxの有効性は、最先端の感情認識アプローチに対するアブレーション研究と比較によって示される。
EmoTxの自己注意スコアを分析すると、表現的な感情がしばしば文字トークンを見るのに対し、他の精神状態はビデオやダイアログの手がかりに依存することが分かる。 Movie story analysis requires understanding characters' emotions and mental states. Towards this goal, we formulate emotion understanding as predicting a diverse and multi-label set of emotions at the level of a movie scene and for each character. We propose EmoTx, a multimodal Transformer-based architecture that ingests videos, multiple characters, and dialog utterances to make joint predictions. By leveraging annotations from the MovieGraphs dataset, we aim to predict classic emotions (e.g. happy, angry) and other mental states (e.g. honest, helpful). We conduct experiments on the most frequently occurring 10 and 25 labels, and a mapping that clusters 181 labels to 26. Ablation studies and comparison against adapted state-of-the-art emotion recognition approaches shows the effectiveness of EmoTx. Analyzing EmoTx's self-attention scores reveals that expressive emotions often look at character tokens while other mental states rely on video and dialog cues. | 翻訳日:2023-04-13 15:57:36 公開日:2023-04-12 |
# 理論的保証を伴うマルチエージェント政策の相互性 Multi-agent Policy Reciprocity with Theoretical Guarantee ( http://arxiv.org/abs/2304.05632v1 ) ライセンス: Link先を確認 | Haozhi Wang, Yinchuan Li, Qing Wang, Yunfeng Shao, Jianye Hao | (参考訳) 現代のマルチエージェント強化学習(RL)アルゴリズムは、様々な現実世界の問題を解決する大きな可能性を秘めている。
しかし、サンプルの複雑さを減らし、パフォーマンスを改善するために、クロスエージェントの知識を十分に活用していない。
転送RLは知識共有をサポートするが、ハイパーパラメータに敏感で複雑である。
そこで本研究では,複数のエージェントが不整合状態であってもクロスエージェントポリシを十分に活用できる,新たなマルチエージェントポリシ相互性(pr)フレームワークを提案する。
次に、ミスマッチ状態のアジャケーシ空間を定義し、値反復のためのプラグアンドプレイモジュールを設計し、エージェントがより正確なリターンを推測できるようにする。
PRのスケーラビリティを向上させるために,連続制御タスクに対してディープPRを提案する。
さらに、理論的分析により、エージェントは個々の認識された報酬を通じて漸近的にコンセンサスに到達し、最適な値関数に収束し、PRの安定性と有効性を示す。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。 Modern multi-agent reinforcement learning (RL) algorithms hold great potential for solving a variety of real-world problems. However, they do not fully exploit cross-agent knowledge to reduce sample complexity and improve performance. Although transfer RL supports knowledge sharing, it is hyperparameter sensitive and complex. To solve this problem, we propose a novel multi-agent policy reciprocity (PR) framework, where each agent can fully exploit cross-agent policies even in mismatched states. We then define an adjacency space for mismatched states and design a plug-and-play module for value iteration, which enables agents to infer more precise returns. To improve the scalability of PR, deep PR is proposed for continuous control tasks. Moreover, theoretical analysis shows that agents can asymptotically reach consensus through individual perceived rewards and converge to an optimal value function, which implies the stability and effectiveness of PR, respectively. Experimental results on discrete and continuous environments demonstrate that PR outperforms various existing RL and transfer RL methods. | 翻訳日:2023-04-13 15:57:09 公開日:2023-04-12 |
# 実時間軌道に基づくソーシャルグループ検出 Real-time Trajectory-based Social Group Detection ( http://arxiv.org/abs/2304.05678v1 ) ライセンス: Link先を確認 | Simindokht Jahangard, Munawar Hayat and Hamid Rezatofighi | (参考訳) ソーシャルグループ検出は、ロボットナビゲーションや人間とロボットのインタラクションなど、さまざまなロボットアプリケーションの重要な側面である。
これまでに、F-formation や trajectory similarity framework など、この課題に対処するために様々なモデルベースのテクニックが採用されている。
しかし、これらのアプローチは、しばしば混み合った動的シナリオにおいて信頼できる結果を提供しない。
この領域の最近の進歩は主に、ビジュアルコンテンツや人間のポーズを使用するディープニューラルネットワークのような学習ベースの手法に焦点を当てている。
視覚的コンテンツベース手法は大規模データセットで有望な性能を示したが、その計算複雑性はリアルタイムアプリケーションでの使用において重要な障壁となっている。
そこで本研究では,ソーシャルグループ検出のための簡易かつ効率的なフレームワークを提案する。
本稿では,行動軌跡がソーシャルグルーピングに与える影響を考察し,新しい,信頼性の高い,高速なデータ駆動手法を用いる。
シーン内の個人をグラフとして定式化し,ノードをLSTM符号化トラジェクトリで表現し,エッジを各トラック間の距離で定義する。
本フレームワークは,修正グラフトランスフォーマーモジュールとグラフクラスタリング損失を用いてソーシャルグループを検出する。
一般的なJRDBActデータセットに対する実験では,2%から11%の相対的な改善がみられた。
さらに、我々のフレームワークは、同じ計算リソース下での最先端の手法に比べて最大12倍高速な推論時間を持つ。
これらの結果は,提案手法が実時間ロボット応用に適していることを示す。 Social group detection is a crucial aspect of various robotic applications, including robot navigation and human-robot interactions. To date, a range of model-based techniques have been employed to address this challenge, such as the F-formation and trajectory similarity frameworks. However, these approaches often fail to provide reliable results in crowded and dynamic scenarios. Recent advancements in this area have mainly focused on learning-based methods, such as deep neural networks that use visual content or human pose. Although visual content-based methods have demonstrated promising performance on large-scale datasets, their computational complexity poses a significant barrier to their practical use in real-time applications. To address these issues, we propose a simple and efficient framework for social group detection. Our approach explores the impact of motion trajectory on social grouping and utilizes a novel, reliable, and fast data-driven method. We formulate the individuals in a scene as a graph, where the nodes are represented by LSTM-encoded trajectories and the edges are defined by the distances between each pair of tracks. Our framework employs a modified graph transformer module and graph clustering losses to detect social groups. Our experiments on the popular JRDBAct dataset reveal noticeable improvements in performance, with relative improvements ranging from 2% to 11%. Furthermore, our framework is significantly faster, with up to 12x faster inference times compared to state-of-the-art methods under the same computation resources. These results demonstrate that our proposed method is suitable for real-time robotic applications. | 翻訳日:2023-04-13 15:50:23 公開日:2023-04-12 |
# ドメイン一般化のためのセマンティック・アウェア・ミックスアップ Semantic-Aware Mixup for Domain Generalization ( http://arxiv.org/abs/2304.05675v1 ) ライセンス: Link先を確認 | Chengchao Xu and Xinmei Tian | (参考訳) ディープニューラルネットワーク(DNN)は、様々なタスクにおいてエキサイティングなパフォーマンスを示しているが、未知のターゲットドメインに合うと一般化の失敗に悩まされる。
ドメイン一般化(DG)を実現する最も有望なアプローチの1つは、未知のターゲットデータをカバーするために、ミックスアップなど、目に見えないデータを生成することである。
しかし、既存の作品は、意味空間と分布空間の両方に変化が同時に現れることによって引き起こされる課題を見落としている。
したがって、このような課題はソースの配布をDNNに適合させることを難しくする。
ハードフィッティング問題を軽減するため,我々は,ミックスアップの実行が意味情報とドメイン情報に依存するドメイン一般化のための意味認識ミックスアップ(sam)を行う。
SAMの実現可能性は同じ精神をフーリエベースのミックスアップと共有している。
すなわち、フーリエ位相スペクトルは(ラベルに関する)意味情報を含むことが期待され、フーリエ振幅は(スタイル情報に関する)他の情報を保持する。
この知見に基づいてSAMは、フーリエ位相スペクトルと振幅情報に異なる混合戦略を適用する。
例えば、SAMは、意味情報とドメイン情報の両方が変化するときのみ、振幅スペクトルの混合を行う。
これにより、圧倒的に大きな変化を避けることができる。
いくつかのDGベンチマークで画像分類タスクを用いてSAMの有効性を検証する。 Deep neural networks (DNNs) have shown exciting performance in various tasks, yet suffer generalization failures when meeting unknown target domains. One of the most promising approaches to achieve domain generalization (DG) is generating unseen data, e.g., mixup, to cover the unknown target data. However, existing works overlook the challenges induced by the simultaneous appearance of changes in both the semantic and distribution space. Accordingly, such a challenge makes source distributions hard to fit for DNNs. To mitigate the hard-fitting issue, we propose to perform a semantic-aware mixup (SAM) for domain generalization, where whether to perform mixup depends on the semantic and domain information. The feasibility of SAM shares the same spirits with the Fourier-based mixup. Namely, the Fourier phase spectrum is expected to contain semantics information (relating to labels), while the Fourier amplitude retains other information (relating to style information). Built upon the insight, SAM applies different mixup strategies to the Fourier phase spectrum and amplitude information. For instance, SAM merely performs mixup on the amplitude spectrum when both the semantic and domain information changes. Consequently, the overwhelmingly large change can be avoided. We validate the effectiveness of SAM using image classification tasks on several DG benchmarks. | 翻訳日:2023-04-13 15:49:59 公開日:2023-04-12 |
# 合成データを用いた深層学習による眼画像における角膜反射の精密局在 Precise localization of corneal reflections in eye images using deep learning trained on synthetic data ( http://arxiv.org/abs/2304.05673v1 ) ライセンス: Link先を確認 | Sean Anthony Byrne, Marcus Nystr\"om, Virmarie Maquiling, Enkelejda Kasneci, Diederick C. Niehorster | (参考訳) 眼球画像中の1つの角膜反射(CR)の中心を正確に位置決めする深層学習法を提案する。
従来のアプローチとは異なり、シミュレーションデータのみを使用してトレーニングされた畳み込みニューラルネットワーク(cnn)を使用する。
シミュレーションデータのみを使用することで、実眼画像の教師付きトレーニングに必要な手動アノテーションの時間を要するプロセスを完全に回避できるというメリットがある。
提案手法の精度を体系的に評価するために,まず,異なる背景にCRを配置し,様々なノイズレベルに埋め込まれた画像上で実験を行った。
第2に,実眼で撮影した高品質ビデオを用いて実験を行った。
本手法は,実眼画像における空間精度の35%削減による最先端アルゴリズム手法よりも優れており,空間精度の面ではシミュレーション画像の最先端アルゴリズムと比較し,cr中心位置推定の高精度な手法を提供し,視線推定のための深層学習モデルの開発における重要な障害の一つであるデータ可用性問題に対する解決策を提供する。
CR中心のより優れた局在化と適用容易性により、CRベースのアイトラッカーの精度と精度を向上させる可能性がある。 We present a deep learning method for accurately localizing the center of a single corneal reflection (CR) in an eye image. Unlike previous approaches, we use a convolutional neural network (CNN) that was trained solely using simulated data. Using only simulated data has the benefit of completely sidestepping the time-consuming process of manual annotation that is required for supervised training on real eye images. To systematically evaluate the accuracy of our method, we first tested it on images with simulated CRs placed on different backgrounds and embedded in varying levels of noise. Second, we tested the method on high-quality videos captured from real eyes. Our method outperformed state-of-the-art algorithmic methods on real eye images with a 35% reduction in terms of spatial precision, and performed on par with state-of-the-art on simulated images in terms of spatial accuracy.We conclude that our method provides a precise method for CR center localization and provides a solution to the data availability problem which is one of the important common roadblocks in the development of deep learning models for gaze estimation. Due to the superior CR center localization and ease of application, our method has the potential to improve the accuracy and precision of CR-based eye trackers | 翻訳日:2023-04-13 15:49:40 公開日:2023-04-12 |
# サイクルグラフ上の量子ウォークによる任意の量子演算の実装 Implementing arbitrary quantum operations via quantum walks on a cycle graph ( http://arxiv.org/abs/2304.05672v1 ) ライセンス: Link先を確認 | Jia-Yi Lin, Xin-Yu Li, Yu-Hao Shao, Wei Wang and Shengjun Wu | (参考訳) 量子回路モデル(quantum circuit model)は、量子コンピュータや量子ニューラルネットワークを実装する上で最も一般的に用いられるモデルである。
回路モデルは、通常、普遍集合から1量子ビットと2量子ビットのユニタリゲートのシーケンスによって所望のユニタリ演算を実行する。
これは実験者がいくつかの異なる種類のユニバーサルゲートを準備するだけであるから、確かに促進するが、任意の単体操作を行うのに必要なゲートの数は通常大きい。
したがって、回路深さや走行時間の点で効率が保証されない。
ここでは、周期グラフ上の単純な離散時間量子ウォーク(dtqw)を用いて任意のユニタリ演算をモデル化する手法を提案する。
我々のモデルは基本的にDTQWに基づく量子ニューラルネットワークである。
まず、コイン演算子の適切な選択により任意のユニタリ演算が実現可能であることを示すことは普遍的である。
第2に、私たちのDTQWベースのニューラルネットワークは、学習アルゴリズム、すなわち、我々のネットワークに適応した修正確率勾配勾配アルゴリズムを介して効率的に更新することができる。
このネットワークを訓練することで、任意の所望のユニタリ操作に対する近似を見つけることができる。
出力のさらなる測定により、DTQWベースのニューラルネットワークは、正の演算値測定(POVM)によって説明される一般的な測定を実装できる。
数値シミュレーションによる任意の2アウトカムPOVM測定の実装能力を示す。
さらに,ネットワークを単純化し,トレーニング中にデバイスノイズを克服し,実験実装に親しみやすくすることの実証を行った。
本研究は、量子計算におけるDTQWベースのニューラルネットワークの機能とその実験室実装における可能性を示す。 The quantum circuit model is the most commonly used model for implementing quantum computers and quantum neural networks whose essential tasks are to realize certain unitary operations. The circuit model usually implements a desired unitary operation by a sequence of single-qubit and two-qubit unitary gates from a universal set. Although this certainly facilitates the experimentalists as they only need to prepare several different kinds of universal gates, the number of gates required to implement an arbitrary desired unitary operation is usually large. Hence the efficiency in terms of the circuit depth or running time is not guaranteed. Here we propose an alternative approach; we use a simple discrete-time quantum walk (DTQW) on a cycle graph to model an arbitrary unitary operation without the need to decompose it into a sequence of gates of smaller sizes. Our model is essentially a quantum neural network based on DTQW. Firstly, it is universal as we show that any unitary operation can be realized via an appropriate choice of coin operators. Secondly, our DTQW-based neural network can be updated efficiently via a learning algorithm, i.e., a modified stochastic gradient descent algorithm adapted to our network. By training this network, one can promisingly find approximations to arbitrary desired unitary operations. With an additional measurement on the output, the DTQW-based neural network can also implement general measurements described by positive-operator-valued measures (POVMs). We show its capacity in implementing arbitrary 2-outcome POVM measurements via numeric simulation. We further demonstrate that the network can be simplified and can overcome device noises during the training so that it becomes more friendly for laboratory implementations. Our work shows the capability of the DTQW-based neural network in quantum computation and its potential in laboratory implementations. | 翻訳日:2023-04-13 15:49:14 公開日:2023-04-12 |
# 効率良く正確な材料照明推定のための因子化逆経路追跡 Factorized Inverse Path Tracing for Efficient and Accurate Material-Lighting Estimation ( http://arxiv.org/abs/2304.05669v1 ) ライセンス: Link先を確認 | Liwen Wu, Rui Zhu, Mustafa B. Yaldiz, Yinhao Zhu, Hong Cai, Janarbek Matai, Fatih Porikli, Tzu-Mao Li, Manmohan Chandraker, Ravi Ramamoorthi | (参考訳) 近年,室内シーンの幾何および多視点hdr観測により,複合材料と照明推定に逆経路追跡が適用されている。
しかし、パストレースは計算に高価であり、リフレクションとエミッションの間に曖昧さが存在する。
本稿では,因子付き光輸送定式化を利用した新しい因子化逆経路トレース(fipt)法を提案する。
提案アルゴリズムは,従来よりも高精度な材料と照明の最適化を実現し,あいまいさの解消に有効である。
合成シーンにおける徹底的な実験により,(1)複雑な照明効果の存在下で,最先端の屋内逆レンダリングや照明手法を上回り,(2)逆経路追跡最適化を1時間未満に高速化することを示した。
さらに,実場面で再現可能な材料と照明推定値を用いて,ノイズ入力に対するロバスト性を示す。
ソースコードはhttps://github.com/lwwu2/fiptで入手できる。 Inverse path tracing has recently been applied to joint material and lighting estimation, given geometry and multi-view HDR observations of an indoor scene. However, it has two major limitations: path tracing is expensive to compute, and ambiguities exist between reflection and emission. We propose a novel Factorized Inverse Path Tracing (FIPT) method which utilizes a factored light transport formulation and finds emitters driven by rendering errors. Our algorithm enables accurate material and lighting optimization faster than previous work, and is more effective at resolving ambiguities. The exhaustive experiments on synthetic scenes show that our method (1) outperforms state-of-the-art indoor inverse rendering and relighting methods particularly in the presence of complex illumination effects; (2) speeds up inverse path tracing optimization to less than an hour. We further demonstrate robustness to noisy inputs through material and lighting estimates that allow plausible relighting in a real scene. The source code is available at: https://github.com/lwwu2/fipt | 翻訳日:2023-04-13 15:48:50 公開日:2023-04-12 |
# 鉄道検知:効率的なロウベースネットワークと新しいベンチマーク Rail Detection: An Efficient Row-based Network and A New Benchmark ( http://arxiv.org/abs/2304.05667v1 ) ライセンス: Link先を確認 | Xinpeng Li and Xiaojiang Peng | (参考訳) 鉄道異常検出に不可欠な鉄道検出は、ビデオフレーム内の鉄道領域を特定することを目的としている。
鉄道検出に関する様々な研究は存在するが、オープンベンチマークや高速ネットワークはコミュニティで利用できず、アルゴリズムの比較と開発が困難である。
レーン検出の進展に触発されて,レールデータベースと行に基づくレール検出手法を提案する。
詳細は、いくつかの貢献をします。
(i)実世界の鉄道データセットである rail-db を7432対のイメージとアノテーションで提供する。
画像は照明、道路構造、ビューの異なる状況から収集される。
レールはポリラインでラベル付けされ、画像は9つのシーンに分類される。
Rail-DBは、レール検出アルゴリズムの改善を促進することが期待されている。
(ii)軽量畳み込みバックボーンとアンカー分類器を備えた効率的な行ベースレール検出手法である rail-net を提案する。
具体的には, レール検出の過程を行選択問題として定式化する。
この戦略は、代替セグメンテーション法と比較して計算コストを削減する。
(iii) resnet から vision transformer までのクロスシーン設定やネットワークバックボーンを含む広範な実験を行い, rail-db 上の rail-net を評価した。
提案手法は,速度と精度の両面で有望な性能を達成する。
軽量版は92.77%の精度と312フレーム/秒を達成した。
レールネットは従来の手法を50.65%、セグメンテーションを5.86%上回る。
データベースとコードは、https://github.com/Sampson-Lee/Rail-Detection.comで入手できる。 Rail detection, essential for railroad anomaly detection, aims to identify the railroad region in video frames. Although various studies on rail detection exist, neither an open benchmark nor a high-speed network is available in the community, making algorithm comparison and development difficult. Inspired by the growth of lane detection, we propose a rail database and a row-based rail detection method. In detail, we make several contributions: (i) We present a real-world railway dataset, Rail-DB, with 7432 pairs of images and annotations. The images are collected from different situations in lighting, road structures, and views. The rails are labeled with polylines, and the images are categorized into nine scenes. The Rail-DB is expected to facilitate the improvement of rail detection algorithms. (ii) We present an efficient row-based rail detection method, Rail-Net, containing a lightweight convolutional backbone and an anchor classifier. Specifically, we formulate the process of rail detection as a row-based selecting problem. This strategy reduces the computational cost compared to alternative segmentation methods. (iii) We evaluate the Rail-Net on Rail-DB with extensive experiments, including cross-scene settings and network backbones ranging from ResNet to Vision Transformers. Our method achieves promising performance in terms of both speed and accuracy. Notably, a lightweight version could achieve 92.77% accuracy and 312 frames per second. The Rail-Net outperforms the traditional method by 50.65% and the segmentation one by 5.86%. The database and code are available at: https://github.com/Sampson-Lee/Rail-Detection. | 翻訳日:2023-04-13 15:48:33 公開日:2023-04-12 |
# ランダムウォーク型量子ニューラルネットワークによる状態分類 State Classification via a Random-Walk-Based Quantum Neural Network ( http://arxiv.org/abs/2304.05662v1 ) ライセンス: Link先を確認 | Lu-Ji Wang, Jia-Yi Lin, and Shengjun Wu | (参考訳) 量子情報技術では、重要な情報は異なる量子状態に定期的に符号化される。
情報を抽出するには、ある状態の他の状態からの識別が不可欠である。
しかし、もし状態が非直交的で未知であれば、特にリソースが制限されている場合、このタスクは驚くほどトリッキーになるでしょう。
本稿では,量子確率ニューラルネットワーク(qsnn)を紹介し,量子状態のバイナリ識別を実現する能力を示す。
少数の最適化イテレーションの後、QSNNは、状態が純粋であるか混合であるかにかかわらず、理論最適に近い成功確率を達成する。
バイナリ識別以外にも、QSNNは未知の状態の集合を、絡み合った状態と分離可能な状態の2つのタイプに分類するためにも用いられる。
4つのサンプルでトレーニングした後、許容できる精度で複数の状態を分類することができる。
以上の結果から,QSNNは未知の量子状態を量子情報で処理する大きな可能性を示唆している。 In quantum information technology, crucial information is regularly encoded in different quantum states. To extract information, the identification of one state from the others is inevitable. However, if the states are non-orthogonal and unknown, this task will become awesomely tricky, especially when our resources are also limited. Here, we introduce the quantum stochastic neural network (QSNN), and show its capability to accomplish the binary discrimination of quantum states. After a handful of optimizing iterations, the QSNN achieves a success probability close to the theoretical optimum, no matter whether the states are pure or mixed. Other than binary discrimination, the QSNN is also applied to classify an unknown set of states into two types: entangled ones and separable ones. After training with four samples, it can classify a number of states with acceptable accuracy. Our results suggest that the QSNN has the great potential to process unknown quantum states in quantum information. | 翻訳日:2023-04-13 15:48:12 公開日:2023-04-12 |
# superpixelgraph:意味に敏感なスーパーピクセルとニューラルネットワークによるビルディングフットプリントの半自動生成 SuperpixelGraph: Semi-automatic generation of building footprint through semantic-sensitive superpixel and neural graph networks ( http://arxiv.org/abs/2304.05661v1 ) ライセンス: Link先を確認 | Haojia Yu, Han Hu, Bo Xu, Qisen Shang, Zhendong Wang and Qing Zhu | (参考訳) ほとんどの都市アプリケーションは、ピクセルワイドのラスタ画像ではなく、シャープな境界を持つ簡潔なベクトルグラフィックスの形で、フットプリントを構築する必要がある。
これは、通常、過度に平滑なフットプリントポリゴンを生成する既存の手法のほとんどとは対照的である。
これらの自動生成ポリゴンの編集は、手動のデジタル化よりも時間を要するが、非効率である。
本稿では,セマンティクスに敏感なスーパーピクセルとニューラルネットワークを用いて足跡抽出を行う半自動的手法を提案する。
オブジェクトベースの分類技術からインスピレーションを得て、我々はまず境界保存だけでなく意味に敏感なスーパーピクセルを生成することを学ぶ。
スーパーピクセルは、他の自然なオブジェクトではなく、建物の境界にのみ反応し、同時に建物のセマンティックセグメンテーションを生成する。
これらの中間超ピクセル表現は自然にグラフ内のノードと見なすことができる。
その結果、グラフニューラルネットワークは、すべてのスーパーピクセル間のグローバルな相互作用をモデル化し、セグメンテーションを構築するノードの特徴の表現性を向上する。
古典的なアプローチは、ベクトル化された建物の足跡の境界を抽出し、規則化するのに使われる。
最小クリックとストロークを用いることで,精度の高いセグメンテーション結果を実現し,ポリゴン頂点の編集の必要性を解消する。
提案手法は,様々な公開ベンチマークデータセットに対する実験的な評価により,優れた精度と有効性を示す。
確立した手法と比較した場合,スーパーピクセルクラスタリングのメトリクスの10-%向上とベクトルグラフィックス評価の8-%増が観察された。
さらに,インタラクティブな編集を行うための最適化された洗練されたパイプラインを考案し,結果の質をさらに向上させた。 Most urban applications necessitate building footprints in the form of concise vector graphics with sharp boundaries rather than pixel-wise raster images. This need contrasts with the majority of existing methods, which typically generate over-smoothed footprint polygons. Editing these automatically produced polygons can be inefficient, if not more time-consuming than manual digitization. This paper introduces a semi-automatic approach for building footprint extraction through semantically-sensitive superpixels and neural graph networks. Drawing inspiration from object-based classification techniques, we first learn to generate superpixels that are not only boundary-preserving but also semantically-sensitive. The superpixels respond exclusively to building boundaries rather than other natural objects, while simultaneously producing semantic segmentation of the buildings. These intermediate superpixel representations can be naturally considered as nodes within a graph. Consequently, graph neural networks are employed to model the global interactions among all superpixels and enhance the representativeness of node features for building segmentation. Classical approaches are utilized to extract and regularize boundaries for the vectorized building footprints. Utilizing minimal clicks and straightforward strokes, we efficiently accomplish accurate segmentation outcomes, eliminating the necessity for editing polygon vertices. Our proposed approach demonstrates superior precision and efficacy, as validated by experimental assessments on various public benchmark datasets. We observe a 10\% enhancement in the metric for superpixel clustering and an 8\% increment in vector graphics evaluation, when compared with established techniques. Additionally, we have devised an optimized and sophisticated pipeline for interactive editing, poised to further augment the overall quality of the results. | 翻訳日:2023-04-13 15:47:57 公開日:2023-04-12 |
# RIFormer:Token Mixerを外しながらビジョンバックボーンを効果的に保つ RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer ( http://arxiv.org/abs/2304.05659v1 ) ライセンス: Link先を確認 | Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui Liu, Kai Chen, Ping Luo, Dahua Lin | (参考訳) 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己注意としてのトークンミキサーは、異なる空間トークン間の情報通信を意図しているが、かなりの計算コストと遅延に悩まされている。
しかし、それらを直接取り除くと、以前に不完全なモデル構造になり、その結果、かなりの精度が低下する。
そこで我々はまず,トークンミキサーフリーモデルアーキテクチャの研究のために,再パラメータ化アイデアに基づくRepIdentityFormerベースを開発する。
そして、改良された学習パラダイムを探求し、単純なトークンミキサーフリーバックボーンの制限を破り、経験的実践を5つのガイドラインにまとめる。
提案した最適化戦略により、推論時に高い効率を享受しながら、性能を向上する非常に単純なビジョンバックボーンを構築することができる。
広範な実験とアブレイティブ解析は、ネットワークアーキテクチャの帰納的バイアスを適切な最適化戦略で単純なネットワーク構造に組み込むことができることを示した。
この作業が、最適化駆動の効率的なネットワーク設計の出発点になることを期待しています。
プロジェクトページ: https://techmonsterwang.github.io/riformer/ This paper studies how to keep a vision backbone effective while removing token mixers in its basic building blocks. Token mixers, as self-attention for vision transformers (ViTs), are intended to perform information communication between different spatial tokens but suffer from considerable computational cost and latency. However, directly removing them will lead to an incomplete model structure prior, and thus brings a significant accuracy drop. To this end, we first develop an RepIdentityFormer base on the re-parameterizing idea, to study the token mixer free model architecture. And we then explore the improved learning paradigm to break the limitation of simple token mixer free backbone, and summarize the empirical practice into 5 guidelines. Equipped with the proposed optimization strategy, we are able to build an extremely simple vision backbone with encouraging performance, while enjoying the high efficiency during inference. Extensive experiments and ablative analysis also demonstrate that the inductive bias of network architecture, can be incorporated into simple network structure with appropriate optimization strategy. We hope this work can serve as a starting point for the exploration of optimization-driven efficient network design. Project page: https://techmonsterwang.github.io/RIFormer/. | 翻訳日:2023-04-13 15:47:30 公開日:2023-04-12 |
# 正規化・多視点支援ベクトル機械学習のローカライズ Localisation of Regularised and Multiview Support Vector Machine Learning ( http://arxiv.org/abs/2304.05655v1 ) ライセンス: Link先を確認 | Aurelian Gheondea and Cankat Tilki | (参考訳) 我々は、H.Q.~Minh, L によって導入された正規化および多視点支援ベクトル機械学習問題の局所化バージョンに対するいくつかの代表者定理を証明した。
〜bazzani,v。
~murino, \textit{journal of machine learning research}, \textbf{17}(2016) 1--72, 演算子値の正の半定義核とその再生成核ヒルベルト空間を含む。
結果は、凸または非凸損失函数と有限または無限次元の入力空間を考える場合の一般的な場合に関する。
一般化されたフレームワークは無限次元の入力空間と非凸損失関数を特別な場合、特に損失関数が g\^ateaux 微分可能である場合に許容する。
部分非線形問題につながる指数最小二乗損失関数について、詳細な計算が提供される。 We prove a few representer theorems for a localised version of the regularised and multiview support vector machine learning problem introduced by H.Q.~Minh, L.~Bazzani, and V.~Murino, \textit{Journal of Machine Learning Research}, \textbf{17}(2016) 1--72, that involves operator valued positive semidefinite kernels and their reproducing kernel Hilbert spaces. The results concern general cases when convex or nonconvex loss functions and finite or infinite dimensional input spaces are considered. We show that the general framework allows infinite dimensional input spaces and nonconvex loss functions for some special cases, in particular in case the loss functions are G\^ateaux differentiable. Detailed calculations are provided for the exponential least squares loss functions that leads to partially nonlinear problems. | 翻訳日:2023-04-13 15:47:08 公開日:2023-04-12 |
# 普遍偏光変換:深層学習による回折偏光変換を用いた偏光散乱行列の空間計画 Universal Polarization Transformations: Spatial programming of polarization scattering matrices using a deep learning-designed diffractive polarization transformer ( http://arxiv.org/abs/2304.05724v1 ) ライセンス: Link先を確認 | Yuhang Li, Jingxi Li, Yifan Zhao, Tianyi Gan, Jingtian Hu, Mona Jarrahi, Aydogan Ozcan | (参考訳) 本研究では,任意の位置の偏光状態と入力フィールドオブビュー(fov)間の任意に選択された複素値の偏光散乱行列を合成できる,工学的回折体積に基づく普遍偏光トランスを示す。
本フレームワークは,等方性拡散層間に位置決めされる多角性線形偏光器の2次元アレイから構成され,それぞれが最適化可能な透過係数を持つ数万の拡散特性を含む。
本研究では,N_i と N_o が入力と出力の FOV の画素数を表すため,N_i x N_o = 10,000 個の異なる空間符号化偏光散乱行列を単一拡散体積内に無視可能な誤差で実装できることを実証した。
本研究では, ワイヤグリッド偏光子を作製し, 3dプリント回折層と一体化し, 0.75 mm 波長の物理偏光トランスを形成することにより, スペクトルのテラヘルツ部におけるこの普遍偏光変換の枠組みを実験的に検証した。
この設定により、空間変動分極場の全光偏光置換動作を実証し、200波長の軸にまたがるコンパクト回折プロセッサの入力と出力のfov間に異なる空間エンコードされた偏光散乱行列を同時に実装した。
このフレームワークは、ユニバーサル偏光制御のための新しい光学デバイスを開発するための新しい道を開き、リモートセンシング、医療画像、セキュリティ、材料検査、機械ビジョンなどの様々な応用を見出すことができる。 We demonstrate universal polarization transformers based on an engineered diffractive volume, which can synthesize a large set of arbitrarily-selected, complex-valued polarization scattering matrices between the polarization states at different positions within its input and output field-of-views (FOVs). This framework comprises 2D arrays of linear polarizers with diverse angles, which are positioned between isotropic diffractive layers, each containing tens of thousands of diffractive features with optimizable transmission coefficients. We demonstrate that, after its deep learning-based training, this diffractive polarization transformer could successfully implement N_i x N_o = 10,000 different spatially-encoded polarization scattering matrices with negligible error within a single diffractive volume, where N_i and N_o represent the number of pixels in the input and output FOVs, respectively. We experimentally validated this universal polarization transformation framework in the terahertz part of the spectrum by fabricating wire-grid polarizers and integrating them with 3D-printed diffractive layers to form a physical polarization transformer operating at 0.75 mm wavelength. Through this set-up, we demonstrated an all-optical polarization permutation operation of spatially-varying polarization fields, and simultaneously implemented distinct spatially-encoded polarization scattering matrices between the input and output FOVs of a compact diffractive processor that axially spans 200 wavelengths. This framework opens up new avenues for developing novel optical devices for universal polarization control, and may find various applications in, e.g., remote sensing, medical imaging, security, material inspection and machine vision. | 翻訳日:2023-04-13 15:41:49 公開日:2023-04-12 |
# 格子ゲージ理論とサブシステム符号の相互作用 Interplay between lattice gauge theory and subsystem codes ( http://arxiv.org/abs/2304.05718v1 ) ライセンス: Link先を確認 | Yoshihito Kuno, Ikuo Ichinose | (参考訳) 2+1)次元の特定の開境界条件におけるz_2$格子ゲージヒッグスモデルについて検討した。
適切な順序パラメータは、ヒッグス相と閉じ込め相を区別する境界条件によって供給され、それらは互いに共役である。
Wilson と 't Hooft ループによって与えられる一形式対称性とモデルの双対性は、位相構造の同定に重要な役割を果たす。
ガウス法制約は安定化器固有のサブシステムコードと見なされる。
順序パラメータはサブシステムコードの論理演算子にすぎず、それらの混合異常は境界ゼロモードの存在と非常に高エネルギーレベルにおいても状態の縮退を決定づける。
サブシステムはhiggsとcloinementフェーズに埋め込まれている。
サブシステムのコードに関する一般的な議論に加えて、higgs と confinement のフェーズにおけるコード(エンコード qubit)の具体的記述も与える。
数値解析手法は解析的に得られた結果の相関付けに用いられる。
本研究は,閉じ込め相がヒッグス相として対称性保護位相であることを明らかにする。 We study $Z_2$ lattice gauge-Higgs model in (2+1)-dimensions with specific open boundary conditions. Suitable order parameters are supplied by the boundary conditions, which distinguish the Higgs and confinement phases, and they are conjugate with each other. One-form symmetries given by Wilson and 't Hooft loops, as well as duality of the model, play an important role for the identification of the phase structure. Gauss-law constraints are regarded as stabilizers inherent subsystem codes. The order parameters are nothing but logical operators in subsystem codes, and mixed anomaly of them dictates the existence of boundary zero modes and the degeneracy of states even in very high-energy levels. Subsystem codes are embedded in the Higgs and confinement phases. In addition to general argument on the subsystem code, we give concrete description of the code (encoded qubit) in the Higgs and confinement phases, which are dual with each other. Numerical methods are used to corroborate analytically-obtained results. The present work reveals that the confinement phase is a symmetry-protected-topological phase as the Higgs phase. | 翻訳日:2023-04-13 15:41:17 公開日:2023-04-12 |
# 擬似深さが最小ユーザ誘導によるオープンワールドオブジェクトセグメンテーションに及ぼす影響 Impact of Pseudo Depth on Open World Object Segmentation with Minimal User Guidance ( http://arxiv.org/abs/2304.05716v1 ) ライセンス: Link先を確認 | Robin Sch\"on, Katja Ludwig, Rainer Lienhart | (参考訳) 擬似深度マップ(Pseudo depth map)は、訓練中に真理として使用される深度マップの述語である。
本稿では,トレーニング中に見たことのないクラスのオブジェクトをセグメンテーションするために,擬似深度マップを利用する。
これにより、オブジェクトセグメンテーションタスクがオープンワールドタスクになります。
擬似深度マップは、ダウンストリームタスク(lereとmida)に一般化する完全な意図で訓練されたか、ビデオシーケンス上で教師なしの方法で訓練された(monodepthv2)事前訓練されたネットワークを使って生成される。
どのオブジェクトをセグメントするかをネットワークに伝えるために、画像の擬似深度マップを入力として、ネットワークにオブジェクトの表面をワンクリックで提供します。
我々はRGB画像のないシナリオとRGB画像が入力の一部であるシナリオの2つについてアプローチを検証した。
以上の結果から,被写界深度を用いた場合,被写界型から被写界型まで,かなり優れた一般化性能を示す。
Semantic境界データセットでは、トレーニング中にトレーニングクラスの半分しか使用せず、深度マップのみのセグメンテーションを実行する場合、目に見えないクラスのIoUスコアが61.57$から69.79$に改善されます。 Pseudo depth maps are depth map predicitions which are used as ground truth during training. In this paper we leverage pseudo depth maps in order to segment objects of classes that have never been seen during training. This renders our object segmentation task an open world task. The pseudo depth maps are generated using pretrained networks, which have either been trained with the full intention to generalize to downstream tasks (LeRes and MiDaS), or which have been trained in an unsupervised fashion on video sequences (MonodepthV2). In order to tell our network which object to segment, we provide the network with a single click on the object's surface on the pseudo depth map of the image as input. We test our approach on two different scenarios: One without the RGB image and one where the RGB image is part of the input. Our results demonstrate a considerably better generalization performance from seen to unseen object types when depth is used. On the Semantic Boundaries Dataset we achieve an improvement from $61.57$ to $69.79$ IoU score on unseen classes, when only using half of the training classes during training and performing the segmentation on depth maps only. | 翻訳日:2023-04-13 15:40:58 公開日:2023-04-12 |
# 資源測度の量子古典分解によるR'enyiエントロピーの非対称性およびより厳密な不確実性関係 Asymmetry and tighter uncertainty relations for R\'enyi entropies via quantum-classical decompositions of resource measures ( http://arxiv.org/abs/2304.05704v1 ) ライセンス: Link先を確認 | Michael J. W. Hall | (参考訳) 量子可観測物の分散とエントロピーは、本質的に量子的および古典的な寄与に分解されることが知られている。
ここでは、与えられた作用素集合の量子状態に対する非可換性の測定によって特定される量子寄与と、状態の混合性によって生成される古典的寄与とを用いて、不確実性などの資源の量子古典的分解を構築する一般的な方法について議論する。
非可換性あるいは「量子性」の適切な測度は、与えられた集合、作用素の群または代数の非対称性を含む量子フィッシャー情報を含み、非射影可観測や量子チャネルに一般化される。
強エントロピーの不確実性関係とr\'enyiエントロピーの下界が得られ、その状態の混合性を考慮して下界への古典的貢献を考える射影的および非射影的観測可能性の両方に有効である。
これらの関係は量子古典的分解に言及せずに解釈でき、一方の観測可能な非対称性を他方のエントロピーの観点で束縛するトレードオフ関係として解釈できる。 It is known that the variance and entropy of quantum observables decompose into intrinsically quantum and classical contributions. Here a general method of constructing quantum-classical decompositions of resources such as uncertainty is discussed, with the quantum contribution specified by a measure of the noncommutativity of a given set of operators relative to the quantum state, and the classical contribution generated by the mixedness of the state. Suitable measures of noncommutativity or `quantumness' include quantum Fisher information and the asymmetry of a given set, group or algebra of operators, and are generalised to nonprojective observables and quantum channels. Strong entropic uncertainty relations and lower bounds for R\'enyi entropies are obtained, valid for both projective and nonprojective observables, that take the mixedness of the state into account via a classical contribution to the lower bound. These relations can also be interpreted without reference to quantum-classical decompositions, as tradeoff relations that bound the asymmetry of one observable in terms of the entropy of another. | 翻訳日:2023-04-13 15:40:36 公開日:2023-04-12 |
# ダイナミックモーションプリミティブによるコンプライアンス強化による人間ロボットのスキル伝達 Human-Robot Skill Transfer with Enhanced Compliance via Dynamic Movement Primitives ( http://arxiv.org/abs/2304.05703v1 ) ライセンス: Link先を確認 | Jayden Hong, Zengjie Zhang, Amir M. Soufi Enayati, and Homayoun Najjaran | (参考訳) ロボットの軌道を適応させる効率的な方法を見つけることは、ロボットの全体的な性能を改善するための優先事項である。
軌道計画の1つのアプローチは、人間のようなスキルをデモから学ぶ(LfD)ことでロボットに移すことである。
人間のデモンストレーションは、模倣するターゲットモーションと見なされる。
しかし、人間の運動は人間の体格に最適であるが、人間のバイオメカニクスとロボットのダイナミクスの違いのためロボットには最適ではない。
Dynamic Movement Primitives (DMP) フレームワークは、LfDのこの制限に対して実行可能なソリューションであるが、定式化において2階のダイナミクスをチューニングする必要がある。
我々は,dmpフレームワークのパラメータを自動調整するために,人間の実演から動的特徴を抽出する体系的手法を提案する。
lfdでの利用に加えて、ロボットの訓練に強化学習(rl)を併用して容易に使用できることも提案手法の別の有用性である。
このようにして抽出された特徴は、ロボットがより効率的に軌道を探索し、ロボットのコンプライアンスを著しく向上させることで、人間のスキルの伝達を促進する。
パラメトリック空間における人間の類似性と類似性の最適化に基づいて,複数の軌道から動的特徴を抽出する手法を提案する。
本手法は,人間の動力学的特徴を抽出するための実際のロボット装置に実装され,LfDとRLの両方に追従するロボット軌道をDMPで再生する。
その結果、ロボットの性能は安定し、蓄積した距離誤差に基づいて高い人間の類似性を保ち、最高のヒューリスティックチューニングを実現した。 Finding an efficient way to adapt robot trajectory is a priority to improve overall performance of robots. One approach for trajectory planning is through transferring human-like skills to robots by Learning from Demonstrations (LfD). The human demonstration is considered the target motion to mimic. However, human motion is typically optimal for human embodiment but not for robots because of the differences between human biomechanics and robot dynamics. The Dynamic Movement Primitives (DMP) framework is a viable solution for this limitation of LfD, but it requires tuning the second-order dynamics in the formulation. Our contribution is introducing a systematic method to extract the dynamic features from human demonstration to auto-tune the parameters in the DMP framework. In addition to its use with LfD, another utility of the proposed method is that it can readily be used in conjunction with Reinforcement Learning (RL) for robot training. In this way, the extracted features facilitate the transfer of human skills by allowing the robot to explore the possible trajectories more efficiently and increasing robot compliance significantly. We introduced a methodology to extract the dynamic features from multiple trajectories based on the optimization of human-likeness and similarity in the parametric space. Our method was implemented into an actual human-robot setup to extract human dynamic features and used to regenerate the robot trajectories following both LfD and RL with DMP. It resulted in a stable performance of the robot, maintaining a high degree of human-likeness based on accumulated distance error as good as the best heuristic tuning. | 翻訳日:2023-04-13 15:40:12 公開日:2023-04-12 |
# 量子力学におけるベル作用素の表現について On the representations of Bell's operators in Quantum Mechanics ( http://arxiv.org/abs/2304.05696v1 ) ライセンス: Link先を確認 | Silvio Paolo Sorella | (参考訳) ヒルベルト空間の次元が 2 より大きいとき、ベル=チェシュの不等式に入るベル作用素は同値なユニタリ行列表現を示す。
ベル-CHSHの不等式は違反されていることが判明したが、違反の大きさは異なる表現に対して異なり、最大の違反はツィレルソンの境界によって与えられる。
この特徴は、ベル-CHSHの不等式をテストするために使用される絡み合った状態のモード間のペアリング機構に依存している。 We point out that, when the dimension of the Hilbert space is greater than two, Bell's operators entering the Bell-CHSH inequality do exhibit inequivalent unitary matrix representations. Although the Bell-CHSH inequality turns out to be violated, the size of the violation is different for different representations, the maximum violation being given by Tsirelson's bound. The feature relies on a pairing mechanism between the modes of the entangled state employed to test the Bell-CHSH inequality. | 翻訳日:2023-04-13 15:39:47 公開日:2023-04-12 |
# 3次元点雲分類のための多次元形状認識トランス Multi-scale Geometry-aware Transformer for 3D Point Cloud Classification ( http://arxiv.org/abs/2304.05694v1 ) ライセンス: Link先を確認 | Xian Wei, Muyu Wang, Shing-Ho Jonathan Lin, Zhengyu Li, Jian Yang, Arafat Al-Jawari, Xuan Tang | (参考訳) セルフアテンションモジュールは、長距離リレーションシップをキャプチャし、ポイントクラウドタスクのパフォーマンスを改善する際、顕著な機能を示した。
しかし、点雲天体は、複雑で無秩序で非ユークリッド的な空間構造によって特徴づけられ、その振る舞いは、しばしば動的で予測不能である。
現在のセルフアテンションモジュールは主にドット積乗法とクエリキー値の特徴間の次元アライメントに依存しており、ポイントクラウドオブジェクトのマルチスケール非ユークリッド構造を適切に捉えることはできない。
これらの問題に対処するため,本研究では,多スケール幾何対応トランス (MGT) を用いた自己注意型プラグインモジュールを提案する。
MGTは、以下の3つの側面において、マルチスケールの局所的および大域的幾何学的情報をポイントクラウドデータとして処理する。
MGTは最初、ポイントクラウドデータを複数のスケールのパッチに分割する。
次に,各パッチの内部形状を探索し,各パッチに対して固定長表現を生成するために,球面マッピングに基づく局所特徴抽出器を提案する。
第三に、固定長表現は、パッチ間のグローバルな非ユークリッド幾何学を捉えるために、新しい測地線に基づく自己アテンションに供給される。
最後に、すべてのモジュールはエンドツーエンドのトレーニングスキームでMGTのフレームワークに統合されます。
実験の結果,MGTは自己保持機構を用いてマルチスケールの幾何を捕捉する能力を大幅に向上し,主流のクラウドベンチマーク上での強力な競争性能を実現することが示された。 Self-attention modules have demonstrated remarkable capabilities in capturing long-range relationships and improving the performance of point cloud tasks. However, point cloud objects are typically characterized by complex, disordered, and non-Euclidean spatial structures with multiple scales, and their behavior is often dynamic and unpredictable. The current self-attention modules mostly rely on dot product multiplication and dimension alignment among query-key-value features, which cannot adequately capture the multi-scale non-Euclidean structures of point cloud objects. To address these problems, this paper proposes a self-attention plug-in module with its variants, Multi-scale Geometry-aware Transformer (MGT). MGT processes point cloud data with multi-scale local and global geometric information in the following three aspects. At first, the MGT divides point cloud data into patches with multiple scales. Secondly, a local feature extractor based on sphere mapping is proposed to explore the geometry inner each patch and generate a fixed-length representation for each patch. Thirdly, the fixed-length representations are fed into a novel geodesic-based self-attention to capture the global non-Euclidean geometry between patches. Finally, all the modules are integrated into the framework of MGT with an end-to-end training scheme. Experimental results demonstrate that the MGT vastly increases the capability of capturing multi-scale geometry using the self-attention mechanism and achieves strong competitive performance on mainstream point cloud benchmarks. | 翻訳日:2023-04-13 15:39:38 公開日:2023-04-12 |
# HybrIK-X:全体メッシュ回復のためのハイブリッド解析・ニューラル逆運動学 HybrIK-X: Hybrid Analytical-Neural Inverse Kinematics for Whole-body Mesh Recovery ( http://arxiv.org/abs/2304.05690v1 ) ライセンス: Link先を確認 | Jiefeng Li, Siyuan Bian, Chao Xu, Zhicun Chen, Lixin Yang, Cewu Lu | (参考訳) 視覚的コンテンツから抽象的なポーズと形状パラメータを推測して全身メッシュを復元することで、現実的な構造を持つ3dボディを得ることができる。
しかし、推論過程は極めて非線形であり、画像間ミスアレーメントに苦しめられ、結果として不正確な再構成に繋がる。
対照的に、3次元キーポイント推定法は体積表現を用いてピクセルレベルの精度を達成するが、非現実的な体構造を予測することができる。
これらの問題に対処するため,本論文では,3次元キーポイント推定とボディーメッシュ復元の利点を統合したハイブリッド逆キネマティクスソリューションHybrIKを提案する。
hybrikは、ツイスト・アンド・スウィング分解によって、正確な3d関節を本体回転に直接変換する。
揺動回転は3次元関節で解析的に解き、ねじれ回転はニューラルネットワークによる視覚的手がかりから導かれる。
全身の詳細を網羅的に把握するために,HybrIK-X という包括的枠組みをさらに発展させ,HybrIK を手話と表情で強化する。
HybrIK-Xは1段モデルで全身のポーズを解くことで高速で正確である。
実験により、HybrIKとHybrIK-Xは3次元関節の精度とパラメトリック人間モデルの現実的な構造の両方を保ち、ピクセル整列した全体メッシュの回復をもたらすことが示された。
提案手法は,身体のみ,手のみ,全身シナリオの様々なベンチマークにおいて,最先端の手法を大幅に上回る。
コードと結果はhttps://jeffli.site/HybrIK-X/で確認できる。 Recovering whole-body mesh by inferring the abstract pose and shape parameters from visual content can obtain 3D bodies with realistic structures. However, the inferring process is highly non-linear and suffers from image-mesh misalignment, resulting in inaccurate reconstruction. In contrast, 3D keypoint estimation methods utilize the volumetric representation to achieve pixel-level accuracy but may predict unrealistic body structures. To address these issues, this paper presents a novel hybrid inverse kinematics solution, HybrIK, that integrates the merits of 3D keypoint estimation and body mesh recovery in a unified framework. HybrIK directly transforms accurate 3D joints to body-part rotations via twist-and-swing decomposition. The swing rotations are analytically solved with 3D joints, while the twist rotations are derived from visual cues through neural networks. To capture comprehensive whole-body details, we further develop a holistic framework, HybrIK-X, which enhances HybrIK with articulated hands and an expressive face. HybrIK-X is fast and accurate by solving the whole-body pose with a one-stage model. Experiments demonstrate that HybrIK and HybrIK-X preserve both the accuracy of 3D joints and the realistic structure of the parametric human model, leading to pixel-aligned whole-body mesh recovery. The proposed method significantly surpasses the state-of-the-art methods on various benchmarks for body-only, hand-only, and whole-body scenarios. Code and results can be found at https://jeffli.site/HybrIK-X/ | 翻訳日:2023-04-13 15:39:13 公開日:2023-04-12 |
# 複雑相互作用下での拡散に基づくマルチヒューマンモーション生成 InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions ( http://arxiv.org/abs/2304.05684v1 ) ライセンス: Link先を確認 | Han Liang, Wenqian Zhang, Wenxuan Li, Jingyi Yu, Lan Xu | (参考訳) 最近、現実的な人間の動きを生み出すための拡散の進歩が著しく進んでいる。
しかし、彼らはリッチなマルチヒューマンインタラクションを無視している。
本稿では,人間同士のインタラクションを移動拡散プロセスに組み込んだ効果的な拡散に基づくアプローチであるInterGenを提案する。
まず、InterHumanというマルチモーダルデータセットをコントリビュートする。
様々な2人インタラクションのための約107万フレームで構成され、正確な骨格運動と16,756の自然言語記述がある。
アルゴリズム側では、動き拡散モデルを2人のインタラクション設定に注意深く調整します。
相互作用中の人間のアイデンティティの対称性を扱うために,重みを明示的に共有する2つの共用変圧器と,これら2つの重み付けプロセスをさらに接続するための相互注意機構を提案する。
次に,世界フレームにおける2人の演奏者間の世界関係を明示的に定式化したインタラクション拡散モデルにおいて,新たな動き入力表現を提案する。
さらに, 相互作用拡散モデルの学習中に対応する減衰スキームを備える空間関係を符号化する2つの新しい正規化項を導入する。
大規模な実験はInterGenの有効性と一般化性を検証する。
特に、従来の方法よりも多様で説得力のある2人の動作を生成し、人間のインタラクションに様々な下流の応用を可能にする。 We have recently seen tremendous progress in diffusion advances for generating realistic human motions. Yet, they largely disregard the rich multi-human interactions. In this paper, we present InterGen, an effective diffusion-based approach that incorporates human-to-human interactions into the motion diffusion process, which enables layman users to customize high-quality two-person interaction motions, with only text guidance. We first contribute a multimodal dataset, named InterHuman. It consists of about 107M frames for diverse two-person interactions, with accurate skeletal motions and 16,756 natural language descriptions. For the algorithm side, we carefully tailor the motion diffusion model to our two-person interaction setting. To handle the symmetry of human identities during interactions, we propose two cooperative transformer-based denoisers that explicitly share weights, with a mutual attention mechanism to further connect the two denoising processes. Then, we propose a novel representation for motion input in our interaction diffusion model, which explicitly formulates the global relations between the two performers in the world frame. We further introduce two novel regularization terms to encode spatial relations, equipped with a corresponding damping scheme during the training of our interaction diffusion model. Extensive experiments validate the effectiveness and generalizability of InterGen. Notably, it can generate more diverse and compelling two-person motions than previous methods and enables various downstream applications for human interactions. | 翻訳日:2023-04-13 15:38:43 公開日:2023-04-12 |
# 光スイッチを用いた時間ビングリーンベルガー-ホーネ-ザイリンガー状態の生成 Generation of a time-bin Greenberger--Horne--Zeilinger state with an optical switch ( http://arxiv.org/abs/2304.05683v1 ) ライセンス: Link先を確認 | Hsin-Pin Lo, Takuya Ikuta, Koji Azuma, Toshimori Honjo, William J. Munro, and Hiroki Takesue | (参考訳) 多成分絡み合いは量子情報処理において重要な資源であり、二成分系よりもよりリッチな現象と強い相関を示す。
この利点はマルチユーザーアプリケーションにも反映されている。
多くの実証では光偏光量子ビットを用いたが、偏光モード分散は光偏光量子ビットの光ファイバー透過を制限している。
したがって、時間ビン量子ビットは量子通信システムにおいて特に重要な役割を果たす。
ここでは、2x2光スイッチを時間依存ビームスプリッタとして使用し、自発的なパラメトリックダウンコンバージョン源と弱いコヒーレントパルスからタイムビンベル状態を絡める3光子時間ビングリーンベルガー・ホルン・ザイリンガー状態を生成する。
3光子時間ビンGHZ状態を特徴付けるため,メルミン不等式に反する測定を行い,量子状態トモグラフィーを用いて密度行列の完全再構成を行い,70%を超える状態忠実度を示した。
我々の3光子GHZ状態は、長距離マルチユーザ量子通信に使用できると期待している。 Multipartite entanglement is a critical resource in quantum information processing that exhibits much richer phenomenon and stronger correlations than in bipartite systems. This advantage is also reflected in its multi-user applications. Although many demonstrations have used photonic polarization qubits, polarization-mode dispersion confines the transmission of photonic polarization qubits through an optical fiber. Consequently, time-bin qubits have a particularly important role to play in quantum communication systems. Here, we generate a three-photon time-bin Greenberger-Horne-Zeilinger (GHZ) state using a 2 x 2 optical switch as a time-dependent beam splitter to entangle time-bin Bell states from a spontaneous parametric down-conversion source and a weak coherent pulse. To characterize the three-photon time-bin GHZ state, we performed measurement estimation, showed a violation of the Mermin inequality, and used quantum state tomography to fully reconstruct a density matrix, which shows a state fidelity exceeding 70%. We expect that our three-photon time-bin GHZ state can be used for long-distance multi-user quantum communication. | 翻訳日:2023-04-13 15:38:23 公開日:2023-04-12 |
# 線形畳み込みネットワークの機能空間と臨界点 Function Space and Critical Points of Linear Convolutional Networks ( http://arxiv.org/abs/2304.05752v1 ) ライセンス: Link先を確認 | Kathl\'en Kohn, Guido Mont\'ufar, Vahid Shahverdi, Matthew Trager | (参考訳) 1次元畳み込み層を有する線形ネットワークの幾何構造について検討する。
これらのネットワークの函数空間はスパース分解を許容する多項式の半代数族と同一視できる。
我々は,ネットワークアーキテクチャが関数空間の次元,境界,特異点に与える影響を分析する。
また,ネットワークのパラメータ化マップの臨界点について述べる。
さらに,2乗誤差損失を持つネットワークをトレーニングする最適化問題についても検討した。
すべてのストライドが1より大きくジェネリックなデータを持つアーキテクチャでは、最適化問題の非ゼロ臨界点は関数空間の滑らかな内部点であることが証明される。
この性質は、密度線形ネットワークや直線畳み込みネットワークでは偽であることが知られている。 We study the geometry of linear networks with one-dimensional convolutional layers. The function spaces of these networks can be identified with semi-algebraic families of polynomials admitting sparse factorizations. We analyze the impact of the network's architecture on the function space's dimension, boundary, and singular points. We also describe the critical points of the network's parameterization map. Furthermore, we study the optimization problem of training a network with the squared error loss. We prove that for architectures where all strides are larger than one and generic data, the non-zero critical points of that optimization problem are smooth interior points of the function space. This property is known to be false for dense linear networks and linear convolutional networks with stride one. | 翻訳日:2023-04-13 15:31:10 公開日:2023-04-12 |
# Segment Anythingは必ずしも完璧ではない: SAMによる現実世界のさまざまなアプリケーションに関する調査 Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications ( http://arxiv.org/abs/2304.05750v1 ) ライセンス: Link先を確認 | Wei Ji, Jingjing Li, Qi Bi, Wenbo Li, Li Cheng | (参考訳) 最近、Meta AI Researchは、前例のないほど大きなセグメンテーションデータセット(SA-1B)で事前訓練された、一般的な、プロンプト可能なセグメンテーションモデル(SAM)にアプローチしている。
ダブルがなければSAMの出現は、多くの実用的なイメージセグメンテーションアプリケーションにとって大きなメリットをもたらすだろう。
本研究では, 自然画像, 農業, 製造, リモートセンシング, 医療など, 様々な応用分野におけるsamの性能について, 一連の興味深い調査を行った。
我々はSAMの利点と限界を分析し議論し、セグメンテーションタスクの今後の展開を展望する。
我々の研究は、新しいアルゴリズムや理論を提案するのではなく、実際にSAMの包括的なビューを提供する。
この研究は、将来の一般的なセグメンテーションに向けた研究活動を促進する洞察を提供するものと期待されている。 Recently, Meta AI Research approaches a general, promptable Segment Anything Model (SAM) pre-trained on an unprecedentedly large segmentation dataset (SA-1B). Without a double, the emergence of SAM will yield significant benefits for a wide array of practical image segmentation applications. In this study, we conduct a series of intriguing investigations into the performance of SAM across various applications, particularly in the fields of natural images, agriculture, manufacturing, remote sensing, and healthcare. We analyze and discuss the benefits and limitations of SAM and provide an outlook on future development of segmentation tasks. Note that our work does not intend to propose new algorithms or theories, but rather provide a comprehensive view of SAM in practice. This work is expected to provide insights that facilitate future research activities toward generic segmentation. | 翻訳日:2023-04-13 15:31:00 公開日:2023-04-12 |
# データ拡張による連続時間動的グラフネットワークの長期予測性能の向上 Boosting long-term forecasting performance for continuous-time dynamic graph networks via data augmentation ( http://arxiv.org/abs/2304.05749v1 ) ライセンス: Link先を確認 | Yuxing Tian, Mingjie Zhu, Jiachi Luo, Song Li | (参考訳) 本研究では,実世界のモデリングにおいて重要な連続時間動的グラフネットワーク(CTDGN)の長期予測(LTF)に焦点を当てた。
既存のctdgnは、複雑な時間的依存関係をキャプチャする能力があるため、時間的グラフデータのモデリングに有効であるが、歴史的データに対する実質的な要件があるため、ltfではうまく動作しない。
この問題を解消するため、最も直感的な方法はデータ拡張である。
本研究では,ctdgnsの中間層への埋め込みに不確実性を導入するために不確実性推定を行うためのプラグ・アンド・プレイモジュールである,ununderline{m}ix\underline{u}p (ummu) を提案する。
UmmUはパラメータの数を増やすことなく任意のCTDGNに簡単に挿入できる。
実世界の3つの動的グラフデータセットの総合的な実験を行い、UmmUがCTDGNの長期予測性能を効果的に向上できることを示した。 This study focuses on long-term forecasting (LTF) on continuous-time dynamic graph networks (CTDGNs), which is important for real-world modeling. Existing CTDGNs are effective for modeling temporal graph data due to their ability to capture complex temporal dependencies but perform poorly on LTF due to the substantial requirement for historical data, which is not practical in most cases. To relieve this problem, a most intuitive way is data augmentation. In this study, we propose \textbf{\underline{U}ncertainty \underline{M}asked \underline{M}ix\underline{U}p (UmmU)}: a plug-and-play module that conducts uncertainty estimation to introduce uncertainty into the embedding of intermediate layer of CTDGNs, and perform masked mixup to further enhance the uncertainty of the embedding to make it generalize to more situations. UmmU can be easily inserted into arbitrary CTDGNs without increasing the number of parameters. We conduct comprehensive experiments on three real-world dynamic graph datasets, the results demonstrate that UmmU can effectively improve the long-term forecasting performance for CTDGNs. | 翻訳日:2023-04-13 15:30:47 公開日:2023-04-12 |
# 非エルミート系における位相的モノモード Topological Monomodes in non-Hermitian Systems ( http://arxiv.org/abs/2304.05748v1 ) ライセンス: Link先を確認 | E. Slootman, W. Cherifi, L. Eek, R. Arouca, M. Bourennane, C. Morais Smith | (参考訳) 損失工学によって生成された非エルミート系におけるトポロジカルモノモデの存在を理論的、実験的に示す。
これは、エッジ状態は必ず $\mathbb{z}_2$ symmetry-protected topological systems の対になるという考えに挑戦する。
非エルミート 1D と 2D SSH モデルにおけるモノモードの存在を理論的に示す。
さらに、対応する位相不変量を計算する(非エルミート)対称性の観点で系を分類する。
この理論を裏付けるために、非エルミート1D SSH鎖でモノモードが観測されるフォトニック格子の実験を行う。 We show theoretically and experimentally the existence of topological monomodes in non-Hermitian systems created by loss engineering. This challenges the idea that edge states always come in pairs in $\mathbb{Z}_2$ symmetry-protected topological systems. We theoretically show the existence of a monomode in a non-Hermitian 1D and 2D SSH models. Furthermore, we classify the systems in terms of the (non-Hermitian) symmetries that are present and calculate the corresponding topological invariant. To corroborate the theory, we present experiments in photonic lattices in which a monomode is observed in a non-Hermitian 1D SSH chain. | 翻訳日:2023-04-13 15:30:24 公開日:2023-04-12 |
# 深層学習を用いた胎児画像中の物体の探索と検出の学習 Learning to search for and detect objects in foveal images using deep learning ( http://arxiv.org/abs/2304.05741v1 ) ライセンス: Link先を確認 | Beatriz Paula and Plinio Moreno | (参考訳) 人間の視覚システムは解像度の異なる画像を処理し、葉は網膜のごく一部であり、最高視力領域を捉え、視野の周囲に向かって徐々に減少する。
しかし、既存のオブジェクトローカライゼーション手法の大半は、空間不変解像度の画像センサが取得した画像に依存しており、生物学的注意機構を無視している。
利子プーリングの領域として、画像中の特定のクラスを探索する人間の客観的な注意をエミュレートする固定化予測モデルを用いる。
そして、各固定点の焦点画像に分類して、そのシーンに目標が存在するか否かを判定する。
この2段階パイプライン方式を通じて,高レベルあるいはパノプティカルな特徴を生かし,よりスムーズな固定列に対する地上構造ラベル関数を,より空間的構造を考慮した形で提案する。
最後に、固定予測と検出を同時に行うことができ、2つのタスク間の知識伝達を可能にする新しいデュアルタスクモデルを提案する。
両タスクの相補的な性質から,学習プロセスは知識の共有から恩恵を受け,前回のアプローチのベースラインスコアと比較した場合のパフォーマンスが向上することがわかった。 The human visual system processes images with varied degrees of resolution, with the fovea, a small portion of the retina, capturing the highest acuity region, which gradually declines toward the field of view's periphery. However, the majority of existing object localization methods rely on images acquired by image sensors with space-invariant resolution, ignoring biological attention mechanisms. As a region of interest pooling, this study employs a fixation prediction model that emulates human objective-guided attention of searching for a given class in an image. The foveated pictures at each fixation point are then classified to determine whether the target is present or absent in the scene. Throughout this two-stage pipeline method, we investigate the varying results obtained by utilizing high-level or panoptic features and provide a ground-truth label function for fixation sequences that is smoother, considering in a better way the spatial structure of the problem. Finally, we present a novel dual task model capable of performing fixation prediction and detection simultaneously, allowing knowledge transfer between the two tasks. We conclude that, due to the complementary nature of both tasks, the training process benefited from the sharing of knowledge, resulting in an improvement in performance when compared to the previous approach's baseline scores. | 翻訳日:2023-04-13 15:30:13 公開日:2023-04-12 |
# 機械学習説明における不確かさのコミュニケーション:予測プロセスモニタリングのための可視化分析アプローチ Communicating Uncertainty in Machine Learning Explanations: A Visualization Analytics Approach for Predictive Process Monitoring ( http://arxiv.org/abs/2304.05736v1 ) ライセンス: Link先を確認 | Nijat Mehdiyev, Maxim Majlatow and Peter Fettke | (参考訳) データ駆動のインテリジェントシステムが進歩するにつれ、信頼性と透明性を備えた意思決定メカニズムの必要性がますます重要になっている。
したがって、信頼に値するビジネスおよび運用プロセス分析を促進するために、不確実性定量化とモデル説明可能性アプローチを統合することが不可欠である。
本研究では,PDP(Partial Dependence Plots)やICE(Personal Conditional expectation)プロットなど,グローバルおよびローカルなポストホックな説明手法においてモデル不確実性を効果的に伝達する方法を検討する。
さらに,このような方法論の統合を容易にするため,適切な可視化分析手法を検討する。
これら2つの研究方向を組み合わせることで、意思決定者は説明駆動行動可能な洞察の妥当性を正当化できるだけでなく、その信頼性を検証することができる。
最後に,本研究は,提案手法の適合性を評価するためのエキスパートインタビューと,製造領域における実世界の予測プロセス監視問題に対するインタフェース設計を含む。 As data-driven intelligent systems advance, the need for reliable and transparent decision-making mechanisms has become increasingly important. Therefore, it is essential to integrate uncertainty quantification and model explainability approaches to foster trustworthy business and operational process analytics. This study explores how model uncertainty can be effectively communicated in global and local post-hoc explanation approaches, such as Partial Dependence Plots (PDP) and Individual Conditional Expectation (ICE) plots. In addition, this study examines appropriate visualization analytics approaches to facilitate such methodological integration. By combining these two research directions, decision-makers can not only justify the plausibility of explanation-driven actionable insights but also validate their reliability. Finally, the study includes expert interviews to assess the suitability of the proposed approach and designed interface for a real-world predictive process monitoring problem in the manufacturing domain. | 翻訳日:2023-04-13 15:29:49 公開日:2023-04-12 |
# クロスドメイン疾患分類のためのマイズショットクラスインクリメンタルラーニング Few-shot Class-incremental Learning for Cross-domain Disease Classification ( http://arxiv.org/abs/2304.05734v1 ) ライセンス: Link先を確認 | Hao Yang, Weijian Huang, Jiarun Liu, Cheng Li, Shanshan Wang | (参考訳) 限られたサンプルから新しいクラスを段階的に学ぶ能力は、実際の臨床応用のための人工知能システムの開発に不可欠である。
既存の漸進的学習技術はこの問題に対処しようと試みているが、サンプルが様々な領域から来ている場合、ラベル付きデータはほとんどない。
本稿では,cdfscil(cross-domain few-shot incremental learning)問題について検討する。
CDFSCILは、非常に少数のラベル付きサンプルから新しいクラスを段階的に学習するモデルを必要とし、新しいクラスはターゲット空間と大きく異なるかもしれない。
この課題に対処するため,クロスドメイン拡張制約とクロスドメインデータ拡張手法を提案する。
MedMNISTの実験から,本手法の分類性能は,他の漸進学習法よりも優れていることが示された。 The ability to incrementally learn new classes from limited samples is crucial to the development of artificial intelligence systems for real clinical application. Although existing incremental learning techniques have attempted to address this issue, they still struggle with only few labeled data, particularly when the samples are from varied domains. In this paper, we explore the cross-domain few-shot incremental learning (CDFSCIL) problem. CDFSCIL requires models to learn new classes from very few labeled samples incrementally, and the new classes may be vastly different from the target space. To counteract this difficulty, we propose a cross-domain enhancement constraint and cross-domain data augmentation method. Experiments on MedMNIST show that the classification performance of this method is better than other similar incremental learning methods. | 翻訳日:2023-04-13 15:29:32 公開日:2023-04-12 |
# sketchanimar: スケッチに基づく3d動物の微細な検索 SketchANIMAR: Sketch-based 3D Animal Fine-Grained Retrieval ( http://arxiv.org/abs/2304.05731v1 ) ライセンス: Link先を確認 | Trung-Nghia Le, Tam V. Nguyen, Minh-Quan Le, Trong-Thuan Nguyen, Viet-Tham Huynh, Trong-Le Do, Khanh-Duy Le, Mai-Khiem Tran, Nhat Hoang-Xuan, Thang-Long Nguyen-Ho, Vinh-Tiep Nguyen, Nhat-Quynh Le-Pham, Huu-Phuc Pham, Trong-Vu Hoang, Quang-Binh Nguyen, Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Ngoc-Linh Nguyen-Ha, Tuong-Vy Truong-Thuy, Truong Hoai Phong, Tuong-Nghiem Diep, Khanh-Duy Ho, Xuan-Hieu Nguyen, Thien-Phuc Tran, Tuan-Anh Yang, Kim-Phat Tran, Nhu-Vinh Hoang, Minh-Quang Nguyen, Hoai-Danh Vo, Minh-Hoa Doan, Hai-Dang Nguyen, Akihiro Sugimoto, Minh-Triet Tran | (参考訳) 近年、3dオブジェクトの検索は、コンピュータビジョン、コンピュータグラフィックス、仮想現実、拡張現実といった幅広い応用により、非常に重要になっている。
しかし、3Dオブジェクトの検索は、形状、大きさ、テクスチャが異なり、多角形や頂点が多様である3Dモデルの複雑な性質により、大きな課題を呈している。
そこで本研究では,スケッチクエリを用いたデータセットからの3D動物モデルの検索と,利用可能なスケッチによる3Dモデルへのアクセスの迅速化に焦点を当てた,新しいSHRECチャレンジトラックを提案する。
さらに,本研究では,711種のユニークな3D動物モデルと140種類のスケッチクエリからなるANIMARという新しいデータセットを構築した。
コンクールでは,複雑で詳細なスケッチに基づいて3Dモデルを取得する必要がある。
8チーム204ランで満足のいく結果が得られました。
さらなる改善が必要であるが、提案課題は3Dオブジェクト検索の分野におけるさらなる研究を動機付ける可能性があり、幅広いアプリケーションに利益をもたらす可能性がある。
また,特徴抽出およびマッチング技術の改善や,検索性能を評価するためのより多様なデータセットの作成など,今後の研究分野に関する洞察も提供する。 The retrieval of 3D objects has gained significant importance in recent years due to its broad range of applications in computer vision, computer graphics, virtual reality, and augmented reality. However, the retrieval of 3D objects presents significant challenges due to the intricate nature of 3D models, which can vary in shape, size, and texture, and have numerous polygons and vertices. To this end, we introduce a novel SHREC challenge track that focuses on retrieving relevant 3D animal models from a dataset using sketch queries and expedites accessing 3D models through available sketches. Furthermore, a new dataset named ANIMAR was constructed in this study, comprising a collection of 711 unique 3D animal models and 140 corresponding sketch queries. Our contest requires participants to retrieve 3D models based on complex and detailed sketches. We receive satisfactory results from eight teams and 204 runs. Although further improvement is necessary, the proposed task has the potential to incentivize additional research in the domain of 3D object retrieval, potentially yielding benefits for a wide range of applications. We also provide insights into potential areas of future research, such as improving techniques for feature extraction and matching, and creating more diverse datasets to evaluate retrieval performance. | 翻訳日:2023-04-13 15:29:19 公開日:2023-04-12 |
# ニューラルネットワークを用いた動的グラフ表現学習:サーベイ Dynamic Graph Representation Learning with Neural Networks: A Survey ( http://arxiv.org/abs/2304.05729v1 ) ライセンス: Link先を確認 | Leshanshui Yang, S\'ebastien Adam, Cl\'ement Chatelain | (参考訳) 近年、動的グラフ(DG)表現は、トポロジ的情報と時間的情報の両方をコンパクトな表現に統合する能力により、動的システムのモデリングにますます利用されている。
動的グラフは、標準的な数値表現では表現できない、ソーシャルネットワークの予測、レコメンデータシステム、交通予知、脳波解析などのアプリケーションを効率的に扱うことができる。
動的グラフ表現の出現の直接的な結果として、動的グラフ学習は新しい機械学習問題として出現し、シーケンシャル・テンポラルなデータ処理と静的グラフ学習の両方の課題を組み合わせる。
この研究領域では、動的グラフニューラルネットワーク(DGNN)がアートアプローチの最先端となり、近年では多数のモデルが提案されている。
本稿では,動的グラフ学習に関連する問題とモデルをレビューすることを目的とする。
様々な動的グラフ教師付き学習設定を分析して考察する。
我々は、時間情報のモデル化方法に関して、既存のモデル間の類似性と相違を識別する。
最後に、動的グラフ学習問題に直面した場合のDGNNデザイナの一般的なガイドラインを提供する。 In recent years, Dynamic Graph (DG) representations have been increasingly used for modeling dynamic systems due to their ability to integrate both topological and temporal information in a compact representation. Dynamic graphs allow to efficiently handle applications such as social network prediction, recommender systems, traffic forecasting or electroencephalography analysis, that can not be adressed using standard numeric representations. As a direct consequence of the emergence of dynamic graph representations, dynamic graph learning has emerged as a new machine learning problem, combining challenges from both sequential/temporal data processing and static graph learning. In this research area, Dynamic Graph Neural Network (DGNN) has became the state of the art approach and plethora of models have been proposed in the very recent years. This paper aims at providing a review of problems and models related to dynamic graph learning. The various dynamic graph supervised learning settings are analysed and discussed. We identify the similarities and differences between existing models with respect to the way time information is modeled. Finally, general guidelines for a DGNN designer when faced with a dynamic graph learning problem are provided. | 翻訳日:2023-04-13 15:28:59 公開日:2023-04-12 |
# ディープニューラルネットワークにおけるプリエンプティブプルーニングクリーバーハンス戦略 Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks ( http://arxiv.org/abs/2304.05727v1 ) ライセンス: Link先を確認 | Lorenz Linhardt, Klaus-Robert M\"uller, Gr\'egoire Montavon | (参考訳) 説明可能なAIは、マシンラーニングモデルを検証するための一般的なツールになっている。
説明されたモデルの決定戦略とユーザのドメイン知識(例えば賢いハンス効果)のミスマッチも、欠陥モデルを改善するための出発点として認識されている。
しかし、ユーザと説明が同意すれば、何をすべきかは明確ではない。
本稿では、ユーザによる説明の受け入れは、MLモデルが適切に機能する保証ではないことを実証する。
モデルに隠された欠陥を緩和することはできるが、我々は、肯定的な説明フィードバックの対象になっていないMLモデルの変動を選択的に誘発する新しい方法、Explaination-Guided Exposure Minimization (EGEM) を提供することによってこれを実証する。
自然画像データを用いた実験により,本手法は隠れたClever Hans戦略への依存を強く低減し,その結果,新たなデータに対する精度の向上につながることが示された。 Explainable AI has become a popular tool for validating machine learning models. Mismatches between the explained model's decision strategy and the user's domain knowledge (e.g. Clever Hans effects) have also been recognized as a starting point for improving faulty models. However, it is less clear what to do when the user and the explanation agree. In this paper, we demonstrate that acceptance of explanations by the user is not a guarantee for a ML model to function well, in particular, some Clever Hans effects may remain undetected. Such hidden flaws of the model can nevertheless be mitigated, and we demonstrate this by contributing a new method, Explanation-Guided Exposure Minimization (EGEM), that premptively prunes variations in the ML model that have not been the subject of positive explanation feedback. Experiments on natural image data demonstrate that our approach leads to models that strongly reduce their reliance on hidden Clever Hans strategies, and consequently achieve higher accuracy on new data. | 翻訳日:2023-04-13 15:28:42 公開日:2023-04-12 |
# エントロピー不確実性関係に基づく2量子絡み合いの逐次共有 Sequential sharing of two-qudit entanglement based on entropic uncertainty relation ( http://arxiv.org/abs/2304.05791v1 ) ライセンス: Link先を確認 | Ming-Liang Hu, Heng Fan | (参考訳) 絡み合いと不確かさの関係は量子論の2つの焦点である。
異なるポインターを用いた弱い測定による$(d\times d)$-dimensional系における絡み合い共有とエントロピー不確実性関係を関連づける。
我々は, 絡み合ったペアを複数のアリスに分散する一方の逐次測定と, 絡み合ったペアを複数のアリスとボブに分散する一方の逐次測定の両方のシナリオを考察する。
エンタングルメントを共有する観測者の最大数は、測定シナリオ、装置のポインタ状態、各サブシステムの局所次元$d$に強く依存するが、エンタングルメント共有を達成するために必要な最小測定精度は、$d$の増加とともにその漸近値に低下する。
観測者の最大数は最大の絡み合いではなく、十分な絡み合いがある場合でも変化しない。 Entanglement and uncertainty relation are two focuses of quantum theory. We relate entanglement sharing to entropic uncertainty relation in a $(d\times d)$-dimensional system via weak measurements with different pointers. We consider both the scenarios of one-sided sequential measurements in which the entangled pair is distributed to multiple Alices and one Bob and two-sided sequential measurements in which the entangled pair is distributed to multiple Alices and Bobs. It is found that the maximum number of observers sharing the entanglement strongly depends on the measurement scenarios, the pointer states of the apparatus, and the local dimension $d$ of each subsystem, while the required minimum measurement precision to achieve entanglement sharing decreases to its asymptotic value with the increase of $d$. The maximum number of observers remain unaltered even when the state is not maximally entangled but has strong enough entanglement. | 翻訳日:2023-04-13 15:22:47 公開日:2023-04-12 |
# 次元の呪いを伴わない複合関数のディープニューラルネットワーク近似 Deep neural network approximation of composite functions without the curse of dimensionality ( http://arxiv.org/abs/2304.05790v1 ) ライセンス: Link先を確認 | Adrian Riekert | (参考訳) 本稿では,直交線形単位(ReLU)の活性化を伴うディープニューラルネットワーク(DNN)によって近似できる高次元連続関数の一般クラスを次元性の呪いなしに同定する。
言い換えれば、DNNパラメータの数は、入力次元と近似誤差において最も多項式的に増加する。
このクラス内の関数は、積、最大値、ある種の平行化リプシッツ連続関数を含む特殊関数の合成の潜在的非有界数として表現することができる。 In this article we identify a general class of high-dimensional continuous functions that can be approximated by deep neural networks (DNNs) with the rectified linear unit (ReLU) activation without the curse of dimensionality. In other words, the number of DNN parameters grows at most polynomially in the input dimension and the approximation error. The functions in our class can be expressed as a potentially unbounded number of compositions of special functions which include products, maxima, and certain parallelized Lipschitz continuous functions. | 翻訳日:2023-04-13 15:22:30 公開日:2023-04-12 |
# 西スラヴ語モデルにおけるジェンダーバイアスの測定 Measuring Gender Bias in West Slavic Language Models ( http://arxiv.org/abs/2304.05783v1 ) ライセンス: Link先を確認 | Sandra Martinkov\'a, Karolina Sta\'nczak Isabelle Augenstein | (参考訳) トレーニング済みの言語モデルは、基礎となるデータセットからダウンストリームタスクへのバイアスを持続することが知られている。
しかし、これらの発見は主に英語の単言語モデルに基づいているが、英語以外の言語モデルでコード化されたバイアスに関する調査研究は少ない。
本稿では,西スラヴ語モデルにおけるジェンダーバイアスの分析により,このギャップを埋める。
チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリ対象に対する性別バイアスを測定した。
単言語と多言語の両方の言語モデルを用いて文を完成させ,マスキング言語モデリングの目的に適合性を評価する。
次に、西スラヴ語モデルで符号化されたジェンダーバイアスを、生成した単語の毒性とジェンダーネスを定量化する。
これらの言語モデルは、被験者の性別に依存する有害な完了を生成する。
チェコ語、スロバキア語、ポーランド語のモデルは、被検者として男性に対してより傷つきやすい完成をもたらしており、検査の結果、暴力、死、病気に関連する完成が原因であることが判明しました。 Pre-trained language models have been known to perpetuate biases from the underlying datasets to downstream tasks. However, these findings are predominantly based on monolingual language models for English, whereas there are few investigative studies of biases encoded in language models for languages beyond English. In this paper, we fill this gap by analysing gender bias in West Slavic language models. We introduce the first template-based dataset in Czech, Polish, and Slovak for measuring gender bias towards male, female and non-binary subjects. We complete the sentences using both mono- and multilingual language models and assess their suitability for the masked language modelling objective. Next, we measure gender bias encoded in West Slavic language models by quantifying the toxicity and genderness of the generated words. We find that these language models produce hurtful completions that depend on the subject's gender. Perhaps surprisingly, Czech, Slovak, and Polish language models produce more hurtful completions with men as subjects, which, upon inspection, we find is due to completions being related to violence, death, and sickness. | 翻訳日:2023-04-13 15:22:23 公開日:2023-04-12 |
# 複数RDF知識グラフを用いたChatGPT応答の強化 Using Multiple RDF Knowledge Graphs for Enriching ChatGPT Responses ( http://arxiv.org/abs/2304.05774v1 ) ライセンス: Link先を確認 | Michalis Mountantonakis and Yannis Tzitzikas | (参考訳) 人工知能のchatgptチャットボックスは、多くの知識分野にまたがって、詳細な回答と明瞭な回答を提供する。
しかし、多くの場合、妥当な響きを返すが、誤りまたは不正確な反応を返すが、証拠は得られない。
したがって、任意のユーザは、回答の正確性をチェックしたり、応答の実体に関するさらなる情報を見つけるために、さらに検索する必要がある。
同時に、高品質な構造化データを提供する実際のドメインに対してRDF知識グラフ(KG)が急増している。
本稿では,ChatGPT と RDF KGs の組み合わせを実現するために,GPToLODS と呼ばれる研究プロトタイプを提案する。
特に、LODシンデシスKG(400のRDF KGと4億1200万以上のエンティティの統合データを含む)への統計とハイパーリンクで応答の各エンティティを識別し、注釈する。
このようにして、エンティティの内容を充実させ、リアルタイムに応答の事実の事実チェックと検証を行うことが可能である。 There is a recent trend for using the novel Artificial Intelligence ChatGPT chatbox, which provides detailed responses and articulate answers across many domains of knowledge. However, in many cases it returns plausible-sounding but incorrect or inaccurate responses, whereas it does not provide evidence. Therefore, any user has to further search for checking the accuracy of the answer or/and for finding more information about the entities of the response. At the same time there is a high proliferation of RDF Knowledge Graphs (KGs) over any real domain, that offer high quality structured data. For enabling the combination of ChatGPT and RDF KGs, we present a research prototype, called GPToLODS, which is able to enrich any ChatGPT response with more information from hundreds of RDF KGs. In particular, it identifies and annotates each entity of the response with statistics and hyperlinks to LODsyndesis KG (which contains integrated data from 400 RDF KGs and over 412 million entities). In this way, it is feasible to enrich the content of entities and to perform fact checking and validation for the facts of the response at real time. | 翻訳日:2023-04-13 15:22:06 公開日:2023-04-12 |
# 肖像画の画質評価データセット An Image Quality Assessment Dataset for Portraits ( http://arxiv.org/abs/2304.05772v1 ) ライセンス: Link先を確認 | Nicolas Chahine, Ana-Stefania Calarasanu, Davide Garcia-Civiero, Theo Cayla, Sira Ferradans, Jean Ponce (NYU) | (参考訳) スマートフォンの写真の需要は年々増え続けており、特にポートレート写真の分野では増え続けている。
したがって、メーカーはスマートフォンカメラの開発を通じて知覚品質基準を使用する。
このコストのかかる手順は、画像品質評価(IQA)の自動学習手法に部分的に置き換えることができる。
主観的な性質から,クラウドソーシングに広く用いられている平均意見スコア (mos) に欠けている特徴である iqa プロセスの一貫性を推定し,保証する必要がある。
さらに、既存の盲点IQA(BIQA)データセットは、アノテーションの品質を低下させるクロスコンテンツアセスメントの難しさにはほとんど注意を払わない。
本稿では,100台のスマートフォンが事前に定義した50のシナリオの5116枚の画像から,多種多様なブランドやモデル,ユースケースをカバーする,ポートレート固有のiqaデータセットであるpiq23を紹介する。
このデータセットには、さまざまな性別や民族の個人が含まれており、公開研究に使用される写真について明示的で情報的な同意を与えている。
3つの画像属性(顔の細部保存、顔のターゲットの露出、全体的な画像品質)について、30以上の画像品質専門家から収集されたペアワイズ比較(pwc)によってアノテートされる。
これらのアノテーションの詳細な統計解析により、piq23に対する一貫性を評価することができる。
最後に,既存のベースラインと比較して,セマンティック情報(画像コンテキスト)がIQA予測を改善することができることを示す。
提案された統計分析とBIQAアルゴリズムと共にデータセットが利用可能である。 Year after year, the demand for ever-better smartphone photos continues to grow, in particular in the domain of portrait photography. Manufacturers thus use perceptual quality criteria throughout the development of smartphone cameras. This costly procedure can be partially replaced by automated learning-based methods for image quality assessment (IQA). Due to its subjective nature, it is necessary to estimate and guarantee the consistency of the IQA process, a characteristic lacking in the mean opinion scores (MOS) widely used for crowdsourcing IQA. In addition, existing blind IQA (BIQA) datasets pay little attention to the difficulty of cross-content assessment, which may degrade the quality of annotations. This paper introduces PIQ23, a portrait-specific IQA dataset of 5116 images of 50 predefined scenarios acquired by 100 smartphones, covering a high variety of brands, models, and use cases. The dataset includes individuals of various genders and ethnicities who have given explicit and informed consent for their photographs to be used in public research. It is annotated by pairwise comparisons (PWC) collected from over 30 image quality experts for three image attributes: face detail preservation, face target exposure, and overall image quality. An in-depth statistical analysis of these annotations allows us to evaluate their consistency over PIQ23. Finally, we show through an extensive comparison with existing baselines that semantic information (image context) can be used to improve IQA predictions. The dataset along with the proposed statistical analysis and BIQA algorithms are available: https://github.com/DXOMARK-Research/PIQ2023 | 翻訳日:2023-04-13 15:21:45 公開日:2023-04-12 |
# 国勢調査データを用いた言語モデルにおける規範バイアスおよび記述バイアスの測定 Measuring Normative and Descriptive Biases in Language Models Using Census Data ( http://arxiv.org/abs/2304.05764v1 ) ライセンス: Link先を確認 | Samia Touileb, Lilja {\O}vrelid, Erik Velldal | (参考訳) 本稿では,性別に対する職業の分布が,事前学習された言語モデルにどのように反映されるかを検討する。
このような分布は必ずしも規範的イデアルと一致しないし、必ずしも現実の記述的評価を反映しているわけでもない。
本稿では,事前学習した言語モデルが規範的および記述的職業分布にどの程度整合しているかを測定するためのアプローチを提案する。
この目的のために我々は、フランス、ノルウェー、イギリス、およびアメリカ合衆国の国家統計機関が提供したジェンダー占有分布に関する公式の人口統計情報を利用する。
テンプレートに基づく文を手作業で生成し,その後,英語,フランス語,ノルウェー語を対象とする10種類の言語モデルを選択する。
本研究で導入したスコアシステムは言語に依存しないもので,テンプレートベースの文,職業,言語の組み合わせで使用することができる。
このアプローチは、国勢調査データやその他の人口統計変数の他の次元にも拡張することができる。 We investigate in this paper how distributions of occupations with respect to gender is reflected in pre-trained language models. Such distributions are not always aligned to normative ideals, nor do they necessarily reflect a descriptive assessment of reality. In this paper, we introduce an approach for measuring to what degree pre-trained language models are aligned to normative and descriptive occupational distributions. To this end, we use official demographic information about gender--occupation distributions provided by the national statistics agencies of France, Norway, United Kingdom, and the United States. We manually generate template-based sentences combining gendered pronouns and nouns with occupations, and subsequently probe a selection of ten language models covering the English, French, and Norwegian languages. The scoring system we introduce in this work is language independent, and can be used on any combination of template-based sentences, occupations, and languages. The approach could also be extended to other dimensions of national census data and other demographic variables. | 翻訳日:2023-04-13 15:21:18 公開日:2023-04-12 |
# 技術実践における言語倫理 Languaging Ethics in Technology Practice ( http://arxiv.org/abs/2304.05761v1 ) ライセンス: Link先を確認 | Colin M. Gray, Shruthi Sai Chivukula, Janna Johns, Matthew Will, Ikechukwu Obi, Ziqing Li | (参考訳) 技術実践者によって具現化された倫理は、アイデンティティ、組織的、専門的な複雑さの相互作用に関する単純な定義に抵抗する。
本稿では,ランガジング(ランガジング)という言語概念を分析レンズとして使用し,技術と設計の実践者が日常業務を反映する倫理概念をいかに交渉するかを説明する。
個々の共同制作ワークショップに12人の実践者が参加し,生成的かつ評価的な活動を通じて,日々の作業における倫理的役割を振り返るように促した。
各実践者が言語やアーティファクトを通じて倫理についてどのように推論したかを分析し、実践者が倫理的コミットメントや信念を複雑で時には矛盾する形で記述するために、さまざまな修辞的トロピーを用いたことを発見した。
3つの事例において、倫理が3つの重要な環境発生の領域にまたがる言語を通してどのように交渉されたかを述べる: 倫理に関する実践者の「中核的」信念、これらの中核的信念を形作り、あるいは媒介する内外的な生態要素、そして彼らが報告した最終的境界について。
これらの知見に基づいて,倫理の緩和が技術倫理研究,実践,教育において倫理に定義的かつ実践的に関与する機会を明らかにする。 Ethics as embodied by technology practitioners resists simple definition, particularly as it relates to the interplay of identity, organizational, and professional complexity. In this paper we use the linguistic notion of languaging as an analytic lens to describe how technology and design practitioners negotiate their conception of ethics as they reflect upon their everyday work. We engaged twelve practitioners in individual co-creation workshops, encouraging them to reflect on their ethical role in their everyday work through a series of generative and evaluative activities. We analyzed these data to identify how each practitioner reasoned about ethics through language and artifacts, finding that practitioners used a range of rhetorical tropes to describe their ethical commitments and beliefs in ways that were complex and sometimes contradictory. Across three cases, we describe how ethics was negotiated through language across three key zones of ecological emergence: the practitioner's "core" beliefs about ethics, internal and external ecological elements that shaped or mediated these core beliefs, and the ultimate boundaries they reported refusing to cross. Building on these findings, we describe how the languaging of ethics reveals opportunities to definitionally and practically engage with ethics in technology ethics research, practice, and education. | 翻訳日:2023-04-13 15:21:03 公開日:2023-04-12 |
# 2-Body Pose Forecastingのベストプラクティス Best Practices for 2-Body Pose Forecasting ( http://arxiv.org/abs/2304.05758v1 ) ライセンス: Link先を確認 | Muhammad Rameez Ur Rahman, Luca Scofano, Edoardo De Matteis, Alessandro Flaborea, Alessio Sampieri, Fabio Galasso | (参考訳) 協調的な人間のポーズ予測のタスクは、複数の相互作用する人々の将来のポーズを予測するためのものである。
身体と体の動きの相関により、それぞれ別々に2人の人間を予測することでパフォーマンスが向上する。
しかし、この課題は主に未調査のままだ。
本稿では,人間のポーズ予測の進歩を概観し,身体協調行動予測において最善を尽くす一人称実践の深い評価を行う。
本研究は,GCNおよびFCデコーディングにおける周波数入力表現,時空間分離可能および完全学習可能相互作用の正の効果を検証した。
他の1人のプラクティスは2体に移行しないため、提案されているベストプラクティスは階層的なボディモデリングや注目に基づくインタラクションエンコーディングは含まない。
さらに,エンコーダの2体空間相互作用パラメータに対する新しい初期化手順を提案し,性能と安定性に寄与する。
全体として,提案する2体のポーズ予測ベストプラクティスは,最新のexpiデータセットでは21.9%のパフォーマンス向上を実現しており,新たな初期化が3.5%を占めている。
プロジェクトのページはhttps://www.pinlab.org/bestpractices2bodyを参照。 The task of collaborative human pose forecasting stands for predicting the future poses of multiple interacting people, given those in previous frames. Predicting two people in interaction, instead of each separately, promises better performance, due to their body-body motion correlations. But the task has remained so far primarily unexplored. In this paper, we review the progress in human pose forecasting and provide an in-depth assessment of the single-person practices that perform best for 2-body collaborative motion forecasting. Our study confirms the positive impact of frequency input representations, space-time separable and fully-learnable interaction adjacencies for the encoding GCN and FC decoding. Other single-person practices do not transfer to 2-body, so the proposed best ones do not include hierarchical body modeling or attention-based interaction encoding. We further contribute a novel initialization procedure for the 2-body spatial interaction parameters of the encoder, which benefits performance and stability. Altogether, our proposed 2-body pose forecasting best practices yield a performance improvement of 21.9% over the state-of-the-art on the most recent ExPI dataset, whereby the novel initialization accounts for 3.5%. See our project page at https://www.pinlab.org/bestpractices2body | 翻訳日:2023-04-13 15:20:41 公開日:2023-04-12 |
# ALADIN-NST:ニューラル・スタイル・トランスファーによるアートスタイルの自己教師型非絡み合い表現学習 ALADIN-NST: Self-supervised disentangled representation learning of artistic style through Neural Style Transfer ( http://arxiv.org/abs/2304.05755v1 ) ライセンス: Link先を確認 | Dan Ruta, Gemma Canet Tarres, Alex Black, Andrew Gilbert, John Collomosse | (参考訳) 表現学習(representation learning)は、与えられたサンプルの固有の特性をドメインごとに強く識別するコンパクトで記述的な形式で、ドメインの個々のサルエント特徴を発見することを目的としている。
既存のビジュアルスタイル表現文学作品では、トレーニング中にスタイルを内容から切り離そうと試みている。
これらの分離は完全には達成されていない。
本研究の目的は,画像に描かれた意味的内容から,視覚芸術的スタイルの表現をより強く切り離すことである。
学習信号の測定と駆動にはneural style transfer(nst)を使用し,明示的異種メトリクスを用いた最先端表現学習を実現する。
本稿では,スタイルとコンテンツの絡み合いに強く対処することで,スタイル固有のメトリクスが大幅に向上し,より少ない意味情報をエンコードし,下流のマルチモーダルアプリケーションにおいて最先端の精度が得られることを示す。 Representation learning aims to discover individual salient features of a domain in a compact and descriptive form that strongly identifies the unique characteristics of a given sample respective to its domain. Existing works in visual style representation literature have tried to disentangle style from content during training explicitly. A complete separation between these has yet to be fully achieved. Our paper aims to learn a representation of visual artistic style more strongly disentangled from the semantic content depicted in an image. We use Neural Style Transfer (NST) to measure and drive the learning signal and achieve state-of-the-art representation learning on explicitly disentangled metrics. We show that strongly addressing the disentanglement of style and content leads to large gains in style-specific metrics, encoding far less semantic information and achieving state-of-the-art accuracy in downstream multimodal applications. | 翻訳日:2023-04-13 15:20:20 公開日:2023-04-12 |
# ワイルドフェイスのアンチスプーフィングチャレンジ2023:ベンチマークと結果 Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results ( http://arxiv.org/abs/2304.05753v1 ) ライセンス: Link先を確認 | Dong Wang, Jia Guo, Qiqi Shao, Haochi He, Zhian Chen, Chuanbao Xiao, Ajian Liu, Sergio Escalera, Hugo Jair Escalante, Lei Zhen, Jun Wan, Jiankang Deng | (参考訳) 顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
大幅な進歩にもかかわらず、現実のアプリケーションに対する既存のアプローチの一般化は依然として困難である。
この制限は、公開利用可能なfasデータセットの不足と多様性の欠如に起因する可能性がある。
量に関して言えば、被験者の数は臨界決定要因である。
ほとんどのデータセットは2000人未満の被験者で構成されている。
多様性に関して、データセットの大部分は、反復的な機械的プロセスを使用して制御された環境で収集されたスプーフサンプルから成っている。
このデータ収集手法は、均質化されたサンプルとシナリオの多様性の欠如をもたらす。
これらの欠点に対処するために、制約のない環境で収集された大規模で多様なFASデータセットであるWFASデータセット(Wild Face Anti-Spoofing)を導入する。
本データセットは,321,751人の被験者の853,729枚の画像と,148,169人の生きた被験者の529,571枚の画像を含む。
さらに当社のデータセットは,インターネットから取得したspoofデータと,2dと3dの両方を包含する17のプレゼンテーションアタック(pas)を含む,幅広いシナリオとさまざまな商業センサを包含する。
この新たなデータ収集戦略は、fasデータ多様性を著しく向上させる。
WFASデータセットとプロトコル1(Known-Type)を活用して、CVPR2023ワークショップでWild Face Anti-Spoofing Challengeを開催します。
さらに,Protocol 1 とProtocol 2 (Unknown-Type) を用いた代表メソッドの評価を行った。
チャレンジ結果とベンチマーク基準を詳細に検討し,洞察に富んだ分析を行い,今後の研究への道筋を示唆する。
データセットはInsightfaceでリリースされている。 Face anti-spoofing (FAS) is an essential mechanism for safeguarding the integrity of automated face recognition systems. Despite substantial advancements, the generalization of existing approaches to real-world applications remains challenging. This limitation can be attributed to the scarcity and lack of diversity in publicly available FAS datasets, which often leads to overfitting during training or saturation during testing. In terms of quantity, the number of spoof subjects is a critical determinant. Most datasets comprise fewer than 2,000 subjects. With regard to diversity, the majority of datasets consist of spoof samples collected in controlled environments using repetitive, mechanical processes. This data collection methodology results in homogenized samples and a dearth of scenario diversity. To address these shortcomings, we introduce the Wild Face Anti-Spoofing (WFAS) dataset, a large-scale, diverse FAS dataset collected in unconstrained settings. Our dataset encompasses 853,729 images of 321,751 spoof subjects and 529,571 images of 148,169 live subjects, representing a substantial increase in quantity. Moreover, our dataset incorporates spoof data obtained from the internet, spanning a wide array of scenarios and various commercial sensors, including 17 presentation attacks (PAs) that encompass both 2D and 3D forms. This novel data collection strategy markedly enhances FAS data diversity. Leveraging the WFAS dataset and Protocol 1 (Known-Type), we host the Wild Face Anti-Spoofing Challenge at the CVPR2023 workshop. Additionally, we meticulously evaluate representative methods using Protocol 1 and Protocol 2 (Unknown-Type). Through an in-depth examination of the challenge outcomes and benchmark baselines, we provide insightful analyses and propose potential avenues for future research. The dataset is released under Insightface. | 翻訳日:2023-04-13 15:20:04 公開日:2023-04-12 |
# DiscoGen: 遺伝子制御ネットワークの発見を学ぶ DiscoGen: Learning to Discover Gene Regulatory Networks ( http://arxiv.org/abs/2304.05823v1 ) ライセンス: Link先を確認 | Nan Rosemary Ke, Sara-Jane Dunn, Jorg Bornschein, Silvia Chiappa, Melanie Rey, Jean-Baptiste Lespiau, Albin Cassirer, Jane Wang, Theophane Weber, David Barrett, Matthew Botvinick, Anirudh Goyal, Mike Mozer, Danilo Rezende | (参考訳) 遺伝子制御ネットワーク(GRN)の正確な推論は、生物学における重要な課題である。
GRNは遺伝子間の活性化と阻害の相互作用をモデル化し、自然に因果関係を持つ。
GRNを正確に識別するには摂動データが必要である。
しかし、ほとんどのGRN発見法は観測データのみで動作する。
ニューラルネットワークに基づく因果発見手法の最近の進歩は、介入データの処理、パフォーマンスとスケーラビリティの改善など、因果発見を大幅に改善している。
しかし、生物に最先端(SOTA)因果探索法を適用すると、ノイズの多いデータや多数のサンプルのような課題が生じる。
したがって、これらの課題に対処するには因果発見手法を適用する必要がある。
本稿では,遺伝子の発現計測を行い,介入データを処理できるニューラルネットワークを用いたgrn探索手法であるdiscogenを提案する。
我々のモデルはSOTAニューラルネットワークに基づく因果探索法より優れていることを示す。 Accurately inferring Gene Regulatory Networks (GRNs) is a critical and challenging task in biology. GRNs model the activatory and inhibitory interactions between genes and are inherently causal in nature. To accurately identify GRNs, perturbational data is required. However, most GRN discovery methods only operate on observational data. Recent advances in neural network-based causal discovery methods have significantly improved causal discovery, including handling interventional data, improvements in performance and scalability. However, applying state-of-the-art (SOTA) causal discovery methods in biology poses challenges, such as noisy data and a large number of samples. Thus, adapting the causal discovery methods is necessary to handle these challenges. In this paper, we introduce DiscoGen, a neural network-based GRN discovery method that can denoise gene expression measurements and handle interventional data. We demonstrate that our model outperforms SOTA neural network-based causal discovery methods. | 翻訳日:2023-04-13 15:13:03 公開日:2023-04-12 |
# DUFormer: 航空画像の電力線分割のための新しいアーキテクチャ DUFormer: A Novel Architecture for Power Line Segmentation of Aerial Images ( http://arxiv.org/abs/2304.05821v1 ) ライセンス: Link先を確認 | Deyu An, Qiang Zhang, Jianshu Chao, Ting Li, Feng Qiao, Yong Deng, Zhenpeng Bian, Jia Xu | (参考訳) 電力線は低高度で運用される無人航空機(uav)にとって重大な安全上の脅威となる。
しかし,前景データ(電力線)の小型化や背景情報の多さから,空中画像中の電力線の検出は困難である。
この課題に対処するために,航空画像の電力線検出に特化したセマンティックセグメンテーションアルゴリズムであるDUFormerを提案する。
高い帰納バイアスを持つ畳み込みニューラルネットワーク(cnn)で十分な特徴抽出を行うことは、効率的なトランスフォーマーモデルのトレーニングに有効であると仮定する。
そこで本稿では,重複する機能の再マイニングとトークン化に責任を負うヘビートークンエンコーダを提案する。
このエンコーダは、ピラミッドcnn特徴抽出モジュールと、電力線特徴強調モジュールとを備える。
電力線に対する十分な特徴抽出の後、特徴融合を行い、大域的モデリングにTransformerブロックを使用する。
最終的なセグメンテーション結果は、デコードヘッドの局所的特徴とグローバル特徴を融合して得られる。
さらに,電力線分節化における統合多重損失関数の意義を示す。
提案手法は,TTPLAデータセット上での電力線セグメンテーションにおける最先端性能を実現することを実証した。 Power lines pose a significant safety threat to unmanned aerial vehicles (UAVs) operating at low altitudes. However, detecting power lines in aerial images is challenging due to the small size of the foreground data (i.e., power lines) and the abundance of background information. To address this challenge, we propose DUFormer, a semantic segmentation algorithm designed specifically for power line detection in aerial images. We assume that performing sufficient feature extraction with a convolutional neural network (CNN) that has a strong inductive bias is beneficial for training an efficient Transformer model. To this end, we propose a heavy token encoder responsible for overlapping feature re-mining and tokenization. The encoder comprises a pyramid CNN feature extraction module and a power line feature enhancement module. Following sufficient feature extraction for power lines, the feature fusion is carried out, and then the Transformer block is used for global modeling. The final segmentation result is obtained by fusing local and global features in the decode head. Additionally, we demonstrate the significance of the joint multi-weight loss function in power line segmentation. The experimental results demonstrate that our proposed method achieves the state-of-the-art performance in power line segmentation on the publicly available TTPLA dataset. | 翻訳日:2023-04-13 15:12:50 公開日:2023-04-12 |
# グラデーションフリーテキストインバージョン Gradient-Free Textual Inversion ( http://arxiv.org/abs/2304.05818v1 ) ライセンス: Link先を確認 | Zhengcong Fei, Mingyuan Fan, Junshi Huang | (参考訳) 最近のパーソナライズされたテキスト・ツー・イメージ生成の研究は、通常、特定の主題やいくつかの画像のスタイルに特別なトークンを結び付けることを学習する。
モデル推論のプロセスのみにアクセスすることで、テキストの反転を最適化できるかどうか疑問に思うのは自然です。
テキストの反転を決定するためにフォワード計算が必要なだけであるため、GPUメモリの削減、シンプルなデプロイメント、スケーラブルなモデルに対するセキュアなアクセスといったメリットは維持される。
本稿では,反復的進化戦略において,連続的なテキストの反転を最適化する「emph{gradient-free}」フレームワークを提案する。
具体的には,まず視覚およびテキスト語彙情報を考慮したテキストインバージョンのための適切なトークン埋め込みを初期化する。
次に,部分空間における探索空間の次元縮小と非凸勾配フリー最適化に進化戦略の最適化を分解し,性能損失を伴わない最適化プロセスを著しく高速化する。
提案手法を応用したテキスト・ツー・イメージモデルの性能は,GPU/CPUプラットフォームを改良したグラデーションベースモデルと同等であり,フレキシブルな採用,計算効率が向上することを示した。 Recent works on personalized text-to-image generation usually learn to bind a special token with specific subjects or styles of a few given images by tuning its embedding through gradient descent. It is natural to question whether we can optimize the textual inversions by only accessing the process of model inference. As only requiring the forward computation to determine the textual inversion retains the benefits of less GPU memory, simple deployment, and secure access for scalable models. In this paper, we introduce a \emph{gradient-free} framework to optimize the continuous textual inversion in an iterative evolutionary strategy. Specifically, we first initialize an appropriate token embedding for textual inversion with the consideration of visual and text vocabulary information. Then, we decompose the optimization of evolutionary strategy into dimension reduction of searching space and non-convex gradient-free optimization in subspace, which significantly accelerates the optimization process with negligible performance loss. Experiments in several applications demonstrate that the performance of text-to-image model equipped with our proposed gradient-free method is comparable to that of gradient-based counterparts with variant GPU/CPU platforms, flexible employment, as well as computational efficiency. | 翻訳日:2023-04-13 15:12:32 公開日:2023-04-12 |
# CEC:分散最適化のためのクラウドソーシングベースの進化計算 CEC: Crowdsourcing-based Evolutionary Computation for Distributed Optimization ( http://arxiv.org/abs/2304.05817v1 ) ライセンス: Link先を確認 | Feng-Feng Wei, Wei-Neng Chen, Xiao-Qi Guo, Bowen Zhao, Sang-Woon Jeon and Jun Zhang | (参考訳) クラウドソーシングは、複雑な問題を解決するために群衆の知性を活用する、新興のコンピューティングパラダイムである。
データの収集と処理に加えて、群衆が最適化を行うための大きな需要でもある。
そこで本研究では,クラウドソーシングを進化計算(EC)に導入し,分散最適化のためのクラウドソーシングベースの進化計算(CEC)パラダイムを提案する。
ECはクラウドソーシングの最適化作業に役立ち、クラウドソーシングは大規模分散最適化のためのECの空間的制限を破ることができる。
そこで本稿では,まずクラウドソーシングに基づく分散最適化のパラダイムを紹介する。
次に、CECを詳述する。
CECはサーバとワーカのグループに基づいて最適化を行い、サーバはワーカに大きなタスクをディスパッチする。
労働者はECオプティマイザを通じて有望なソリューションを探し、接続された隣人と協力します。
作業者行動や装置の不均一性による不確実性を排除するため、サーバは、競争的ランキングと不確実性検出戦略を採用し、作業者の協力を導く。
クラウドソーシングによるSwarmオプティマイザは,CECの良好な性能を示すために,大規模な実験の例として実装されている。
ベンチマーク関数と分散クラスタリング最適化問題の比較結果から,cecの可能性を示す。 Crowdsourcing is an emerging computing paradigm that takes advantage of the intelligence of a crowd to solve complex problems effectively. Besides collecting and processing data, it is also a great demand for the crowd to conduct optimization. Inspired by this, this paper intends to introduce crowdsourcing into evolutionary computation (EC) to propose a crowdsourcing-based evolutionary computation (CEC) paradigm for distributed optimization. EC is helpful for optimization tasks of crowdsourcing and in turn, crowdsourcing can break the spatial limitation of EC for large-scale distributed optimization. Therefore, this paper firstly introduces the paradigm of crowdsourcing-based distributed optimization. Then, CEC is elaborated. CEC performs optimization based on a server and a group of workers, in which the server dispatches a large task to workers. Workers search for promising solutions through EC optimizers and cooperate with connected neighbors. To eliminate uncertainties brought by the heterogeneity of worker behaviors and devices, the server adopts the competitive ranking and uncertainty detection strategy to guide the cooperation of workers. To illustrate the satisfactory performance of CEC, a crowdsourcing-based swarm optimizer is implemented as an example for extensive experiments. Comparison results on benchmark functions and a distributed clustering optimization problem demonstrate the potential applications of CEC. | 翻訳日:2023-04-13 15:12:12 公開日:2023-04-12 |
# ベル状態回転のベイズ推定 Bayesian Estimation for Bell State Rotations ( http://arxiv.org/abs/2304.05815v1 ) ライセンス: Link先を確認 | Luke Anastassiou, Jason F. Ralph, Simon Maskell, Pieter Kok | (参考訳) 本稿では,2量子ベル状態に対する3次元回転の影響を考察し,回転パラメータ推定のためのベイズ法を提案する。
粒子フィルタを用いてベル状態測定の列から回転のパラメータを推定し、最適な単一量子ビットの場合に対する結果の改善がハイゼンベルク極限に一致する$\sqrt{2}$因子に近づくことを示した。
また, 推定法の精度が混合状態の純度関数であることを示す。 This paper explores the effect of three-dimensional rotations on two-qubit Bell states and proposes a Bayesian method for the estimation of the parameters of the rotation. We use a particle filter to estimate the parameters of the rotation from a sequence of Bell state measurements and we demonstrate that the resultant improvement over the optimal single qubit case approaches the $\sqrt{2}$ factor that is consistent with the Heisenberg limit. We also demonstrate how the accuracy of the estimation method is a function of the purity of mixed states. | 翻訳日:2023-04-13 15:11:52 公開日:2023-04-12 |
# 分散進化計算に関する一考察 A Survey on Distributed Evolutionary Computation ( http://arxiv.org/abs/2304.05811v1 ) ライセンス: Link先を確認 | Wei-Neng Chen, Feng-Feng Wei, Tian-Fang Zhao, Kay Chen Tan and Jun Zhang | (参考訳) 並列および分散コンピューティングパラダイムの急速な発展は、コンピューティングに大きな革命をもたらした。
進化計算(EC)の本質的な並列性のおかげで、並列および分散コンピューティングシステムにECを実装するのは自然である。
一方、並列コンピューティングシステムが提供する計算能力は、ECの効率性とスケーラビリティを著しく向上させることができる。
一方、データは分散的に収集され、処理されるので、ECに新たな開発方向と新たな課題をもたらします。
本稿では,分散ec (distributed ec,dec) に関する体系的レビューを行う。
まず,decの新しい分類法をトップ設計機構からボトム実装機構へ提案する。
この分類法に基づき、DECに関する既存の研究は、目的、アルゴリズムの並列構造、実装のための並列モデル、実装環境の観点からレビューする。
第2に,decの2つの主な目的,すなわち分散最適化のための並列処理による効率の向上と,分散された個人/サブ集団と部分的情報との協調による分散最適化を実現することを明らかにする。
第3に,dec の目的が空間的分散パラダイムのブームに伴う ec の新興かつ魅力的なトレンドであることに注目しながら,分散最適化を体系的に定義し,それを次元分散,データ分散,客観的分散最適化問題に分類する。
これらの問題の形式的定式化が提供され、これらの問題に関する様々なdec研究が検討されている。
また、DECの設計を啓蒙し、今後の発展への道を開くことを目指して、課題や研究の方向性についても論じる。 The rapid development of parallel and distributed computing paradigms has brought about great revolution in computing. Thanks to the intrinsic parallelism of evolutionary computation (EC), it is natural to implement EC on parallel and distributed computing systems. On the one hand, the computing power provided by parallel computing systems can significantly improve the efficiency and scalability of EC. On the other hand, data are collected and processed in a distributed manner, which brings a novel development direction and new challenges to EC. In this paper, we intend to give a systematic review on distributed EC (DEC). First, a new taxonomy for DEC is proposed from top design mechanism to bottom implementation mechanism. Based on this taxonomy, existing studies on DEC are reviewed in terms of purpose, parallel structure of the algorithm, parallel model for implementation, and the implementation environment. Second, we clarify two major purposes of DEC, i.e., improving efficiency through parallel processing for centralized optimization and cooperating distributed individuals/sub-populations with partial information to perform distributed optimization. Third, noting that the latter purpose of DEC is an emerging and attractive trend for EC with the booming of spatially distributed paradigms, this paper gives a systematic definition of the distributed optimization and classifies it into dimension distributed-, data distributed-, and objective distributed-optimization problems. Formal formulations for these problems are provided and various DEC studies on these problems are reviewed. We also discuss challenges and potential research directions, aiming to enlighten the design of DEC and pave the way for future developments. | 翻訳日:2023-04-13 15:11:42 公開日:2023-04-12 |
# シュミド・ブルガダエフ散逸性量子相転移の観測 Observation of the Schmid-Bulgadaev dissipative quantum phase transition ( http://arxiv.org/abs/2304.05806v1 ) ライセンス: Link先を確認 | Roman Kuzmin, Nitish Mehta, Nicholas Grabon, Raymond A. Mencia, Amir Burshtein, Moshe Goldstein, Vladimir E. Manucharyan | (参考訳) 量子力学は多くのマクロ超伝導デバイスに適用されるが、基本的な予測は数十年にわたって議論を呼んだ。
すなわち、抵抗器に接続されたジョセフソン接合は、抵抗器の値が$h/4e^2 \approx 6.5~\textrm{k}\omega$(h$はプランク定数、e$は電子電荷)を超えると、超伝導体から絶縁体への散逸誘起量子相転移を受ける必要がある。
ここでは、抵抗器の内部ダイナミクスを観察することで、この遷移を実証する。
我々の抵抗器を長い伝送線路セクションとして実装すると、接合は線路のインピーダンスのみに依存するインダクタンス(超伝導)またはキャパシタンス(絶縁体)として線路内の電磁励起を散乱させる。
位相境界では、接合自体が理想的な抵抗として機能し、弾性散乱に加えて、入射光子は周波数非依存の確率で自発的に下向きに変換することができる。 Although quantum mechanics applies to many macroscopic superconducting devices, one basic prediction remained controversial for decades. Namely, a Josephson junction connected to a resistor must undergo a dissipation-induced quantum phase transition from superconductor to insulator once the resistor's value exceeds $h/4e^2 \approx 6.5~\textrm{k}\Omega$ ($h$ is Planck's constant, $e$ is the electron charge). Here we finally demonstrate this transition by observing the resistor's internal dynamics. Implementing our resistor as a long transmission line section, we find that a junction scatters electromagnetic excitations in the line as either inductance (superconductor) or capacitance (insulator), depending solely on the line's wave impedance. At the phase boundary, the junction itself acts as ideal resistance: in addition to elastic scattering, incident photons can spontaneously down-convert with a frequency-independent probability, which provides a novel marker of quantum-critical behavior. | 翻訳日:2023-04-13 15:11:18 公開日:2023-04-12 |
# 人工ニューラルネットワークによるGDPの今 : 長期記憶はどれくらい重要か? GDP nowcasting with artificial neural networks: How much does long-term memory matter? ( http://arxiv.org/abs/2304.05805v1 ) ライセンス: Link先を確認 | Krist\'of N\'emeth, D\'aniel Hadh\'azi | (参考訳) 本研究は,米国経済の四半期gdp成長率の予測に異なる統計モデルを適用した。
月次FRED-MDデータベースを用いて,マルチ層パーセプトロン(MLP),1次元畳み込みニューラルネットワーク(CNN),長短期記憶ネットワーク(LSTM),ゲートリカレントユニット(GRU)という,動的因子モデル(DFM)と4つの人工ニューラルネットワーク(ANN)の流速特性を比較した。
経験分析は、2つの異なる評価期間の結果を提示する。
第1期(2010:q1 -- 2019:q4)はバランスの取れた経済成長を特徴とし、第2期(2010:q1 -- 2022:q3)は新型コロナウイルスの景気後退の時期を含む。
以上の結果から、より長い入力シーケンスは、バランスの取れた経済成長の期間において、より正確な結果をもたらす。
しかし、この効果は比較的低いしきい値である約6/4(18ヶ月)以上で停止する。
経済的な混乱(例:covid-19の景気後退)の間、長い訓練シーケンスはモデルの予測性能に役立たず、その代わりに一般化能力を弱めているように見える。
その結果, 同一パラメータの1次元CNNは, 両評価期間において, 正確な現在放送を生成することがわかった。
そこで本研究では,まず,このニューラルネットワークアーキテクチャを経済的な流れに利用することを提案する。 In our study, we apply different statistical models to nowcast quarterly GDP growth for the US economy. Using the monthly FRED-MD database, we compare the nowcasting performance of the dynamic factor model (DFM) and four artificial neural networks (ANNs): the multilayer perceptron (MLP), the one-dimensional convolutional neural network (1D CNN), the long short-term memory network (LSTM), and the gated recurrent unit (GRU). The empirical analysis presents the results from two distinctively different evaluation periods. The first (2010:Q1 -- 2019:Q4) is characterized by balanced economic growth, while the second (2010:Q1 -- 2022:Q3) also includes periods of the COVID-19 recession. According to our results, longer input sequences result in more accurate nowcasts in periods of balanced economic growth. However, this effect ceases above a relatively low threshold value of around six quarters (eighteen months). During periods of economic turbulence (e.g., during the COVID-19 recession), longer training sequences do not help the models' predictive performance; instead, they seem to weaken their generalization capability. Our results show that 1D CNN, with the same parameters, generates accurate nowcasts in both of our evaluation periods. Consequently, first in the literature, we propose the use of this specific neural network architecture for economic nowcasting. | 翻訳日:2023-04-13 15:10:56 公開日:2023-04-12 |
# Proximity Forest 2.0: 時系列の新しい有効でスケーラブルな類似性に基づく分類器 Proximity Forest 2.0: A new effective and scalable similarity-based classifier for time series ( http://arxiv.org/abs/2304.05800v1 ) ライセンス: Link先を確認 | Matthieu Herrmann, Chang Wei Tan, Mahsa Salehi, Geoffrey I. Webb | (参考訳) 時系列分類(TSC)は、傾向、ばらつき、頻度、大きさ、および様々なパターンを含む様々な分類タスクに関連があるかもしれない機能の種類が異なるため、難しい課題である。
この課題に対処するために、類似性に基づいた特徴と間隔、シェイプレット、辞書、カーネル、ニューラルネットワーク、ハイブリッドアプローチなど、いくつかの代替アプローチクラスが開発されている。
カーネル、ニューラルネットワーク、ハイブリッドアプローチは全体としてうまく機能するが、特定のタスクに適した特殊なアプローチもいくつかある。
本稿では,新しい類似度ベース分類器である近接フォレストバージョン2.0 (pf 2.0) を提案し,類似度ベース手法が最良であるベンチマークにおいて,udrベンチマークで先行する類似度ベース分類器を上回り,最先端カーネル,ニューラルネットワーク,ハイブリッド手法を上回った。
pf 2.0は3つの最近の時系列類似度測定の進歩を取り入れている: (1) 弾性類似度計算を高速化するために、計算効率のよい早期放棄と刈り取り、(2) 新たな弾性類似度測定、 amerced dynamic time warping (adtw)、(3) コスト関数チューニング。
一連の類似度測度を合理化し、元のPFの8つの基本測度を3に減らし、有限部分集合ではなく全ての類似度測度を持つ最初の微分変換を使用する。
私たちは単一のC++フレームワークでPF 1.0とPF 2.0の両方を実装しました。 Time series classification (TSC) is a challenging task due to the diversity of types of feature that may be relevant for different classification tasks, including trends, variance, frequency, magnitude, and various patterns. To address this challenge, several alternative classes of approach have been developed, including similarity-based, features and intervals, shapelets, dictionary, kernel, neural network, and hybrid approaches. While kernel, neural network, and hybrid approaches perform well overall, some specialized approaches are better suited for specific tasks. In this paper, we propose a new similarity-based classifier, Proximity Forest version 2.0 (PF 2.0), which outperforms previous state-of-the-art similarity-based classifiers across the UCR benchmark and outperforms state-of-the-art kernel, neural network, and hybrid methods on specific datasets in the benchmark that are best addressed by similarity-base methods. PF 2.0 incorporates three recent advances in time series similarity measures -- (1) computationally efficient early abandoning and pruning to speedup elastic similarity computations; (2) a new elastic similarity measure, Amerced Dynamic Time Warping (ADTW); and (3) cost function tuning. It rationalizes the set of similarity measures employed, reducing the eight base measures of the original PF to three and using the first derivative transform with all similarity measures, rather than a limited subset. We have implemented both PF 1.0 and PF 2.0 in a single C++ framework, making the PF framework more efficient. | 翻訳日:2023-04-13 15:10:30 公開日:2023-04-12 |
# 連続変数系におけるリウビリアン例外点 Liouvillian exceptional points in continuous variable system ( http://arxiv.org/abs/2304.05792v1 ) ライセンス: Link先を確認 | B. A. Tay | (参考訳) 一般環境における発振器の量子マルコフマスター方程式に対するリウヴィリア例外点を求める。
これらは発振器の修正周波数が消失した点で発生し、リウヴィリアンの固有値が実数となる。
一般的なシステムでは、振動子の自然な周波数を変更するパラメータが2つある。
パラメータの1つは減衰率である。
例外点は発振器の臨界減衰に対応する。
この状況はcaldeira-leggett (cl)方程式とhu-paz--zhang方程式のマルコフ極限によって示され、他のパラメータは振動子の有効質量を変化させ、非常に重い振動子の限界に達する。この状況はkossakowski-lindblad (kl)方程式の修正形によって示される。
固有函数は例外点で合体し、自然数$N$でラベル付けされた部分空間に分解する。
N$-部分空間のそれぞれに$(N+1)$-foldデジェネシーが存在し、リウヴィリアンは位数-$(N+1)$のヨルダンブロック構造を持つ。
我々はいくつかのリウヴィリアンに対する一般化固有ベクトルの明示的な形式を得る。
退化のため、一般化された固有関数には選択の自由がある。
この自由度は、形式が得られる類似性変換の下でジョルダンブロック構造の不変性として表される。
我々は,cl方程式の一般化固有ベクトルを用いて,非減衰領域における発振器の最初の励起状態の緩和,例外点に対応する臨界減衰領域,過減衰領域の比較を行った。 The Liouvillian exceptional points for a quantum Markovian master equation of an oscillator in a generic environment are obtained. They occur at the points when the modified frequency of the oscillator vanishes, whereby the eigenvalues of the Liouvillian become real. In a generic system there are two parameters that modify the oscillator's natural frequency. One of the parameters can be the damping rate. The exceptional point then corresponds to critical damping of the oscillator. This situation is illustrated by the Caldeira--Leggett (CL) equation and the Markovian limit of the Hu--Paz--Zhang (HPZ) equation. The other parameter changes the oscillator's effective mass whereby the exceptional point is reached in the limit of extremely heavy oscillator. This situation is illustrated by a modified form of the Kossakowski--Lindblad (KL) equation. The eigenfunctions coalesce at the exceptional points and break into subspaces labelled by a natural number $N$. In each of the $N$-subspace, there is a $(N+1)$-fold degeneracy and the Liouvillian has a Jordan block structure of order-$(N+1)$. We obtain the explicit form of the generalized eigenvectors for a few Liouvillians. Because of the degeneracies, there is a freedom of choice in the generalized eigenfunctions. This freedom manifests itself as an invariance in the Jordan block structure under a similarity transformation whose form is obtained. We compare the relaxation of the first excited state of an oscillator in the underdamped region, critically damped region which corresponds to the exceptional point, and overdamped region using the generalized eigenvectors of the CL equation. | 翻訳日:2023-04-13 15:10:00 公開日:2023-04-12 |
# 線上の線伸張ダンクル発振器 Rationally-extended Dunkl oscillator on the line ( http://arxiv.org/abs/2304.05846v1 ) ライセンス: Link先を確認 | C. Quesne | (参考訳) ダンクル多項式による通常の微分の置き換えと古典直交多項式の例外的直交多項式の置き換えと、正確に解ける量子力学的問題の拡張は容易に結合できることが示されている。
このような目的のために、線上のダンクル発振器の例を検討し、3種類の有理拡張ダンクル発振器を構築する。
対応する波動関数は、X_m$-Laguerre の3つの異なるタイプの直交多項式の項で定義される、例外的直交一般化エルミート多項式の項で表される。
さらに、拡張ダンクル振動子ハミルトニアンは、拡張ダンクル微分といくつかの非調和振動子ポテンシャルの観点から表現可能であることが示されている。 It is shown that the extensions of exactly-solvable quantum mechanical problems connected with the replacement of ordinary derivatives by Dunkl ones and with that of classical orthogonal polynomials by exceptional orthogonal ones can be easily combined. For such a purpose, the example of the Dunkl oscillator on the line is considered and three different types of rationally-extended Dunkl oscillators are constructed. The corresponding wavefunctions are expressed in terms of exceptional orthogonal generalized Hermite polynomials, defined in terms of the three different types of $X_m$-Laguerre exceptional orthogonal polynomials. Furthermore, the extended Dunkl oscillator Hamiltonians are shown to be expressible in terms of some extended Dunkl derivatives and some anharmonic oscillator potentials. | 翻訳日:2023-04-13 15:03:56 公開日:2023-04-12 |
# Dense RetrievalのFew-Shot能力の再考 Rethinking Dense Retrieval's Few-Shot Ability ( http://arxiv.org/abs/2304.05845v1 ) ライセンス: Link先を確認 | Si Sun, Yida Lu, Shi Yu, Xiangyang Li, Zhonghua Li, Zhao Cao, Zhiyuan Liu, Deiming Ye and Jie Bao | (参考訳) いくつかのサンプルを学習することで,新たな検索シナリオを効果的に一般化することを目的としている。
その重要性にもかかわらず、特別なデータセットと標準化された評価プロトコルについてはほとんど研究されていない。
結果として、現在の手法では、教師付きデータセットからランダムにサンプリングして"フェーデータ"の設定を作成し、評価中に一貫性のないトレーニング戦略を採用することが多い。
本稿では,カスタマイズされたFewDRデータセットと統一評価ベンチマークを提案する。
具体的には、FewDRはクラスワイドサンプリングを使用して、細かな定義のクラスで標準化された「ファウショット」設定を確立し、複数のサンプリングラウンドにおける可変性を低下させる。
さらに、データセットはベースクラスと新しいクラスに分離され、ベースクラスと新しいクラスのいくつかのサンプルからDRモデルを継続的にトレーニングすることができる。
このベンチマークは、新しいクラスリークのリスクを排除し、DRモデルの少数ショット能力の信頼性を推定する。
広範な実験結果から,現状のdrmモデルでは,標準的少数シーンでは依然として課題に直面していることが分かりました。
私たちのコードとデータはhttps://github.com/OpenMatch/ANCE-Tele.comでオープンソース化されます。 Few-shot dense retrieval (DR) aims to effectively generalize to novel search scenarios by learning a few samples. Despite its importance, there is little study on specialized datasets and standardized evaluation protocols. As a result, current methods often resort to random sampling from supervised datasets to create "few-data" setups and employ inconsistent training strategies during evaluations, which poses a challenge in accurately comparing recent progress. In this paper, we propose a customized FewDR dataset and a unified evaluation benchmark. Specifically, FewDR employs class-wise sampling to establish a standardized "few-shot" setting with finely-defined classes, reducing variability in multiple sampling rounds. Moreover, the dataset is disjointed into base and novel classes, allowing DR models to be continuously trained on ample data from base classes and a few samples in novel classes. This benchmark eliminates the risk of novel class leakage, providing a reliable estimation of the DR model's few-shot ability. Our extensive empirical results reveal that current state-of-the-art DR models still face challenges in the standard few-shot scene. Our code and data will be open-sourced at https://github.com/OpenMatch/ANCE-Tele. | 翻訳日:2023-04-13 15:03:43 公開日:2023-04-12 |
# 振幅減衰に対する量子ゼノ効果の一般ポインターベースへの応用 Quantum Zeno Effect applied to amplitude damping on a general pointer basis ( http://arxiv.org/abs/2304.05843v1 ) ライセンス: Link先を確認 | Guilherme Zambon, Diogo O. Soares-Pinto | (参考訳) 量子システムにおける情報保存のためのプロトコルの開発は、現実的な量子計算を実装するための中心的な探求である。
しかしながら、この問題に対する最も有望なアプローチの多くは、キュービット環境システムの正確なダイナミクスを知ることや、複数の物理キュービットに情報キュービットを格納できることなど、実際の物理的シナリオを反映しない仮説に依存している。
ここでは, 従来の仮定から一歩離れて, 物理キュービットの古典ビットを単一の計算ステップで保存する確率を解析し, キュービットが自由に進化する場合と繰り返し測定される場合の両方について解析する。
この設定は、有限温度のヒートバスに結合したキュービットであり、その力学は、量子ビットの計算基底と必ずしも一致しないポインタ基底において、一般化された振幅減衰チャネルによって与えられる。
まず、動力学をマルコフアンとする必要性は、ポインター基底の集団の指数的崩壊を意味することを示す。
そして、その成功確率を時間と角度の関数として、キュービットの初期状態とポインタ基底の基底状態の間の$\theta_0$を得る。
最後に,これらの確率をゼノ有効動力学の確率として計算し,自由発展の確率よりも大きくはならないことを示した。
この最後の結果は、情報が連続的に環境に失われているとき、実際の量子計算を行うには、情報を何らかの形でシステムに戻さなければならないことを示し、オープン量子システムにおけるノイズを減らすことを目的としたあらゆる技術の中核的な特徴として強調する。 Developing protocols for preserving information in quantum systems is a central quest for implementing realistic quantum computation. However, many of the most promising approaches to this problem rely on hypotheses that may not reflect practical physical scenarios, like knowing the exact dynamics of the qubit-environment system or being able to store an informational qubit in multiple physical qubits. Here, we step away from these usual assumptions and analyze the probability of successfully storing a classical bit of information on a physical qubit during a single computational step, both for the case in which the qubit evolves freely and also when it is subject to a sequence of repeated measurements. The setup consists of a qubit coupled to a heat bath at finite temperature, whose dynamics is given by a generalized amplitude damping channel in a pointer basis that does not necessarily coincide with the computational basis of the qubit. We first show that requiring the dynamics to be Markovian implies an exponential decay of the pointer basis' populations. Then, we obtain the success probability as function of time and angle $\theta_0$ between the initial state of the qubit and the ground state of the pointer basis. Finally, we calculate these probabilities for the Zeno effective dynamics and show that they are never larger than those for the free evolution, implying that a repeated measurements protocol cannot improve the probability of a successful storage in our model. This last result indicates that to perform realistic quantum computation, when information is being continuously lost to the environment, the information must be somehow driven back into the system, highlighting this as the core feature of any technique that aims at reducing noise in open quantum systems. | 翻訳日:2023-04-13 15:03:23 公開日:2023-04-12 |
# 教師なしビデオ異常検出のための拡散モデル探索 Exploring Diffusion Models for Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2304.05841v1 ) ライセンス: Link先を確認 | Anil Osman Tur and Nicola Dall'Asen and Cigdem Beyan and Elisa Ricci | (参考訳) 本稿では,ビデオ異常検出(VAD)における拡散モデルの性能について,データアノテーションを使用しない最も困難なシナリオについても検討する。
希薄で、多様で、文脈的であり、しばしば曖昧であるので、異常事象を正確に検出することは非常に野心的な作業である。
この目的のために,情報豊富な時空間データのみに依存し,高い再構成誤差を生かした拡散モデルの再構成能力を用いて異常を判定する。
2つの大規模ビデオ異常検出データセットを用いて行った実験は、提案手法の最先端生成モデルに対する一貫した改善を実証する一方、我々の手法はより複雑なモデルよりも優れたスコアを得る。
これは拡散モデルを用いた最初の研究であり、そのパラメーターが監視シナリオにおけるvadの指導に与えた影響を調べるものである。 This paper investigates the performance of diffusion models for video anomaly detection (VAD) within the most challenging but also the most operational scenario in which the data annotations are not used. As being sparse, diverse, contextual, and often ambiguous, detecting abnormal events precisely is a very ambitious task. To this end, we rely only on the information-rich spatio-temporal data, and the reconstruction power of the diffusion models such that a high reconstruction error is utilized to decide the abnormality. Experiments performed on two large-scale video anomaly detection datasets demonstrate the consistent improvement of the proposed method over the state-of-the-art generative models while in some cases our method achieves better scores than the more complex models. This is the first study using a diffusion model and examining its parameters' influence to present guidance for VAD in surveillance scenarios. | 翻訳日:2023-04-13 15:02:54 公開日:2023-04-12 |
# シュートセマンティックセマンティックセグメンテーション : 方法論とオープン課題のレビュー Few Shot Semantic Segmentation: a review of methodologies and open challenges ( http://arxiv.org/abs/2304.05832v1 ) ライセンス: Link先を確認 | Nico Catalano, Matteo Matteucci | (参考訳) セマンティックセグメンテーションは画像の各ピクセルにカテゴリラベルを割り当て、自動運転やロボティクスといった分野におけるブレークスルーを可能にする。
Deep Neural Networksはセマンティックセグメンテーションにおいて高い精度を達成したが、大規模なトレーニングデータセットを必要としている。
一部のドメインは、希少性、プライバシー上の懸念、熟練したアノテータの必要性により、そのようなデータセットを構築するのに苦労している。
few-shot learning (fsl)は、モデルがいくつかのサンプルから新しいタスクを学習できる新しい研究ストリームとして登場した。
この貢献は、意味的セグメンテーション(FSS)におけるFSLの概要を提供し、新しい分類法を提案し、現在の限界と展望を説明する。 Semantic segmentation assigns category labels to each pixel in an image, enabling breakthroughs in fields such as autonomous driving and robotics. Deep Neural Networks have achieved high accuracies in semantic segmentation but require large training datasets. Some domains have difficulties building such datasets due to rarity, privacy concerns, and the need for skilled annotators. Few-Shot Learning (FSL) has emerged as a new research stream that allows models to learn new tasks from a few samples. This contribution provides an overview of FSL in semantic segmentation (FSS), proposes a new taxonomy, and describes current limitations and outlooks. | 翻訳日:2023-04-13 15:01:42 公開日:2023-04-12 |
# 量子強調パターン認識 Quantum-enhanced pattern recognition ( http://arxiv.org/abs/2304.05830v1 ) ライセンス: Link先を確認 | Giuseppe Ortolano, Carmine Napoli, Cillian Harney, Stefano Pirandola, Giuseppe Leonetti, Pauline Boucher, Elena Losero, Marco Genovese and Ivano Ruo-Berchera | (参考訳) パターン認識の課題は、データセットの特徴を正確に抽出し、そのサンプルを分類できる戦略を実行することである。
現実的なシナリオでは、このデータセットは、光学古典記憶の読み出しのような情報を取得したい物理システムであるかもしれない。
量子読み取りの理論的および実験的発展により、光学記憶の読み出しは、古典的戦略よりも量子資源(すなわち、絡み合った入力状態)を使用することによって劇的に向上することを示した。
しかし、この量子アドバンテージの実用性は量子読み取りのスケーラビリティにかかっており、実験的な実証は個々の細胞に限定されている。
本研究では,パターン認識の多セル問題において,初めて量子的優位性を示す。
MNIST手書き桁データセットからの桁の実験的実現と、高度な古典的後処理の適用により、古典的資源で達成された分類誤差の量子的優位性を達成するために、絡み合ったプローブ状態と光子計を用いて、パターン認識や複雑な後処理を通じて量子センサによる利点が持続できることを確認する。
これは、複素領域内のボソニックロスの量子エンハンスパターン認識の将来の発展を動機付ける。 The challenge of pattern recognition is to invoke a strategy that can accurately extract features of a dataset and classify its samples. In realistic scenarios this dataset may be a physical system from which we want to retrieve information, such as in the readout of optical classical memories. The theoretical and experimental development of quantum reading has demonstrated that the readout of optical memories can be dramatically enhanced through the use of quantum resources (namely entangled input-states) over that of the best classical strategies. However, the practicality of this quantum advantage hinges upon the scalability of quantum reading, and up to now its experimental demonstration has been limited to individual cells. In this work, we demonstrate for the first time quantum advantage in the multi-cell problem of pattern recognition. Through experimental realizations of digits from the MNIST handwritten digit dataset, and the application of advanced classical post-processing, we report the use of entangled probe states and photon-counting to achieve quantum advantage in classification error over that achieved with classical resources, confirming that the advantage gained through quantum sensors can be sustained throughout pattern recognition and complex post-processing. This motivates future developments of quantum-enhanced pattern recognition of bosonic-loss within complex domains. | 翻訳日:2023-04-13 15:01:28 公開日:2023-04-12 |
# HaDR: クラッタ産業環境におけるハンドインスタンス分割のための合成マルチモーダルデータセット生成のためのドメインランダム化の適用 HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments ( http://arxiv.org/abs/2304.05826v1 ) ライセンス: Link先を確認 | Stefan Grushko, Ale\v{s} Vysock\'y, Jakub Chlebek, Petr Prokop | (参考訳) 本研究では,マルチモーダルインスタンスセグメンテーションモデルを学習するための合成RGB-Dデータセットを生成するために,ドメインランダム化を用いる。
ドメインランダム化(Domain randomization)は、シミュレーションシーンで非現実的な特徴をランダムにレンダリングしてニューラルネットワークに必須のドメイン特徴を学習させ、"現実のギャップ"に対処するシンプルなテクニックである。
産業環境における様々な手検出アプリケーションのための新しい合成データセットと、事前訓練済みのインスタンスセグメンテーションモデルを提供する。
複雑な非構造環境におけるロバストな結果を達成するために,色情報と深度情報の両方を含むマルチモーダル入力を用いて,モデル予測の精度を向上させる。
この仮定をテストするために,各モダリティとその相乗効果の影響を分析する。
評価されたモデルは、我々の合成データセットのみに基づいてトレーニングされましたが、我々のアプローチは、平均精度と確率ベースの検出品質の観点から、既存の最先端データセットでトレーニングされた対応するモデルよりも優れています。 This study uses domain randomization to generate a synthetic RGB-D dataset for training multimodal instance segmentation models, aiming to achieve colour-agnostic hand localization in cluttered industrial environments. Domain randomization is a simple technique for addressing the "reality gap" by randomly rendering unrealistic features in a simulation scene to force the neural network to learn essential domain features. We provide a new synthetic dataset for various hand detection applications in industrial environments, as well as ready-to-use pretrained instance segmentation models. To achieve robust results in a complex unstructured environment, we use multimodal input that includes both colour and depth information, which we hypothesize helps to improve the accuracy of the model prediction. In order to test this assumption, we analyze the influence of each modality and their synergy. The evaluated models were trained solely on our synthetic dataset; yet we show that our approach enables the models to outperform corresponding models trained on existing state-of-the-art datasets in terms of Average Precision and Probability-based Detection Quality. | 翻訳日:2023-04-13 15:01:07 公開日:2023-04-12 |
# マクロプラスチックから海洋を浄化する競争的マルチエージェントセットアップにおけるコミュニケーションとコラボレートの学習 Learning to Communicate and Collaborate in a Competitive Multi-Agent Setup to Clean the Ocean from Macroplastics ( http://arxiv.org/abs/2304.05872v1 ) ライセンス: Link先を確認 | Philipp Dominic Siedler | (参考訳) 多くの現実世界のアプリケーションにおいて、協調と競争のバランスを見つけることは、人工エージェントにとって不可欠である。
本稿では, マルチエージェント強化学習(MARL)を用いて, 高インパクト問題の裏側でこれを検討する。
海洋におけるプラスチックの蓄積と年間成長は、海洋の健康とマリーナ系の多くの側面に不可分に損傷を与える。
さらなる損傷を防ぐためには、海洋の既知のプラスチックパッチからマクロプラスチックを減らす方法を見つける必要がある。
本稿では,エージェントの観測空間を増大させるグラフニューラルネットワーク(GNN)に基づく通信機構を提案する。
私たちのカスタム環境では、エージェントがプラスチック収集容器を制御します。
この通信機構により、エージェントはバイナリ信号を用いて通信プロトコルを開発することができる。
エージェント集団の目的はできるだけクリーンアップすることであるが、エージェントは収集された個々のマクロプラスチックの量に対して報奨を受ける。
したがってエージェントは、高いパフォーマンスを維持しながら効果的なコミュニケーションを学ぶ必要があります。
提案する通信機構を,通信能力のないマルチエージェントベースラインと比較する。
その結果、コミュニケーションはコラボレーションを可能にし、全体的なパフォーマンスを著しく向上させる。
つまり、エージェントはコミュニケーションの重要性を学び、コラボレーションと競争のバランスを見つけました。 Finding a balance between collaboration and competition is crucial for artificial agents in many real-world applications. We investigate this using a Multi-Agent Reinforcement Learning (MARL) setup on the back of a high-impact problem. The accumulation and yearly growth of plastic in the ocean cause irreparable damage to many aspects of oceanic health and the marina system. To prevent further damage, we need to find ways to reduce macroplastics from known plastic patches in the ocean. Here we propose a Graph Neural Network (GNN) based communication mechanism that increases the agents' observation space. In our custom environment, agents control a plastic collecting vessel. The communication mechanism enables agents to develop a communication protocol using a binary signal. While the goal of the agent collective is to clean up as much as possible, agents are rewarded for the individual amount of macroplastics collected. Hence agents have to learn to communicate effectively while maintaining high individual performance. We compare our proposed communication mechanism with a multi-agent baseline without the ability to communicate. Results show communication enables collaboration and increases collective performance significantly. This means agents have learned the importance of communication and found a balance between collaboration and competition. | 翻訳日:2023-04-13 14:54:22 公開日:2023-04-12 |
# フェデレーションと集中型機能によるエッジクラウドコラボレーション学習 Edge-cloud Collaborative Learning with Federated and Centralized Features ( http://arxiv.org/abs/2304.05871v1 ) ライセンス: Link先を確認 | Zexi Li, Qunwei Li, Yi Zhou, Wenliang Zhong, Guannan Zhang, Chao Wu | (参考訳) フェデレートラーニング(FL)は、ユーザのプライバシを損なわないエッジコンピューティングの一般的な方法です。
現在のFLパラダイムでは、データはエッジにのみ存在するが、クラウドサーバはモデル平均化のみを実行する。
しかし、レコメンデータシステムのような現実的な状況では、クラウドサーバは歴史的かつインタラクティブな機能を格納できる。
本稿では,提案するエッジクラウド協調知識転送フレームワーク(ecct)が,エッジとクラウドのギャップを埋めることによって,機能埋め込みと予測ロジットの共有による双方向知識転送を実現する。
ECCTは、パーソナライゼーションの強化、モデルの不均一性の実現、トレーニングの同期化の許容、通信負担の軽減など、さまざまなメリットを集約する。
公共および産業のデータセットに関する広範囲な実験は、学界および産業におけるecctの有効性と可能性を示している。 Federated learning (FL) is a popular way of edge computing that doesn't compromise users' privacy. Current FL paradigms assume that data only resides on the edge, while cloud servers only perform model averaging. However, in real-life situations such as recommender systems, the cloud server has the ability to store historical and interactive features. In this paper, our proposed Edge-Cloud Collaborative Knowledge Transfer Framework (ECCT) bridges the gap between the edge and cloud, enabling bi-directional knowledge transfer between both, sharing feature embeddings and prediction logits. ECCT consolidates various benefits, including enhancing personalization, enabling model heterogeneity, tolerating training asynchronization, and relieving communication burdens. Extensive experiments on public and industrial datasets demonstrate ECCT's effectiveness and potential for use in academia and industry. | 翻訳日:2023-04-13 14:54:08 公開日:2023-04-12 |
# LMR:車線距離に基づく軌道予測 LMR: Lane Distance-Based Metric for Trajectory Prediction ( http://arxiv.org/abs/2304.05869v1 ) ライセンス: Link先を確認 | Julian Schmidt, Thomas Monninger, Julian Jordan, Klaus Dietmayer | (参考訳) 軌道予測のためのアプローチの開発には、メトリクスのパフォーマンスを検証し比較する必要がある。
現在確立されている測度はユークリッド距離に基づいており、これは全ての方向において誤差が等しく重み付けされていることを意味する。
ユークリッド計量は、下層の車線に対するエージェントの意図を適切に捉えていないため、道路のような構造された環境には不十分である。
下流計画課題における軌道予測手法を合理的に評価するために,車線距離に基づく新しい距離指標,レーンミスレート(LMR)を提案する。
LMRの計算には、地上構造と予測された終点が車線セグメントに割り当てられ、より正確にそれらの中心線が割り当てられる。
レーンセグメントに沿った距離によって測定され、一定のしきい値距離内にある予測がヒットとなり、そうでない場合はミスとしてカウントされる。
LMRは、ミスを起こすシーケンスの比率として定義される。
最新の3つの軌道予測モデルを用いた結果から, lmrはユークリッド距離に基づく測定値の順序を維持していることが示された。
ユークリッドミスレートとは対照的に、定性的結果は、LMRが間違った車線上に予測があるシーケンスのミスを生じることを示している。
一方、正しい車線上に予測があるシーケンスに対してヒットする。
これは、LMRが車線に対するユークリッド誤差を暗黙的に重み付けし、交通機関の意図を捉える方向に進むことを意味する。
Argoverse 1のLMRのソースコードが公開されている。 The development of approaches for trajectory prediction requires metrics to validate and compare their performance. Currently established metrics are based on Euclidean distance, which means that errors are weighted equally in all directions. Euclidean metrics are insufficient for structured environments like roads, since they do not properly capture the agent's intent relative to the underlying lane. In order to provide a reasonable assessment of trajectory prediction approaches with regard to the downstream planning task, we propose a new metric that is lane distance-based: Lane Miss Rate (LMR). For the calculation of LMR, the ground-truth and predicted endpoints are assigned to lane segments, more precisely their centerlines. Measured by the distance along the lane segments, predictions that are within a certain threshold distance to the ground-truth count as hits, otherwise they count as misses. LMR is then defined as the ratio of sequences that yield a miss. Our results on three state-of-the-art trajectory prediction models show that LMR preserves the order of Euclidean distance-based metrics. In contrast to the Euclidean Miss Rate, qualitative results show that LMR yields misses for sequences where predictions are located on wrong lanes. Hits on the other hand result for sequences where predictions are located on the correct lane. This means that LMR implicitly weights Euclidean error relative to the lane and goes into the direction of capturing intents of traffic agents. The source code of LMR for Argoverse 1 is publicly available. | 翻訳日:2023-04-13 14:53:54 公開日:2023-04-12 |
# Mesh2Tex:イメージクエリからメッシュテクスチャを生成する Mesh2Tex: Generating Mesh Textures from Image Queries ( http://arxiv.org/abs/2304.05868v1 ) ライセンス: Link先を確認 | Alexey Bokhovkin, Shubham Tulsiani, Angela Dai | (参考訳) 近年、オブジェクトの幾何学を特徴付けるニューラル表現の学習において、下流アプリケーションや3dレンダリングに適したテクスチャオブジェクトの生成は、まだ初期段階にある。
特に、実際の物体の画像からテクスチャ化された幾何学を再構築することは重要な課題である。
本稿では,ハイブリッドメッシュ-ニューラルネットワーク-テクスチャ表現を利用して,非相関な3次元オブジェクト形状とフォトリアリスティックRGB画像からリアルなオブジェクトテクスチャ多様体を学習するMesh2Texを提案する。
我々のテクスチャ表現は、メッシュ面の偏心座標系におけるニューラルネットワークとしての高分解能テクスチャのコンパクト符号化を可能にする。
学習されたテクスチャ多様体は、入力されたrgb画像にマッチする所定の3dオブジェクト形状のオブジェクトテクスチャを生成する効果的なナビゲーションを可能にする。
mesh2texは、実際のイメージの観察と実際の環境のデジタル化にマッチするように、オブジェクトメッシュの現実的なオブジェクトテクスチャを効果的に生成することができる。 Remarkable advances have been achieved recently in learning neural representations that characterize object geometry, while generating textured objects suitable for downstream applications and 3D rendering remains at an early stage. In particular, reconstructing textured geometry from images of real objects is a significant challenge -- reconstructed geometry is often inexact, making realistic texturing a significant challenge. We present Mesh2Tex, which learns a realistic object texture manifold from uncorrelated collections of 3D object geometry and photorealistic RGB images, by leveraging a hybrid mesh-neural-field texture representation. Our texture representation enables compact encoding of high-resolution textures as a neural field in the barycentric coordinate system of the mesh faces. The learned texture manifold enables effective navigation to generate an object texture for a given 3D object geometry that matches to an input RGB image, which maintains robustness even under challenging real-world scenarios where the mesh geometry approximates an inexact match to the underlying geometry in the RGB image. Mesh2Tex can effectively generate realistic object textures for an object mesh to match real images observations towards digitization of real environments, significantly improving over previous state of the art. | 翻訳日:2023-04-13 14:53:30 公開日:2023-04-12 |
# NoisyTwins:StyleGANによるクラス一貫性とディバース画像生成 NoisyTwins: Class-Consistent and Diverse Image Generation through StyleGANs ( http://arxiv.org/abs/2304.05866v1 ) ライセンス: Link先を確認 | Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu | (参考訳) StyleGANは、セマンティックに切り離された潜在空間を生成するため、制御可能な画像生成の最前線にあり、画像編集や操作に適している。
しかし、大規模なロングテールデータセット上でクラスコンディショニングによってトレーニングされた場合、スタイルガンのパフォーマンスは著しく低下する。
分解の理由の一つは、$\mathcal{w}$ の潜在空間における各クラスに対する潜在項の崩壊である。
NoisyTwins では、まずクラス埋め込みに対して有効で安価な拡張戦略を導入し、次に $\mathcal{W}$ 空間における自己スーパービジョンに基づく潜在変数をデコレーションする。
このデコリレーションは崩壊を緩和し、画像生成におけるクラス一貫性とクラス内多様性を確実に維持する。
本稿では,imagenet-lt と inaturalist 2019 の大規模実世界のロングテールデータセットに対する提案手法の有効性を示す。 StyleGANs are at the forefront of controllable image generation as they produce a latent space that is semantically disentangled, making it suitable for image editing and manipulation. However, the performance of StyleGANs severely degrades when trained via class-conditioning on large-scale long-tailed datasets. We find that one reason for degradation is the collapse of latents for each class in the $\mathcal{W}$ latent space. With NoisyTwins, we first introduce an effective and inexpensive augmentation strategy for class embeddings, which then decorrelates the latents based on self-supervision in the $\mathcal{W}$ space. This decorrelation mitigates collapse, ensuring that our method preserves intra-class diversity with class-consistency in image generation. We show the effectiveness of our approach on large-scale real-world long-tailed datasets of ImageNet-LT and iNaturalist 2019, where our method outperforms other methods by $\sim 19\%$ on FID, establishing a new state-of-the-art. | 翻訳日:2023-04-13 14:53:07 公開日:2023-04-12 |
# フロケット工学による非線形性と制御可能なペアホッピング過程:光学カーキャビティから相関量子物質へ Floquet-engineered nonlinearities and controllable pair-hopping processes: From optical Kerr cavities to correlated quantum matter ( http://arxiv.org/abs/2304.05865v1 ) ライセンス: Link先を確認 | Nathan Goldman, Oriana K. Diessel, Luca Barbiero, Maximilian Pr\"ufer, Marco Di Liberto and Lucila Peralta Gavensky | (参考訳) この研究は、非線形シュリンガー方程式(英語版)(NLSE)によって記述された幅広い種類のシステムにおいて、周期駆動による非伝統的な非線形性の生成と制御の可能性を探る。
親量子多体記述を用いて、そのような駆動系は、創発的非線形性を持つ実効的なNLSEによって十分に捕捉され、駆動シーケンスをチューニングすることで微調整できることを示す。
まず、光学的ケーラー空洞、導波路、ボース=アインシュタイン凝縮物に関連する2モード非線形系の一般的なクラスを考える。
この駆動誘起非線形性のチューニングは、相対的な個体数と位相測定によって検出できる位相空間トポロジーを変更することが示されている。
次に、非慣習非線形性と制御可能なペアホッピング過程を持つ拡張格子モデルを設計するために、個々の(2モード)ディマーを結合する。
この一般的な二量化構造に従い、時間反転対称性の自発的破断を通じて、基底状態が軌道次数、カイラル電流、創発的磁束を示す駆動誘起相互作用を持つ有効格子モデルを得る。
これらの興味深い性質は、弱い相互作用(平均場)状態、効果的なnlse状態、強相関量子状態の両方で解析する。
一般的なアプローチは、フォトニックデバイスにおける非典型的な光学非線形性と超低温量子物質における制御可能な駆動誘起相互作用のエンジニアリングの道を開く。 This work explores the possibility of creating and controlling unconventional nonlinearities by periodic driving, in a broad class of systems described by the nonlinear Schr\"odinger equation (NLSE). By means of a parent quantum many-body description, we demonstrate that such driven systems are well captured by an effective NLSE with emergent nonlinearities, which can be finely controlled by tuning the driving sequence. We first consider a general class of two-mode nonlinear systems - relevant to optical Kerr cavities, waveguides and Bose-Einstein condensates - where we find an emergent four-wave mixing nonlinearity, which originates from pair-hopping processes in the parent quantum picture. Tuning this drive-induced nonlinearity is shown to modify the phase-space topology, which can be detected through relative population and phase measurements. We then couple individual (two-mode) dimers in view of designing extended lattice models with unconventional nonlinearities and controllable pair-hopping processes. Following this general dimerization construction, we obtain an effective lattice model with drive-induced interactions, whose ground-state exhibits orbital order, chiral currents and emergent magnetic fluxes through the spontaneous breaking of time-reversal symmetry. We analyze these intriguing properties both in the weakly-interacting (mean-field) regime, captured by the effective NLSE, and in the strongly-correlated quantum regime. Our general approach opens a route for the engineering of unconventional optical nonlinearities in photonic devices and controllable drive-induced interactions in ultracold quantum matter. | 翻訳日:2023-04-13 14:52:46 公開日:2023-04-12 |
# 3次元データのためのスケール同変深層学習 Scale-Equivariant Deep Learning for 3D Data ( http://arxiv.org/abs/2304.05864v1 ) ライセンス: Link先を確認 | Thomas Wimmer, Vladimir Golkov, Hoai Nam Dang, Moritz Zaiss, Andreas Maier, Daniel Cremers | (参考訳) 畳み込みニューラルネットワーク(CNN)が画像内の位置に関係なく物体を認識する能力は、畳み込み操作の翻訳等価性に起因する。
群同値 cnn はこの同値を入力の他の変換に移す。
異なるスケールのオブジェクトやオブジェクトに適切に対処することは困難であり、下層のオブジェクトサイズや画像の解像度など、さまざまな理由によりスケールが変化する可能性がある。
本稿では,3次元cnnにおけるスケール等価性を保証する3次元データのためのスケール同変畳み込みネットワーク層を提案する。
スケール平等は、それぞれの可能なスケールを別々に学ぶことの負担を軽減し、ニューラルネットワークがより高いレベルの学習目標に集中できるようにすることで、より良い結果とデータ効率が向上する。
本稿では,2次元領域におけるスケール不変ニューラルネットワークに関する理論的基礎と科学的研究の概要について述べる。
次に、概念を2dから3次元空間に移し、3dデータのためのスケール同変畳み込み層を作成する。
提案するスケール同変層を用いて医用画像セグメンテーションのためのスケール同変u-netを作成し,非スケール同変ベースライン法と比較する。
本研究では,3次元医用画像解析におけるスケール等価性を実現するための提案手法の有効性を実証する。
さらなる研究とアプリケーションのために、コードはhttps://github.com/wimmerth/scale-equivariant-3d-convnetで公開しています。 The ability of convolutional neural networks (CNNs) to recognize objects regardless of their position in the image is due to the translation-equivariance of the convolutional operation. Group-equivariant CNNs transfer this equivariance to other transformations of the input. Dealing appropriately with objects and object parts of different scale is challenging, and scale can vary for multiple reasons such as the underlying object size or the resolution of the imaging modality. In this paper, we propose a scale-equivariant convolutional network layer for three-dimensional data that guarantees scale-equivariance in 3D CNNs. Scale-equivariance lifts the burden of having to learn each possible scale separately, allowing the neural network to focus on higher-level learning goals, which leads to better results and better data-efficiency. We provide an overview of the theoretical foundations and scientific work on scale-equivariant neural networks in the two-dimensional domain. We then transfer the concepts from 2D to the three-dimensional space and create a scale-equivariant convolutional layer for 3D data. Using the proposed scale-equivariant layer, we create a scale-equivariant U-Net for medical image segmentation and compare it with a non-scale-equivariant baseline method. Our experiments demonstrate the effectiveness of the proposed method in achieving scale-equivariance for 3D medical image analysis. We publish our code at https://github.com/wimmerth/scale-equivariant-3d-convnet for further research and application. | 翻訳日:2023-04-13 14:52:17 公開日:2023-04-12 |
# ニューラルマシン翻訳のためのホログラフィの曖昧さ表現の学習 Learning Homographic Disambiguation Representation for Neural Machine Translation ( http://arxiv.org/abs/2304.05860v1 ) ライセンス: Link先を確認 | Weixuan Wang, Wei Peng and Qun Liu | (参考訳) 同じ綴りだが異なる意味を持つホモグラフは、ニューラルマシン翻訳(nmt)において依然として挑戦的である。
最近の研究は、NMTにおける単語感覚の区別に様々な単語埋め込みアプローチを利用しているが、NMTにおけるホモグラフのあいまいさ(エンコーダの隠れ状態)を解決するための重要な要素には焦点を当てていない。
本稿では,潜伏空間におけるNMTのホモグラフィック問題に取り組むための新しい手法を提案する。
まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶためにエンコーダ(HDR-encoder)を訓練する。
我々はさらに、WordNetからホモグラフベースの合成文を用いてエンコーダを微調整し、単語レベルのホモグラフの曖昧さ表現(HDR)を学習する。
事前訓練されたHDRエンコーダは、変換精度を向上させるために様々なスキームで変換器ベースのNTTと統合される。
4つの翻訳方向に関する実験は、bleuスコアにおけるnmtシステムの性能向上(固形ベースラインと比較して最大+2.3まで)における提案手法の有効性を示す。
この効果は、追加の曖昧化タスクにおける翻訳精度の他の指標(F1、精度、リコール)によって検証することができる。
また, 熱マップやT-SNE, 翻訳例などの可視化手法を用いて, 提案手法の効果を実証する。 Homographs, words with the same spelling but different meanings, remain challenging in Neural Machine Translation (NMT). While recent works leverage various word embedding approaches to differentiate word sense in NMT, they do not focus on the pivotal components in resolving ambiguities of homographs in NMT: the hidden states of an encoder. In this paper, we propose a novel approach to tackle homographic issues of NMT in the latent space. We first train an encoder (aka "HDR-encoder") to learn universal sentence representations in a natural language inference (NLI) task. We further fine-tune the encoder using homograph-based synset sentences from WordNet, enabling it to learn word-level homographic disambiguation representations (HDR). The pre-trained HDR-encoder is subsequently integrated with a transformer-based NMT in various schemes to improve translation accuracy. Experiments on four translation directions demonstrate the effectiveness of the proposed method in enhancing the performance of NMT systems in the BLEU scores (up to +2.3 compared to a solid baseline). The effects can be verified by other metrics (F1, precision, and recall) of translation accuracy in an additional disambiguation task. Visualization methods like heatmaps, T-SNE and translation examples are also utilized to demonstrate the effects of the proposed method. | 翻訳日:2023-04-13 14:51:55 公開日:2023-04-12 |
# RESET:条件行動予測のための軌道集合の再検討 RESET: Revisiting Trajectory Sets for Conditional Behavior Prediction ( http://arxiv.org/abs/2304.05856v1 ) ライセンス: Link先を確認 | Julian Schmidt, Pascal Huissel, Julian Wiederer, Julian Jordan, Vasileios Belagiannis, Klaus Dietmayer | (参考訳) 自動運転車の異なる計画軌道上での交通参加者の行動を予測することが望ましい。
これにより、下流のプランナーはその決定の影響を見積もることができる。
条件付き挙動予測の最近のアプローチは回帰デコーダに依存しており、座標係数や多項式係数は回帰される。
本研究では,事前定義された軌跡集合における各軌跡の確率を分類モデルにより決定し,まず条件付き挙動予測のタスクに利用する,集合に基づく軌跡予測を再検討する。
本稿では、トラジェクトリセット生成のための新しいメトリック駆動アルゴリズムとグラフベースのエンコーダを組み合わせたRESETを提案する。
非条件予測では、RESETは回帰ベースのアプローチと同等のパフォーマンスを達成する。
集合ベースのアプローチの性質上、実行時や複雑性に影響を与えることなく、柔軟な軌道数を予測できるという利点がある。
条件付き予測では,レグレッションベースのアプローチでは観測されなかった計画軌道の後期融合により合理的な結果が得られる。
これは、フォワードパスの大部分を再利用できるため、自律走行車の複数の将来の計画を提案するプランナーと組み合わせて計算的に軽量であることを意味する。 It is desirable to predict the behavior of traffic participants conditioned on different planned trajectories of the autonomous vehicle. This allows the downstream planner to estimate the impact of its decisions. Recent approaches for conditional behavior prediction rely on a regression decoder, meaning that coordinates or polynomial coefficients are regressed. In this work we revisit set-based trajectory prediction, where the probability of each trajectory in a predefined trajectory set is determined by a classification model, and first-time employ it to the task of conditional behavior prediction. We propose RESET, which combines a new metric-driven algorithm for trajectory set generation with a graph-based encoder. For unconditional prediction, RESET achieves comparable performance to a regression-based approach. Due to the nature of set-based approaches, it has the advantageous property of being able to predict a flexible number of trajectories without influencing runtime or complexity. For conditional prediction, RESET achieves reasonable results with late fusion of the planned trajectory, which was not observed for regression-based approaches before. This means that RESET is computationally lightweight to combine with a planner that proposes multiple future plans of the autonomous vehicle, as large parts of the forward pass can be reused. | 翻訳日:2023-04-13 14:51:32 公開日:2023-04-12 |
# 超伝導量子回路に基づく周波数可変マイクロ波量子光源 Frequency-tunable microwave quantum light source based on superconducting quantum circuits ( http://arxiv.org/abs/2304.05847v1 ) ライセンス: Link先を確認 | Yan Li, Zhiling Wang, Zenghui Bao, Yukai Wu, Jiahui Wang, Jize Yang, Haonan Xiong, Yipu Song, Hongyi Zhang, Luming Duan | (参考訳) 非古典的な光源は、量子コンピューティング、ネットワーク、通信、メトロロジーを含む幅広い量子情報処理プロトコルを実装するのに不可欠である。
マイクロ波領域では、複数の超伝導量子チップ間で量子情報を転送するフォトニック量子ビットが大規模量子コンピュータの構成要素として機能する。
この文脈では、単一光子を伝播するスペクトル制御は、周波数と帯域幅の異なる異なる異なる量子ノードと対向する上で重要である。
ここでは、単一光子、タイムビンエンコードされたフォトニック量子ビット、quditを生成する超伝導量子回路に基づくマイクロ波量子光源を実証する。
特に、放出された光子の周波数は200mhzまでその場で調整できる。
光源の内部量子効率は動作周波数に敏感であるにもかかわらず、伝播するフォトニック量子ビットの忠実度はタイムビン符号化方式で十分に保存可能であることを示す。
そこで本研究では,将来の分散量子コンピューティングのための実用的な量子光源を実現するための汎用的手法を示す。 A nonclassical light source is essential for implementing a wide range of quantum information processing protocols, including quantum computing, networking, communication, and metrology. In the microwave regime, propagating photonic qubits that transfer quantum information between multiple superconducting quantum chips serve as building blocks of large-scale quantum computers. In this context, spectral control of propagating single photons is crucial for interfacing different quantum nodes with varied frequencies and bandwidth. Here we demonstrate a microwave quantum light source based on superconducting quantum circuits that can generate propagating single photons, time-bin encoded photonic qubits and qudits. In particular, the frequency of the emitted photons can be tuned in situ as large as 200 MHz. Even though the internal quantum efficiency of the light source is sensitive to the working frequency, we show that the fidelity of the propagating photonic qubit can be well preserved with the time-bin encoding scheme. Our work thus demonstrates a versatile approach to realizing a practical quantum light source for future distributed quantum computing. | 翻訳日:2023-04-13 14:51:14 公開日:2023-04-12 |
# 不均衡データによるデータ拡張の仕組み理解に向けて Towards Understanding How Data Augmentation Works with Imbalanced Data ( http://arxiv.org/abs/2304.05895v1 ) ライセンス: Link先を確認 | Damien A. Dablain and Nitesh V. Chawla | (参考訳) データ拡張は多くの現代の機械学習トレーニングパイプラインの基盤となっているが、それが機能するメカニズムは明確には理解されていない。
データ拡張(da)に関する多くの研究は、既存の技術の改善、ニューラルネットワークの過剰フィッティングの文脈における正規化効果の検証、機能への影響の調査に焦点を当てている。
本稿では,DAが3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクターマシン,ロジスティック回帰モデルに与える影響を総合的に検討する。
我々は,3つの画像と5つの表付きデータセットの検証を支援。
本研究は, DAが不均衡データに適用された場合, モデル重み, サポートベクトル, 特徴選択の大幅な変化が生じることを示唆する。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
モデルがラベルを予測するために認識しなければならない特徴振幅の範囲を多様化することにより、DAは不均衡なデータで学習する際のモデルの能力を改善して一般化する。 Data augmentation forms the cornerstone of many modern machine learning training pipelines; yet, the mechanisms by which it works are not clearly understood. Much of the research on data augmentation (DA) has focused on improving existing techniques, examining its regularization effects in the context of neural network over-fitting, or investigating its impact on features. Here, we undertake a holistic examination of the effect of DA on three different classifiers, convolutional neural networks, support vector machines, and logistic regression models, which are commonly used in supervised classification of imbalanced data. We support our examination with testing on three image and five tabular datasets. Our research indicates that DA, when applied to imbalanced data, produces substantial changes in model weights, support vectors and feature selection; even though it may only yield relatively modest changes to global metrics, such as balanced accuracy or F1 measure. We hypothesize that DA works by facilitating variances in data, so that machine learning models can associate changes in the data with labels. By diversifying the range of feature amplitudes that a model must recognize to predict a label, DA improves a model's capacity to generalize when learning with imbalanced data. | 翻訳日:2023-04-13 14:45:55 公開日:2023-04-12 |
# 重み付きラベルネットワークに対する動的混合構成確率ブロックモデル Dynamic Mixed Membership Stochastic Block Model for Weighted Labeled Networks ( http://arxiv.org/abs/2304.05894v1 ) ライセンス: Link先を確認 | Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher | (参考訳) ほとんどの現実世界のネットワークは時間とともに進化する。
既存の文献では、ラベルのない、あるいは単一のメンバーシップ構造を持つと仮定された動的ネットワークのモデルを提案している。
一方、MMSBM(Mixed Membership Stochastic Block Models)の新たなファミリーでは、混合メンバシップクラスタリングを前提として静的ラベル付きネットワークをモデル化することができる。
本研究では,この後続モデルを拡張し,混合メンバシップ仮定の下で動的ラベル付きネットワークを推論することを提案する。
我々のアプローチは、モデルのパラメータに先立って一時的な形式を取る。
ダイナミクスが突然ではないという単一の仮定に依存している。
提案手法は既存手法とは大きく異なり,より複雑なシステム - 動的ラベル付きネットワークをモデル化できることを示す。
本稿では,合成データと実世界データの両方について実験を行い,本手法のロバスト性を示す。
私たちのアプローチの重要な関心事は、良い結果を得るのにトレーニングデータが非常に少ないことです。
難しい状況下でのパフォーマンス向上は、自動学習ツールのさまざまな応用範囲を広げる -- 社会科学では、小さなデータセットが機械学習手法の導入の大きな障害となる多くの分野を構成している。 Most real-world networks evolve over time. Existing literature proposes models for dynamic networks that are either unlabeled or assumed to have a single membership structure. On the other hand, a new family of Mixed Membership Stochastic Block Models (MMSBM) allows to model static labeled networks under the assumption of mixed-membership clustering. In this work, we propose to extend this later class of models to infer dynamic labeled networks under a mixed membership assumption. Our approach takes the form of a temporal prior on the model's parameters. It relies on the single assumption that dynamics are not abrupt. We show that our method significantly differs from existing approaches, and allows to model more complex systems --dynamic labeled networks. We demonstrate the robustness of our method with several experiments on both synthetic and real-world datasets. A key interest of our approach is that it needs very few training data to yield good results. The performance gain under challenging conditions broadens the variety of possible applications of automated learning tools --as in social sciences, which comprise many fields where small datasets are a major obstacle to the introduction of machine learning methods. | 翻訳日:2023-04-13 14:45:35 公開日:2023-04-12 |
# 多段階逆運動学による表現学習:リッチ観測RLの効率的かつ最適アプローチ Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL ( http://arxiv.org/abs/2304.05889v1 ) ライセンス: Link先を確認 | Zakaria Mhammedi and Dylan J. Foster and Alexander Rakhlin | (参考訳) 我々は,Block MDP問題を通じて定式化されたリッチで高次元の観測環境下での強化学習のためのサンプル効率アルゴリズムの設計について検討した。
既存のアルゴリズムはどちらかに苦しむ
1)計算の難易度
2 実用上必ずしも満たされない強固な統計的仮定、又は
3) 至適試料の複雑さ。
これらの問題に対処するために、最小の統計的仮定で、所望の精度レベルに対して、レート最適サンプル複雑性を実現する最初の計算効率の良いアルゴリズムを提供する。
本アルゴリズムは,多段階逆運動学に基づく系統的探索と表現学習を組み合わせることで,現在(潜在的に遠い)未来における観察と観察から学習者の行動を予測することを目的とした学習目標である。
MusIKは単純で柔軟性があり、汎用関数近似を効率的に活用することができる。
我々の分析は、最適化されていない探索アルゴリズムに適したいくつかの新しい手法を活用する。 We study the design of sample-efficient algorithms for reinforcement learning in the presence of rich, high-dimensional observations, formalized via the Block MDP problem. Existing algorithms suffer from either 1) computational intractability, 2) strong statistical assumptions that are not necessarily satisfied in practice, or 3) suboptimal sample complexity. We address these issues by providing the first computationally efficient algorithm that attains rate-optimal sample complexity with respect to the desired accuracy level, with minimal statistical assumptions. Our algorithm, MusIK, combines systematic exploration with representation learning based on multi-step inverse kinematics, a learning objective in which the aim is to predict the learner's own action from the current observation and observations in the (potentially distant) future. MusIK is simple and flexible, and can efficiently take advantage of general-purpose function approximation. Our analysis leverages several new techniques tailored to non-optimistic exploration algorithms, which we anticipate will find broader use. | 翻訳日:2023-04-13 14:45:14 公開日:2023-04-12 |
# クロスドメインの視覚的な位置認識に必要なローカル機能は? Are Local Features All You Need for Cross-Domain Visual Place Recognition? ( http://arxiv.org/abs/2304.05887v1 ) ライセンス: Link先を確認 | Giovanni Barbarani, Mohamad Mostafa, Hajali Bayramov, Gabriele Trivigno, Gabriele Berton, Carlo Masone, Barbara Caputo | (参考訳) 視覚的位置認識(Visual Place Recognition)は、視覚的手がかりのみに基づく画像の座標(クエリと呼ばれる)の予測を目的としたタスクである。
最も一般的な検索手法は、学習されたグローバルな記述子を用いて、ジオタグ付きの写真の大きなデータベースから最も類似した画像とクエリをマッチングする。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
例えば、重い照明変化(夜間画像など)や実質的な閉塞(過渡的な物体など)がある。
本研究では,局所記述子はグローバルな特徴やドメインシフトよりも本質的に堅牢である,という直感に従って,空間的検証に基づく手法の再評価がこれらの課題に対処できるかどうかを検討する。
この目的のために、我々はアートモデルの現在の状況に関する新しい包括的なベンチマークを提供する。
また,市全体のデータベースとマッチングするために,夜間および閉ざされたクエリを用いた2つの新たな要求データセットも導入した。
コードとデータセットはhttps://github.com/gbarbarani/re- rank-for-VPRで公開されている。 Visual Place Recognition is a task that aims to predict the coordinates of an image (called query) based solely on visual clues. Most commonly, a retrieval approach is adopted, where the query is matched to the most similar images from a large database of geotagged photos, using learned global descriptors. Despite recent advances, recognizing the same place when the query comes from a significantly different distribution is still a major hurdle for state of the art retrieval methods. Examples are heavy illumination changes (e.g. night-time images) or substantial occlusions (e.g. transient objects). In this work we explore whether re-ranking methods based on spatial verification can tackle these challenges, following the intuition that local descriptors are inherently more robust than global features to domain shifts. To this end, we provide a new, comprehensive benchmark on current state of the art models. We also introduce two new demanding datasets with night and occluded queries, to be matched against a city-wide database. Code and datasets are available at https://github.com/gbarbarani/re-ranking-for-VPR. | 翻訳日:2023-04-13 14:44:57 公開日:2023-04-12 |
# イオンキャビティ系における3次例外点 Third-order exceptional point in an ion-cavity system ( http://arxiv.org/abs/2304.05886v1 ) ライセンス: Link先を確認 | Jinuk Kim, Taegyu Ha, Donggeon Kim, Dowon Lee, Ki-Se Lee, Jongcheol Won, Youngil Moon, Moonjoo Lee | (参考訳) イオンキャビティ系における3次例外点(EP3)の観測手法について検討する。
ラムダ型準位では、イオンはポンプ場によって駆動され、共振器は別の弱いレーザー場でプローブされる。
我々は、イオンの励起状態の高度非対称分岐比を利用して弱励起極限を満たすので、非エルミート的ハミルトニアン$(H_{\textrm{nH}})$を構築することができる。
H_{\textrm{nH}}$の固有値は共振器透過スペクトルに適合するので、EP3はポンプレーザのラビ周波数と原子空洞結合が系の損失率を一定に均衡させる点に現れる。
可能な実験パラメータが提供される。 We investigate a scheme for observing the third-order exceptional point (EP3) in an ion-cavity system. In the lambda-type level configuration, the ion is driven by a pump field, and the resonatoris probed with another weak laser field. We exploit the highly asymmetric branching ratio of an ion's excited state to satisfy the weak-excitation limit, which allows us to construct the non-Hermitian Hamiltonian $(H_{\textrm{nH}})$. Via fitting the cavity-transmission spectrum, the eigenvalues of $H_{\textrm{nH}}$ are obtained.The EP3 appears at a point where the Rabi frequency of the pump laser and the atom-cavity coupling constant balance the loss rates of the system. Feasible experimental parameters are provided. | 翻訳日:2023-04-13 14:44:39 公開日:2023-04-12 |
# Unicom:画像検索のためのユニバーサルでコンパクトな表現学習 Unicom: Universal and Compact Representation Learning for Image Retrieval ( http://arxiv.org/abs/2304.05884v1 ) ライセンス: Link先を確認 | Xiang An, Jiankang Deng, Kaicheng Yang, Jaiwei Li, Ziyong Feng, Jia Guo, Jing Yang, Tongliang Liu | (参考訳) 現代の画像検索法は、通常、画像レベルの記述子を抽出するための微調整済みエンコーダに依存している。
しかし、最も広く使われているモデルは、限られたクラスでimagenet-1kで事前訓練されている。
したがって、事前訓練された特徴表現は、多様なオープンワールドクラスにうまく一般化できるほど普遍的ではない。
本稿では,大規模LAION400MをCLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
ラベルの粒度の混乱のため、自動的にクラスタ化されたデータセットは必然的に、クラス間の激しい衝突を含む。
このような対立を緩和するため、我々はランダムにクラス間プロトタイプを選択し、マージンベースのソフトマックス損失を構築する。
低次元特徴表現をさらに強化するため,埋め込みとクラスワイズプロトタイプの類似度を計算する際に,部分的特徴次元をランダムに選択する。
双対ランダムな部分選択は、プロトタイプ行列のクラス次元と特徴次元に関するもので、分類の競合-ロバストと特徴埋め込みをコンパクトにする。
本手法は,複数のベンチマークにおいて,非教師なしかつ教師なしの画像検索手法を著しく上回っている。
コードと事前訓練されたモデルは、将来の研究を促進するためにリリースされている。 Modern image retrieval methods typically rely on fine-tuning pre-trained encoders to extract image-level descriptors. However, the most widely used models are pre-trained on ImageNet-1K with limited classes. The pre-trained feature representation is therefore not universal enough to generalize well to the diverse open-world classes. In this paper, we first cluster the large-scale LAION400M into one million pseudo classes based on the joint textual and visual features extracted by the CLIP model. Due to the confusion of label granularity, the automatically clustered dataset inevitably contains heavy inter-class conflict. To alleviate such conflict, we randomly select partial inter-class prototypes to construct the margin-based softmax loss. To further enhance the low-dimensional feature representation, we randomly select partial feature dimensions when calculating the similarities between embeddings and class-wise prototypes. The dual random partial selections are with respect to the class dimension and the feature dimension of the prototype matrix, making the classification conflict-robust and the feature embedding compact. Our method significantly outperforms state-of-the-art unsupervised and supervised image retrieval approaches on multiple benchmarks. The code and pre-trained models are released to facilitate future research https://github.com/deepglint/unicom. | 翻訳日:2023-04-13 14:44:23 公開日:2023-04-12 |
# 量子ディスクからのセキュアキー Secure Key from Quantum Discord ( http://arxiv.org/abs/2304.05880v1 ) ライセンス: Link先を確認 | Rong Wang, Guan-jie Fan-Yuan, Zhen-Qiang Yin, Shuang Wang, Hong-Wei Li, Yao Yao, Wei Chen, Guang-Can Guo, Zheng-Fu Han, Hoi-Kwong Lo | (参考訳) 量子情報処理の研究は、量子情報処理が従来の情報処理では不可能または非効率なタスクを実行できるようにするリソースを特徴付けようとしている。
量子暗号はそのような課題の一つであり、研究者は絡み合いをセキュアな鍵生成に十分なリソースとして認識している。
しかし、絡み合い以外の別の種類の量子相関である量子不協和は、情報漏洩に直接関係しているため、安全な通信を保証するために必要であることが判明した。
それにもかかわらず、特定の量子暗号プロトコルにおけるセキュリティを分析するためにディスコードをどのように利用するかは長年の問題である。
ここでは,最近提案する量子ディスコード証人に基づいて,bb84型量子鍵分散プロトコルと等価な絡み合いベースバージョンを考慮し,この問題への対処に成功した。
提案手法は, 標準のBB84プロトコルよりも高い鍵レートを実現するため, 量子チャネルによる基底ミスアライメントだけでなく, 量子ビット源および量子ビット測定の不完全性に対して頑健である。
これらの利点はフォトニック位相符号化システムを用いて実験的に実証され,本研究の実用性を示す。 The study of quantum information processing seeks to characterize the resources that enable quantum information processing to perform tasks that are unfeasible or inefficient for classical information processing. Quantum cryptography is one such task, and researchers have identified entanglement as a sufficient resource for secure key generation. However, quantum discord, another type of quantum correlation beyond entanglement, has been found to be necessary for guaranteeing secure communication due to its direct relation to information leakage. Despite this, it is a long-standing problem how to make use of discord to analyze security in a specific quantum cryptography protocol. Here, based on our proposed quantum discord witness recently, we successfully address this issue by considering a BB84-like quantum key distribution protocol and its equivalent entanglement-based version. Our method is robust against imperfections in qubit sources and qubit measurements as well as basis misalignment due to quantum channels, which results in a better key rate than standard BB84 protocol. Those advantages are experimentally demonstrated via photonic phase encoding systems, which shows the practicality of our results. | 翻訳日:2023-04-13 14:44:05 公開日:2023-04-12 |
# FetMRQC:胎児脳MRIにおける自動品質制御 FetMRQC: Automated Quality Control for fetal brain MRI ( http://arxiv.org/abs/2304.05879v1 ) ライセンス: Link先を確認 | Thomas Sanchez, Oscar Esteban, Yvan Gomez, Elisenda Eixarch and Meritxell Bach Cuadra | (参考訳) 品質管理(qc)は,神経画像研究の信頼性を保証する上で重要視されてきた。
特に胎児脳MRIでは、大きめで予測不可能な胎児の動きが、取得した画像に実質的なアーティファクトをもたらす可能性がある。
胎児の脳質評価のための既存の方法は、 \textit{slice}レベルで動作し、画像の品質の包括的な画像を得ることができず、それは \textit{entire} 脳の容積を見ることでのみ達成できる。
本研究では、胎児脳MRIに合わせた自動画像品質評価のための機械学習フレームワークであるFetMRQCを提案する。
2つの異なる機関で取得された1000以上の低解像度スタックのマニュアル評価に基づいて、FetMRQCは既存の品質指標と比較して、解釈可能でデータ効率が良い領域外を一般化できることを示した。
また、胎児脳画像の品質評価を容易にし、最適化するための手動品質評価ツールもリリースした。
私たちのツールは、モデルを生成し、トレーニングし、評価するすべてのコードとともに、論文が受け入れられるとリリースされます。 Quality control (QC) has long been considered essential to guarantee the reliability of neuroimaging studies. It is particularly important for fetal brain MRI, where large and unpredictable fetal motion can lead to substantial artifacts in the acquired images. Existing methods for fetal brain quality assessment operate at the \textit{slice} level, and fail to get a comprehensive picture of the quality of an image, that can only be achieved by looking at the \textit{entire} brain volume. In this work, we propose FetMRQC, a machine learning framework for automated image quality assessment tailored to fetal brain MRI, which extracts an ensemble of quality metrics that are then used to predict experts' ratings. Based on the manual ratings of more than 1000 low-resolution stacks acquired across two different institutions, we show that, compared with existing quality metrics, FetMRQC is able to generalize out-of-domain, while being interpretable and data efficient. We also release a novel manual quality rating tool designed to facilitate and optimize quality rating of fetal brain images. Our tool, along with all the code to generate, train and evaluate the model will be released upon acceptance of the paper. | 翻訳日:2023-04-13 14:43:42 公開日:2023-04-12 |
# 異方性相互作用に結合した2スピン系を持つ測定ベース量子オットーエンジン:有限時間での高効率化 Measurement-based quantum Otto engine with a two-spin system coupled by anisotropic interaction: enhanced efficiency at finite times ( http://arxiv.org/abs/2304.05877v1 ) ライセンス: Link先を確認 | Chayan Purkait, Asoka Biswas | (参考訳) ハイゼンベルク異方性相互作用に結合した2つのスピンの動作系における測定ベース量子オットーエンジン(QOE)の性能について検討した。
非選択的な量子測定はエンジンを燃やす。
我々は、サイクルのユニタリステージが有限時間$\tau$ で操作される場合、瞬時エネルギー固有状態と瞬時エネルギー固有状態と測定の基底状態との間の遷移確率の観点から、サイクルの熱力学的量を計算する。
この効率は、$\tau \rightarrow 0$の極限において大きな値に達し、その後、長い時間制限$\tau \rightarrow \infty$で徐々に断熱値に達する。
有限値$\tau$と異方性相互作用に対しては、エンジンの効率の振動挙動が観察される。
この振動は、エンジンサイクルのユニタリステージにおける関連する遷移振幅間の干渉の観点から解釈することができる。
したがって、短時間で一元化プロセスのタイミングを適切に選択するために、エンジンはより高い作業出力を持ち、準静圧エンジンよりも効率的に動作するように、熱吸収を少なくすることができる。
常時オン熱浴の場合、非常に短時間でその性能に無視できる効果がある。 We have studied the performance of a measurement-based quantum Otto engine (QOE) in a working system of two spins coupled by Heisenberg anisotropic interaction. A non-selective quantum measurement fuels the engine. We have calculated thermodynamic quantities of the cycle in terms of the transition probabilities between the instantaneous energy eigenstates, and also between the instantaneous energy eigenstates and the basis states of the measurement, when the unitary stages of the cycle operate for a finite time $\tau$. The efficiency attains a large value in the limit of $\tau \rightarrow 0$ and then gradually reaches the adiabatic value in a long time limit $\tau \rightarrow \infty$. For finite values of $\tau$ and for anisotropic interaction, an oscillatory behaviour of the efficiency of the engine is observed. This oscillation can be interpreted in terms of interference between the relevant transition amplitudes in the unitary stages of the engine cycle. Therefore, for a suitable choice of timing of the unitary processes in the short time regime, the engine can have a higher work output and less heat absorption, such that it works more efficiently than a quasi-static engine. In the case of an always-on heat bath, in a very short time the bath has a negligible effect on its performance. | 翻訳日:2023-04-13 14:43:07 公開日:2023-04-12 |
# 脳波データを用いたアルツハイマー病の説明可能な診断のための適応的グラフ畳み込みネットワーク Adaptive Gated Graph Convolutional Network for Explainable Diagnosis of Alzheimer's Disease using EEG Data ( http://arxiv.org/abs/2304.05874v1 ) ライセンス: Link先を確認 | Dominik Klepl, Fei He, Min Wu, Daniel J. Blackburn, Ptolemaios G. Sarrigiannis | (参考訳) グラフニューラルネットワーク(GNN)モデルは、脳波(EEG)データの分類にますます使われている。
しかし、GNNによるアルツハイマー病(AD)などの神経疾患の診断は、いまだに未発見の分野である。
従来の研究は、脳グラフ構造を推測するための機能的接続法に依存しており、ADの診断に単純なGNNアーキテクチャを使用している。
本研究では,新しい適応ゲート型グラフ畳み込みネットワーク(aggcn)を提案する。
AGGCNは、畳み込みに基づくノード機能拡張と、よく知られた相関に基づく機能接続の尺度を組み合わせることで、グラフ構造を適応的に学習する。
さらに、ゲートグラフ畳み込みは、様々な空間スケールの寄与を動的に評価することができる。
提案モデルは眼閉鎖状態と眼開放状態の両方において高い精度を実現し, 学習表現の安定性を示す。
最後に,提案するaggcnモデルが,脳ネットワークのad関連変化のさらなる研究に寄与するであろう予測の一貫した説明を生成することを実証する。 Graph neural network (GNN) models are increasingly being used for the classification of electroencephalography (EEG) data. However, GNN-based diagnosis of neurological disorders, such as Alzheimer's disease (AD), remains a relatively unexplored area of research. Previous studies have relied on functional connectivity methods to infer brain graph structures and used simple GNN architectures for the diagnosis of AD. In this work, we propose a novel adaptive gated graph convolutional network (AGGCN) that can provide explainable predictions. AGGCN adaptively learns graph structures by combining convolution-based node feature enhancement with a well-known correlation-based measure of functional connectivity. Furthermore, the gated graph convolution can dynamically weigh the contribution of various spatial scales. The proposed model achieves high accuracy in both eyes-closed and eyes-open conditions, indicating the stability of learned representations. Finally, we demonstrate that the proposed AGGCN model generates consistent explanations of its predictions that might be relevant for further study of AD-related alterations of brain networks. | 翻訳日:2023-04-13 14:42:34 公開日:2023-04-12 |
# med-vt:マルチスケールエンコーダ・デコーダビデオトランスとオブジェクトセグメンテーションへの応用 MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to Object Segmentation ( http://arxiv.org/abs/2304.05930v1 ) ライセンス: Link先を確認 | Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam | (参考訳) マルチスケールビデオトランスは様々な視覚タスクで研究されている。
しかし、これまでのところ、マルチスケール処理はエンコーダまたはデコーダのみに限られている。
本稿では,ビデオ中の高密度予測タスクに着目したマルチスケールエンコーダ・デコーダ変換器を提案する。
エンコーダとデコーダの両方でのマルチスケール表現は、空間的特徴(すなわち入力光フローに依存しない)の暗黙的な抽出と、復号時の正確な局所化を導くために、高レベル(例えばオブジェクト)セマンティクスの符号化における時間的一貫性と粗大な検出の利点をもたらす。
さらに,多対多ラベル伝播による帰納的学習方式を提案し,時間的に一貫した予測を行う。
我々は,自動ビデオオブジェクトセグメンテーション(AVOS)とアクタ/アクションセグメンテーションにMED-VT(Multiscale Encoder-Decoder Video Transformer)を紹介する。 Multiscale video transformers have been explored in a wide variety of vision tasks. To date, however, the multiscale processing has been confined to the encoder or decoder alone. We present a unified multiscale encoder-decoder transformer that is focused on dense prediction tasks in videos. Multiscale representation at both encoder and decoder yields key benefits of implicit extraction of spatiotemporal features (i.e. without reliance on input optical flow) as well as temporal consistency at encoding and coarseto-fine detection for high-level (e.g. object) semantics to guide precise localization at decoding. Moreover, we propose a transductive learning scheme through many-to-many label propagation to provide temporally consistent predictions. We showcase our Multiscale Encoder-Decoder Video Transformer (MED-VT) on Automatic Video Object Segmentation (AVOS) and actor/action segmentation, where we outperform state-of-the-art approaches on multiple benchmarks using only raw images, without using optical flow. | 翻訳日:2023-04-13 14:35:50 公開日:2023-04-12 |
# ReDWINE: テキスト分析機能を備えたリハビリテーション研究のための臨床データマート ReDWINE: A Clinical Datamart with Text Analytical Capabilities to Facilitate Rehabilitation Research ( http://arxiv.org/abs/2304.05929v1 ) ライセンス: Link先を確認 | David Oniani, Bambang Parmanto, Andi Saptono, Allyn Bove, Janet Freburger, Shyam Visweswaran Nickie Cappella, Brian McLay, Jonathan C. Silverstein, Michael J. Becich, Anthony Delitto, Elizabeth Skidmore, Yanshan Wang | (参考訳) リハビリテーション研究は、治療介入の構成要素の決定、これらの成分がどのように回復とリハビリにつながるかのメカニズム、そして究極的には患者の身体、精神、社会的機能の最大化のための最適な介入戦略に焦点を当てている。
新しい介入を研究し確立する伝統的なランダム化臨床試験は、コストや時間的コミットメントなどいくつかの課題に直面している。
既存の臨床データを用いて介入の効果を観察する観察的研究は、RCTに対していくつかの利点を示している。
電子健康記録(ehrs)は、観察研究を行う上でますます重要な資源となっている。
これらの研究を支援するため,我々は,upmc医療システムから収集したリハビリテーション関連ehrデータを,ocdsi(observational health data sciences and informatics)のobservational medical outcomes partnership(omop) common data model(cdm)に変換し,リハビリテーション研究を容易にする,redwine(rehabilitation datamart with informatics infrastructure for research)という臨床研究データマートを開発した。
ReDWINEに格納されている標準化されたEHRデータは、複数のソースからのデータのプール、調和、クリーン化、分析に必要な時間と労力をさらに削減し、より堅牢で包括的な研究結果をもたらす。
ReDWINEには、コホート定義と臨床データ分析を容易にするデータ可視化とデータ分析ツールのデプロイも含まれている。
その他にもOpen Health Natural Language Processing (OHNLP)ツールキット、高スループットのNLPパイプラインがあり、ReDWINEで大規模にテキスト分析機能を提供する。
リハビリテーション研究のためにReDWINEの患者データの包括的表現を使用することで、実際の健康介入と結果の証拠がより容易になる。 Rehabilitation research focuses on determining the components of a treatment intervention, the mechanism of how these components lead to recovery and rehabilitation, and ultimately the optimal intervention strategies to maximize patients' physical, psychologic, and social functioning. Traditional randomized clinical trials that study and establish new interventions face several challenges, such as high cost and time commitment. Observational studies that use existing clinical data to observe the effect of an intervention have shown several advantages over RCTs. Electronic Health Records (EHRs) have become an increasingly important resource for conducting observational studies. To support these studies, we developed a clinical research datamart, called ReDWINE (Rehabilitation Datamart With Informatics iNfrastructure for rEsearch), that transforms the rehabilitation-related EHR data collected from the UPMC health care system to the Observational Health Data Sciences and Informatics (OHDSI) Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) to facilitate rehabilitation research. The standardized EHR data stored in ReDWINE will further reduce the time and effort required by investigators to pool, harmonize, clean, and analyze data from multiple sources, leading to more robust and comprehensive research findings. ReDWINE also includes deployment of data visualization and data analytics tools to facilitate cohort definition and clinical data analysis. These include among others the Open Health Natural Language Processing (OHNLP) toolkit, a high-throughput NLP pipeline, to provide text analytical capabilities at scale in ReDWINE. Using this comprehensive representation of patient data in ReDWINE for rehabilitation research will facilitate real-world evidence for health interventions and outcomes. | 翻訳日:2023-04-13 14:35:26 公開日:2023-04-12 |
# マスク画像モデリングのためのハードパッチマイニング Hard Patches Mining for Masked Image Modeling ( http://arxiv.org/abs/2304.05919v1 ) ライセンス: Link先を確認 | Haochen Wang, Kaiyou Song, Junsong Fan, Yuxi Wang, Jin Xie, Zhaoxiang Zhang | (参考訳) マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
典型的なアプローチでは、モデルは通常、マスクされたパッチの特定の内容を予測することに集中し、その性能は事前に定義されたマスク戦略と非常に関連している。
直感的には、この手順は、与えられた問題を解決するための学生(モデル)の訓練(予測マスクパッチ)と見なすことができる。
しかし,本モデルでは,与えられた問題解決に留意すべきであるだけでなく,教師の足元に立つことで,より困難な課題を自力で解決するべきだと論じた。
そこで我々は,MIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
復元損失は,事前学習作業の難易度を示す指標として自然に考えられる。
そこで我々は,まずパッチワイズ損失を予測し,次にマスクする場所を決定する補助損失予測器を導入する。
相対的な関係学習戦略を採用し、正確な再構成損失値への過剰適合を防止する。
種々の条件下での実験は、マスク画像の構築におけるHPMの有効性を示す。
さらに, 損失予測の目標のみを導入すると強力な表現が得られ, 再構築が困難であることを認識できる能力の有効性を検証できることがわかった。 Masked image modeling (MIM) has attracted much research attention due to its promising potential for learning scalable visual representations. In typical approaches, models usually focus on predicting specific contents of masked patches, and their performances are highly related to pre-defined mask strategies. Intuitively, this procedure can be considered as training a student (the model) on solving given problems (predict masked patches). However, we argue that the model should not only focus on solving given problems, but also stand in the shoes of a teacher to produce a more challenging problem by itself. To this end, we propose Hard Patches Mining (HPM), a brand-new framework for MIM pre-training. We observe that the reconstruction loss can naturally be the metric of the difficulty of the pre-training task. Therefore, we introduce an auxiliary loss predictor, predicting patch-wise losses first and deciding where to mask next. It adopts a relative relationship learning strategy to prevent overfitting to exact reconstruction loss values. Experiments under various settings demonstrate the effectiveness of HPM in constructing masked images. Furthermore, we empirically find that solely introducing the loss prediction objective leads to powerful representations, verifying the efficacy of the ability to be aware of where is hard to reconstruct. | 翻訳日:2023-04-13 14:34:52 公開日:2023-04-12 |
# 音素インフォームドニューラルネットワークモデルによる音韻レベルの歌唱書き起こし A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription ( http://arxiv.org/abs/2304.05917v1 ) ライセンス: Link先を確認 | Sangeon Yong, Li Su, Juhan Nam | (参考訳) ノートレベルの自動音楽書き起こしは、最も代表的な音楽情報検索(MIR)タスクの一つであり、様々な楽器が音楽を理解するために研究されている。
しかし、高品質なラベルデータがないため、多くの楽器の転写は依然として困難な課題である。
特に歌唱の場合、ピッチ、音色、ダイナミクスの表現性から正確な音符を見つけることは困難である。
本稿では,他の楽器では見られない歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける手法を提案する。
提案モデルでは,音素のフレームワイズであるメルスケール・スペクトログラムと音素後部グラム(PPG)をオンセット検出ネットワークの入力として使用し,歌声データと音声データを用いた事前学習ネットワークでPSGを生成する。
言語的特徴がオンセット検出にどう影響するかを検証するため,データセットによる評価結果を異なる言語と比較し,詳細な分析を行うためにオンセット型を分割する。
提案手法は, 歌唱翻訳の性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調した。 Note-level automatic music transcription is one of the most representative music information retrieval (MIR) tasks and has been studied for various instruments to understand music. However, due to the lack of high-quality labeled data, transcription of many instruments is still a challenging task. In particular, in the case of singing, it is difficult to find accurate notes due to its expressiveness in pitch, timbre, and dynamics. In this paper, we propose a method of finding note onsets of singing voice more accurately by leveraging the linguistic characteristics of singing, which are not seen in other instruments. The proposed model uses mel-scaled spectrogram and phonetic posteriorgram (PPG), a frame-wise likelihood of phoneme, as an input of the onset detection network while PPG is generated by the pre-trained network with singing and speech data. To verify how linguistic features affect onset detection, we compare the evaluation results through the dataset with different languages and divide onset types for detailed analysis. Our approach substantially improves the performance of singing transcription and therefore emphasizes the importance of linguistic features in singing analysis. | 翻訳日:2023-04-13 14:34:33 公開日:2023-04-12 |
# 連続ゲージ群を持つ格子ゲージ理論に対する変分モンテカルロアルゴリズム:有限密度での動的フェルミオンを持つ(2+1)次元コンパクトQEDの研究 A variational Monte Carlo algorithm for lattice gauge theories with continuous gauge groups: a study of (2+1)-dimensional compact QED with dynamical fermions at finite density ( http://arxiv.org/abs/2304.05916v1 ) ライセンス: Link先を確認 | Julian Bender, Patrick Emonts, J. Ignacio Cirac | (参考訳) フェルミオン性物質に結合した格子ゲージ理論は、高エネルギー物理学と凝縮物質物理学の両方において多くの興味深い現象を説明できる。
有限フェルミオン密度のような特定の規則は、いわゆる符号確率によって従来のモンテカルロアルゴリズムとシミュレートすることが困難である。
連続ゲージ群を持つ格子ゲージ理論に対する変分無符号モンテカルロ法を提案し、有限密度での動的フェルミオンを持つ(2+1)次元コンパクトQEDに適用する。
変分 ansatz は全ゲージ場基底、すなわち u(1)$ ゲージ場ヒルベルト空間の切断スキームに頼ることなく定式化される。
アンザッツは、2つの部分から構成される: 1つはジャストロウ型アンザッツ状態(特定のニューラルネットワークアンザッツ状態に接続できる)に基づく純粋なゲージ部分、もう1つはゲージ場依存のフェルミオンガウス状態に基づくフェルミオン部分である。
これらはすべてのフェルミオンガウス状態上のゲージ場積分がゲージ不変であり、同時に効率的に引き出せるように設計されている。
本手法の妥当性を確保するため,本手法は,他の変分法に対してansatzの純ゲージ部分,符号が存在しない既存のモンテカルロシミュレーションに対して完全なansatzをベンチマークする。
さらに、正確な基底状態が知られている場合を限定すると、我々のアンサッツはこの挙動を捉えることができる。
最後に, 密度誘起相転移の観測により, サインプロブレム影響機構について検討した。 Lattice gauge theories coupled to fermionic matter account for many interesting phenomena in both high energy physics and condensed matter physics. Certain regimes, e.g. at finite fermion density, are difficult to simulate with traditional Monte Carlo algorithms due to the so-called sign-problem. We present a variational, sign-problem-free Monte Carlo method for lattice gauge theories with continuous gauge groups and apply it to (2+1)-dimensional compact QED with dynamical fermions at finite density. The variational ansatz is formulated in the full gauge field basis, i.e. without having to resort to truncation schemes for the $U(1)$ gauge field Hilbert space. The ansatz consists of two parts: first, a pure gauge part based on Jastrow-type ansatz states (which can be connected to certain neural-network ansatz states) and secondly, on a fermionic part based on gauge-field dependent fermionic Gaussian states. These are designed in such a way that the gauge field integral over all fermionic Gaussian states is gauge-invariant and at the same time still efficiently tractable. To ensure the validity of the method we benchmark the pure gauge part of the ansatz against another variational method and the full ansatz against an existing Monte Carlo simulation where the sign-problem is absent. Moreover, in limiting cases where the exact ground state is known we show that our ansatz is able to capture this behavior. Finally, we study a sign-problem affected regime by probing density-induced phase transitions. | 翻訳日:2023-04-13 14:34:13 公開日:2023-04-12 |
# 非線形衝突項をもつ非圧縮性流体の格子ボルツマン(QALB)シミュレーションの量子アルゴリズム Quantum Algorithm for Lattice Boltzmann (QALB) Simulation of Incompressible Fluids with a Nonlinear Collision Term ( http://arxiv.org/abs/2304.05915v1 ) ライセンス: Link先を確認 | Wael Itani, Katepalli R. Sreenivasan, Sauro Succi | (参考訳) 格子ボルツマン式で表される物理問題を解くための量子アルゴリズムを提案する。
具体的には,bhatnagar-gross-krookモデルに従う単相非圧縮性流体の場合を扱う。
システムの非線形ダイナミクスとボソニックモードの進化を結びつけるコワルスキーによって導入された枠組みを使い、ボソンのボソニックフォック空間の切断にカールマン線型化順序を割り当てる。
ストリーミングと衝突のステップはどちらもユニタリ演算子によって達成される。
非線形衝突項の量子化バージョンは、古典的カールマン法とは異なり、隣接する場所から結合された離散密度の変数を導入することなく実装されている。
ボソニックモードを量子ビットにコンパクトにマッピングし、数個の量子ビットを用いて対数的に縮小ボソニックフォック空間の大きさをスケールする。
この作業は、格子ボルツマンの定式化に適応できる多重物理問題に容易に拡張できる。 We propose a quantum algorithm for solving physical problems represented by the lattice Boltzmann formulation. Specifically, we deal with the case of a single phase, incompressible fluid obeying the Bhatnagar-Gross-Krook model. We use the framework introduced by Kowalski that links the nonlinear dynamics of a system to the evolution of bosonic modes, assigning a Carleman linearization order to the truncation in the bosonic Fock space of the bosons. The streaming and collision steps are both achieved via unitary operators. A quantized version of the nonlinear collision term has been implemented, without introducing variables of discrete densities coupled from neighbouring sites, unlike the classical Carleman technique. We use the compact mapping of the bosonic modes to qubits that uses a number of qubits which scales logarithmically with the size of truncated bosonic Fock space. The work can be readily extended to the multitude of multiphysics problems which could adapt the lattice Boltzmann formulation. | 翻訳日:2023-04-13 14:33:43 公開日:2023-04-12 |
# 位置スケールノイズを伴う拡散モデル Diffusion models with location-scale noise ( http://arxiv.org/abs/2304.05907v1 ) ライセンス: Link先を確認 | Alexia Jolicoeur-Martineau, Kilian Fatras, Ke Li, Tal Kachman | (参考訳) 拡散モデル(DM)はガウスノイズをデータに加え、それを除去することを学ぶ強力な生成モデルである。
我々は、どのノイズ分布(ガウシアンか非ガウシアンか)がDMのより優れた生成データをもたらすかを決定したかった。
DMは非ガウス雑音による設計では動作しないため,非ガウス雑音による拡散過程の逆転を可能にする枠組みを構築した。
この枠組みを用いて、ガウス分布が様々な分布(laplace, uniform, t, generalized-gaussian)において最良であることを示す。 Diffusion Models (DMs) are powerful generative models that add Gaussian noise to the data and learn to remove it. We wanted to determine which noise distribution (Gaussian or non-Gaussian) led to better generated data in DMs. Since DMs do not work by design with non-Gaussian noise, we built a framework that allows reversing a diffusion process with non-Gaussian location-scale noise. We use that framework to show that the Gaussian distribution performs the best over a wide range of other distributions (Laplace, Uniform, t, Generalized-Gaussian). | 翻訳日:2023-04-13 14:33:25 公開日:2023-04-12 |
# 深層学習を用いた自動ct・磁気共鳴画像セグメンテーション:初心者ガイド Automated computed tomography and magnetic resonance imaging segmentation using deep learning: a beginner's guide ( http://arxiv.org/abs/2304.05901v1 ) ライセンス: Link先を確認 | Diedre Carmo, Gustavo Pinheiro, L\'ivia Rodrigues, Thays Abreu, Roberto Lotufo, Let\'icia Rittner | (参考訳) 医用画像セグメンテーションは、医用画像処理と分析において、ますます人気のある研究領域である。
しかし、この分野に新しい研究者の多くは基本的な概念に苦しむ。
本稿では,磁気共鳴とコンピュータトモグラフィに焦点をあて,医用画像の基本概念の概要を述べる。
また、セグメンテーションタスクに使用されるディープラーニングアルゴリズム、ツール、フレームワークについても論じ、メソッド開発と画像解析のベストプラクティスを提案する。
チュートリアルには公開データを使用したサンプルタスクが含まれており、関連するコードはGitHubで公開されている(https://github.com/MICLab-Unicamp/Medical-ImagingTutorial)。
この分野における長年の経験と関連する文献から得た知見を共有することで、このエキサイティングで重要な研究領域で遭遇するであろう最初の課題を克服する研究者を支援したいと考えています。 Medical image segmentation is an increasingly popular area of research in medical imaging processing and analysis. However, many researchers who are new to the field struggle with basic concepts. This tutorial paper aims to provide an overview of the fundamental concepts of medical imaging, with a focus on Magnetic Resonance and Computerized Tomography. We will also discuss deep learning algorithms, tools, and frameworks used for segmentation tasks, and suggest best practices for method development and image analysis. Our tutorial includes sample tasks using public data, and accompanying code is available on GitHub (https://github.com/MICLab-Unicamp/Medical-ImagingTutorial). By sharing our insights gained from years of experience in the field and learning from relevant literature, we hope to assist researchers in overcoming the initial challenges they may encounter in this exciting and important area of research. | 翻訳日:2023-04-13 14:33:16 公開日:2023-04-12 |
# cancer-net bca-s:synthetic correlationd diffusion imagingを用いた大容量深部x線像を用いた乳癌診断 Cancer-Net BCa-S: Breast Cancer Grade Prediction using Volumetric Deep Radiomic Features from Synthetic Correlated Diffusion Imaging ( http://arxiv.org/abs/2304.05899v1 ) ライセンス: Link先を確認 | Chi-en Amy Tai, Hayden Gunraj, Alexander Wong | (参考訳) 乳がんの流行は増え続け、2023年には米国で約30万人の女性に影響を与えている。
しかし, 乳がんの重症度は, 治療戦略が異なるため, 乳がんの診断・治療計画において重要な要素となっている。
具体的には、SBR(Scarff-Bloom-Richardson)グレードは、連続して化学療法に対する患者の反応を示すことが示されている。
残念ながら、現在のSBRグレードを決定するには、コストのかかる費用とともにストレスや不快感を引き起こす可能性がある患者から一部のがん細胞を除去する必要がある。
本稿では,新しいmri法であるcdi$^s$ (cdi$^s$) 画像を用いた乳癌診断における深層学習の有効性について検討し, 金標準画像法よりsbrグレード予測の精度が向上することを確認した。
そこで本研究では,体積cdi$^s$データに基づくsbrグレードの予測法である cancer-net bca-s を提案する。
有望な結果を考えると、癌の重症度を特定するための提案手法は、生検を必要とせず、より良い治療決定を可能にする。
Cancer-Net BCa-Sは、がん治療のための機械学習を推進するためのグローバルなオープンソースイニシアチブの一部として公開されている。 The prevalence of breast cancer continues to grow, affecting about 300,000 females in the United States in 2023. However, there are different levels of severity of breast cancer requiring different treatment strategies, and hence, grading breast cancer has become a vital component of breast cancer diagnosis and treatment planning. Specifically, the gold-standard Scarff-Bloom-Richardson (SBR) grade has been shown to consistently indicate a patient's response to chemotherapy. Unfortunately, the current method to determine the SBR grade requires removal of some cancer cells from the patient which can lead to stress and discomfort along with costly expenses. In this paper, we study the efficacy of deep learning for breast cancer grading based on synthetic correlated diffusion (CDI$^s$) imaging, a new magnetic resonance imaging (MRI) modality and found that it achieves better performance on SBR grade prediction compared to those learnt using gold-standard imaging modalities. Hence, we introduce Cancer-Net BCa-S, a volumetric deep radiomics approach for predicting SBR grade based on volumetric CDI$^s$ data. Given the promising results, this proposed method to identify the severity of the cancer would allow for better treatment decisions without the need for a biopsy. Cancer-Net BCa-S has been made publicly available as part of a global open-source initiative for advancing machine learning for cancer care. | 翻訳日:2023-04-13 14:33:00 公開日:2023-04-12 |
# 表面EMGパターン認識のための分類器信頼度の評価 Evaluating Classifier Confidence for Surface EMG Pattern Recognition ( http://arxiv.org/abs/2304.05898v1 ) ライセンス: Link先を確認 | Akira Furui | (参考訳) 表面筋電図(emg)は、パターン認識を介して様々なデバイスやソフトウェアのインターフェース信号として使用できる。
EMGに基づくパターン認識では、分類器は正確であるだけでなく、その予測に適切な信頼度(すなわち正しさの確率)を出力すべきである。
信頼度が真の正しさの可能性を正確に反映するならば、モーションリジェクションやオンライン適応など、さまざまなアプリケーションタスクで有用である。
本研究の目的は,emgパターン認識に高い精度と信頼性をもたらす分類器の種類を特定することである。
視覚的および定量的に4つのemgデータセット上での各種識別・生成分類器の性能評価を行った。
分析の結果,ディープニューラルネットワークに基づく判別分類器は高い精度を示すが,真の確率とは異なる信頼度が得られることがわかった。
対照的に、emg分散の不確かさを考慮できる生成的分類器であるスケール混合モデルに基づく分類器は、精度と信頼性の両方において優れた性能を示す。 Surface electromyogram (EMG) can be employed as an interface signal for various devices and software via pattern recognition. In EMG-based pattern recognition, the classifier should not only be accurate, but also output an appropriate confidence (i.e., probability of correctness) for its prediction. If the confidence accurately reflects the likelihood of true correctness, then it will be useful in various application tasks, such as motion rejection and online adaptation. The aim of this paper is to identify the types of classifiers that provide higher accuracy and better confidence in EMG pattern recognition. We evaluate the performance of various discriminative and generative classifiers on four EMG datasets, both visually and quantitatively. The analysis results show that while a discriminative classifier based on a deep neural network exhibits high accuracy, it outputs a confidence that differs from true probabilities. By contrast, a scale mixture model-based classifier, which is a generative classifier that can account for uncertainty in EMG variance, exhibits superior performance in terms of both accuracy and confidence. | 翻訳日:2023-04-13 14:32:34 公開日:2023-04-12 |
# 量子多重解像度測定と量子線形解法への応用 Quantum Multi-Resolution Measurement with application to Quantum Linear Solver ( http://arxiv.org/abs/2304.05960v1 ) ライセンス: Link先を確認 | Yoshiyuki Saito, Xinwei Lee, Dongsheng Cai, Nobuyoshi Asai | (参考訳) 量子計算は、解に対応する量子状態と、いくつかの観測可能な測定からなる。
精度$\epsilon$の解を得るには、$n$が問題のサイズであるような測定値$o(n/\epsilon^2)$が必要である。
これらの測定のコストは、正確なソリューションのために大きな計算時間を必要とする。
本稿では,量子多分解能測定(QMRM)を提案する。これは量子古典的ハイブリッドアルゴリズムで,精度$\epsilon$ in $O(n\log(1/\epsilon))$を関数対を用いて測定する。
精度$\epsilon$のQMRM計算コストは$O(n/\epsilon^2)$より小さい。
また,Harrow-Hassidim-Lloyd(HHL)アルゴリズムを例として,線形方程式系を解くためのQMRM-QLS(quantum linearsolvr)というアルゴリズムを提案する。
我々は、QMRMが精度$\epsilon$ in $O(n\log(1/\epsilon))$測定で解を与える数値実験を行う。 Quantum computation consists of a quantum state corresponding to a solution, and measurements with some observables. To obtain a solution with an accuracy $\epsilon$, measurements $O(n/\epsilon^2)$ are required, where $n$ is the size of a problem. The cost of these measurements requires a large computing time for an accurate solution. In this paper, we propose a quantum multi-resolution measurement (QMRM), which is a hybrid quantum-classical algorithm that gives a solution with an accuracy $\epsilon$ in $O(n\log(1/\epsilon))$ measurements using a pair of functions. The QMRM computational cost with an accuracy $\epsilon$ is smaller than $O(n/\epsilon^2)$. We also propose an algorithm entitled QMRM-QLS (quantum linear solver) for solving a linear system of equations using the Harrow-Hassidim-Lloyd (HHL) algorithm as one of the examples. We perform some numerical experiments that QMRM gives solutions to with an accuracy $\epsilon$ in $O(n\log(1/\epsilon))$ measurements. | 翻訳日:2023-04-13 14:26:27 公開日:2023-04-12 |
# oo-dmvmt:リアルタイム3次元ハンドジェスチャ分類とセグメンテーションのための深層マルチビューマルチタスク分類フレームワーク OO-dMVMT: A Deep Multi-view Multi-task Classification Framework for Real-time 3D Hand Gesture Classification and Segmentation ( http://arxiv.org/abs/2304.05956v1 ) ライセンス: Link先を確認 | Federico Cunico, Federico Girella, Andrea Avogaro, Marco Emporio, Andrea Giachetti and Marco Cristani | (参考訳) キャプチャーされた手ポーズストリームに基づく連続的中空手ジェスチャー認識は、特にAR/VRにおいて、人間とコンピュータのインタラクションに不可欠である。
しかし,不均質な手振りを識別する手法の多くは分類タスクでのみテストされ,連続ストリームでのリアルタイム低遅延ジェスチャーセグメンテーションは文献ではあまり解決されていない。
そこで本研究では,OFF(On-Off Deep Multi-View Multi-Task paradigm)を提案する。
ハンドポーズやムーブメントに関連する複数の時間的視点を活用して、ヘテロジニアスなタスクを用いて高精度なジェスチャー記述を生成する。
OO-dMVMTは古典的なMVMTパラダイムを拡張しており、入力に適用できるかどうかに応じて、特定のタスクをオン/オフにすることで、複数のタスクが毎回アクティブでなければならない。
OO-dMVMTは,動作の分類精度,セグメンテーション精度,偽陽性,決定遅延の両面から連続・オンライン3次元骨格に基づくジェスチャー認識における新しいSotAを定義する。 Continuous mid-air hand gesture recognition based on captured hand pose streams is fundamental for human-computer interaction, particularly in AR / VR. However, many of the methods proposed to recognize heterogeneous hand gestures are tested only on the classification task, and the real-time low-latency gesture segmentation in a continuous stream is not well addressed in the literature. For this task, we propose the On-Off deep Multi-View Multi-Task paradigm (OO-dMVMT). The idea is to exploit multiple time-local views related to hand pose and movement to generate rich gesture descriptions, along with using heterogeneous tasks to achieve high accuracy. OO-dMVMT extends the classical MVMT paradigm, where all of the multiple tasks have to be active at each time, by allowing specific tasks to switch on/off depending on whether they can apply to the input. We show that OO-dMVMT defines the new SotA on continuous/online 3D skeleton-based gesture recognition in terms of gesture classification accuracy, segmentation accuracy, false positives, and decision latency while maintaining real-time operation. | 翻訳日:2023-04-13 14:26:05 公開日:2023-04-12 |
# 2成分ボース-アインシュタイン凝縮体におけるペレグリンソリトンの実験的実現 Experimental realization of the Peregrine soliton in repulsive two-component Bose-Einstein condensates ( http://arxiv.org/abs/2304.05951v1 ) ライセンス: Link先を確認 | A. Romero-Ros, G. C. Katsimiga, S. I. Mistakidis, S. Mossman, G. Biondini, P. Schmelcher, P. Engels, and P. G. Kevrekidis | (参考訳) 粒子不均衡な2成分のボース・アインシュタイン凝縮体(BEC)におけるペレグリンソリトンを不混和状態下で実験的に実現した。
マイノリティ成分の効果的なフォーカスダイナミクスと変調不安定性は、初期ダイナミクスをシードする魅力的なポテンシャル井戸の助けを借りてペレグリンソリトンを動的に生成する機会を与える。
ペレグリンソリトン生成は再現性が高く, 実験により, 少数成分と多数成分を別々に監視し, 井戸の有無, 深さの異なる単一成分のダイナミクスと比較できる。
ここで利用した各成分の集中度を示す。
実験条件を模擬した3次元シミュレーションと,その進化力学をさらに探求する1次元解析により,数値解析と理論的基礎を提供する。 We experimentally realize the Peregrine soliton in a highly particle-imbalanced two-component repulsive Bose-Einstein condensate (BEC) in the immiscible regime. The effective focusing dynamics and resulting modulational instability of the minority component provide the opportunity to dynamically create a Peregrine soliton with the aid of an attractive potential well that seeds the initial dynamics. The Peregrine soliton formation is highly reproducible, and our experiments allow us to separately monitor the minority and majority components, and to compare with the single component dynamics in the absence or presence of the well with varying depths. We showcase the centrality of each of the ingredients leveraged herein. Numerical corroborations and a theoretical basis for our findings are provided through 3D simulations emulating the experimental setting and through a 1D analysis further exploring its evolution dynamics. | 翻訳日:2023-04-13 14:25:43 公開日:2023-04-12 |
# CMOS + 確率ナノマグネット:確率的推論と学習のための異種コンピュータ CMOS + stochastic nanomagnets: heterogeneous computers for probabilistic inference and learning ( http://arxiv.org/abs/2304.05949v1 ) ライセンス: Link先を確認 | Keito Kobayashi, Nihal Singh, Qixuan Cao, Kemal Selcuk, Tianrui Hu, Shaila Niazi, Navid Anjum Aadit, Shun Kanai, Hideo Ohno, Shunsuke Fukami, and Kerem Y. Camsari | (参考訳) ムーアの法則の減速に伴い、新しいナノ技術(X)を持つ相補的金属酸化物半導体(CMOS)トランジスタの増強がますます重要になっている。
本稿では,確率的磁気トンネル接合(smtj)に基づく確率的ビット(pビット)と多用途のフィールドプログラマブルゲートアレイ(fpga)を組み合わせることで,エネルギー効率の高い異種cmos + x (x = smtj) プロトタイプを設計できることを示す。
この異種計算機は,smtjsのデバイスからデバイスへのバリエーションにもかかわらず,確率的推論と非同期ボルツマン学習をうまく行う。
CMOS予測プロセス設計キット(PDK)を用いた包括的比較では、1万個以上のトランジスタで高品質なランダム性の使用をエミュレートするデジタルCMOSベースのpビットが、2fJだけを放出するsMTJベースのpビットよりも約2桁大きいエネルギーを持つことが明らかとなった。
このアプローチのスケールおよび統合バージョンは、確率的機械学習、最適化、量子シミュレーションなど、様々な領域における確率的コンピューティングとその応用を著しく向上させることができる。 With the slowing down of Moore's law, augmenting complementary-metal-oxide semiconductor (CMOS) transistors with emerging nanotechnologies (X) is becoming increasingly important. In this paper, we demonstrate how stochastic magnetic tunnel junction (sMTJ)-based probabilistic bits, or p-bits, can be combined with versatile Field Programmable Gate Arrays (FPGA) to design an energy-efficient, heterogeneous CMOS + X (X = sMTJ) prototype. Our heterogeneous computer successfully performs probabilistic inference and asynchronous Boltzmann learning despite device-to-device variations in sMTJs. A comprehensive comparison using a CMOS predictive process design kit (PDK) reveals that digital CMOS-based p-bits emulating high-quality randomness use over 10,000 transistors with the energy per generated random number being roughly two orders of magnitude greater than the sMTJ-based p-bits that dissipate only 2 fJ. Scaled and integrated versions of our approach can significantly advance probabilistic computing and its applications in various domains, including probabilistic machine learning, optimization, and quantum simulation. | 翻訳日:2023-04-13 14:25:28 公開日:2023-04-12 |
# インターネットからの不完全3次元モデルを用いた視覚定位 Visual Localization using Imperfect 3D Models from the Internet ( http://arxiv.org/abs/2304.05947v1 ) ライセンス: Link先を確認 | Vojtech Panek, Zuzana Kukelova, Torsten Sattler | (参考訳) ビジュアルローカライゼーションは、拡張現実(ar)を含む多くのアプリケーションの中核コンポーネントである。
ローカライゼーションアルゴリズムは、通常画像から構築されるシーン表現のクエリ画像w.r.t.のカメラポーズを計算する。
これは多くの場合、大量のデータをキャプチャして保存し、続いてStructure-from-Motion (SfM)アルゴリズムを実行する必要がある。
興味深い、未調査のシーン表現のためのデータソースは、手描きのcadモデル、ビルの足跡から生成された3dモデル、航空画像など、インターネット上で容易に利用できる3dモデルである。
これらのモデルは、時間を要するシーンをキャプチャし、構築ステップをモデル化することなく、すぐに視覚的なローカライゼーションを実行できる。
しかし、利用可能な3dモデルはしばしば不完全な現実を反映しているため、課題もある。
例えば、モデルは総称的あるいは全くテクスチャを持たない場合や、シーン幾何学の単純な近似のみを提供する場合、あるいは拡張される場合などである。
本稿では,これらのモデルの欠陥が局所化精度に与える影響について検討する。
このタスクのための新しいベンチマークを作成し、シーン毎に複数の3Dモデルに基づいて詳細な実験評価を行う。
インターネット上の3dモデルは、目立たないシーンの表現として約束されている。
同時に、視覚的なローカライゼーションパイプラインの改善の余地も大きい。
この興味深く挑戦的なタスクの研究を促進するために、我々はベンチマークをv-pnk.github.io/cadlocでリリースします。 Visual localization is a core component in many applications, including augmented reality (AR). Localization algorithms compute the camera pose of a query image w.r.t. a scene representation, which is typically built from images. This often requires capturing and storing large amounts of data, followed by running Structure-from-Motion (SfM) algorithms. An interesting, and underexplored, source of data for building scene representations are 3D models that are readily available on the Internet, e.g., hand-drawn CAD models, 3D models generated from building footprints, or from aerial images. These models allow to perform visual localization right away without the time-consuming scene capturing and model building steps. Yet, it also comes with challenges as the available 3D models are often imperfect reflections of reality. E.g., the models might only have generic or no textures at all, might only provide a simple approximation of the scene geometry, or might be stretched. This paper studies how the imperfections of these models affect localization accuracy. We create a new benchmark for this task and provide a detailed experimental evaluation based on multiple 3D models per scene. We show that 3D models from the Internet show promise as an easy-to-obtain scene representation. At the same time, there is significant room for improvement for visual localization pipelines. To foster research on this interesting and challenging task, we release our benchmark at v-pnk.github.io/cadloc. | 翻訳日:2023-04-13 14:25:09 公開日:2023-04-12 |
# 古典的ディープニューラルネットワークによる絡み合い検出 Entanglement detection with classical deep neural networks ( http://arxiv.org/abs/2304.05946v1 ) ライセンス: Link先を確認 | Julio Ure\~na, Antonio Sojo, Juani Bermejo, and Daniel Manzano | (参考訳) 本研究では,量子力学の中核要素である量子エンタングルメントの検出と分類に対処する自律的手法を提案する。
マルチ層パーセプトロンを用いて、2ビット系と3ビット系の両方のエンタングルメントを効果的に同定する。
この手法は印象的な検出結果をもたらし, 2量子系ではほぼ完璧に, 3量子系では 90 % 以上の精度が得られる。
さらに,本手法では,3量子絡み合った状態が最大7.7 %の成功率を持つグループに分類することができた。
これらの結果は,我々の手法が大規模システムに適用される可能性を示し,量子情報処理応用の進歩の道を開いた。 In this study, we introduce an autonomous method for addressing the detection and classification of quantum entanglement, a core element of quantum mechanics that has yet to be fully understood. We employ a multi-layer perceptron to effectively identify entanglement in both two- and three-qubit systems. Our technique yields impressive detection results, achieving nearly perfect accuracy for two-qubit systems and over $90\%$ accuracy for three-qubit systems. Additionally, our approach successfully categorizes three-qubit entangled states into distinct groups with a success rate of up to $77\%$. These findings indicate the potential for our method to be applied to larger systems, paving the way for advancements in quantum information processing applications. | 翻訳日:2023-04-13 14:24:47 公開日:2023-04-12 |
# クリフォード回路の時空間符号 Spacetime codes of Clifford circuits ( http://arxiv.org/abs/2304.05943v1 ) ライセンス: Link先を確認 | Nicolas Delfosse and Adam Paetznick | (参考訳) 我々は,clifford回路における故障の検出と修正を行う手法を提案する。
このスキームは、クリフォード回路の可能なすべての結果ビット列のセットが線形コードであるという観測に基づいており、これを結果コードと呼ぶ。
結果コードから、時空コードに対応する安定化器コードを構築します。
我々の構成は、最近Gottesman [16] が再検討したBacon, Flammia, Harrow and Shi [2] の回路対符号構成を拡張し、中間および多ビットの測定を含む。
この対応により、安定化器符号の誤りを訂正するよく検討された問題に対して、回路の故障を補正する問題を低減させる。
より正確には、時空符号の最も可能性の高いエラーデコーダを回路の最も可能性の高いフォールトデコーダに変換することができる。
結果と時空コードを構築するための効率的なアルゴリズムを提供する。
また、これらの符号がLDPCである条件を特定し、低ウェイトチェックを生成するアルゴリズムを与え、効率的なLDPCコードデコーダと組み合わせることができる。 We propose a scheme for detecting and correcting faults in any Clifford circuit. The scheme is based on the observation that the set of all possible outcome bit-strings of a Clifford circuit is a linear code, which we call the outcome code. From the outcome code we construct a corresponding stabilizer code, the spacetime code. Our construction extends the circuit-to-code construction of Bacon, Flammia, Harrow and Shi [2], revisited recently by Gottesman [16], to include intermediate and multi-qubit measurements. With this correspondence, we reduce the problem of correcting faults in a circuit to the well-studied problem of correcting errors in a stabilizer code. More precisely, a most likely error decoder for the spacetime code can be transformed into a most likely fault decoder for the circuit. We give efficient algorithms to construct the outcome and spacetime codes. We also identify conditions under which these codes are LDPC, and give an algorithm to generate low-weight checks, which can then be combined with effcient LDPC code decoders. | 翻訳日:2023-04-13 14:24:34 公開日:2023-04-12 |
# 拡散限界を超える摩擦の量子計測フィードバックモデルとその崩壊モデルへの接続 Quantum measurement feedback models of friction beyond the diffusive limit and their connection to collapse models ( http://arxiv.org/abs/2304.05940v1 ) ライセンス: Link先を確認 | Michael Gaida and Stefan Nimmrichter | (参考訳) 本稿では、量子計測フィードバックに基づく摩擦モデルに基づく一般的なクラスに対するマスター方程式のブループリントについて論じる。
所望の速度依存摩擦力は、非シャープ運動量測定と即時結果依存運動量変位のランダムな繰り返し適用により平均で実現される。
マスター方程式は、カルデイラ・レゲット型の拡散マスター方程式に似た弱い連続極限と同様に、任意に強い測度フィードバック過程を記述することができる。
線形摩擦の特別な場合を,スキューズと位置変位をフィードバックとして,ランダムな位置測定値の平均値で等価に表現できることを示す。
実際、目的波動関数崩壊の散逸連続自発的局所化モデルは、単一の量子粒子に対するこの表現を実現する。
このモデルの一貫性のある多粒子一般化を再構成し、非相互作用粒子間のフィードバック誘起相関の可能性を強調した。 We present and discuss a master equation blueprint for a generic class of quantum measurement feedback based models of friction. A desired velocity-dependent friction force is realized on average by random repeated applications of unsharp momentum measurements followed by immediate outcome-dependent momentum displacements. The master equations can describe arbitrarily strong measurement-feedback processes as well as the weak continuous limit resembling diffusion master equations of Caldeira-Leggett type. We show that the special case of linear friction can be equivalently represented by an average over random position measurements with squeezing and position displacements as feedback. In fact, the dissipative continuous spontaneous localization model of objective wavefunction collapse realizes this representation for a single quantum particle. We reformulate a consistent many-particle generalization of this model and highlight the possibility of feedback-induced correlations between otherwise non-interacting particles. | 翻訳日:2023-04-13 14:24:17 公開日:2023-04-12 |
# 変分オートエンコーダのブラスト誤差を極小化する Explicitly Minimizing the Blur Error of Variational Autoencoders ( http://arxiv.org/abs/2304.05939v1 ) ライセンス: Link先を確認 | Gustav Bredell, Kyriakos Flouris, Krishna Chaitanya, Ertunc Erdil, Ender Konukoglu | (参考訳) 可変オートエンコーダ(VAE)は強力な生成モデリング手法であるが、訓練された画像と比較してぼやけた生成サンプルや再構成に悩まされている。
よりフレキシブルなモデルを作成することで生成能力を高めるために、重要な研究努力が費やされてきたが、しばしば柔軟性はより複雑で計算コストがかかる。
いくつかの研究は、エビデンス・ロー・バウンド(ELBO)の再構築期間を変更することに重点を置いているが、しばしば、モデル化された分布の下でサンプルの可能性を最大化するために数学的リンクを失うことに費やされている。
本稿では,モデル分布下でのelboの最大化と同時に,ぼやけた画像の生成を特異的にペナライズするvaeの再構成用語の新たな定式化を提案する。
提案する3つの異なるデータセットにおける損失の可能性を示し,最近提案されたvaesの再構成損失を上回っている。 Variational autoencoders (VAEs) are powerful generative modelling methods, however they suffer from blurry generated samples and reconstructions compared to the images they have been trained on. Significant research effort has been spent to increase the generative capabilities by creating more flexible models but often flexibility comes at the cost of higher complexity and computational cost. Several works have focused on altering the reconstruction term of the evidence lower bound (ELBO), however, often at the expense of losing the mathematical link to maximizing the likelihood of the samples under the modeled distribution. Here we propose a new formulation of the reconstruction term for the VAE that specifically penalizes the generation of blurry images while at the same time still maximizing the ELBO under the modeled distribution. We show the potential of the proposed loss on three different data sets, where it outperforms several recently proposed reconstruction losses for VAEs. | 翻訳日:2023-04-13 14:24:07 公開日:2023-04-12 |
# ASL Citizen: 独立した手話認識を促進するコミュニティソースデータセット ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition ( http://arxiv.org/abs/2304.05934v1 ) ライセンス: Link先を確認 | Aashaka Desai, Lauren Berger, Fyodor O. Minakov, Vanessa Milan, Chinmay Singh, Kriston Pumphrey, Richard E. Ladner, Hal Daum\'e III, Alex X. Lu, Naomi Caselli, Danielle Bragg | (参考訳) サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
しかし、ほとんどの通信技術は話し言葉や書き言葉で動作し、アクセスの不平等を生み出す。
この問題に対処するために、我々は、これまでで最大のISLRデータセットであるASL Citizenをリリースし、さまざまな環境で52人の署名者が撮影した83,912の動画と2,731の異なるサインを含む。
本稿では,このデータセットを手話辞書検索(asl)に利用し,利用者が辞書から一致する手話を取り出す目的で,自己のウェブカメラに手話を表示することを提案する。
データセットを用いた学習教師付き機械学習分類器は,辞書検索に関連する指標の最先端を大いに前進させ,例えば62%の精度と90%のリコールat-10を,トレーニングや検証セットに存在しないユーザのビデオで完全に評価した。
この記事のPDFはhttps://aashakadesai.github.io/research/ASL_Dataset__arxiv_.pdfで公開されている。 Sign languages are used as a primary language by approximately 70 million D/deaf people world-wide. However, most communication technologies operate in spoken and written languages, creating inequities in access. To help tackle this problem, we release ASL Citizen, the largest Isolated Sign Language Recognition (ISLR) dataset to date, collected with consent and containing 83,912 videos for 2,731 distinct signs filmed by 52 signers in a variety of environments. We propose that this dataset be used for sign language dictionary retrieval for American Sign Language (ASL), where a user demonstrates a sign to their own webcam with the aim of retrieving matching signs from a dictionary. We show that training supervised machine learning classifiers with our dataset greatly advances the state-of-the-art on metrics relevant for dictionary retrieval, achieving, for instance, 62% accuracy and a recall-at-10 of 90%, evaluated entirely on videos of users who are not present in the training or validation sets. An accessible PDF of this article is available at https://aashakadesai.github.io/research/ASL_Dataset__arxiv_.pdf | 翻訳日:2023-04-13 14:23:48 公開日:2023-04-12 |
# 臨床データベースにおけるICU受入率の監査:リスク要因と臨床成績の分析 Auditing ICU Readmission Rates in an Clinical Database: An Analysis of Risk Factors and Clinical Outcomes ( http://arxiv.org/abs/2304.05986v1 ) ライセンス: Link先を確認 | Shaina Raza | (参考訳) 本研究では,30日間の読解問題の文脈における臨床データ分類のための機械学習(ML)パイプラインと,感度特性に基づくサブグループの公正度監査を提案する。
分類にはmlモデルの範囲が用いられ、モデル予測に基づいて公平性監査が行われる。
公正監査は、男女、民族、言語、保険グループといった属性に基づいて、MIMIC IIIデータセットにおける平等機会、予測パリティ、偽陽性率パリティ、偽ネガティブレートパリティ基準の格差を明らかにする。
結果は、異なるグループ間でのモデルの性能の相違を特定し、より良い公平性とバイアス軽減戦略の必要性を強調する。
この研究は、人工知能(AI)システムのバイアスと公平性に対処するために、研究者、政策立案者、実践者の協力的努力の必要性を示唆している。 This study presents a machine learning (ML) pipeline for clinical data classification in the context of a 30-day readmission problem, along with a fairness audit on subgroups based on sensitive attributes. A range of ML models are used for classification and the fairness audit is conducted on the model predictions. The fairness audit uncovers disparities in equal opportunity, predictive parity, false positive rate parity, and false negative rate parity criteria on the MIMIC III dataset based on attributes such as gender, ethnicity, language, and insurance group. The results identify disparities in the model's performance across different groups and highlights the need for better fairness and bias mitigation strategies. The study suggests the need for collaborative efforts among researchers, policymakers, and practitioners to address bias and fairness in artificial intelligence (AI) systems. | 翻訳日:2023-04-13 14:16:48 公開日:2023-04-12 |
# ニューラルアテンション林:トランスフォーマーによる森林改良 Neural Attention Forests: Transformer-Based Forest Improvement ( http://arxiv.org/abs/2304.05980v1 ) ライセンス: Link先を確認 | Andrei V. Konstantinov, Lev V. Utkin, Alexey A. Lukashin, Vladimir A. Muliukha | (参考訳) NAF(Neural Attention Forest)と呼ばれる新しい手法を提案する。
提案するnafモデルの主な考え方は,特定の形態のニューラルネットワークによって計算された注意重みを決定木の葉のデータと,ナダラヤ・ワトソン核回帰の枠組みでランダム林自身に割り当てることで,ランダム林への注意重み付け機構を導入することである。
注意に基づくランダムフォレストのような利用可能なモデルとは対照的に、注意重みとナダラヤ・ワッソン回帰は、学習可能なパラメータと見なすことができるニューラルネットワークの形で表現される。
共有重み付きニューラルネットワークの第1部は、すべての木に対してトレーニングされ、データの注意重みを葉で計算します。
第2部は、木ネットワークの出力を集約し、ランダム森林予測とトレーニングセットの真理目標値との差を最小限にすることを目的とする。
ニューラルネットワークはエンドツーエンドでトレーニングされる。
注意機構を実装するランダムフォレストとニューラルネットワークの組み合わせは、森林予測を強化するためのトランスフォーマーを形成する。
実データを用いた数値実験は,提案手法を例証する。
このアプローチを実装するコードは公開されている。 A new approach called NAF (the Neural Attention Forest) for solving regression and classification tasks under tabular training data is proposed. The main idea behind the proposed NAF model is to introduce the attention mechanism into the random forest by assigning attention weights calculated by neural networks of a specific form to data in leaves of decision trees and to the random forest itself in the framework of the Nadaraya-Watson kernel regression. In contrast to the available models like the attention-based random forest, the attention weights and the Nadaraya-Watson regression are represented in the form of neural networks whose weights can be regarded as trainable parameters. The first part of neural networks with shared weights is trained for all trees and computes attention weights of data in leaves. The second part aggregates outputs of the tree networks and aims to minimize the difference between the random forest prediction and the truth target value from a training set. The neural network is trained in an end-to-end manner. The combination of the random forest and neural networks implementing the attention mechanism forms a transformer for enhancing the forest predictions. Numerical experiments with real datasets illustrate the proposed method. The code implementing the approach is publicly available. | 翻訳日:2023-04-13 14:16:32 公開日:2023-04-12 |
# imagereward: テキストから画像への生成のための人間好みの学習と評価 ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation ( http://arxiv.org/abs/2304.05977v1 ) ライセンス: Link先を確認 | Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong | (参考訳) 我々はimagereward(最初の汎用テキストから画像への人間選好報酬モデル)を用いて、生成モデルにおける様々な一般的な問題に対処し、それらを人間の価値と選好に合わせる。
そのトレーニングは、評価とランク付けの両方をカバーする体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較のデータセットを集めています。
人間の評価において、ImageRewardは既存のスコアリング手法(例えばCLIP×38.6\%)より優れており、テキスト・画像合成の評価と改善のための有望な自動測定基準となっている。
報酬モデルは \texttt{image-reward} package at \url{https://github.com/THUDM/ImageReward} で公開されている。 We present ImageReward -- the first general-purpose text-to-image human preference reward model -- to address various prevalent issues in generative models and align them with human values and preferences. Its training is based on our systematic annotation pipeline that covers both the rating and ranking components, collecting a dataset of 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring methods (e.g., CLIP by 38.6\%), making it a promising automatic metric for evaluating and improving text-to-image synthesis. The reward model is publicly available via the \texttt{image-reward} package at \url{https://github.com/THUDM/ImageReward}. | 翻訳日:2023-04-13 14:16:10 公開日:2023-04-12 |
# 二重ガウスDAG-プロビットモデルにおけるベイズ因果推論 Bayesian Causal Inference in Doubly Gaussian DAG-probit Models ( http://arxiv.org/abs/2304.05976v1 ) ライセンス: Link先を確認 | Rasool Tahmasbi and Keyvan Tahmasbi | (参考訳) 観測データに基づく2つの群に対する共変量とともにバイナリ応答変数をモデル化することを検討する。
グループ化変数は、結合変数(治療と結果の共通の原因)、性別、ケース/コントロール、民族性などである。
共変量と二項潜在変数が与えられた場合、目的は2つの有向非巡回グラフ(DAG)を構築し、共通のパラメータを共有することである。
変数を表すノードの集合は、両方のグループで同じであるが、変数間の因果関係を表すノード間の有向エッジは、潜在的に異なる可能性がある。
各グループについて、各ノードに対する効果の大きさを推定する。
各群は DAG の下でガウス分布に従うと仮定する。
親ノードが与えられた場合、DAGの結合分布はDAGのマルコフの性質により条件的に独立である。
ガウスDAG-プロビットモデルの概念を2つの群と2つのガウスDAG-プロビットモデルで導入する。
DAGの骨格とモデルパラメータを推定するために、MCMC法による2重ガウスDAG-プロビットモデルの後方分布からサンプルを採取した。
提案手法を総合シミュレーション実験を用いて検証し,2つの実データに適用した。
さらに,実データ解析の結果をよく知られた実験により検証し,因果関係領域における提案するグループ化変数の値を示した。 We consider modeling a binary response variable together with a set of covariates for two groups under observational data. The grouping variable can be the confounding variable (the common cause of treatment and outcome), gender, case/control, ethnicity, etc. Given the covariates and a binary latent variable, the goal is to construct two directed acyclic graphs (DAGs), while sharing some common parameters. The set of nodes, which represent the variables, are the same for both groups but the directed edges between nodes, which represent the causal relationships between the variables, can be potentially different. For each group, we also estimate the effect size for each node. We assume that each group follows a Gaussian distribution under its DAG. Given the parent nodes, the joint distribution of DAG is conditionally independent due to the Markov property of DAGs. We introduce the concept of Gaussian DAG-probit model under two groups and hence doubly Gaussian DAG-probit model. To estimate the skeleton of the DAGs and the model parameters, we took samples from the posterior distribution of doubly Gaussian DAG-probit model via MCMC method. We validated the proposed method using a comprehensive simulation experiment and applied it on two real datasets. Furthermore, we validated the results of the real data analysis using well-known experimental studies to show the value of the proposed grouping variable in the causality domain. | 翻訳日:2023-04-13 14:15:56 公開日:2023-04-12 |
# HiPrompt:階層指向プロンプトによるバイオメディカル知識融合 HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented Prompting ( http://arxiv.org/abs/2304.05973v1 ) ライセンス: Link先を確認 | Jiaying Lu, Jiaming Shen, Bo Xiong, Wenjing Ma, Steffen Staab, Carl Yang | (参考訳) 医学的意思決定プロセスは、統一インデックスシステムを介して異なる情報源から構築された知識グラフを融合する必要がある包括的生物医学的知識ベースによって強化される。
インデックスシステムは、細粒度で整列した実体を提供するために、階層的に生物医学用語を整理することが多い。
バイオメディカル・ナレッジ・フュージョン(BKF)の課題に対処するために、研究者は様々な非教師なし手法を提案してきた。
しかし、これらの手法はアドホックな語彙的および構造的マッチングアルゴリズムに大きく依存しており、生物医学的な実体と用語によって伝達される豊かな意味論を捉えることができない。
近年,神経組込みモデルが意味に富むタスクに有効であることが証明されているが,十分なラベル付きデータに依存している。
不足ラベル付きBKFとニューラル埋め込みモデルのギャップを埋めるために,階層指向のプロンプトを通じて大規模言語モデルの少数ショット推論能力を引き出す,監督効率の高い知識融合フレームワークであるHiPromptを提案する。
収集したkg-hi-bkfベンチマークデータセットにおける実験結果はhipromptの有効性を示している。 Medical decision-making processes can be enhanced by comprehensive biomedical knowledge bases, which require fusing knowledge graphs constructed from different sources via a uniform index system. The index system often organizes biomedical terms in a hierarchy to provide the aligned entities with fine-grained granularity. To address the challenge of scarce supervision in the biomedical knowledge fusion (BKF) task, researchers have proposed various unsupervised methods. However, these methods heavily rely on ad-hoc lexical and structural matching algorithms, which fail to capture the rich semantics conveyed by biomedical entities and terms. Recently, neural embedding models have proved effective in semantic-rich tasks, but they rely on sufficient labeled data to be adequately trained. To bridge the gap between the scarce-labeled BKF and neural embedding models, we propose HiPrompt, a supervision-efficient knowledge fusion framework that elicits the few-shot reasoning ability of large language models through hierarchy-oriented prompts. Empirical results on the collected KG-Hi-BKF benchmark datasets demonstrate the effectiveness of HiPrompt. | 翻訳日:2023-04-13 14:15:35 公開日:2023-04-12 |
# 大規模言語モデルのためのブーストプロンプトアンサンブル Boosted Prompt Ensembles for Large Language Models ( http://arxiv.org/abs/2304.05970v1 ) ライセンス: Link先を確認 | Silviu Pitis, Michael R. Zhang, Andrew Wang, Jimmy Ba | (参考訳) チェーン・オブ・ソート・プロンプトや自己整合性といった手法は、追加のトレーニングなしに言語モデル推論のパフォーマンスを最前線に押し上げた。
そこで本研究では,小規模のデータセットを用いて,'‘boosted prompt ensemble''を構成する数個のショットプロンプトを構成する,大規模言語モデルのためのプロンプト・センスリング手法を提案する。
それぞれのプロンプトのいくつかのショット例は、前段のアンサンブルが不確かである ``hard''' の例であるように段階的に選択される。
これはgsm8kやaquaデータセットのシングルプロンプト出力空間アンサンブルや袋詰めプロンプト空間アンサンブルよりも優れていることを示す。
我々は,利用可能なアノテーションのレベルが異なるブーストプロンプトのトレインタイムバージョンとテストタイムバージョンの両方を提案し,アルゴリズムの詳細な実証研究を行う。 Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm. | 翻訳日:2023-04-13 14:15:14 公開日:2023-04-12 |
# 経路パッチングによるモデル行動の局在化 Localizing Model Behavior with Path Patching ( http://arxiv.org/abs/2304.05969v1 ) ライセンス: Link先を確認 | Nicholas Goldowsky-Dill, Chris MacLeod, Lucas Sato, Aryaman Arora | (参考訳) ニューラルネットワークの動作をネットワークのコンポーネントのサブセットやコンポーネント間のインタラクションのサブセットにローカライズすることは、ネットワークメカニズムと可能な障害モードを分析するための自然な第一歩である。
既存の作業はしばしば質的かつアドホックであり、ローカライゼーションのクレームを評価する適切な方法に関するコンセンサスはない。
我々は,行動が経路群に局在していることを示す自然な仮説のクラスを表現し,定量的にテストする手法であるpath patchingを導入する。
本稿では,誘導ヘッドの説明を洗練し,gpt-2の挙動を特徴付け,同様の実験を効率的に行うためのフレームワークをオープンソースとして公開する。 Localizing behaviors of neural networks to a subset of the network's components or a subset of interactions between components is a natural first step towards analyzing network mechanisms and possible failure modes. Existing work is often qualitative and ad-hoc, and there is no consensus on the appropriate way to evaluate localization claims. We introduce path patching, a technique for expressing and quantitatively testing a natural class of hypotheses expressing that behaviors are localized to a set of paths. We refine an explanation of induction heads, characterize a behavior of GPT-2, and open source a framework for efficiently running similar experiments. | 翻訳日:2023-04-13 14:14:59 公開日:2023-04-12 |
# Angler: モデル改善を優先する機械翻訳実践者を支援する Angler: Helping Machine Translation Practitioners Prioritize Model Improvements ( http://arxiv.org/abs/2304.05967v1 ) ライセンス: Link先を確認 | Samantha Robertson, Zijie J. Wang, Dominik Moritz, Mary Beth Kery, Fred Hohman | (参考訳) 機械学習(ML)モデルは、現実の世界で予期せぬ方法で失敗することがあるが、すべてのモデル失敗が等しいわけではない。
有限時間とリソースで、ML実践者はモデルデバッグと改善の努力を優先せざるを得ない。
appleの13 ml実践者とのインタビューを通じて、実践者はエラーの性質、スコープ、ユーザへの影響を見積もるために、小さなターゲットテストセットを構築していることがわかった。
この洞察を,機械翻訳モデルを用いたケーススタディで構築し,実践者がモデル改善を優先するのに役立つインタラクティブなビジュアル分析ツールである angler を開発した。
7人の機械翻訳専門家によるユーザスタディにおいて,入力空間が無限である場合の優先順位付けの実践を理解するために,Anglerを用いた。
本研究は,定量的要約統計を解析し,文章の読解によって質的評価を行うことにより,より興味深く,ユーザ中心の仮説を定式化できることを示す。 Machine learning (ML) models can fail in unexpected ways in the real world, but not all model failures are equal. With finite time and resources, ML practitioners are forced to prioritize their model debugging and improvement efforts. Through interviews with 13 ML practitioners at Apple, we found that practitioners construct small targeted test sets to estimate an error's nature, scope, and impact on users. We built on this insight in a case study with machine translation models, and developed Angler, an interactive visual analytics tool to help practitioners prioritize model improvements. In a user study with 7 machine translation experts, we used Angler to understand prioritization practices when the input space is infinite, and obtaining reliable signals of model quality is expensive. Our study revealed that participants could form more interesting and user-focused hypotheses for prioritization by analyzing quantitative summary statistics and qualitatively assessing data by reading sentences. | 翻訳日:2023-04-13 14:14:47 公開日:2023-04-12 |
# 情報理論進化アルゴリズム An information-theoretic evolutionary algorithm ( http://arxiv.org/abs/2304.05963v1 ) ライセンス: Link先を確認 | Arnaud Berny | (参考訳) 本稿では,情報理論の原理に基づくビットベクトル上の新しい進化アルゴリズムを提案する。
情報理論進化アルゴリズム(IT-EA)は、標準ビット突然変異が適用されるビットベクトルである中心と突然変異率の2つのパラメータで探索分布を反復的に更新する。
情報幾何学最適化により突然変異率を更新し、最大可能性原理により中央を更新する。
また、センターの標準的エリートおよび非エリート的更新も検討されている。
実験では、変異率のダイナミクスとハイパーパラメータの影響が示されている。
実証的なランタイム分析では、onemaxおよびleadingonesにおいて、エリートおよび非エリートit-easは有望な結果が得られる。 We propose a novel evolutionary algorithm on bit vectors which derives from the principles of information theory. The information-theoretic evolutionary algorithm (it-EA) iteratively updates a search distribution with two parameters, the center, that is the bit vector at which standard bit mutation is applied, and the mutation rate. The mutation rate is updated by means of information-geometric optimization and the center is updated by means of a maximum likelihood principle. Standard elitist and non elitist updates of the center are also considered. Experiments illustrate the dynamics of the mutation rate and the influence of hyperparameters. In an empirical runtime analysis, on OneMax and LeadingOnes, the elitist and non elitist it-EAs obtain promising results. | 翻訳日:2023-04-13 14:14:31 公開日:2023-04-12 |
# スペクトル拡散モデルを用いたspectraldiff:hyperspectral image classification SpectralDiff: Hyperspectral Image Classification with Spectral-Spatial Diffusion Models ( http://arxiv.org/abs/2304.05961v1 ) ライセンス: Link先を確認 | Ning Chen, Jun Yue, Leyuan Fang, Shaobo Xia | (参考訳) hyperspectral image (hsi) 分類はリモートセンシングの分野で重要な話題であり、地球科学に幅広く応用されている。
HSIは数百の連続バンドを含み、隣り合うバンド間の高次元と高相関が特徴である。
HSIデータの高次元と冗長性は、HSI分類に大きな困難をもたらす。
近年,深層学習に基づくhsi特徴抽出と分類手法が多数提案されている。
しかし、空間領域とスペクトル領域の両方におけるサンプル間のグローバルな関係をモデル化する能力はまだ限られている。
この問題を解決するために,スペクトル空間拡散モデルを用いたhsi分類法を提案する。
提案手法は, トレーニング試料のスペクトル-空間分布を前方・逆スペクトル-空間拡散法で再構成し, サンプル間の空間-空間関係をモデル化する。
次に,逆過程のスペクトル・空間分極ネットワークを用いて,教師なし拡散特性を抽出する。
スペクトル空間拡散モデルにより抽出された特徴は、トレーニングサンプルの再構成分布からクロスサンプル知覚を達成でき、より良い分類性能が得られる。
3つの公開HSIデータセットの実験により,提案手法は最先端の手法よりも優れた性能が得られることが示された。
ソースコードと事前訓練されたスペクトル空間拡散モデルはhttps://github.com/chenning0115/SpectralDiff.comで公開される。 Hyperspectral image (HSI) classification is an important topic in the field of remote sensing, and has a wide range of applications in Earth science. HSIs contain hundreds of continuous bands, which are characterized by high dimension and high correlation between adjacent bands. The high dimension and redundancy of HSI data bring great difficulties to HSI classification. In recent years, a large number of HSI feature extraction and classification methods based on deep learning have been proposed. However, their ability to model the global relationships among samples in both spatial and spectral domains is still limited. In order to solve this problem, an HSI classification method with spectral-spatial diffusion models is proposed. The proposed method realizes the reconstruction of spectral-spatial distribution of the training samples with the forward and reverse spectral-spatial diffusion process, thus modeling the global spatial-spectral relationship between samples. Then, we use the spectral-spatial denoising network of the reverse process to extract the unsupervised diffusion features. Features extracted by the spectral-spatial diffusion models can achieve cross-sample perception from the reconstructed distribution of the training samples, thus obtaining better classification performance. Experiments on three public HSI datasets show that the proposed method can achieve better performance than the state-of-the-art methods. The source code and the pre-trained spectral-spatial diffusion model will be publicly available at https://github.com/chenning0115/SpectralDiff. | 翻訳日:2023-04-13 14:14:20 公開日:2023-04-12 |
# 機械学習加速器に対するニューラルトロイの木馬攻撃のための論理ロックの爆発 Exploiting Logic Locking for a Neural Trojan Attack on Machine Learning Accelerators ( http://arxiv.org/abs/2304.06017v1 ) ライセンス: Link先を確認 | Hongye Xu, Dongfang Liu, Cory Merkel, Michael Zuzack | (参考訳) チップ製造中に知的財産権(IP)を保護するために論理ロックが提案されている。
論理ロック技術は、信頼できない関係者の秘密鍵に依存する設計において、組み合わせモジュールのサブセットを作成することでハードウェアIPを保護する。
不正なシークレットキーを使用する場合、ロックされたモジュールで決定論的エラーが生成され、不正な使用が制限される。
論理ロックの一般的なターゲットは、特にマシンラーニング・アズ・ア・サービスの普及に伴って、ニューラルアクセラレータである。
そこで本研究では,神経アクセラレーションのセキュリティを損なうために,論理ロックを利用する方法について検討する。
具体的には,不正鍵による決定論的誤りをニューラルトロイの木馬型のバックドアに活用する方法を示す。
そこで,我々はまず,ロックされたアクセラレーションにおいて,攻撃者が特定した入力クラスに対して,慎重に選択した不正なキーが誤分類されるような動機付け攻撃シナリオを概説する。
次に,トロイの木馬鍵を自動的に識別する理論的ロバスト攻撃手法を開発した。
この攻撃を評価するために、いくつかのロックされたアクセラレーターで起動する。
我々の最大のベンチマークアクセラレーターでは、攻撃者が特定したトリガー入力の分類精度が74倍に低下するトロイの木鍵を特定し、他の入力では平均1.7倍に低下した。 Logic locking has been proposed to safeguard intellectual property (IP) during chip fabrication. Logic locking techniques protect hardware IP by making a subset of combinational modules in a design dependent on a secret key that is withheld from untrusted parties. If an incorrect secret key is used, a set of deterministic errors is produced in locked modules, restricting unauthorized use. A common target for logic locking is neural accelerators, especially as machine-learning-as-a-service becomes more prevalent. In this work, we explore how logic locking can be used to compromise the security of a neural accelerator it protects. Specifically, we show how the deterministic errors caused by incorrect keys can be harnessed to produce neural-trojan-style backdoors. To do so, we first outline a motivational attack scenario where a carefully chosen incorrect key, which we call a trojan key, produces misclassifications for an attacker-specified input class in a locked accelerator. We then develop a theoretically-robust attack methodology to automatically identify trojan keys. To evaluate this attack, we launch it on several locked accelerators. In our largest benchmark accelerator, our attack identified a trojan key that caused a 74\% decrease in classification accuracy for attacker-specified trigger inputs, while degrading accuracy by only 1.7\% for other inputs on average. | 翻訳日:2023-04-13 14:08:42 公開日:2023-04-12 |
# Stacked Ensemble 法による心疾患の予測 An Improved Heart Disease Prediction Using Stacked Ensemble Method ( http://arxiv.org/abs/2304.06015v1 ) ライセンス: Link先を確認 | Md. Maidul Islam, Tanzina Nasrin Tania, Sharmin Akter, and Kazi Hassan Shakib | (参考訳) 心臓疾患は、世界最大の死因であるがんを克服したばかりです。
いくつかの心不全、心臓病の死亡、診断コストは早期の診断と治療によって削減できる。
医療データは医療産業によって大量に収集されるが、十分に採掘されていない。
この情報にこれまで知られていなかったパターンや関連の発見は、心疾患のリスクを予測する上で、より優れた判断に役立ちます。
そこで本研究では,心疾患予測のためのmlベース診断システムを構築した。
我々は,外乱検出と除去,欠落項目のチェックと削除,特徴正規化,クロスバリデーション,RF,MLP,KNN,ETC,XGB,SVC,ADB,DT,GBMといった9つの分類アルゴリズム,分岐精度,精度,F1スコア,特異性,OC,感度,ログロス,マシューズ相関係数などの8つの分類器を用いた。
本手法は, 心臓疾患患者と正常者との鑑別が容易である。
受信者楽観曲線と曲線の下の領域は、各分類器によって決定された。
本研究では,分類器,前処理戦略,検証方法,分類モデルの性能評価指標について検討した。
提案方式の性能が確認され,その全機能を活用している。
本研究は,これら9つのアルゴリズムを含む重ね合わせアンサンブルアプローチを用いて臨床判断支援システムの効果を評価した。 Heart disorder has just overtaken cancer as the world's biggest cause of mortality. Several cardiac failures, heart disease mortality, and diagnostic costs can all be reduced with early identification and treatment. Medical data is collected in large quantities by the healthcare industry, but it is not well mined. The discovery of previously unknown patterns and connections in this information can help with an improved decision when it comes to forecasting heart disorder risk. In the proposed study, we constructed an ML-based diagnostic system for heart illness forecasting, using a heart disorder dataset. We used data preprocessing techniques like outlier detection and removal, checking and removing missing entries, feature normalization, cross-validation, nine classification algorithms like RF, MLP, KNN, ETC, XGB, SVC, ADB, DT, and GBM, and eight classifier measuring performance metrics like ramification accuracy, precision, F1 score, specificity, ROC, sensitivity, log-loss, and Matthews' correlation coefficient, as well as eight classification performance evaluations. Our method can easily differentiate between people who have cardiac disease and those are normal. Receiver optimistic curves and also the region under the curves were determined by every classifier. Most of the classifiers, pretreatment strategies, validation methods, and performance assessment metrics for classification models have been discussed in this study. The performance of the proposed scheme has been confirmed, utilizing all of its capabilities. In this work, the impact of clinical decision support systems was evaluated using a stacked ensemble approach that included these nine algorithms | 翻訳日:2023-04-13 14:08:09 公開日:2023-04-12 |
# サンプル効率の高いマルチエージェント強化学習のためのbiレベル潜在変数モデル Bi-level Latent Variable Model for Sample-Efficient Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.06011v1 ) ライセンス: Link先を確認 | Aravind Venugopal, Stephanie Milani, Fei Fang, Balaraman Ravindran | (参考訳) 実世界の応用の可能性にもかかわらず、マルチエージェント強化学習(MARL)アルゴリズムは、しばしば高いサンプル複雑さに悩まされる。
この問題に対処するために,高次元入力から2レベル潜在変数モデルを学ぶ新しいモデルベースmarlアルゴリズムbill(bi-level latent variable model-based learning)を提案する。
トップレベルでは、モデルは、行動学習に関連するグローバル情報をエンコードするグローバル状態の潜在表現を学習する。
下位レベルでは、トップレベルからグローバルな潜在表現を考えると、各エージェントの潜在表現を学習する。
このモデルは政策学習に使用する潜在軌道を生成する。
SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
提案アルゴリズムは,2つの極めて難解なSuper Hard SMACマップを含む,最先端のモデルフリーおよびモデルベースベースラインのサンプル効率に優れる。 Despite their potential in real-world applications, multi-agent reinforcement learning (MARL) algorithms often suffer from high sample complexity. To address this issue, we present a novel model-based MARL algorithm, BiLL (Bi-Level Latent Variable Model-based Learning), that learns a bi-level latent variable model from high-dimensional inputs. At the top level, the model learns latent representations of the global state, which encode global information relevant to behavior learning. At the bottom level, it learns latent representations for each agent, given the global latent representations from the top level. The model generates latent trajectories to use for policy learning. We evaluate our algorithm on complex multi-agent tasks in the challenging SMAC and Flatland environments. Our algorithm outperforms state-of-the-art model-free and model-based baselines in sample efficiency, including on two extremely challenging Super Hard SMAC maps. | 翻訳日:2023-04-13 14:07:41 公開日:2023-04-12 |
# 文献レビュー:輸送物流と倉庫におけるコンピュータビジョン応用 Literature Review: Computer Vision Applications in Transportation Logistics and Warehousing ( http://arxiv.org/abs/2304.06009v1 ) ライセンス: Link先を確認 | Alexander Naumann, Felix Hertlein, Laura Doerr, Steffen Thoma, Kai Furmans | (参考訳) 輸送物流や倉庫におけるコンピュータビジョンの応用は、プロセスの自動化に大きな可能性を秘めている。
我々は,この可能性を活用するために,この分野の研究に関する構造化文献レビューを行う。
すべての文学は、w.r.t.の応用、すなわちそれが取り組むタスク、w.r.t.のコンピュータビジョン技術に分類される。
応用に関して,本論文は,環境から関連する情報を監視・検索する領域と,環境を分析・操作するためのアプローチを用いた操作領域の2つに区分する。
さらに,今後の研究の方向性を指摘するとともに,ロジスティクスの応用に適したコンピュータビジョンの最近の発展とリンクする。
最後に,既存のデータセットと産業ソリューションの概要を紹介する。
既に多くの研究分野が調査されているが、今後の研究には大きな可能性があると結論付けている。
分析結果はhttps://a-nau.github.io/cv-in-logistics.comで公開されている。 Computer vision applications in transportation logistics and warehousing have a huge potential for process automation. We present a structured literature review on research in the field to help leverage this potential. All literature is categorized w.r.t. the application, i.e. the task it tackles and w.r.t. the computer vision techniques that are used. Regarding applications, we subdivide the literature in two areas: Monitoring, i.e. observing and retrieving relevant information from the environment, and manipulation, where approaches are used to analyze and interact with the environment. In addition to that, we point out directions for future research and link to recent developments in computer vision that are suitable for application in logistics. Finally, we present an overview of existing datasets and industrial solutions. We conclude that while already many research areas have been investigated, there is still huge potential for future research. The results of our analysis are also available online at https://a-nau.github.io/cv-in-logistics. | 翻訳日:2023-04-13 14:07:25 公開日:2023-04-12 |
# GPr-Net:ポイントクラウドFew-Shot学習のための幾何学的プロトタイプネットワーク GPr-Net: Geometric Prototypical Network for Point Cloud Few-Shot Learning ( http://arxiv.org/abs/2304.06007v1 ) ライセンス: Link先を確認 | Tejas Anvekar, Dena Bazazian | (参考訳) 3Dコンピュータビジョンアプリケーションの領域では、ポイントクラウドの少数ショット学習が重要な役割を果たす。
しかし、データのスパース性、不規則性、無秩序な性質のために厳しい課題となる。
現在の方法は、畳み込み、グラフ、注意機構などの複雑な局所幾何学的抽出技術と、広範なデータ駆動事前学習タスクに依存している。
これらのアプローチは、効率的な学習を促進することを目的とした、少数ショット学習の基本的な目標と矛盾する。
この問題に対処するために,GPr-Net(Geometric Prototypeal Network)を提案する。
提案手法である IGI++ (Intrinsic Geometry Interpreter++) では,手作りの固有幾何インタプリタとラプラスベクトルを用いて点雲の形状を抽出・評価し,FSL(Few-Shot Learning)の表現性を向上する。
さらに、ラプラスベクトルは点雲からより少ない点で貴重な特徴を抽出することができる。
数ショットの計量学習における分布のドリフト問題に対処するために,双曲空間を活用し,既存の点群雲数ショット学習法よりもクラス内およびクラス間分散をうまく扱えることを示す。
ModelNet40データセットの実験結果によると、GPr-Netはポイントクラウド上の数ショットの学習において最先端の手法よりも優れており、既存のすべての作業よりも170\times$の計算効率が最高である。
コードはhttps://github.com/TejasAnvekar/GPr-Netで公開されている。 In the realm of 3D-computer vision applications, point cloud few-shot learning plays a critical role. However, it poses an arduous challenge due to the sparsity, irregularity, and unordered nature of the data. Current methods rely on complex local geometric extraction techniques such as convolution, graph, and attention mechanisms, along with extensive data-driven pre-training tasks. These approaches contradict the fundamental goal of few-shot learning, which is to facilitate efficient learning. To address this issue, we propose GPr-Net (Geometric Prototypical Network), a lightweight and computationally efficient geometric prototypical network that captures the intrinsic topology of point clouds and achieves superior performance. Our proposed method, IGI++ (Intrinsic Geometry Interpreter++) employs vector-based hand-crafted intrinsic geometry interpreters and Laplace vectors to extract and evaluate point cloud morphology, resulting in improved representations for FSL (Few-Shot Learning). Additionally, Laplace vectors enable the extraction of valuable features from point clouds with fewer points. To tackle the distribution drift challenge in few-shot metric learning, we leverage hyperbolic space and demonstrate that our approach handles intra and inter-class variance better than existing point cloud few-shot learning methods. Experimental results on the ModelNet40 dataset show that GPr-Net outperforms state-of-the-art methods in few-shot learning on point clouds, achieving utmost computational efficiency that is $170\times$ better than all existing works. The code is publicly available at https://github.com/TejasAnvekar/GPr-Net. | 翻訳日:2023-04-13 14:07:10 公開日:2023-04-12 |
# 軽量YOLO7-tinyに基づく高速車両検出アルゴリズム Fast vehicle detection algorithm based on lightweight YOLO7-tiny ( http://arxiv.org/abs/2304.06002v1 ) ライセンス: Link先を確認 | Bo Li, YiHua Chen and Hao Xu | (参考訳) 車両の迅速かつ正確な検出は、インテリジェントトランスポートシステム(ITS)において重要な研究課題となっている。
しかし、現在の車両検出アルゴリズムは、高い計算複雑性、低い検出率、モバイルデバイスでの使用可能性の制限といった課題に遭遇する。
これらの問題に対処するために,Ghost-YOLOv7 と呼ばれる YOLOv7-tiny の軽量車両検出アルゴリズムを提案する。
The model first scales the width multiple to 0.5 and replaces the standard convolution of the backbone network with Ghost convolution to achieve a lighter network and improve the detection speed; secondly, a Ghost bi-directional feature pyramid network (Ghost-BiFPN) neck network is designed to enhance feature extraction capability of the algorithm and enrich semantic information; thirdly, a Ghost Decouoled Head (GDH) is employed for accurate prediction of vehicle location and class, enhancing model accuracy; finally, a coordinate attention mechanism is introduced in the output layer to suppress environmental interference, and the WIoU loss function is employed to enhance the detection accuracy further.
PASCAL VOCデータセットの実験結果によると、Ghost-YOLOv7 は元の YOLOv7-tiny モデルよりも優れており、計算の29.8%削減、パラメータ数の37.3%削減、モデル重量の35.1%削減、平均平均精度の1.1%向上、検出速度は428 FPSである。
これらの結果は,提案手法の有効性を検証する。 The swift and precise detection of vehicles holds significant research significance in intelligent transportation systems (ITS). However, current vehicle detection algorithms encounter challenges such as high computational complexity, low detection rate, and limited feasibility on mobile devices. To address these issues, this paper proposes a lightweight vehicle detection algorithm for YOLOv7-tiny called Ghost-YOLOv7. The model first scales the width multiple to 0.5 and replaces the standard convolution of the backbone network with Ghost convolution to achieve a lighter network and improve the detection speed; secondly, a Ghost bi-directional feature pyramid network (Ghost-BiFPN) neck network is designed to enhance feature extraction capability of the algorithm and enrich semantic information; thirdly, a Ghost Decouoled Head (GDH) is employed for accurate prediction of vehicle location and class, enhancing model accuracy; finally, a coordinate attention mechanism is introduced in the output layer to suppress environmental interference, and the WIoU loss function is employed to enhance the detection accuracy further. Experimental results on the PASCAL VOC dataset demonstrate that Ghost-YOLOv7 outperforms the original YOLOv7-tiny model, achieving a 29.8% reduction in computation, 37.3% reduction in the number of parameters, 35.1% reduction in model weights, and 1.1% higher mean average precision (mAP), while achieving a detection speed of 428 FPS. These results validate the effectiveness of the proposed method. | 翻訳日:2023-04-13 14:06:38 公開日:2023-04-12 |
# APPLeNet:CLIPを用いたFew-Shotリモートセンシング画像一般化のための視覚的注意パラメータ化プロンプト学習 APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot Remote Sensing Image Generalization using CLIP ( http://arxiv.org/abs/2304.05995v1 ) ライセンス: Link先を確認 | Mainak Singha, Ankit Jha, Bhupendra Solanki, Shirsha Bose and Biplab Banerjee | (参考訳) 近年、CLIPのような大規模視覚言語モデル(VLM)の成功により、様々なコンピュータビジョンタスクでの利用が増加している。
これらのモデルは、タスク固有の監督なしに注意深く作られたインストラクショナルテキストプロンプトを通じてゼロショット推論を可能にする。
しかし、リモートセンシング(RS)における一般化タスクのためのVLMの可能性は完全には実現されていない。
この研究ギャップに対処するために,視覚注意パラメータ学習ネットワーク (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
これを実現するためにAPPLeNetは、視覚エンコーダの異なるレイヤから得られる視覚コンテンツ特徴と、ドメイン固有のバッチの特徴統計から得られるスタイル特性を組み合わせる。
この情報から視覚トークンを生成するために、注意駆動注入モジュールも導入された。
また,この視覚情報をテキストトークンと組み合わせることで,トークン埋め込みの識別を確実にするための相関正則化手法も導入する。
APPLeNetを検証するため、4つの利用可能なRSベンチマークをキュレートし、3つの領域一般化タスクのための実験プロトコルとデータセットを導入した。
私たちの結果は、関連する文献とコードを一貫して上回り、https://github.com/mainaksingha01/APPLeNetで利用可能です。 In recent years, the success of large-scale vision-language models (VLMs) such as CLIP has led to their increased usage in various computer vision tasks. These models enable zero-shot inference through carefully crafted instructional text prompts without task-specific supervision. However, the potential of VLMs for generalization tasks in remote sensing (RS) has not been fully realized. To address this research gap, we propose a novel image-conditioned prompt learning strategy called the Visual Attention Parameterized Prompts Learning Network (APPLeNet). APPLeNet emphasizes the importance of multi-scale feature learning in RS scene classification and disentangles visual style and content primitives for domain generalization tasks. To achieve this, APPLeNet combines visual content features obtained from different layers of the vision encoder and style properties obtained from feature statistics of domain-specific batches. An attention-driven injection module is further introduced to generate visual tokens from this information. We also introduce an anti-correlation regularizer to ensure discrimination among the token embeddings, as this visual information is combined with the textual tokens. To validate APPLeNet, we curated four available RS benchmarks and introduced experimental protocols and datasets for three domain generalization tasks. Our results consistently outperform the relevant literature and code is available at https://github.com/mainaksingha01/APPLeNet | 翻訳日:2023-04-13 14:06:12 公開日:2023-04-12 |
# 変動境界付近で観測可能な場 Field observables near a fluctuating boundary ( http://arxiv.org/abs/2304.05992v1 ) ライセンス: Link先を確認 | Federico Armata, Salvatore Butera, Federico Montalbano, Roberto Passante and Lucia Rizzuto | (参考訳) 本稿では,有限質量の可動導電壁を有するキャビティ内の無質量スカラー場の閉じ込めに関するいくつかの側面について検討し,高調波ポテンシャルによって結合される平衡位置を自由に移動でき,その力学的自由度を量子力学的に記述する。
この系は、その平衡位置から可動壁の小さな変位に対して、場とミラーの間の効果的な相互作用ハミルトニアン、場作用素における二次、ミラー作用素における線形によって記述することができる。
相互作用,すなわち服装,基底状態において,まず場エネルギー密度などの局所場観測性について考察し,固定壁の場合に対する可動壁を有するキャビティ内の場エネルギー密度の変化と,2つの壁の間の通常のカシミール力の補正について検討する。
次に、有限質量の可動壁によって分離された2つの1次元キャビティのケースと、2つのキャビティで定義された2つのマスレススカラー場について検討する。
この場合, 2つのキャビティの正方形場間の相関は, 可動壁を媒介とし, 固定壁の場合と異なっていた。 We review several aspects related to the confinement of a massless scalar field in a cavity with a movable conducting wall of finite mass, free to move around its equilibrium position to which it is bound by a harmonic potential, and whose mechanical degrees of freedom are described quantum mechanically. This system, for small displacements of the movable wall from its equilibrium position, can be described by an effective interaction Hamiltonian between the field and the mirror, quadratic in the field operators and linear in the mirror operators. In the interacting, i.e. dressed, ground state, we first consider local field observables such as the field energy density: we evaluate changes of the field energy density in the cavity with the movable wall with respect to the case of a fixed wall, and corrections to the usual Casimir forces between the two walls. We then investigate the case of two one-dimensional cavities separated by a movable wall of finite mass, with two massless scalar fields defined in the two cavities. We show that in this case correlations between the squared fields in the two cavities exist, mediated by the movable wall, at variance with the fixed-wall case. | 翻訳日:2023-04-13 14:05:51 公開日:2023-04-12 |
# 高次元逆問題に対する物理形ニューラルネットワークの最大相似推定器 Maximum-likelihood Estimators in Physics-Informed Neural Networks for High-dimensional Inverse Problems ( http://arxiv.org/abs/2304.05991v1 ) ライセンス: Link先を確認 | Gabriel S. Gusm\~ao and Andrew J. Medford | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、逆常微分方程式(ODE)と偏微分方程式(PDE)を解くのに適した数学的足場であることが証明されている。
典型的な逆PINNは、複数のハイパーパラメータを持つソフト制約付き多目的最適化問題として定式化される。
本研究では,超パラメータチューニングを必要とせず,補間からテイラー展開による物理モデル空間への明示的な誤差伝搬を可能にするために,最大形推定器(MLE)を用いて逆PINNをフレーム化できることを実証する。
我々は、過渡的な化学および生物学的運動学に共通する微分代数方程式によって制約される高次元結合ODEへの応用を探る。
さらに, ode結合行列 (reaction stoichiometry matrix) の特異値分解 (svd) により, ピンズ解を表現でき, 残差を射影できる非相関部分空間が縮小されることを示した。
最後に、SVD ベースは、MLE を 'kinetics-informed neural network'' へ適用する超パラメータフリーロバストな応用において、共分散行列の逆転の前提条件として機能する。 Physics-informed neural networks (PINNs) have proven a suitable mathematical scaffold for solving inverse ordinary (ODE) and partial differential equations (PDE). Typical inverse PINNs are formulated as soft-constrained multi-objective optimization problems with several hyperparameters. In this work, we demonstrate that inverse PINNs can be framed in terms of maximum-likelihood estimators (MLE) to allow explicit error propagation from interpolation to the physical model space through Taylor expansion, without the need of hyperparameter tuning. We explore its application to high-dimensional coupled ODEs constrained by differential algebraic equations that are common in transient chemical and biological kinetics. Furthermore, we show that singular-value decomposition (SVD) of the ODE coupling matrices (reaction stoichiometry matrix) provides reduced uncorrelated subspaces in which PINNs solutions can be represented and over which residuals can be projected. Finally, SVD bases serve as preconditioners for the inversion of covariance matrices in this hyperparameter-free robust application of MLE to ``kinetics-informed neural networks''. | 翻訳日:2023-04-13 14:05:29 公開日:2023-04-12 |
# 量子多体スナップショットのゆらぎに基づく解釈解析手法 Fluctuation based interpretable analysis scheme for quantum many-body snapshots ( http://arxiv.org/abs/2304.06029v1 ) ライセンス: Link先を確認 | Henning Schl\"omer, Annabelle Bohrdt | (参考訳) 物質の微視的理解と分類は、強相関量子物理学の中心にある。
量子シミュレーションでは、系内の相関の完全な情報を含む多体状態の真の射影的測定(スナップショット)を行うことができる。
ディープニューラルネットワークの台頭により、大規模データセットの抽象処理や分類タスクを日常的に解決することが可能となり、量子データ解析の指導手として機能する。
しかし、物体の異なる相の違いを区別することに成功したが、従来のニューラルネットワークは物理的足場における解釈可能性にほとんど欠けていた。
ここでは、相関関数の観点から完全に解釈可能な位相検出をもたらす相関畳み込みニューラルネットワークと混同学習を組み合わせる。
特に, 2次元ハイゼンベルク模型の熱力学特性について検討し, トレーニングしたネットワークは, 磁気相関が著しく長距離となる特性温度以下で, スナップショットの質的変化を捉えることができることを示した。
我々は、近接するスピン相関の完全なカウント統計を、局所観測値の平均を超えるニューラルネットワークの決定過程における最も重要な量として特定する。
高温超伝導体における擬ギャップ相の磁気的性質に類似した、二階相関の揺らぎ(高次の長距離相関からの寄与を間接的に含む)へのアクセスにより、ネットワークは特定の熱とスピン感受性の変化を検出することができる。
混乱学習スキームをトランスフォーマーニューラルネットワークと組み合わせることで、解釈可能な量子画像処理における新しい方向が長距離オーダーに適応できる。 Microscopically understanding and classifying phases of matter is at the heart of strongly-correlated quantum physics. With quantum simulations, genuine projective measurements (snapshots) of the many-body state can be taken, which include the full information of correlations in the system. The rise of deep neural networks has made it possible to routinely solve abstract processing and classification tasks of large datasets, which can act as a guiding hand for quantum data analysis. However, though proven to be successful in differentiating between different phases of matter, conventional neural networks mostly lack interpretability on a physical footing. Here, we combine confusion learning with correlation convolutional neural networks, which yields fully interpretable phase detection in terms of correlation functions. In particular, we study thermodynamic properties of the 2D Heisenberg model, whereby the trained network is shown to pick up qualitative changes in the snapshots above and below a characteristic temperature where magnetic correlations become significantly long-range. We identify the full counting statistics of nearest neighbor spin correlations as the most important quantity for the decision process of the neural network, which go beyond averages of local observables. With access to the fluctuations of second-order correlations -- which indirectly include contributions from higher order, long-range correlations -- the network is able to detect changes of the specific heat and spin susceptibility, the latter being in analogy to magnetic properties of the pseudogap phase in high-temperature superconductors. By combining the confusion learning scheme with transformer neural networks, our work opens new directions in interpretable quantum image processing being sensible to long-range order. | 翻訳日:2023-04-13 13:58:33 公開日:2023-04-12 |
# RECLIP:小さな画像による学習による資源効率の高いCLIP RECLIP: Resource-efficient CLIP by Training with Small Images ( http://arxiv.org/abs/2304.06028v1 ) ライセンス: Link先を確認 | Runze Li, Dahun Kim, Bir Bhanu, Weicheng Kuo | (参考訳) 本稿では,CLIP (Contrastive Language Image Pretraining) の計算資源フットプリントを最小限に抑えるシンプルな手法であるRECLIPを提案する。
コンピュータビジョンにおける粗粒度の概念に着想を得て,小型画像を用いて大規模言語指導から効率的に学習し,最後に高分解能データを用いてモデルを微調整する。
視覚変換器の複雑さは入力画像サイズに大きく依存するため,本手法は理論および実際の両方において,トレーニングリソースの要求を著しく低減する。
同じバッチサイズとトレーニングエポックを用いて、RECLIPは、高い競争力を持つゼロショット分類と画像テキスト検索の精度を6〜8$\times$少ない計算リソースと7~9$\times$ベースラインよりも少ないFLOPで達成した。
最先端のコントラスト学習手法と比較して、RECLIPは、高度に競争力のあるゼロショット分類と検索性能を維持しながら、トレーニングリソースの節約を5〜59$\times$で示す。
この取り組みが、より広範な研究コミュニティが、よりリソースフレンドリーな環境で教師付き事前学習を探求する道を開くことを願っている。 We present RECLIP (Resource-efficient CLIP), a simple method that minimizes computational resource footprint for CLIP (Contrastive Language Image Pretraining). Inspired by the notion of coarse-to-fine in computer vision, we leverage small images to learn from large-scale language supervision efficiently, and finetune the model with high-resolution data in the end. Since the complexity of the vision transformer heavily depends on input image size, our approach significantly reduces the training resource requirements both in theory and in practice. Using the same batch size and training epoch, RECLIP achieves highly competitive zero-shot classification and image text retrieval accuracy with 6 to 8$\times$ less computational resources and 7 to 9$\times$ fewer FLOPs than the baseline. Compared to the state-of-the-art contrastive learning methods, RECLIP demonstrates 5 to 59$\times$ training resource savings while maintaining highly competitive zero-shot classification and retrieval performance. We hope this work will pave the path for the broader research community to explore language supervised pretraining in more resource-friendly settings. | 翻訳日:2023-04-13 13:58:07 公開日:2023-04-12 |
# 連続拡散:C-LoRAによるテキスト間拡散の連続的カスタマイズ Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA ( http://arxiv.org/abs/2304.06027v1 ) ライセンス: Link先を確認 | James Seale Smith, Yen-Chang Hsu, Lingyu Zhang, Ting Hua, Zsolt Kira, Yilin Shen, Hongxia Jin | (参考訳) 最近の研究は、サンプル画像のみを提供しながら、テキストから画像への拡散モデルをカスタマイズする素晴らしい能力を示している。
シーケンシャルな(すなわち連続的な)方法で、複数のきめ細かい概念を使って、これらのモデルをカスタマイズしようとするとどうなるだろうか?
本稿では,テキストから画像へのモデルの最新のカスタマイズは,新しい概念が順次現れると壊滅的な忘れがちであることを示す。
特に、新しい概念を追加するとき、過去の高品質なイメージを生成する能力は、同様の概念は劣化する。
そこで本研究では,従来の安定拡散モデルを用いたクロスアテンション層における自己規則化低ランク適応を連続的に行うC-LoRAを提案する。
さらに、カスタマイズされたオブジェクト(例えば、人間の顔データセットの「人」)の単語を含まないカスタマイズプロンプトを、完全にランダムな埋め込みとして初期化する。
重要なこととして,本手法は限界余剰パラメータコストのみを誘導し,再生にユーザデータの保存を必要としない。
c-loraは,提案するテキスト・画像間連続型カスタマイズのベースラインを,連続的拡散と呼ぶものに上回っているだけでなく,画像分類のためのリハーサルフリー連続型学習環境において新たな最先端を実現する。
C-LoRAの2つの異なる領域における高い性能は、それを広範囲のアプリケーションにとって魅力的なソリューションとして位置づけている。 Recent works demonstrate a remarkable ability to customize text-to-image diffusion models while only providing a few example images. What happens if you try to customize such models using multiple, fine-grained concepts in a sequential (i.e., continual) manner? In our work, we show that recent state-of-the-art customization of text-to-image models suffer from catastrophic forgetting when new concepts arrive sequentially. Specifically, when adding a new concept, the ability to generate high quality images of past, similar concepts degrade. To circumvent this forgetting, we propose a new method, C-LoRA, composed of a continually self-regularized low-rank adaptation in cross attention layers of the popular Stable Diffusion model. Furthermore, we use customization prompts which do not include the word of the customized object (i.e., "person" for a human face dataset) and are initialized as completely random embeddings. Importantly, our method induces only marginal additional parameter costs and requires no storage of user data for replay. We show that C-LoRA not only outperforms several baselines for our proposed setting of text-to-image continual customization, which we refer to as Continual Diffusion, but that we achieve a new state-of-the-art in the well-established rehearsal-free continual learning setting for image classification. The high achieving performance of C-LoRA in two separate domains positions it as a compelling solution for a wide range of applications, and we believe it has significant potential for practical impact. | 翻訳日:2023-04-13 13:57:44 公開日:2023-04-12 |
# DreamPose:安定拡散によるファッション画像とビデオの合成 DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion ( http://arxiv.org/abs/2304.06025v1 ) ライセンス: Link先を確認 | Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman | (参考訳) 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
画像と人間のポーズのシーケンスが与えられたら、人間の動きと布の動きの両方を含むビデオを合成する。
そこで本研究では,事前学習したテキストから画像への拡散(stable diffusion)を,新たな微調整戦略,追加条件付信号をサポートするアーキテクチャ変更,時間的一貫性を促進する手法を用いて,ポーズ・アンド・イメージ誘導ビデオ合成モデルに変換する。
ubcのファッションデータセットのファッションビデオのコレクションについて詳しく調べた。
本手法は,様々な衣料品のスタイルやポーズについて評価し,ファッションビデオアニメーションで最新の結果が得られることを示す。
ビデオの結果はプロジェクトのページで確認できます。 We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transform a pretrained text-to-image model (Stable Diffusion) into a pose-and-image guided video synthesis model, using a novel finetuning strategy, a set of architectural changes to support the added conditioning signals, and techniques to encourage temporal consistency. We fine-tune on a collection of fashion videos from the UBC Fashion dataset. We evaluate our method on a variety of clothing styles and poses, and demonstrate that our method produces state-of-the-art results on fashion video animation. Video results are available on our project page. | 翻訳日:2023-04-13 13:57:18 公開日:2023-04-12 |
# エゴセントリックな視点による3次元シーンにおける確率的ヒューマンメッシュ回復 Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views ( http://arxiv.org/abs/2304.06024v1 ) ライセンス: Link先を確認 | Siwei Zhang, Qianli Ma, Yan Zhang, Sadegh Aliakbarian, Darren Cosker, Siyu Tang | (参考訳) ソーシャルインタラクションにおける人間の行動の自動認識は、AR/VRアプリケーションにとって不可欠であり、エゴセントリックな視点から、社会的パートナーのもっともらしい3Dのポーズと形状を推定することが重要な要素である。
この作業の最大の課題の1つは、自発的なシナリオにおける社会的距離の密接さによる激しい身体切断であり、これは目に見えない身体の一部に対する大きなポーズの曖昧さをもたらす。
そこで本研究では,身体のポーズ分布をモデル化するシーン条件拡散法を提案する。
拡散モデルは,3次元シーン形状を条件に,人間とシーンの相互作用が妥当な物体を生成し,物理ベースの衝突スコアで導かれるサンプリングにより,人間とシーンの相互接続を更に解決する。
分類器なしの訓練は、異なる条件で柔軟なサンプリングと多様性の向上を可能にする。
可視性を考慮したグラフ畳み込みモデルでは, 関節間依存性と身体間制御を組み込む拡散デノイザとして機能する。
広汎な評価により,本手法は3次元シーンとのプラプティブルな相互作用の身体を生成し,可視関節の精度と見えない身体部位の多様性を両立させる。
コードはhttps://sanweiliti.github.io/egohmr/egohmr.htmlで入手できる。 Automatic perception of human behaviors during social interactions is crucial for AR/VR applications, and an essential component is estimation of plausible 3D human pose and shape of our social partners from the egocentric view. One of the biggest challenges of this task is severe body truncation due to close social distances in egocentric scenarios, which brings large pose ambiguities for unseen body parts. To tackle this challenge, we propose a novel scene-conditioned diffusion method to model the body pose distribution. Conditioned on the 3D scene geometry, the diffusion model generates bodies in plausible human-scene interactions, with the sampling guided by a physics-based collision score to further resolve human-scene inter-penetrations. The classifier-free training enables flexible sampling with different conditions and enhanced diversity. A visibility-aware graph convolution model guided by per-joint visibility serves as the diffusion denoiser to incorporate inter-joint dependencies and per-body-part control. Extensive evaluations show that our method generates bodies in plausible interactions with 3D scenes, achieving both superior accuracy for visible joints and diversity for invisible body parts. The code will be available at https://sanweiliti.github.io/egohmr/egohmr.html. | 翻訳日:2023-04-13 13:57:05 公開日:2023-04-12 |
# コンセサイテッドシーンにおけるSAMストラグル-「セグメント」に関する実証的研究 SAM Struggles in Concealed Scenes -- Empirical Study on "Segment Anything" ( http://arxiv.org/abs/2304.06022v1 ) ライセンス: Link先を確認 | Ge-Peng Ji, Deng-Ping Fan, Peng Xu, Ming-Ming Cheng, Bowen Zhou, Luc Van Gool | (参考訳) セグメンテーションは人工知能に向けた画期的なステップであり、SAM(Segment Anything Model)はコンピュータビジョンの基礎モデルを大きく発展させる。
SAMのパフォーマンス特性を調べることに、これ以上興奮することはできませんでした。
特にSAMがうまく機能しない状況の探索は興味深い。
本報告では,隠れた3つのシーン,すなわちカモフラージュされた動物,工業的欠陥,医療的病変を選択し,SAMを未開の環境で評価する。
私たちの主な観察では、SAMは隠されたシーンではスキルがないように見えます。 Segmenting anything is a ground-breaking step toward artificial general intelligence, and the Segment Anything Model (SAM) greatly fosters the foundation models for computer vision. We could not be more excited to probe the performance traits of SAM. In particular, exploring situations in which SAM does not perform well is interesting. In this report, we choose three concealed scenes, i.e., camouflaged animals, industrial defects, and medical lesions, to evaluate SAM under unprompted settings. Our main observation is that SAM looks unskilled in concealed scenes. | 翻訳日:2023-04-13 13:56:41 公開日:2023-04-12 |
# スパースアノテーションによる群衆カウント Crowd Counting with Sparse Annotation ( http://arxiv.org/abs/2304.06021v1 ) ライセンス: Link先を確認 | Shiwei Zhang, Zhengzheng Wang, Qing Liu, Fei Wang, Wei Ke, Tong Zhang | (参考訳) 本稿では,画像中の個人をスパースにラベル付けすることで,人のラベル付け作業を減らすことを目的とした,Sparse Annotation(SA)というアノテーション手法を提案する。
スパースラベリングは、完全アノテーションの冗長性を減らし、部分アノテーション法で完全に捉えられていない遠い個人からより多様な情報を取得することができると論じる。
さらに,画像全体から,提案マッチングネットワーク (PMN) とパフォーマンス回復ネットワーク (PRN) を含むスパースアノテーションにより,群衆をよりよく探索するポイントベースプログレッシブポイントマッチングネットワーク (PPM) を提案する。
PMNは基本点分類器を用いて擬似点サンプルを生成し、PRNは擬似点分類器を精製して性能を最大化する。
実験の結果,PPMは従来の半教師あり群集カウント法と同等量のアノテーションで性能を向上し,最先端の完全教師あり手法と競合する性能を示した。 This paper presents a new annotation method called Sparse Annotation (SA) for crowd counting, which reduces human labeling efforts by sparsely labeling individuals in an image. We argue that sparse labeling can reduce the redundancy of full annotation and capture more diverse information from distant individuals that is not fully captured by Partial Annotation methods. Besides, we propose a point-based Progressive Point Matching network (PPM) to better explore the crowd from the whole image with sparse annotation, which includes a Proposal Matching Network (PMN) and a Performance Restoration Network (PRN). The PMN generates pseudo-point samples using a basic point classifier, while the PRN refines the point classifier with the pseudo points to maximize performance. Our experimental results show that PPM outperforms previous semi-supervised crowd counting methods with the same amount of annotation by a large margin and achieves competitive performance with state-of-the-art fully-supervised methods. | 翻訳日:2023-04-13 13:56:30 公開日:2023-04-12 |
# VidStyleODE:StyleGANとNeuralODEによるビデオ編集 VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs ( http://arxiv.org/abs/2304.06020v1 ) ライセンス: Link先を確認 | Moayed Haji Ali, Andrew Bond, Tolga Birdal, Duygu Ceylan, Levent Karacan, Erkut Erdem, and Aykut Erdem | (参考訳) 我々は,$\textbf{style}$gan と neural-$\textbf{ode}$s に基づく時空間的に連続した$\textbf{vid}$eo表現である$\textbf{vidstyleode}$ を提案する。
GAN(Generative Adversarial Networks)によって学習された潜伏空間の効果的なトラバースは、画像編集における最近のブレークスルーの基礎となっている。
しかし,gansの潜在空間におけるビデオの表現と制御が困難であることから,ビデオ領域への発展が妨げられている。
特に、ビデオはコンテンツ(外観)と複雑なモーションコンポーネントで構成されており、アンタングルと制御の特別なメカニズムを必要とする。
これを実現するために、VidStyleODEは事前訓練されたStyleGAN $\mathcal{W}_+$スペースでビデオコンテンツをエンコードし、潜在ODEコンポーネントから入力ビデオの時空間ダイナミクスを要約する。
我々の新しい連続ビデオ生成プロセスは、この2つを組み合わせて、フレームレートの異なる高品質で時間的に一貫したビデオを生成する。
提案手法は,テキスト誘導による外観操作,モーション操作,画像アニメーション,映像補間・外挿など,実ビデオの様々な応用を可能にする。
プロジェクトウェブサイト: https://cyberiada.github.io/VidStyleODE We propose $\textbf{VidStyleODE}$, a spatiotemporally continuous disentangled $\textbf{Vid}$eo representation based upon $\textbf{Style}$GAN and Neural-$\textbf{ODE}$s. Effective traversal of the latent space learned by Generative Adversarial Networks (GANs) has been the basis for recent breakthroughs in image editing. However, the applicability of such advancements to the video domain has been hindered by the difficulty of representing and controlling videos in the latent space of GANs. In particular, videos are composed of content (i.e., appearance) and complex motion components that require a special mechanism to disentangle and control. To achieve this, VidStyleODE encodes the video content in a pre-trained StyleGAN $\mathcal{W}_+$ space and benefits from a latent ODE component to summarize the spatiotemporal dynamics of the input video. Our novel continuous video generation process then combines the two to generate high-quality and temporally consistent videos with varying frame rates. We show that our proposed method enables a variety of applications on real videos: text-guided appearance manipulation, motion manipulation, image animation, and video interpolation and extrapolation. Project website: https://cyberiada.github.io/VidStyleODE | 翻訳日:2023-04-13 13:56:12 公開日:2023-04-12 |
# アンダーディスプレイカメラにおける画像復元のための非アライメントデータからのアライメント擬似スーパービジョンの生成 Generating Aligned Pseudo-Supervision from Non-Aligned Data for Image Restoration in Under-Display Camera ( http://arxiv.org/abs/2304.06019v1 ) ライセンス: Link先を確認 | Ruicheng Feng, Chongyi Li, Huaijin Chen, Shuai Li, Jinwei Gu, Chen Change Loy | (参考訳) Under-Display Camera (UDC)画像復元のための大規模かつ完全に整合したトレーニングデータの収集が困難であったため、従来の手法では、モニタベースのイメージシステムやシミュレーションベースの手法を採用し、データの現実性を犠牲にし、ドメインギャップを導入していた。
本研究では,データ収集のトレーニングのために,古典的なステレオ設定を再検討する。udcと標準カメラ1台で,同じシーンの2つのイメージをキャプチャする。
重要なアイデアは、高品質な参照イメージから詳細を“コピー”し、udcイメージに“ペースト”することです。
実際のトレーニングペアを生成することができるが、この設定は、視野と視野の変化の深さによる空間的不整合の影響を受けやすい。
この問題は、UDC復元に特有の、UDCと通常の画像との間の大きな領域差によってさらに複雑になる。
本稿では,対応するudc入力に対して,高度に整列した高品質な目標データを生成するトランスフォーマフレームワークを用いて,非自明な領域間不一致と空間的不均衡を緩和する。
これは、ドメインアライメントモジュール(dam)と幾何学アライメントモジュール(gam)という、2つの注意深く設計されたコンポーネントによって実現され、udcと通常のビューの対応を堅牢かつ正確に発見する。
広範な実験により、高品質で整列した疑似udcトレーニングペアが堅牢な修復ネットワークのトレーニングに有用であることが示されている。
コードとデータセットはhttps://github.com/jnjaby/alignformerで入手できる。 Due to the difficulty in collecting large-scale and perfectly aligned paired training data for Under-Display Camera (UDC) image restoration, previous methods resort to monitor-based image systems or simulation-based methods, sacrificing the realness of the data and introducing domain gaps. In this work, we revisit the classic stereo setup for training data collection -- capturing two images of the same scene with one UDC and one standard camera. The key idea is to "copy" details from a high-quality reference image and "paste" them on the UDC image. While being able to generate real training pairs, this setting is susceptible to spatial misalignment due to perspective and depth of field changes. The problem is further compounded by the large domain discrepancy between the UDC and normal images, which is unique to UDC restoration. In this paper, we mitigate the non-trivial domain discrepancy and spatial misalignment through a novel Transformer-based framework that generates well-aligned yet high-quality target data for the corresponding UDC input. This is made possible through two carefully designed components, namely, the Domain Alignment Module (DAM) and Geometric Alignment Module (GAM), which encourage robust and accurate discovery of correspondence between the UDC and normal views. Extensive experiments show that high-quality and well-aligned pseudo UDC training pairs are beneficial for training a robust restoration network. Code and the dataset are available at https://github.com/jnjaby/AlignFormer. | 翻訳日:2023-04-13 13:55:49 公開日:2023-04-12 |
# ダイナミックビデオのための適応的ヒューマンマッチング Adaptive Human Matting for Dynamic Videos ( http://arxiv.org/abs/2304.06018v1 ) ライセンス: Link先を確認 | Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu | (参考訳) trimapアノテーションは高価であり、trimapベースのメソッドはリアルタイムアプリケーションには適応できないため、ビデオマットリングにおける最近の取り組みは、trimap依存性の排除に焦点を当てている。
期待できる結果を示す最新のトリップマップのない手法にもかかわらず、非常に多様な非構造化ビデオを扱う場合、パフォーマンスは劣化することが多い。
我々は,前景と背景を同時に区別し,前景における人間の被写体のアルファマットの詳細を捉えるために設計されたフレームワークであるadamという動的ビデオに対して適応的マットリングを導入することで,この制限に対処する。
この目的を達成するために,(1)前景と背景を適応的に復号化する際に使用するアルファマットと中間マスクを生成するエンコーダ・デコーダネットワーク,(2)前景の詳細の復号化を容易にするために,長期的・短期的注意が組み合わさって空間的・時間的コンテキストを維持するトランスフォーマネットワーク,という2つのネットワーク設計を行った。
提案手法を最近導入したデータセットにベンチマークし,複雑な実世界のビデオにおけるマッチングリアリズムと時間的コヒーレンスを改善し,新たなクラス内一般化性を実現することを示す。
詳細とサンプルはhttps://github.com/microsoft/adam.comで確認できる。 The most recent efforts in video matting have focused on eliminating trimap dependency since trimap annotations are expensive and trimap-based methods are less adaptable for real-time applications. Despite the latest tripmap-free methods showing promising results, their performance often degrades when dealing with highly diverse and unstructured videos. We address this limitation by introducing Adaptive Matting for Dynamic Videos, termed AdaM, which is a framework designed for simultaneously differentiating foregrounds from backgrounds and capturing alpha matte details of human subjects in the foreground. Two interconnected network designs are employed to achieve this goal: (1) an encoder-decoder network that produces alpha mattes and intermediate masks which are used to guide the transformer in adaptively decoding foregrounds and backgrounds, and (2) a transformer network in which long- and short-term attention combine to retain spatial and temporal contexts, facilitating the decoding of foreground details. We benchmark and study our methods on recently introduced datasets, showing that our model notably improves matting realism and temporal coherence in complex real-world videos and achieves new best-in-class generalizability. Further details and examples are available at https://github.com/microsoft/AdaM. | 翻訳日:2023-04-13 13:55:19 公開日:2023-04-12 |
# メタコンフィグレーション参照表現のセグメンテーション Meta Compositional Referring Expression Segmentation ( http://arxiv.org/abs/2304.04415v3 ) ライセンス: Link先を確認 | Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu | (参考訳) 表現セグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメントすることを目的としている。
このタスクの最近の進歩にもかかわらず、このタスクに取り組む既存のモデルは、個々の概念の意味論と視覚的表現を完全に捉えることができないかもしれない。
本稿ではメタ学習のレンズを通して,モデル合成一般化性能を向上させるメタ合成参照表現セグメンテーション(MCRES)フレームワークを提案する。
具体的には、まずトレーニングデータを用いて、仮想トレーニングセットと複数の仮想テストセットを構築し、それぞれの仮想テストセット内のデータサンプルは、仮想トレーニングセットに対して、新しいコンポジションのレベルを含む。
そして,仮想トレーニングセット上でのトレーニング後の仮想テストセット上での優れたテスト性能を得るために,モデルを最適化する新しいメタ最適化スキームに従えば,本フレームワークは,個々の概念のセマンティクスや視覚的表現をより効果的に把握し,新しい構成を扱う場合でも堅牢な一般化性能を得ることができる。
3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を示す。 Referring expression segmentation aims to segment an object described by a language expression from an image. Despite the recent progress on this task, existing models tackling this task may not be able to fully capture semantics and visual representations of individual concepts, which limits their generalization capability, especially when handling novel compositions of learned concepts. In this work, through the lens of meta learning, we propose a Meta Compositional Referring Expression Segmentation (MCRES) framework to enhance model compositional generalization performance. Specifically, to handle various levels of novel compositions, our framework first uses training data to construct a virtual training set and multiple virtual testing sets, where data samples in each virtual testing set contain a level of novel compositions w.r.t. the virtual training set. Then, following a novel meta optimization scheme to optimize the model to obtain good testing performance on the virtual testing sets after training on the virtual training set, our framework can effectively drive the model to better capture semantics and visual representations of individual concepts, and thus obtain robust generalization performance even when handling novel compositions. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our framework. | 翻訳日:2023-04-13 11:03:58 公開日:2023-04-12 |
# ロバスト自己教師付き視覚トランスプレトレーニングのためのトークンブースティング Token Boosting for Robust Self-Supervised Visual Transformer Pre-training ( http://arxiv.org/abs/2304.04175v2 ) ライセンス: Link先を確認 | Tianjiao Li, Lin Geng Foo, Ping Hu, Xindi Shang, Hossein Rahmani, Zehuan Yuan, Jun Liu | (参考訳) 大規模なラベルなしデータによる学習は、Visual Transformer(VT)を事前学習するための強力なツールとなっている。
しかし、事前の作業は、現実世界のシナリオでは、入力データが破損し、信頼性が低いことを見落としてしまう傾向がある。
このような破損したデータに対する事前トレーニングVTは、特に、入力とマスクされた『地下真実』ターゲットの両方が信頼できないような、マスク付き自動符号化アプローチによる事前トレーニングを行う場合、難しい。
この制限に対処するため、VTのプラグイン・アンド・プレイコンポーネントとしてToken Boosting Module (TBM)を導入し、マスク付きオートエンコーディング事前学習中にVTがクリーンでロバストな特徴を抽出できるようにする。
我々は,TBMがより堅牢で一般化可能な表現でモデル事前学習をどのように改善し,下流タスクの恩恵を受けるかを示す理論的解析を行う。
我々はTBMの有効性を分析するための広範囲な実験を行い、4つの破損したデータセットの結果、TBMは下流タスクの性能を継続的に改善することを示した。 Learning with large-scale unlabeled data has become a powerful tool for pre-training Visual Transformers (VTs). However, prior works tend to overlook that, in real-world scenarios, the input data may be corrupted and unreliable. Pre-training VTs on such corrupted data can be challenging, especially when we pre-train via the masked autoencoding approach, where both the inputs and masked ``ground truth" targets can potentially be unreliable in this case. To address this limitation, we introduce the Token Boosting Module (TBM) as a plug-and-play component for VTs that effectively allows the VT to learn to extract clean and robust features during masked autoencoding pre-training. We provide theoretical analysis to show how TBM improves model pre-training with more robust and generalizable representations, thus benefiting downstream tasks. We conduct extensive experiments to analyze TBM's effectiveness, and results on four corrupted datasets demonstrate that TBM consistently improves performance on downstream tasks. | 翻訳日:2023-04-13 11:03:37 公開日:2023-04-12 |
# 衛星画像へのnerf応用による表面再構成 NeRF applied to satellite imagery for surface reconstruction ( http://arxiv.org/abs/2304.04133v3 ) ライセンス: Link先を確認 | Federico Semeraro, Yi Zhang, Wenying Wu, Patrick Carroll | (参考訳) 本稿では、最近導入されたシャドウニューラルレージアンスフィールド(S-NeRF)モデルの修正実装であるSat-NeRFを提案する。
本手法は、画像中の光の変動を考慮しつつ、シーンの衛星画像の粗い集合から新規なビューを合成することができる。
トレーニングされたモデルは、しばしば衛星観測用途に望ましい量であるシーンの表面の標高を正確に推定するためにも使用できる。
S-NeRFは、放射をアルベドと照射の機能として考慮し、標準的なニューラル放射場(NeRF)法を改善する。
どちらの量もモデルの完全に接続されたニューラルネットワークの枝によって出力され、後者は太陽からの直光と空からの拡散色の関数とみなされる。
実装は衛星画像のデータセット上で実行され、ズームアンドクロップ技術を用いて拡張された。
NeRFのハイパーパラメーターによる研究が行われ、モデル収束に関する興味深い観測につながった。
最後に、NeRFとS-NeRFはどちらも100kのエポックまで実行され、データの完全適合と可能な限りの予測が得られた。
この記事に関連するコードは \url{https://github.com/fsemerar/satnerf} にある。 We present Sat-NeRF, a modified implementation of the recently introduced Shadow Neural Radiance Field (S-NeRF) model. This method is able to synthesize novel views from a sparse set of satellite images of a scene, while accounting for the variation in lighting present in the pictures. The trained model can also be used to accurately estimate the surface elevation of the scene, which is often a desirable quantity for satellite observation applications. S-NeRF improves on the standard Neural Radiance Field (NeRF) method by considering the radiance as a function of the albedo and the irradiance. Both these quantities are output by fully connected neural network branches of the model, and the latter is considered as a function of the direct light from the sun and the diffuse color from the sky. The implementations were run on a dataset of satellite images, augmented using a zoom-and-crop technique. A hyperparameter study for NeRF was carried out, leading to intriguing observations on the model's convergence. Finally, both NeRF and S-NeRF were run until 100k epochs in order to fully fit the data and produce their best possible predictions. The code related to this article can be found at \url{https://github.com/fsemerar/satnerf}. | 翻訳日:2023-04-13 11:03:16 公開日:2023-04-12 |
# マルチコードディープイメージによる画像復調・CT再構成のためのプラグアンドプレイADMM Multi-code deep image prior based plug-and-play ADMM for image denoising and CT reconstruction ( http://arxiv.org/abs/2304.03895v2 ) ライセンス: Link先を確認 | Chen Cheng, Qingping Zhou | (参考訳) 逆問題の画像化に先立つ畳み込みニューラルネットワークの利用がますます普及している。
しかし、現在の最先端の手法は深刻な過剰フィッティングを生じやすいため、過剰フィッティング問題を解決するために多くの早期停止技術が必要となる。
作業のモチベーションを高めるため,画像先行に対する既存のアプローチを概観する。
先行画像と手作り画像を組み合わせることで,解釈性や表現性に優れた性能が得られることがわかった。
本稿では,先行する深層画像の複数の潜伏符号の変種であるマルチコード深層画像について提案し,過度な収差を排除し,潜伏符号の異なる数に対して頑健であることを示す。
手工芸品の非微分性のため、乗算器の代替方向法(ADMM)を用いる。
PnP-DIP, DIP-VBTV, ADMM DIP-WTV などの既存手法と比較し, 画像復号化問題とCT再構成問題に対する提案手法の性能を比較した。
celebaデータセットをデノージングする場合、すべての比較法に対して1.46dbのピーク信号とノイズ比の改善が得られる。
CTの再構成では、DIPは4.3dB、ADMM DIP-WTVは1.7dB、PnP-DIPは1.2dB、構造類似度指数は1.2dBである。 The use of the convolutional neural network based prior in imaging inverse problems has become increasingly popular. Current state-of-the-art methods, however, can easily result in severe overfitting, which makes a number of early stopping techniques necessary to eliminate the overfitting problem. To motivate our work, we review some existing approaches to image priors. We find that the deep image prior in combined with the handcrafted prior has an outstanding performance in terms of interpretability and representability. We propose a multi-code deep image prior, a multiple latent codes variant of the deep image prior, which can be utilized to eliminate overfitting and is also robust to the different numbers of the latent codes. Due to the non-differentiability of the handcrafted prior, we use the alternative direction method of multipliers (ADMM) algorithm. We compare the performance of the proposed method on an image denoising problem and a highly ill-posed CT reconstruction problem against the existing state-of-the-art methods, including PnP-DIP, DIP-VBTV and ADMM DIP-WTV methods. For the CelebA dataset denoising, we obtain 1.46 dB peak signal to noise ratio improvement against all compared methods. For the CT reconstruction, the corresponding average improvement of three test images is 4.3 dB over DIP, and 1.7 dB over ADMM DIP-WTV, and 1.2 dB over PnP-DIP along with a significant improvement in the structural similarity index. | 翻訳日:2023-04-13 11:02:58 公開日:2023-04-12 |
# 不可解な対策による難易度検索の再検討 Revisiting Dense Retrieval with Unanswerable Counterfactuals ( http://arxiv.org/abs/2304.03031v4 ) ライセンス: Link先を確認 | Yongho Song, Dahyun Lee, Kyungjae Lee, Jinyeong Yeo | (参考訳) retriever-readerフレームワークはopen-domain question answering(odqa)で人気があり、レトリバーが読者に対して、大きなコーパスから関連する候補パスのセットをサンプリングする。
この手法の背景にある重要な前提は、検索者からの高関連度スコアは、読者からの高い応答可能性を示す可能性があり、検索されたパスが与えられた質問に対する回答を含む確率が高いということである。
本研究では,この信念を実証的に否定し,dprに基づく近年の密集した検索モデルが,解答可能な原文よりも不都合な偽文を上位にランク付けすることが多いことを観察する。
本研究では,dprの関連度測定と質問・回答対の対応性との同期性を高めるために,非実例を付加的な学習資源として活用する。
具体的には, 逆実例を学習空間における正と負のサンプルのピボットとして活用する, 経路探索のための新しい表現学習手法PiCLを提案する。
我々は, ODQAベンチマークにおけるPiCLの有効性と学習モデルの堅牢性を示すために, 検索学習にPiCLを組み込んだ。 The retriever-reader framework is popular for open-domain question answering (ODQA), where a retriever samples for the reader a set of relevant candidate passages from a large corpus. A key assumption behind this method is that high relevance scores from the retriever likely indicate high answerability from the reader, which implies a high probability that the retrieved passages contain answers to a given question. In this work, we empirically dispel this belief and observe that recent dense retrieval models based on DPR often rank unanswerable counterfactual passages higher than their answerable original passages. To address such answer-unawareness in dense retrievers, we seek to use counterfactual samples as additional training resources to better synchronize the relevance measurement of DPR with the answerability of question-passage pairs. Specifically, we present counterfactually-Pivoting Contrastive Learning (PiCL), a novel representation learning approach for passage retrieval that leverages counterfactual samples as pivots between positive and negative samples in their learned embedding space. We incorporate PiCL into the retriever training to show the effectiveness of PiCL on ODQA benchmarks and the robustness of the learned models. | 翻訳日:2023-04-13 11:02:32 公開日:2023-04-12 |
# マスターキーとしての大規模言語モデル: gptによる材料科学の秘密の解錠 Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT ( http://arxiv.org/abs/2304.02213v5 ) ライセンス: Link先を確認 | Tong Xie, Yuwei Wan, Wei Huang, Yufei Zhou, Yixuan Liu, Qingyuan Linghu, Shaozhou Wang, Chunyu Kit, Clara Grazian, Wenjie Zhang and Bram Hoex | (参考訳) 最先端の材料の探索において、データ量の重要性が増しており、手や自動的なアプローチによって多くのデータセットが生成されている。
しかし、材料科学分野は、特に材料が特性よりもデバイスの性能に基づいて評価される応用分野において、データ量の有効利用に苦慮している。
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト太陽電池FAIR(Findable, Accessible, Interoperable, Reusable)データセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
生成されたデータはフォーマットされ、正規化され、その後のデータ分析で入力として直接利用することができる。
この機能により、材料科学者はドメイン内で高品質なレビュー記事を選択することでモデルを開発することができる。
さらに,大型言語モデル(llms)を用いて太陽電池の電気性能を予測し,対象パラメータを有する材料やデバイスの設計実験を行った。
本結果は,LLMが科学知識を習得し,材料科学者に似た新しい素材を設計する可能性を強調し,特徴選択のない従来の機械学習手法に匹敵する性能を示した。 The amount of data has growing significance in exploring cutting-edge materials and a number of datasets have been generated either by hand or automated approaches. However, the materials science field struggles to effectively utilize the abundance of data, especially in applied disciplines where materials are evaluated based on device performance rather than their properties. This article presents a new natural language processing (NLP) task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existing perovskite solar cell FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8% F1-score and extended the dataset with data published since its release. The produced data is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature empowers materials scientists to develop models by selecting high-quality review articles within their domain. Additionally, we designed experiments to predict the electrical performance of solar cells and design materials or devices with targeted parameters using large language models (LLMs). Our results demonstrate comparable performance to traditional machine learning methods without feature selection, highlighting the potential of LLMs to acquire scientific knowledge and design new materials akin to materials scientists. | 翻訳日:2023-04-13 11:02:10 公開日:2023-04-12 |
# SAR ATRにおけるディープラーニングの非因性発見と説明 Discovering and Explaining the Non-Causality of Deep Learning in SAR ATR ( http://arxiv.org/abs/2304.00668v4 ) ライセンス: Link先を確認 | Weijie Li, Wei Yang, Li Liu, Wenpeng Zhang, Yongxiang Liu | (参考訳) 近年、深層学習はSAR ATRで広く使われており、MSTARデータセット上で優れた性能を発揮している。
しかし、撮像条件が制約されているため、MSTARは背景相関などのデータバイアス、すなわち背景クラッタ特性は対象クラスと急激な相関を持つ。
ディープラーニングは、トレーニングエラーを減らすためにクラッタに過度に適合する。
したがって, SAR ATR における深層学習の非因果関係を反映している。
既存の手法はこの現象を質的にのみ分析する。
本稿では,Shapley値に基づいて,異なる領域の目標認識に対する貢献度を定量化する。
クラッタのShapley値は、オーバーフィッティングの度合いを測る。
さらに,データバイアスとモデルバイアスが非因果性にどのように寄与するかを説明する。
簡潔に言うと、データバイアスはトレーニングとテストセットで同等の信号対クラッタ比とクラッタテクスチャをもたらす。
様々なモデル構造は、これらのバイアスに対して異なるオーバーフィット度を持っています。
MSTARデータセットの標準動作条件下での各種モデル実験の結果は,その結論を支持する。
私たちのコードはhttps://github.com/waterdisappear/Data-Bias-in-MSTARで利用可能です。 In recent years, deep learning has been widely used in SAR ATR and achieved excellent performance on the MSTAR dataset. However, due to constrained imaging conditions, MSTAR has data biases such as background correlation, i.e., background clutter properties have a spurious correlation with target classes. Deep learning can overfit clutter to reduce training errors. Therefore, the degree of overfitting for clutter reflects the non-causality of deep learning in SAR ATR. Existing methods only qualitatively analyze this phenomenon. In this paper, we quantify the contributions of different regions to target recognition based on the Shapley value. The Shapley value of clutter measures the degree of overfitting. Moreover, we explain how data bias and model bias contribute to non-causality. Concisely, data bias leads to comparable signal-to-clutter ratios and clutter textures in training and test sets. And various model structures have different degrees of overfitting for these biases. The experimental results of various models under standard operating conditions on the MSTAR dataset support our conclusions. Our code is available at https://github.com/waterdisappear/Data-Bias-in-MSTAR. | 翻訳日:2023-04-13 11:01:46 公開日:2023-04-12 |
# 大規模言語モデルに関する調査 A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v4 ) ライセンス: Link先を確認 | Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen | (参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。
言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。
主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。
近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。
モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。
興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。
パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。
近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。
LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。
本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。
特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。
さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。 Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions. | 翻訳日:2023-04-13 11:01:30 公開日:2023-04-12 |
# 不確実性を考慮した肺結節分節と低信頼領域予測 Lung Nodule Segmentation and Low-Confidence Region Prediction with Uncertainty-Aware Attention Mechanism ( http://arxiv.org/abs/2303.08416v4 ) ライセンス: Link先を確認 | Han Yang, Qiuli Wang, Yue Zhang, Zhulin An, Chen Liu, Xiaohong Zhang, S. Kevin Zhou | (参考訳) 放射線医は異なる訓練と臨床経験を持ち、肺結節に対する様々なセグメンテーションアノテーションを生じる可能性があり、セグメンテーションの不確実性を引き起こす。
従来の方法は、学習対象として1つのアノテーションを選択したり、様々なアノテーションの潜在空間を学習しようとするが、これらのアプローチは、複数のアノテーションに埋め込まれた合意や不一致の貴重な情報を無駄にする。
本稿では,複数アノテーション間のコンセンサスと不一致を利用してセグメンテーションを改善する不確実性認識注意機構(UAAM)を提案する。
そこで本研究では,低信頼(lc)マスクと高信頼(hc)マスクを組み合わせたマルチ信頼マスク(mcm)を提案する。
LCマスクは、セグメンテーションの信頼性が低い領域を指し、放射線学者の間で異なるセグメンテーションオプションを引き起こす可能性がある。
UAAMの後、我々はさらに3つのモジュールを含むUncertainty-Guide Segmentation Network (UGS-Net)を設計した。肺結節の一般的な特徴をキャプチャするFeature Extracting Module、アノテーションの結合、交差、アノテーションセットの3つの特徴を生成するUncertainty-Aware Module、最終的なセグメンテーション、LCマスク、HCマスクの予測のバランスをとるために3つの特徴間の距離を使用するIntersection-Union Constraining Moduleである。
そこで本研究では, ugs-netの肺結節におけるセグメンテーション性能を試験し, u-netを用いたセグメンテーションが困難であるlidc-idriの複雑な結節バリデーションを提案する。
実験の結果,本手法はu-netによるセグメンテーションが不十分な結節のセグメンテーション性能を著しく向上できることがわかった。 Radiologists have different training and clinical experiences, which may result in various segmentation annotations for lung nodules, causing segmentation uncertainty. Conventional methods usually select a single annotation as the learning target or try to learn a latent space of various annotations, but these approaches waste the valuable information of consensus or disagreements ingrained in the multiple annotations. In this paper, we propose an Uncertainty-Aware Attention Mechanism (UAAM) that utilizes consensus and disagreements among multiple annotations to facilitate better segmentation. To achieve this, we introduce the Multi-Confidence Mask (MCM), which is a combination of a Low-Confidence (LC) Mask and a High-Confidence (HC) Mask. The LC mask indicates regions with a low segmentation confidence, which may cause different segmentation options among radiologists. Following UAAM, we further design an Uncertainty-Guide Segmentation Network (UGS-Net), which contains three modules: a Feature Extracting Module that captures a general feature of a lung nodule, an Uncertainty-Aware Module that produces three features for the annotations' union, intersection, and annotation set, and an Intersection-Union Constraining Module that uses distances between the three features to balance the predictions of final segmentation, LC mask, and HC mask. To fully demonstrate the performance of our method, we propose a Complex Nodule Validation on LIDC-IDRI, which tests UGS-Net's segmentation performance on lung nodules that are difficult to segment using U-Net. Experimental results demonstrate that our method can significantly improve the segmentation performance on nodules with poor segmentation by U-Net. | 翻訳日:2023-04-13 11:01:01 公開日:2023-04-12 |
# 異常だと確信していますか? Are we certain it's anomalous? ( http://arxiv.org/abs/2211.09224v4 ) ライセンス: Link先を確認 | Alessandro Flaborea, Bardh Prenkaj, Bharti Munjal, Marco Aurelio Sterpa, Dario Aragona, Luca Podo, Fabio Galasso | (参考訳) 時系列モデリングの進歩と、より一般的に、構造化データのシーケンスは、最近、異常検出の研究を改訂した。
この課題は、金融シリーズ、ITシステム、航空宇宙測定、医療領域における異常な行動の特定であり、異常検出はうつ病の分離や高齢者への参加に役立つ可能性がある。
時系列における異常検出は、高度に非線形な時間相関による異常は稀であり、異常の定義が主観的であるため、複雑なタスクである。
本稿では,異常検出(HypAD)におけるハイパボリック不確かさの新たな利用法を提案する。
HypADは自己指導で入力信号を再構築する。
我々は、LSTMでシーケンスをエンコードするために最先端技術からのベストプラクティスを採用し、GAN評論家の助けを借りて、デコーダと共同で信号の再構築について学んだ。
不確実性は双曲型ニューラルネットワークによってエンドツーエンドに推定される。
不確実性を用いることで、HypADは入力信号について確実であるかどうかを評価することができるが、これは異常であるため再構成に失敗する。
新たなキーとなるアイデアは、検出可能な異常は、モデルが確実だが誤った予測をする場所である、ということだ。
HypADは、NASA、Yahoo、Numenta、Amazon、Twitterのデータをベースとした確立したベンチマークで、一変量検出の最先端技術よりも優れている。
また、高齢住宅における異常活動の多変量データセット上での最先端のパフォーマンスも得られ、SWaTのベースラインを上回っている。
全体としてHypADは、検出可能な異常を正常に検出することで、最高のパフォーマンスで最も低い誤報を発生させる。 The progress in modelling time series and, more generally, sequences of structured data has recently revamped research in anomaly detection. The task stands for identifying abnormal behaviors in financial series, IT systems, aerospace measurements, and the medical domain, where anomaly detection may aid in isolating cases of depression and attend the elderly. Anomaly detection in time series is a complex task since anomalies are rare due to highly non-linear temporal correlations and since the definition of anomalous is sometimes subjective. Here we propose the novel use of Hyperbolic uncertainty for Anomaly Detection (HypAD). HypAD learns self-supervisedly to reconstruct the input signal. We adopt best practices from the state-of-the-art to encode the sequence by an LSTM, jointly learned with a decoder to reconstruct the signal, with the aid of GAN critics. Uncertainty is estimated end-to-end by means of a hyperbolic neural network. By using uncertainty, HypAD may assess whether it is certain about the input signal but it fails to reconstruct it because this is anomalous; or whether the reconstruction error does not necessarily imply anomaly, as the model is uncertain, e.g. a complex but regular input signal. The novel key idea is that a detectable anomaly is one where the model is certain but it predicts wrongly. HypAD outperforms the current state-of-the-art for univariate anomaly detection on established benchmarks based on data from NASA, Yahoo, Numenta, Amazon, and Twitter. It also yields state-of-the-art performance on a multivariate dataset of anomaly activities in elderly home residences, and it outperforms the baseline on SWaT. Overall, HypAD yields the lowest false alarms at the best performance rate, thanks to successfully identifying detectable anomalies. | 翻訳日:2023-04-13 11:00:24 公開日:2023-04-12 |
# ChemCrow: 化学ツールによる大規模言語モデルの強化 ChemCrow: Augmenting large-language models with chemistry tools ( http://arxiv.org/abs/2304.05376v2 ) ライセンス: Link先を確認 | Andres M Bran, Sam Cox, Andrew D White, Philippe Schwaller | (参考訳) 大規模言語モデル(llms)は、最近、ドメイン間のタスクにおいて強力なパフォーマンスを示しているが、化学に関連した問題に苦慮している。
さらに、これらのモデルは外部の知識ソースにアクセスできず、科学的応用における有用性を制限している。
本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。
13のエキスパート設計ツールを統合することで、化学におけるLLMのパフォーマンスが向上し、新たな能力が出現する。
llmとエキスパートヒューマンアセスメントの両方を含む評価は,化学タスクの多種多様な自動化におけるchemcrowの有効性を示す。
驚くことに、評価器としてのGPT-4は、GPT-4完了とGPT-4+ChemCrow性能とを明確に区別できない。
chemcrowのようなツールの誤用には重大なリスクがあり、その潜在的な害について議論する。
ケマクローは責任を負い、専門家の化学者を助け、非専門家の障壁を下げるだけでなく、実験化学と計算化学のギャップを埋めることで科学の進歩を促進する。 Large-language models (LLMs) have recently shown strong performance in tasks across domains, but struggle with chemistry-related problems. Moreover, these models lack access to external knowledge sources, limiting their usefulness in scientific applications. In this study, we introduce ChemCrow, an LLM chemistry agent designed to accomplish tasks across organic synthesis, drug discovery, and materials design. By integrating 13 expert-designed tools, ChemCrow augments the LLM performance in chemistry, and new capabilities emerge. Our evaluation, including both LLM and expert human assessments, demonstrates ChemCrow's effectiveness in automating a diverse set of chemical tasks. Surprisingly, we find that GPT-4 as an evaluator cannot distinguish between clearly wrong GPT-4 completions and GPT-4 + ChemCrow performance. There is a significant risk of misuse of tools like ChemCrow and we discuss their potential harms. Employed responsibly, ChemCrow not only aids expert chemists and lowers barriers for non-experts, but also fosters scientific advancement by bridging the gap between experimental and computational chemistry. | 翻訳日:2023-04-13 10:54:33 公開日:2023-04-12 |
# オーバーロード:エッジデバイスのオブジェクト検出における遅延攻撃 Overload: Latency Attacks on Object Detection for Edge Devices ( http://arxiv.org/abs/2304.05370v2 ) ライセンス: Link先を確認 | Erh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-rung Lee | (参考訳) 現在、エッジデバイスへのディープラーニングベースのアプリケーションのデプロイは、インテリジェントなサービスに対する需要の増加による重要なタスクである。
しかしながら、エッジノード上の限られたコンピューティングリソースは、モデルによる予測が信頼できないような攻撃に対して、モデルを脆弱にする。
本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。
誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことであり、アプリケーションが適切な時間内に要求に応答するのを阻止する可能性がある。
この種の攻撃はさまざまなアプリケーションにおいてユビキタスであり、このような攻撃がどのように動作するかを示すためにオブジェクト検出を使用します。
また、大規模に遅延攻撃を生成するOverloadというフレームワークも設計しています。
提案手法は,新たに定式化した最適化問題と空間的注意と呼ばれる新しい手法に基づき,物体検出の推論時間を増加させる。
我々はNvidia NX上でYOLOv5モデルを用いた実験を行った。
実験の結果, 遅延攻撃では, 単一画像の推測時間は, 通常の設定の10倍長くなることがわかった。
また,既存の手法と比較すると,攻撃方法は単純かつ効果的である。 Nowadays, the deployment of deep learning based applications on edge devices is an essential task owing to the increasing demands on intelligent services. However, the limited computing resources on edge nodes make the models vulnerable to attacks, such that the predictions made by models are unreliable. In this paper, we investigate latency attacks on deep learning applications. Unlike common adversarial attacks for misclassification, the goal of latency attacks is to increase the inference time, which may stop applications from responding to the requests within a reasonable time. This kind of attack is ubiquitous for various applications, and we use object detection to demonstrate how such kind of attacks work. We also design a framework named Overload to generate latency attacks at scale. Our method is based on a newly formulated optimization problem and a novel technique, called spatial attention, to increase the inference time of object detection. We have conducted experiments using YOLOv5 models on Nvidia NX. The experimental results show that with latency attacks, the inference time of a single image can be increased ten times longer in reference to the normal setting. Moreover, comparing to existing methods, our attacking method is simpler and more effective. | 翻訳日:2023-04-13 10:54:12 公開日:2023-04-12 |
# マルチデータ因果探索を用いた機械学習アプリケーションのためのロバスト特徴の選択 Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery ( http://arxiv.org/abs/2304.05294v2 ) ライセンス: Link先を確認 | Saranya Ganesh S., Tom Beucler, Frederick Iat-Hin Tam, Milton S. Gomez, Jakob Runge, and Andreas Gerhardus | (参考訳) 信頼性と解釈可能な機械学習(ML)モデルを作成するには、ロバストな機能選択が不可欠だ。
ドメイン知識が限られ、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することはしばしば困難である。
この問題を軽減するために,時系列データセットのアンサンブルを同時に処理し,1組の因果ドライバを生成するマルチデータ(m)因果特徴選択手法を導入する。
このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。
これらのアルゴリズムは条件付き独立テストを利用して因果グラフの一部を推論する。
我々の因果的特徴選択手法は、ターゲットを予測するMLモデル(多重線形回帰、ランダムフォレスト)への入力として、残りの因果的特徴を渡す前に因果的特徴リンクをフィルタリングする。
我々は,西太平洋熱帯サイクロン (TC) の統計的強度予測に我々の枠組みを適用し,ドライバの正確な選択と次元削減(時間ラグ,垂直レベル,面積拡大)が困難な場合が多い。
条件付き独立テストでより厳密な重要性のしきい値を使用することは、スプリアス因果関係を排除するのに役立つ。
機能の少ないM-PC1は、M-PCMCI、非因果ML、その他の特徴選択方法(ラベル付き相関、ランダム)よりも優れており、eXplainable Artificial Intelligenceに基づく機能選択よりも若干優れています。
因果的特徴の選択から得られた最適な因果的ドライバは、基礎的関係の理解を深め、tc強化の新たな潜在的なドライバを提案するのに役立つ。 Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification. | 翻訳日:2023-04-13 10:53:57 公開日:2023-04-12 |
# 個人化テキスト画像生成のための制御可能なテキストインバージョン Controllable Textual Inversion for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2304.05265v2 ) ライセンス: Link先を確認 | Jianan Yang, Haobo Wang, Ruixuan Xiao, Sai Wu, Gang Chen, Junbo Zhao | (参考訳) 最近の大規模生成モデリングは、特にテキストプロンプトによって駆動される高忠実度画像の生成において、前例のない性能を達成した。
text inversion(ti)は、text-to-imageモデルバックボーンと共に、プロンプトがユーザ定義、未認識、あるいはロングテールの概念トークンを含む場合に、生成をパーソナライズするための効果的な技術として提案されている。
それにもかかわらず、TIのデプロイメントは依然として"暗黒の魔術"に満ちており、例えば、追加データセットの厳しい要求、ループにおける厳しい人的努力、堅牢性の欠如などがあります。
本研究では,制御可能なテキスト・インバージョン(COTI)と呼ばれるTIの高機能バージョンを提案し,上記の問題をすべて解決し,堅牢でデータ効率の良い,使いやすいフレームワークを提供する。
COTIの中核は、アクティブラーニングパラダイムによってカプセル化された、包括的で斬新なスコアリング機構でインスタンス化された理論的に誘導された損失目標である。
広範な結果は、cotiが以前のti関連アプローチを大きく上回り、fidスコアが26.05減少し、r-precisionが23.00%上昇したことを示している。 The recent large-scale generative modeling has attained unprecedented performance especially in producing high-fidelity images driven by text prompts. Text inversion (TI), alongside the text-to-image model backbones, is proposed as an effective technique in personalizing the generation when the prompts contain user-defined, unseen or long-tail concept tokens. Despite that, we find and show that the deployment of TI remains full of "dark-magics" -- to name a few, the harsh requirement of additional datasets, arduous human efforts in the loop and lack of robustness. In this work, we propose a much-enhanced version of TI, dubbed Controllable Textual Inversion (COTI), in resolving all the aforementioned problems and in turn delivering a robust, data-efficient and easy-to-use framework. The core to COTI is a theoretically-guided loss objective instantiated with a comprehensive and novel weighted scoring mechanism, encapsulated by an active-learning paradigm. The extensive results show that COTI significantly outperforms the prior TI-related approaches with a 26.05 decrease in the FID score and a 23.00% boost in the R-precision. | 翻訳日:2023-04-13 10:53:28 公開日:2023-04-12 |
# r-softmax:制御可能なスパース率を持つ一般化ソフトマックス r-softmax: Generalized Softmax with Controllable Sparsity Rate ( http://arxiv.org/abs/2304.05243v2 ) ライセンス: Link先を確認 | Klaudia Ba{\l}azy, {\L}ukasz Struski, Marek \'Smieja, Jacek Tabor | (参考訳) 近年,ニューラルネットワークモデルが多くの分野において顕著な成果を上げている。
モデルが提供する表現を確率分布にマッピングする関数は、ディープラーニングソリューションの不可分な側面である。
softmaxは機械学習コミュニティで一般的に受け入れられている確率マッピング関数であるが、スパース出力を返すことはできず、常にすべての位置に正の確率を広げる。
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
既存のスパース確率写像関数とは対照的に、出力スパース性レベルを制御するための直感的なメカニズムを提供する。
r-softmaxがsoftmaxの他のスパースな代替品よりも優れ、オリジナルのsoftmaxと高い競合性を持つ複数のマルチラベルデータセットを示す。
また,事前学習したトランスフォーマー言語モデルの自己接続モジュールにr-softmaxを適用し,異なる自然言語処理タスクでモデルを微調整した場合の性能向上を実証する。 Nowadays artificial neural network models achieve remarkable results in many disciplines. Functions mapping the representation provided by the model to the probability distribution are the inseparable aspect of deep learning solutions. Although softmax is a commonly accepted probability mapping function in the machine learning community, it cannot return sparse outputs and always spreads the positive probability to all positions. In this paper, we propose r-softmax, a modification of the softmax, outputting sparse probability distribution with controllable sparsity rate. In contrast to the existing sparse probability mapping functions, we provide an intuitive mechanism for controlling the output sparsity level. We show on several multi-label datasets that r-softmax outperforms other sparse alternatives to softmax and is highly competitive with the original softmax. We also apply r-softmax to the self-attention module of a pre-trained transformer language model and demonstrate that it leads to improved performance when fine-tuning the model on different natural language processing tasks. | 翻訳日:2023-04-13 10:53:04 公開日:2023-04-12 |
# 実世界の視線追跡データと速度閾値に基づく視線関係指標を用いた教師の視力評価 Measuring Teachers' Visual Expertise Using the Gaze Relational Index Based on Real-world Eye-tracking Data and Varying Velocity Thresholds ( http://arxiv.org/abs/2304.05143v2 ) ライセンス: Link先を確認 | Christian Kosel (1), Angelina Mooseder (2), Tina Seidel (1) and Juergen Pfeffer (2) ((1) Friedl Schoeller Endowed Chair for Educational Psychology, School of Social Science and Technology, Technical University Munich, Germany, (2) Computational Social Science and Big Data, School of Social Science and Technology, Technical University Munich, Germany) | (参考訳) 本稿では,新たに導入された注視関係指数(gri)指標を用いて,実世界の教室における視覚情報処理(モバイルアイトラッキング)を計測することで,教師の視覚知識の理解を深める。
また、眼球運動イベント検出アルゴリズムの選択された構成(速度閾値の変動と固定マージ)が、眼球追跡研究の結果にどの程度影響するかを示すことにより、今後の研究への方法論的貢献を提供することを目的としている。
まず,初級-熟練のパラダイム(初級教師2名,経験者教師2名)に従うことで,GRIが視覚的専門知識の繊細な尺度として機能することを発見した。
仮説として、経験豊富な教師のGRIは低く、ドメイン固有の知識のよりきめ細やかな組織化によって、より早く頻繁に教室に定着することが示唆された。
第2に,選択した速度閾値パラメータが変化し,最悪の場合,視線追跡研究の結果に偏ることがわかった。
したがって、視覚専門知識研究における結果のさらなる一般化可能性の観点から、眼球運動の同定に関連する構成を報告することが極めて重要であることを強調する。 This article adds to the understanding of teachers' visual expertise by measuring visual information processing in real-world classrooms (mobile eye-tracking) with the newly introduced Gaze Relational Index (GRI) metric, which is defined as the ratio of mean fixation duration to mean fixation number. In addition, the aim was to provide a methodological contribution to future research by showing to what extent the selected configurations (i.e. varying velocity thresholds and fixation merging) of the eye movement event detection algorithm for detecting fixations and saccades influence the results of eye-tracking studies. Our study leads to two important take-home messages: First, by following a novice-expert paradigm (2 novice teachers & 2 experienced teachers), we found that the GRI can serve as a sensitive measure of visual expertise. As hypothesized, experienced teachers' GRI was lower, suggesting that their more fine-graded organization of domain-specific knowledge allows them to fixate more rapidly and frequently in the classroom. Second, we found that the selected velocity threshold parameter alter and, in the worst case, bias the results of an eye-tracking study. Therefore, in the interest of further generalizability of the results within visual expertise research, we emphasize that it is highly important to report configurations that are relevant for the identification of eye movements. | 翻訳日:2023-04-13 10:52:48 公開日:2023-04-12 |
# 波動シミュレータのための畳み込みニューラルネットワークの事前圧縮 A priori compression of convolutional neural networks for wave simulators ( http://arxiv.org/abs/2304.04964v2 ) ライセンス: Link先を確認 | Hamza Boukraichi, Nissrine Akkari, Fabien Casenave, David Ryckelynck | (参考訳) 畳み込みニューラルネットワークは、画像分類、顔と物体の認識、医療画像解析など、さまざまな分野で広く利用されている。
さらに、物理インフォームドシミュレータのようなアプリケーションでは、最小遅延でリアルタイムに正確な予測を行う必要がある。
現在のニューラルネットワークの設計には数百万のパラメータが含まれており、メモリに制限のあるデバイスにそのような複雑なモデルをインストールすることは困難である。
圧縮技術は、モデルの複雑さに寄与するパラメータの数を減らすことによって生成されるCNNモデルのサイズを小さくすることで、これらの問題を解決することができるかもしれない。
本稿では,ニューラルネットワークのトレーニングに先立って,畳み込み層を圧縮したテンソル形式,先行処理を提案する。
畳み込み層内の3方向カーネルまたは2方向カーネルは片方向適合器に置き換えられる。
過度に適合する現象も減少する。
オリジナルの畳み込みニューラルネットワークモデルを使用してトレーニングを行うのに必要な時間や時間は、処理すべきパラメータが少なければ大幅に削減される。
本稿では,物理データの有限要素(fe)予測のための先行圧縮畳み込みニューラルネットワークの手法を提案する。
その後、2次元波動方程式を解くFEモデルから物理データに対する事前圧縮モデルを検証した。
提案する畳み込み圧縮手法は,学習可能なパラメータが少なくメモリフットプリントの少ない古典畳み込み層と同等の性能を実現する。 Convolutional neural networks are now seeing widespread use in a variety of fields, including image classification, facial and object recognition, medical imaging analysis, and many more. In addition, there are applications such as physics-informed simulators in which accurate forecasts in real time with a minimal lag are required. The present neural network designs include millions of parameters, which makes it difficult to install such complex models on devices that have limited memory. Compression techniques might be able to resolve these issues by decreasing the size of CNN models that are created by reducing the number of parameters that contribute to the complexity of the models. We propose a compressed tensor format of convolutional layer, a priori, before the training of the neural network. 3-way kernels or 2-way kernels in convolutional layers are replaced by one-way fiters. The overfitting phenomena will be reduced also. The time needed to make predictions or time required for training using the original Convolutional Neural Networks model would be cut significantly if there were fewer parameters to deal with. In this paper we present a method of a priori compressing convolutional neural networks for finite element (FE) predictions of physical data. Afterwards we validate our a priori compressed models on physical data from a FE model solving a 2D wave equation. We show that the proposed convolutinal compression technique achieves equivalent performance as classical convolutional layers with fewer trainable parameters and lower memory footprint. | 翻訳日:2023-04-13 10:52:21 公開日:2023-04-12 |
# 規制市場:AIガバナンスの未来 Regulatory Markets: The Future of AI Governance ( http://arxiv.org/abs/2304.04914v2 ) ライセンス: Link先を確認 | Gillian K. Hadfield, Jack Clark | (参考訳) 人工知能を適切に規制することは、ますます緊急の政策課題である。
立法府や規制当局は、公共の要求を法的要件に最善に翻訳するために必要な専門知識を欠いている。
産業の自己規制への過度な依存は、民主的要求に責任を負うAIシステムの生産者とユーザを保持することに失敗する。
民間規制当局から規制サービスを購入するための規制対象を政府が求める規制市場が提案されている。
ai規制に対するこのアプローチは、指揮統制規制と自己規制の両方の限界を克服する可能性がある。
規制市場は、政策立案者の指示された目的を最も達成するための規制方法を開拓する市場力と産業R&Dの努力に頼りながら、AI規制のための政策優先順位を確立することができる。 Appropriately regulating artificial intelligence is an increasingly urgent policy challenge. Legislatures and regulators lack the specialized knowledge required to best translate public demands into legal requirements. Overreliance on industry self-regulation fails to hold producers and users of AI systems accountable to democratic demands. Regulatory markets, in which governments require the targets of regulation to purchase regulatory services from a private regulator, are proposed. This approach to AI regulation could overcome the limitations of both command-and-control regulation and self-regulation. Regulatory market could enable governments to establish policy priorities for the regulation of AI, whilst relying on market forces and industry R&D efforts to pioneer the methods of regulation that best achieve policymakers' stated objectives. | 翻訳日:2023-04-13 10:52:02 公開日:2023-04-12 |
# 顔成分関係を用いた交互表現学習 Kinship Representation Learning with Face Componential Relation ( http://arxiv.org/abs/2304.04546v2 ) ライセンス: Link先を確認 | Weng-Tai Su, Min-Hung Chen, Chien-Yi Wang, Shang-Hong Lai, Trista Pei-Chun Chen | (参考訳) Kinship Recognitionは、2つの顔画像の被験者が近親者なのか非近親者なのかを判断することを目的としている。
しかし,従来の手法では,顔画像間の空間相関を考慮せず,ヒューリスティックな設計に重点を置いている。
本稿では,顔成分(目,鼻など)間の関係情報に埋め込まれた識別的親和性表現を学習することを目的とする。
この目的を達成するために,画像間の顔成分間の関係を交互に学習し,親族認識のための重要な顔領域を自動的に学習する顔成分関係ネットワークを提案する。
さらに,顔成分関係ネットワーク (facornet) を提案し,クロス・アテンションからの指導により損失関数を適用し,より識別的な特徴表現を学習する。
提案する \mainmethodabbr~ は、最大の公的なキンシップ認識fiwベンチマークに対して、以前の最先端のメソッドを大きなマージンで上回っている。
コードは受理後に公開される予定だ。 Kinship recognition aims to determine whether the subjects in two facial images are kin or non-kin, which is an emerging and challenging problem. However, most previous methods focus on heuristic designs without considering the spatial correlation between face images. In this paper, we aim to learn discriminative kinship representations embedded with the relation information between face components (e.g., eyes, nose, etc.). To achieve this goal, we propose the Face Componential Relation Network, which learns the relationship between face components among images with a cross-attention mechanism, which automatically learns the important facial regions for kinship recognition. Moreover, we propose Face Componential Relation Network (FaCoRNet), which adapts the loss function by the guidance from cross-attention to learn more discriminative feature representations. The proposed \MainMethodAbbr~outperforms previous state-of-the-art methods by large margins for the largest public kinship recognition FIW benchmark. The code will be publicly released upon acceptance. | 翻訳日:2023-04-13 10:51:48 公開日:2023-04-12 |
# コホート知性に向けて : 電子健康記録分析のための普遍コホート表現学習フレームワーク Toward Cohort Intelligence: A Universal Cohort Representation Learning Framework for Electronic Health Record Analysis ( http://arxiv.org/abs/2304.04468v3 ) ライセンス: Link先を確認 | Changshuo Liu, Wenqiao Zhang, Beng Chin Ooi, James Wei Luen Yip, Lingze Zeng, Kaiping Zheng | (参考訳) 電子健康記録(ehr)は、幅広い患者集団の貴重な情報を記録した臨床ルーチンケアから作成され、臨床実践における患者の管理と介入戦略を改善する豊富な機会を提供する。
EHRデータの膨大な可能性を活用するために、マシンラーニングにおける一般的なEHRデータ分析パラダイムは、まず患者のERHデータを活用して、バックボーンによる情報表現を学習し、その表現に基づく多様なヘルスケアダウンストリームタスクをサポートするEHR表現学習である。
残念なことに、このようなパラダイムは、一般的に臨床実践におけるコホート研究として知られる患者の関連性の深い分析にアクセスできない。
特に、同じコホートを持つ患者は、症状や疾患などの医学的状況において類似した特徴を持つ傾向がある。
本稿では, 患者間の詳細なコホート情報を活用することで, EHR活用を促進するための共通コホート表現 lEarning (CORE) フレームワークを提案する。
特に、COREは、患者の診断コードの事前知識に基づいて、患者のコホートを適応的に分割するために、患者間の潜伏関係を測定する明示的な患者モデリングタスクを最初に開発した。
構築されたコホートに基づいて、COREは、事前抽出されたEHRデータ表現をコホート内およびコホート間の観点から再符号化し、拡張されたEHRデータ表現学習を生成する。
COREは多様なバックボーンモデルに容易に適用でき、コホート情報を医療手法に注入してパフォーマンスを高める普遍的なプラグインフレームワークとして機能する。
2つの実世界のデータセットについて広範な実験評価を行い,実験結果からコアの有効性と汎用性を示す。 Electronic Health Records (EHR) are generated from clinical routine care recording valuable information of broad patient populations, which provide plentiful opportunities for improving patient management and intervention strategies in clinical practice. To exploit the enormous potential of EHR data, a popular EHR data analysis paradigm in machine learning is EHR representation learning, which first leverages the individual patient's EHR data to learn informative representations by a backbone, and supports diverse health-care downstream tasks grounded on the representations. Unfortunately, such a paradigm fails to access the in-depth analysis of patients' relevance, which is generally known as cohort studies in clinical practice. Specifically, patients in the same cohort tend to share similar characteristics, implying their resemblance in medical conditions such as symptoms or diseases. In this paper, we propose a universal COhort Representation lEarning (CORE) framework to augment EHR utilization by leveraging the fine-grained cohort information among patients. In particular, CORE first develops an explicit patient modeling task based on the prior knowledge of patients' diagnosis codes, which measures the latent relevance among patients to adaptively divide the cohorts for each patient. Based on the constructed cohorts, CORE recodes the pre-extracted EHR data representation from intra- and inter-cohort perspectives, yielding augmented EHR data representation learning. CORE is readily applicable to diverse backbone models, serving as a universal plug-in framework to infuse cohort information into healthcare methods for boosted performance. We conduct an extensive experimental evaluation on two real-world datasets, and the experimental results demonstrate the effectiveness and generalizability of CORE. | 翻訳日:2023-04-13 10:51:31 公開日:2023-04-12 |