このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230417となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# HandCT: X線CTと機械学習のためのハンズオン計算データセット HandCT: hands-on computational dataset for X-Ray Computed Tomography and Machine-Learning ( http://arxiv.org/abs/2304.14412v1 ) ライセンス: Link先を確認 | Emilien Valat, Loth Valat | (参考訳) 機械学習の手法は、データ分布を学ぶのに十分大きなデータセットに依存している。
これらはX線CTでの研究において、低線量走査法から再構成過程の最適化まで広く用いられている。
データセットの欠如は、現実的な3D問題に対するこれらの手法のスケーラビリティを妨げる。
データ駆動アルゴリズムのサンプルを作成するために, 3次元手続きデータセットを開発した。
左手とスクリプトのメッシュモデルで、解剖学的特性をランダムに変更し、現実的な特徴を維持しながらポーズを取る。
このオープンソースソリューションは、freeware blenderとそのpython coreに依存している。
Blenderはモデリング、メッシュ、手ポーズの生成を処理し、一方Pythonはobjファイルからマトリックスへのファイルフォーマット変換を処理し、ボリュームをスケールし、さらに処理するために機能します。
データセットの可用性と品質は、機械学習の研究を駆動する。
数メガバイトのデータセットを設計し,真正なサンプルを提供し,バージョン管理による継続的拡張を提案する。
我々はこの研究が解剖学的に正確な手続きデータセットの出発点になることを期待している。
例えば、内部機能を追加し、x線減衰特性を微調整することで。 Machine-learning methods rely on sufficiently large dataset to learn data distributions. They are widely used in research in X-Ray Computed Tomography, from low-dose scan denoising to optimisation of the reconstruction process. The lack of datasets prevents the scalability of these methods to realistic 3D problems. We develop a 3D procedural dataset in order to produce samples for data-driven algorithms. It is made of a meshed model of a left hand and a script to randomly change its anatomic properties and pose whilst conserving realistic features. This open-source solution relies on the freeware Blender and its Python core. Blender handles the modelling, the mesh and the generation of the hand's pose, whilst Python processes file format conversion from obj file to matrix and functions to scale and center the volume for further processing. Dataset availability and quality drives research in machine-learning. We design a dataset that weighs few megabytes, provides truthful samples and proposes continuous enhancements using version control. We anticipate this work to be a starting point for anatomically accurate procedural datasets. For instance, by adding more internal features and fine tuning their X-Ray attenuation properties. | 翻訳日:2023-05-07 16:25:55 公開日:2023-04-17 |
# SRCNet:海洋石油スパイルセグメンテーションのためのセミナル表現協調ネットワーク SRCNet: Seminal Representation Collaborative Network for Marine Oil Spill Segmentation ( http://arxiv.org/abs/2304.14500v1 ) ライセンス: Link先を確認 | Fang Chen, Heiko Balzter, Peng Ren and Huiyu Zhou | (参考訳) 合成開口レーダ(SAR)画像における有効油流出セグメンテーションは,海洋汚染の浄化に不可欠であり,適切な画像表現は正確な画像セグメンテーションに有用である。
本稿では,SAR画像表現と油流出画像の訓練を同時に行うことにより,SRCNetという有効油流出画像セグメンテーションネットワークを提案する。
提案するセグメンテーションネットワークは,一対のディープ・ニューラルネットを用いて構築され,SAR画像を表現したセミナル表現を用いて構築され,一対のディープ・ニューラルネットは油流出セグメンテーションマップの生成を試みているジェネレーション・ネットであり,他方は生成したセグメンテーションと真のセグメンテーションを区別する最善を尽くそうとする識別ネットであり,それによって2プレイヤー・ゲームを構築した。
特に,提案するSRCNetで活用されるセミナル表現は,SAR画像の内部特性をモデル化したSAR画像に由来する。
これにより、協調したセミナル表現は、マッピングされた生成ネットに、少量のトレーニングデータで高精度なオイル流出セグメンテーションマップを効率よく作成し、最適な解に到達した識別ネットを高速に促進する。
そこで,提案するSRCNetは,効率的な石油流出セグメンテーションを経済的かつ効率的に行う。
さらに,SAR画像における油流出詳細を正確に記述する上で,セグメント化ネットワークのセグメンテーション能力を高めるために,セグメンテーション損失を解析する正規化項を考案した。
これにより,SAR画像からオイル流出領域を正確に抽出するSRCNetを提案する。
異なる測定値からの実験的評価により,提案するsrcnetの油流出画像セグメンテーションの有効性が検証された。 Effective oil spill segmentation in Synthetic Aperture Radar (SAR) images is critical for marine oil pollution cleanup, and proper image representation is helpful for accurate image segmentation. In this paper, we propose an effective oil spill image segmentation network named SRCNet by leveraging SAR image representation and the training for oil spill segmentation simultaneously. Specifically, our proposed segmentation network is constructed with a pair of deep neural nets with the collaboration of the seminal representation that describes SAR images, where one deep neural net is the generative net which strives to produce oil spill segmentation maps, and the other is the discriminative net which trys its best to distinguish between the produced and the true segmentations, and they thus built a two-player game. Particularly, the seminal representation exploited in our proposed SRCNet originates from SAR imagery, modelling with the internal characteristics of SAR images. Thus, in the training process, the collaborated seminal representation empowers the mapped generative net to produce accurate oil spill segmentation maps efficiently with small amount of training data, promoting the discriminative net reaching its optimal solution at a fast speed. Therefore, our proposed SRCNet operates effective oil spill segmentation in an economical and efficient manner. Additionally, to increase the segmentation capability of the proposed segmentation network in terms of accurately delineating oil spill details in SAR images, a regularisation term that penalises the segmentation loss is devised. This encourages our proposed SRCNet for accurately segmenting oil spill areas from SAR images. Empirical experimental evaluations from different metrics validate the effectiveness of our proposed SRCNet for oil spill image segmentation. | 翻訳日:2023-05-07 16:23:30 公開日:2023-04-17 |
# us信号超解像のための学習ベースフレームワーク Learning-based Framework for US Signals Super-resolution ( http://arxiv.org/abs/2305.01510v1 ) ライセンス: Link先を確認 | Simone Cammarasana, Paolo Nicolardi, Giuseppe Patan\`e | (参考訳) 本稿では,超高解像度超音波画像とビデオの空間分解能と線再構成の観点から,新しいディープラーニングフレームワークを提案する。
得られた低解像度画像を視覚ベースの補間法によりアップサンプリングし、アップサンプリングの品質を向上させるために学習ベースモデルを訓練する。
我々は, 異なる解剖学的領域(例えば, 心臓, 産婦人科)と異なるアップサンプリング解像度(2X, 4X)で, 定性的かつ定量的にモデルを検証した。
本手法は,腹腔内2xraw画像に対して$.7\%$,心室2xraw画像に$6.1\%$,腹腔内4xraw画像に$4.4\%のpsnr中央値を改善するとともに,肥満4xraw画像では$9.0\%$,心室4xraw画像では$5.2\%,腹部4xraw画像では$6.2\%の画素数も改善する。
提案手法は2d映像の空間的超解像に適用し,取得周波数の観点でプローブが取得したラインのサンプリングを最適化する。
本手法は,ネットワークアーキテクチャと損失関数を設計し,解剖学的領域とアップサンプリング係数を考慮し,大規模な超音波データセットを活用することにより,高分解能ターゲットを予測する訓練ネットワークを専門とする。
大規模データセットにおけるディープラーニングの利用は、一般的にデータの特徴を符号化しない視覚ベースのアルゴリズムの限界を克服する。
さらに、データセットには医療専門家が選択した画像が組み込まれ、個々のネットワークをさらに専門化することができる。
学習と高性能コンピューティングを通じて、我々は複数のネットワークをトレーニングすることで、異なる解剖学領域に特化しています。
さらに、計算要求は、ローカルデバイス上でネットワークの予測をリアルタイムに実行することで、集中型ハードウェアリソースにシフトする。 We propose a novel deep-learning framework for super-resolution ultrasound images and videos in terms of spatial resolution and line reconstruction. We up-sample the acquired low-resolution image through a vision-based interpolation method; then, we train a learning-based model to improve the quality of the up-sampling. We qualitatively and quantitatively test our model on different anatomical districts (e.g., cardiac, obstetric) images and with different up-sampling resolutions (i.e., 2X, 4X). Our method improves the PSNR median value with respect to SOTA methods of $1.7\%$ on obstetric 2X raw images, $6.1\%$ on cardiac 2X raw images, and $4.4\%$ on abdominal raw 4X images; it also improves the number of pixels with a low prediction error of $9.0\%$ on obstetric 4X raw images, $5.2\%$ on cardiac 4X raw images, and $6.2\%$ on abdominal 4X raw images. The proposed method is then applied to the spatial super-resolution of 2D videos, by optimising the sampling of lines acquired by the probe in terms of the acquisition frequency. Our method specialises trained networks to predict the high-resolution target through the design of the network architecture and the loss function, taking into account the anatomical district and the up-sampling factor and exploiting a large ultrasound data set. The use of deep learning on large data sets overcomes the limitations of vision-based algorithms that are general and do not encode the characteristics of the data. Furthermore, the data set can be enriched with images selected by medical experts to further specialise the individual networks. Through learning and high-performance computing, our super-resolution is specialised to different anatomical districts by training multiple networks. Furthermore, the computational demand is shifted to centralised hardware resources with a real-time execution of the network's prediction on local devices. | 翻訳日:2023-05-07 16:03:18 公開日:2023-04-17 |
# 明示的で暗黙的な知識でAI薬物発見を強力に Empowering AI drug discovery with explicit and implicit knowledge ( http://arxiv.org/abs/2305.01523v1 ) ライセンス: Link先を確認 | Yizhen Luo, Kui Huang, Massimo Hong, Kai Yang, Jiahuan Zhang, Yushuai Wu and Zaiqin Nie | (参考訳) 動機づけ:近年、知識グラフからの明示的な知識と、AI薬物発見のためのバイオメディカル文献からの暗黙的な知識を独立的に活用する研究が急速に進んでいる。
これらのアプローチは、複数の下流タスクにおけるAIモデルの予測精度を大幅に改善した。
しかし、明示的知識と暗黙的知識の統合は独立して分子の理解を妨げる。
結果:AI薬物発見のための明示的知識と暗黙的知識の両方を組み込んだ統合ディープラーニングフレームワークであるDeepEIKを提案する。
本稿では,マルチモーダル入力の処理にフィーチャーフュージョンを採用し,注意機構を利用してテキスト情報をデノベーションする。
実験によると、DeepEIKは、薬物-標的相互作用予測、薬物特性予測、タンパク質-タンパク質相互作用予測を含むAI薬物発見における重要なタスクにおいて、最先端の手法を著しく上回っている。
さらに、明示的で暗黙的な知識の恩恵を受け、我々の枠組みは分子の深い理解を達成し、薬物発見の応用を促進する有望な可能性を示している。 Motivation: Recently, research on independently utilizing either explicit knowledge from knowledge graphs or implicit knowledge from biomedical literature for AI drug discovery has been growing rapidly. These approaches have greatly improved the prediction accuracy of AI models on multiple downstream tasks. However, integrating explicit and implicit knowledge independently hinders their understanding of molecules. Results: We propose DeepEIK, a unified deep learning framework that incorporates both explicit and implicit knowledge for AI drug discovery. We adopt feature fusion to process the multi-modal inputs, and leverage the attention mechanism to denoise the text information. Experiments show that DeepEIK significantly outperforms state-of-the-art methods on crucial tasks in AI drug discovery including drug-target interaction prediction, drug property prediction and protein-protein interaction prediction. Further studies show that benefiting from explicit and implicit knowledge, our framework achieves a deeper understanding of molecules and shows promising potential in facilitating drug discovery applications. | 翻訳日:2023-05-07 15:52:52 公開日:2023-04-17 |
# 科学研究における人工知能のメリットの定量化 Quantifying the Benefit of Artificial Intelligence for Scientific Research ( http://arxiv.org/abs/2304.10578v1 ) ライセンス: Link先を確認 | Jian Gao, Dashun Wang | (参考訳) 進行中の人工知能(AI)革命は、ほぼすべての作業ラインを変える可能性がある。
AIの能力が正確性、堅牢性、到達度を向上し続けるにつれ、AIは、多くの重要なタスクにわたって、人間の専門家よりも優れ、置き換える可能性がある。
AIの労働と経済への影響と、科学的な発見と進歩の加速における最近の成功を理解するための膨大な努力にもかかわらず、私たちは、AIの進歩が分野や分野にわたって科学的研究にどのように貢献するかについての体系的な理解を欠いている。
ここでは、8760万の出版物と7100万の特許に自然言語処理技術を適用することにより、科学研究におけるAIの直接利用とAIの潜在的利益の両方を推定する測定フレームワークを開発する。
私たちは、研究におけるAIの使用が科学全体に広まり、特に2015年以降急速に成長し、AIを使用する論文は、その分野内外の両方で非常に引用される可能性が高い、ということに気付きました。
ほぼすべての分野には、AIから恩恵を受けるいくつかのサブフィールドが含まれており、様々な教育分野にわたる460万のコースシラビを分析しているが、AIの教育と研究への影響の体系的な不一致が発見され、科学分野におけるAI人材の供給は、AI研究の要求と一致していないことを示唆している。
最後に、科学労働者の中で誰がAIから恩恵を受けるかを調べると、女性や黒人科学者の比率が高い分野は、より少ない利益に結びつく傾向にあり、研究に対するAIの増大が科学における既存の不平等をさらに悪化させる可能性があることを示唆している。
AIと科学研究の結びつきが深まるにつれ、我々の発見は、研究企業の株式と持続可能性に重要な意味を持ちながら、価値を増す可能性がある。 The ongoing artificial intelligence (AI) revolution has the potential to change almost every line of work. As AI capabilities continue to improve in accuracy, robustness, and reach, AI may outperform and even replace human experts across many valuable tasks. Despite enormous efforts devoted to understanding AI's impact on labor and the economy and its recent success in accelerating scientific discovery and progress, we lack a systematic understanding of how advances in AI may benefit scientific research across disciplines and fields. Here we develop a measurement framework to estimate both the direct use of AI and the potential benefit of AI in scientific research by applying natural language processing techniques to 87.6 million publications and 7.1 million patents. We find that the use of AI in research appears widespread throughout the sciences, growing especially rapidly since 2015, and papers that use AI exhibit an impact premium, more likely to be highly cited both within and outside their disciplines. While almost every discipline contains some subfields that benefit substantially from AI, analyzing 4.6 million course syllabi across various educational disciplines, we find a systematic misalignment between the education of AI and its impact on research, suggesting the supply of AI talents in scientific disciplines is not commensurate with AI research demands. Lastly, examining who benefits from AI within the scientific workforce, we find that disciplines with a higher proportion of women or black scientists tend to be associated with less benefit, suggesting that AI's growing impact on research may further exacerbate existing inequalities in science. As the connection between AI and scientific research deepens, our findings may have an increasing value, with important implications for the equity and sustainability of the research enterprise. | 翻訳日:2023-04-30 08:13:50 公開日:2023-04-17 |
# 大規模言語モデルを用いた定性的解析支援:コードブックとGPT-3を併用して導出符号化 Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding ( http://arxiv.org/abs/2304.10548v1 ) ライセンス: Link先を確認 | Ziang Xiao, Xingdi Yuan, Q. Vera Liao, Rania Abdelghani, Pierre-Yves Oudeyer | (参考訳) テキスト内容の質的分析は、ラベルをデータに割り当てることで、豊かで価値のある情報を解き放つ。
しかし、特に大規模なデータセットを扱う場合、このプロセスは労働集約的です。
最近のAIベースのツールは実用性を示しているが、研究者たちはAIのリソースや専門知識を手軽に利用できなかったかもしれない。
本研究では,事前決定されたコードブックを用いてデータを固定されたコード集合にラベル付けする,定性解析の主要なカテゴリである帰納的符号化をサポートするために,大規模言語モデル(llm)の利用を検討した。
タスク固有のモデルをトレーニングする代わりに、事前訓練されたllmは、プロンプト・ラーニングを通じて微調整することなく、さまざまなタスクに直接使用できる。
好奇心駆動型問合せコーディングタスクをケーススタディとして, GPT-3とエキスパートドラフトコードブックを組み合わせることで, 提案手法は, 専門家コーディング結果との相当な合意を達成できた。
質的なコーディングなどをサポートするために,LSMを使用する上での課題と機会を概説する。 Qualitative analysis of textual contents unpacks rich and valuable information by assigning labels to the data. However, this process is often labor-intensive, particularly when working with large datasets. While recent AI-based tools demonstrate utility, researchers may not have readily available AI resources and expertise, let alone be challenged by the limited generalizability of those task-specific models. In this study, we explored the use of large language models (LLMs) in supporting deductive coding, a major category of qualitative analysis where researchers use pre-determined codebooks to label the data into a fixed set of codes. Instead of training task-specific models, a pre-trained LLM could be used directly for various tasks without fine-tuning through prompt learning. Using a curiosity-driven questions coding task as a case study, we found, by combining GPT-3 with expert-drafted codebooks, our proposed approach achieved fair to substantial agreements with expert-coded results. We lay out challenges and opportunities in using LLMs to support qualitative coding and beyond. | 翻訳日:2023-04-30 08:13:12 公開日:2023-04-17 |
# セマンティクス脆弱性グラフを用いた非バイアス変圧器ソースコード学習 An Unbiased Transformer Source Code Learning with Semantic Vulnerability Graph ( http://arxiv.org/abs/2304.11072v1 ) ライセンス: Link先を確認 | Nafis Tanveer Islam, Gonzalo De La Torre Parra, Dylan Manuel, Elias Bou-Harb, Peyman Najafirad | (参考訳) 長年にわたり、オープンソースのソフトウェアシステムは、アクターを脅かすおそれがある。
オープンソースコミュニティがこの侵害に迅速にパッチを当てたとしても、コード脆弱性のスクリーニングは最初からアジャイルソフトウェア開発の不可欠な部分であるべきです。
残念ながら、現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
さらに、脆弱性学習に使用されるデータセットは、敵が展開する新たな攻撃戦略による実世界のテストディストリビューションからの分散シフトをしばしば示しており、その結果、機械学習モデルのパフォーマンスが阻害されるか偏っている可能性がある。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせた相互補間マルチタスク型脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成したソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
poacher flow edgesは動的プログラム解析と静的プログラム解析の間のギャップを減らし、複雑な長距離依存関係を処理する。
さらに,焦点損失目的関数をsvgと統合することにより,不均衡データセットに関する分類器の偏りを低減する。
有意な結果として,我々の分類器は,偽陰性や偽陽性の少ない脆弱性検出において,最先端の結果よりも優れていた。
複数のデータセットでモデルをテストした結果、ベストケースシナリオでは少なくとも2.41%と18.75%の改善が見られた。
n-dayプログラムのサンプルを用いた評価では,提案手法が93%の精度を実現し,人気のgithubリポジトリから4,ゼロデイ脆弱性を検出することができた。 Over the years, open-source software systems have become prey to threat actors. Even as open-source communities act quickly to patch the breach, code vulnerability screening should be an integral part of agile software development from the beginning. Unfortunately, current vulnerability screening techniques are ineffective at identifying novel vulnerabilities or providing developers with code vulnerability and classification. Furthermore, the datasets used for vulnerability learning often exhibit distribution shifts from the real-world testing distribution due to novel attack strategies deployed by adversaries and as a result, the machine learning model's performance may be hindered or biased. To address these issues, we propose a joint interpolated multitasked unbiased vulnerability classifier comprising a transformer "RoBERTa" and graph convolution neural network (GCN). We present a training process utilizing a semantic vulnerability graph (SVG) representation from source code, created by integrating edges from a sequential flow, control flow, and data flow, as well as a novel flow dubbed Poacher Flow (PF). Poacher flow edges reduce the gap between dynamic and static program analysis and handle complex long-range dependencies. Moreover, our approach reduces biases of classifiers regarding unbalanced datasets by integrating Focal Loss objective function along with SVG. Remarkably, experimental results show that our classifier outperforms state-of-the-art results on vulnerability detection with fewer false negatives and false positives. After testing our model across multiple datasets, it shows an improvement of at least 2.41% and 18.75% in the best-case scenario. Evaluations using N-day program samples demonstrate that our proposed approach achieves a 93% accuracy and was able to detect 4, zero-day vulnerabilities from popular GitHub repositories. | 翻訳日:2023-04-30 08:07:13 公開日:2023-04-17 |
# 生体信号処理のための自己回帰モデル Autoregressive models for biomedical signal processing ( http://arxiv.org/abs/2304.11070v1 ) ライセンス: Link先を確認 | Jonas F. Haderlein, Andre D. H. Peterson, Anthony N. Burkitt, Iven M. Y. Mareels, David B. Grayden | (参考訳) 自己回帰モデルは、計算神経科学やバイオメディカルエンジニアリングなど、多くの領域における時系列解析のためのユビキタスツールである。
これらの領域では、データは例えば、脳活動の測定から収集される。
重要なことに、このデータは、下層のシステムモデルにおける不確実性と同様に、測定エラーにさらされる。
その結果、自己回帰モデル推定器を用いた標準信号処理がバイアスとなる可能性がある。
我々は,これらの不確かさを過パラメータ損失関数によって明示的に組み込む自己回帰モデルのためのフレームワークを提案する。
この損失を最適化するために、状態とパラメータ推定を交互に行うアルゴリズムを導出する。
本研究は,時系列を推定し,システムパラメータの再構成に有効であることを示す。
この新たなパラダイムは、脳-コンピュータインターフェースデータ分析やてんかんなどの疾患における脳のダイナミクスの理解など、神経科学の様々な応用に利用できる。 Autoregressive models are ubiquitous tools for the analysis of time series in many domains such as computational neuroscience and biomedical engineering. In these domains, data is, for example, collected from measurements of brain activity. Crucially, this data is subject to measurement errors as well as uncertainties in the underlying system model. As a result, standard signal processing using autoregressive model estimators may be biased. We present a framework for autoregressive modelling that incorporates these uncertainties explicitly via an overparameterised loss function. To optimise this loss, we derive an algorithm that alternates between state and parameter estimation. Our work shows that the procedure is able to successfully denoise time series and successfully reconstruct system parameters. This new paradigm can be used in a multitude of applications in neuroscience such as brain-computer interface data analysis and better understanding of brain dynamics in diseases such as epilepsy. | 翻訳日:2023-04-30 08:06:46 公開日:2023-04-17 |
# skillgpt: 大きな言語モデルを用いたスキル抽出と標準化のためのrestful apiサービス SkillGPT: a RESTful API service for skill extraction and standardization using a Large Language Model ( http://arxiv.org/abs/2304.11060v1 ) ライセンス: Link先を確認 | Nan Li, Bo Kang, Tijl De Bie | (参考訳) 本稿では,オープンソースのLarge Language Model(LLM)をバックボーンとして,フリースタイルのジョブ記述とユーザプロファイルからスキル抽出と標準化を行うSkillGPTを提案する。
同様のタスクのためのほとんどの以前のメソッドは、監督を必要とするか、重いデータ前処理と機能工学に依存している。
しかし、最新の会話型LLMに標準スキルを直接促すことは、遅く、コストがかかり、不正確である。
対照的に、SkillGPTはLLMを使用して、要約とベクトル類似性探索によるステップでタスクを実行し、速度と精度のバランスをとる。
skillgptのバックボーンllmはllamaをベースにしており、学術的な使用は無料であり、探索的な研究やプロトタイプ開発に有用である。
したがって、当社のコストフリーSkillGPTは、会話型SESの利便性を効率的かつ確実に提供します。 We present SkillGPT, a tool for skill extraction and standardization (SES) from free-style job descriptions and user profiles with an open-source Large Language Model (LLM) as backbone. Most previous methods for similar tasks either need supervision or rely on heavy data-preprocessing and feature engineering. Directly prompting the latest conversational LLM for standard skills, however, is slow, costly and inaccurate. In contrast, SkillGPT utilizes a LLM to perform its tasks in steps via summarization and vector similarity search, to balance speed with precision. The backbone LLM of SkillGPT is based on Llama, free for academic use and thus useful for exploratory research and prototype development. Hence, our cost-free SkillGPT gives users the convenience of conversational SES, efficiently and reliably. | 翻訳日:2023-04-30 08:05:35 公開日:2023-04-17 |
# 3次元体積形状モデリングのための注意に基づく部品組み立て Attention-based Part Assembly for 3D Volumetric Shape Modeling ( http://arxiv.org/abs/2304.10986v1 ) ライセンス: Link先を確認 | Chengzhi Wu, Junwei Zheng, Julius Pfrommer, J\"urgen Beyerer | (参考訳) 3次元体積形状を分解された形状部品の集合体としてモデル化することは、はるかに難しいが、完全な形状表現からの直接再構成よりも意味的に価値がある。
ニューラルネットワークは、各部分の変換行列を生成可能な専用ネットワーク層によって実行される部分関係を、暗黙的にコヒーレントに学習する必要がある。
本稿では,注意に基づく部品組立のためのvoxattention networkアーキテクチャを提案する。
さらに,このアプローチの利点を示すために,チャネル毎の注意の利用の変種を提案する。
実験の結果,本手法は3次元形状モデリングタスクにおいて最先端の手法よりも優れていることがわかった。 Modeling a 3D volumetric shape as an assembly of decomposed shape parts is much more challenging, but semantically more valuable than direct reconstruction from a full shape representation. The neural network needs to implicitly learn part relations coherently, which is typically performed by dedicated network layers that can generate transformation matrices for each part. In this paper, we propose a VoxAttention network architecture for attention-based part assembly. We further propose a variant of using channel-wise part attention and show the advantages of this approach. Experimental results show that our method outperforms most state-of-the-art methods for the part relation-aware 3D shape modeling task. | 翻訳日:2023-04-30 08:04:41 公開日:2023-04-17 |
# デバイアス手法の有効性--先住民の質的分析 Effectiveness of Debiasing Techniques: An Indigenous Qualitative Analysis ( http://arxiv.org/abs/2304.11094v1 ) ライセンス: Link先を確認 | Vithya Yogarajan, Gillian Dobbie, Henry Gouk | (参考訳) 本稿では,プレトレーニング言語モデル(PLM)におけるデバイアス手法の有効性について考察する。
現在のplmの測定やデバイアスの手法は、アメリカの人種バイアスに偏り、事前に定義されたバイアス属性(例えば「黒」と「白」)に依存する。
大規模なデータセットと、さらに事前トレーニングが必要なものもある。
このような技術は、ニュージーランドのM\=aoriなど、他の国の少数民族を捕えるように設計されていない。
地域知識と理解は、特に資源制限社会に対処する際に、偏見のないアルゴリズムを保証するために組み込まれなければならない。 An indigenous perspective on the effectiveness of debiasing techniques for pre-trained language models (PLMs) is presented in this paper. The current techniques used to measure and debias PLMs are skewed towards the US racial biases and rely on pre-defined bias attributes (e.g. "black" vs "white"). Some require large datasets and further pre-training. Such techniques are not designed to capture the underrepresented indigenous populations in other countries, such as M\=aori in New Zealand. Local knowledge and understanding must be incorporated to ensure unbiased algorithms, especially when addressing a resource-restricted society. | 翻訳日:2023-04-30 07:59:16 公開日:2023-04-17 |
# ICICLE CIサービスのための認証クライアントとアプリケーションの開発 -- 2022年6月~8月REHSプログラムの最終報告 Development of Authenticated Clients and Applications for ICICLE CI Services -- Final Report for the REHS Program, June-August, 2022 ( http://arxiv.org/abs/2304.11086v1 ) ライセンス: Link先を確認 | Sahil Samar, Mia Chen, Jack Karpinski, Michael Ray, Archita Sarin, Christian Garcia, Matthew Lange, Joe Stubbs, Mary Thomas | (参考訳) ai(artificial intelligence) institute for intelligent cyberinfrastructure with computational learning in the environment (icicle)は、nsfが資金提供し、aiを誰にでもアクセスしやすくし、より大きな社会におけるさらなる民主化を推進する次世代のサイバーインフラを構築する。
ICICLE認証機構を用いて,これらのICICLEリソースやサービスにアクセスするJupyter NotebooksとPythonコマンドラインクライアントの開発について述べる。
クライアントをつなぐために、私たちはtapisを使いました。tapisは計算研究をサポートするフレームワークで、科学者が多施設のリソースやサービスにアクセスし、利用し、管理できるようにします。
neo4jを使ってデータをナレッジグラフ(kg)に整理しました。
そしてKGをTapis Pod上にホストし、Neo4j KG専用のテンプレートを備えた永続的なデータストレージを提供しました。
当社のソフトウェアの能力を実証するために,jupyter notebooks authentication,neural networks (nn) notebook,そしてtapis apiの便利なフロントエンドを提供するコマンドラインアプリケーションという,いくつかのクライアントを開発しました。
さらに,Tapisサーバ上のKGを操作可能なデータ処理ノートブックを開発し,KGの作成,データのアップロード,修正を行った。
本報告では,ソフトウェアアーキテクチャ,設計とアプローチ,クライアントソフトウェアの成功度,今後の作業について述べる。 The Artificial Intelligence (AI) institute for Intelligent Cyberinfrastructure with Computational Learning in the Environment (ICICLE) is funded by the NSF to build the next generation of Cyberinfrastructure to render AI more accessible to everyone and drive its further democratization in the larger society. We describe our efforts to develop Jupyter Notebooks and Python command line clients that would access these ICICLE resources and services using ICICLE authentication mechanisms. To connect our clients, we used Tapis, which is a framework that supports computational research to enable scientists to access, utilize, and manage multi-institution resources and services. We used Neo4j to organize data into a knowledge graph (KG). We then hosted the KG on a Tapis Pod, which offers persistent data storage with a template made specifically for Neo4j KGs. In order to demonstrate the capabilities of our software, we developed several clients: Jupyter notebooks authentication, Neural Networks (NN) notebook, and command line applications that provide a convenient frontend to the Tapis API. In addition, we developed a data processing notebook that can manipulate KGs on the Tapis servers, including creations of a KG, data upload and modification. In this report we present the software architecture, design and approach, the successfulness of our client software, and future work. | 翻訳日:2023-04-30 07:57:04 公開日:2023-04-17 |
# テキストアノテーションと分類のためのChatGPTの信頼性検証:注意点 Testing the Reliability of ChatGPT for Text Annotation and Classification: A Cautionary Remark ( http://arxiv.org/abs/2304.11085v1 ) ライセンス: Link先を確認 | Michael V. Reiss | (参考訳) 近年の研究では、様々なテキストアノテーションや分類タスクに対するChatGPTの有望な可能性を示している。
しかしchatgptは非決定論的であり、人間のコーダーと同様に、同じ入力が異なる出力に繋がる可能性がある。
これを踏まえると、ChatGPTの信頼性をテストするのが適切と思われる。
そこで本研究では,ChatGPTのテキストアノテーションと分類のためのゼロショット機能の整合性について検討し,異なるモデルパラメータ,即時変動,同一入力の繰り返しに着目した。
ウェブサイトのテキストをニュースではなくニュースに区別する現実世界の分類タスクに基づいて、ChatGPTの分類出力の整合性は信頼性の科学的なしきい値に満たないことを示している。
例えば、同じ入力のプロンプトや繰り返しのマイナーな単語変更でさえ、様々な出力につながる可能性がある。
複数の繰り返しから出力をプールすることは信頼性を向上させることができるが、この研究では、ゼロショットテキストアノテーションにChatGPTを使用する場合の注意を促し、人間の注釈データとの比較など、徹底的な検証の必要性を強調している。
テキストアノテーションや分類に対するChatGPTの教師なし適用は推奨されない。 Recent studies have demonstrated promising potential of ChatGPT for various text annotation and classification tasks. However, ChatGPT is non-deterministic which means that, as with human coders, identical input can lead to different outputs. Given this, it seems appropriate to test the reliability of ChatGPT. Therefore, this study investigates the consistency of ChatGPT's zero-shot capabilities for text annotation and classification, focusing on different model parameters, prompt variations, and repetitions of identical inputs. Based on the real-world classification task of differentiating website texts into news and not news, results show that consistency in ChatGPT's classification output can fall short of scientific thresholds for reliability. For example, even minor wording alterations in prompts or repeating the identical input can lead to varying outputs. Although pooling outputs from multiple repetitions can improve reliability, this study advises caution when using ChatGPT for zero-shot text annotation and underscores the need for thorough validation, such as comparison against human-annotated data. The unsupervised application of ChatGPT for text annotation and classification is not recommended. | 翻訳日:2023-04-30 07:56:38 公開日:2023-04-17 |
# グラフベースのサイバー攻撃シミュレーションによる防衛戦略の訓練 Training Automated Defense Strategies Using Graph-based Cyber Attack Simulations ( http://arxiv.org/abs/2304.11084v1 ) ライセンス: Link先を確認 | Jakob Nyberg and Pontus Johnson | (参考訳) 自動サイバー防御エージェントの実装と評価を行った。
エージェントはセキュリティアラートを入力として、強化学習を使用して、事前定義された防御策を実行するポリシを学習する。
防衛政策は、サイバー攻撃をシミュレートするための環境で訓練された。
シミュレーションでは、攻撃するエージェントは環境中の標的を捕獲し、守備側は防御を可能にして標的を守ろうとする。
環境はメタアタック言語に基づくアタックグラフを使用してモデル化された。
防犯対策にはダウンタイムコストがかかると仮定し,防犯剤の使用に対してペナルティが課せられた。
また,環境状態に基づいた誤警報を発生させる不完全な侵入検知システムを備えていたと推定した。
設定を評価するために,侵入検知システムのノイズ量が異なる防御剤を訓練した。
攻撃戦略やグラフサイズの異なるエージェントもトレーニングしました。
実験では、強化学習で訓練されたポリシーを用いた防御剤は、ヒューリスティック・ポリシーを用いた優れたエージェントである。
実験はまた、このポリシーが様々な攻撃戦略を一般化できることを実証した。
しかし,攻撃グラフが大きくなるにつれて,学習方針の性能は低下した。 We implemented and evaluated an automated cyber defense agent. The agent takes security alerts as input and uses reinforcement learning to learn a policy for executing predefined defensive measures. The defender policies were trained in an environment intended to simulate a cyber attack. In the simulation, an attacking agent attempts to capture targets in the environment, while the defender attempts to protect them by enabling defenses. The environment was modeled using attack graphs based on the Meta Attack Language language. We assumed that defensive measures have downtime costs, meaning that the defender agent was penalized for using them. We also assumed that the environment was equipped with an imperfect intrusion detection system that occasionally produces erroneous alerts based on the environment state. To evaluate the setup, we trained the defensive agent with different volumes of intrusion detection system noise. We also trained agents with different attacker strategies and graph sizes. In experiments, the defensive agent using policies trained with reinforcement learning outperformed agents using heuristic policies. Experiments also demonstrated that the policies could generalize across different attacker strategies. However, the performance of the learned policies decreased as the attack graphs increased in size. | 翻訳日:2023-04-30 07:56:17 公開日:2023-04-17 |
# SplitAMC:ロバスト自動変調分類のための分割学習 SplitAMC: Split Learning for Robust Automatic Modulation Classification ( http://arxiv.org/abs/2304.12200v1 ) ライセンス: Link先を確認 | Jihoon Park, Seungeun Oh, Seong-Lyun Kim | (参考訳) 自動変調分類 (AMC) は、事前の信号情報を持たない変調スキームを識別し、認知無線やリンク適応など様々な用途において重要な役割を果たす技術である。
ディープラーニング(DL)の発展に伴い、DLベースのAMC手法が登場し、そのほとんどは集中型構造における計算複雑性の低減に焦点を当てている。
この集中学習ベースのAMC(CentAMC)は、クライアント側の生データの直接送信という側面でデータのプライバシーを侵害する。
フェデレート学習に基づくamc(fedeamc)は、モデルパラメータを交換することでこの問題を回避することができるが、大きなレイテンシとクライアント側の計算負荷を引き起こす。
さらに、CentAMCとFedeAMCは、クライアントとサーバ間の無線チャネルで発生する大規模なノイズに対して脆弱である。
そこで我々は,スプリットラーニング(SL)フレームワークであるSplitAMCをベースとした新しいAMC手法を開発した。
splitamcでは、各クライアントが生データの代わりにスマッシュされたデータとその勾配を交換することで、データのプライバシリークの恩恵を受けることができる。
SplitAMCがCentAMCとFedeAMCよりも、すべてのSNRの精度とレイテンシで優れていることを検証する。 Automatic modulation classification (AMC) is a technology that identifies a modulation scheme without prior signal information and plays a vital role in various applications, including cognitive radio and link adaptation. With the development of deep learning (DL), DL-based AMC methods have emerged, while most of them focus on reducing computational complexity in a centralized structure. This centralized learning-based AMC (CentAMC) violates data privacy in the aspect of direct transmission of client-side raw data. Federated learning-based AMC (FedeAMC) can bypass this issue by exchanging model parameters, but causes large resultant latency and client-side computational load. Moreover, both CentAMC and FedeAMC are vulnerable to large-scale noise occured in the wireless channel between the client and the server. To this end, we develop a novel AMC method based on a split learning (SL) framework, coined SplitAMC, that can achieve high accuracy even in poor channel conditions, while guaranteeing data privacy and low latency. In SplitAMC, each client can benefit from data privacy leakage by exchanging smashed data and its gradient instead of raw data, and has robustness to noise with the help of high scale of smashed data. Numerical evaluations validate that SplitAMC outperforms CentAMC and FedeAMC in terms of accuracy for all SNRs as well as latency. | 翻訳日:2023-04-30 07:38:53 公開日:2023-04-17 |
# ood-cv-v2: 自然画像における個々の迷惑の分散シフトに対するロバスト性の拡張ベンチマーク OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution Shifts of Individual Nuisances in Natural Images ( http://arxiv.org/abs/2304.10266v1 ) ライセンス: Link先を確認 | Bingchen Zhao, Jiahao Wang, Wufei Ma, Artur Jesslen, Siwei Yang, Shaozuo Yu, Oliver Zendel, Christian Theobalt, Alan Yuille, Adam Kortylewski | (参考訳) 現実のシナリオにおけるビジョンアルゴリズムの堅牢性を高めることは難しい。
一つの理由は、既存の堅牢性ベンチマークは、合成データに依存するか、個々のニュアンス要因の影響を無視しているため、制限されているからである。
ood-cv-v2は,ポーズ,形状,テクスチャ,コンテクスト,気象条件の10種類の対象カテゴリの分散例を含むベンチマークデータセットであり,画像分類,物体検出,3次元ポーズ推定のためのモデルのベンチマークを可能にする。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
1)一部のニュアンス要因は、視力タスクにもよるが、他の要因に比べてパフォーマンスに強い負の影響がある。
2) 強靭性向上への現在のアプローチは限界効果しか持たず, 強靭性も低減できる。
3) 畳み込みアーキテクチャと変圧器アーキテクチャでは大きな違いはみられない。
当社のデータセットは、堅牢性を研究するための豊富なテストベッドを提供し、この分野の研究を進めるのに役立ちます。
私たちのデータセットはhttp://www.ood-cv.org/challenge.htmlからアクセスできます。 Enhancing the robustness of vision algorithms in real-world scenarios is challenging. One reason is that existing robustness benchmarks are limited, as they either rely on synthetic data or ignore the effects of individual nuisance factors. We introduce OOD-CV-v2, a benchmark dataset that includes out-of-distribution examples of 10 object categories in terms of pose, shape, texture, context and the weather conditions, and enables benchmarking of models for image classification, object detection, and 3D pose estimation. In addition to this novel dataset, we contribute extensive experiments using popular baseline methods, which reveal that: 1) Some nuisance factors have a much stronger negative effect on the performance compared to others, also depending on the vision task. 2) Current approaches to enhance robustness have only marginal effects, and can even reduce robustness. 3) We do not observe significant differences between convolutional and transformer architectures. We believe our dataset provides a rich test bed to study robustness and will help push forward research in this area. Our dataset can be accessed from http://www.ood-cv.org/challenge.html | 翻訳日:2023-04-21 13:23:03 公開日:2023-04-17 |
# 対称性軸に帯電する環のポテンシャルの量子問題 Quantum problem of the potential of a ring charged on the symmetry axis ( http://arxiv.org/abs/2304.10378v1 ) ライセンス: Link先を確認 | Wytler Cordeiro dos Santos, Bruno Carmo Nunes and Ronni G.G. Amorim | (参考訳) 本稿では, 量子的観点からの帯電環の対称性軸上に置かれた帯電粒子の問題について議論する。
この問題は通常の量子環と量子コラルの拡張版でなければならない。
この目的のために、数学的側面に焦点をあてた量子環のバージョンに関する詳細かつ教育的なレビューを示す。
その結果, 荷電リングの対称性軸上に位置する荷電粒子および各波動関数に関するスペクトル関数と波動関数を, ヌメロフ法と摂動法という2つの異なる方法を用いて数値的に計算した。 In this work we discuss about the problem of an electrically charged particle placed on the symmetry axis of an electrically charged ring in a quantum viewpoint. This problem should be an expanded version of the usual quantum ring and quantum corral. For this purpose, we present a detailed and pedagogical review about a version of the quantum ring focusing in mathematical aspects. As a new result, we calculate numerically the spectrum and wave functions related to charged particle located on the symmetry axis of charged ring and respective wave functions using two different ways: Numerov and perturbative method. | 翻訳日:2023-04-21 12:44:17 公開日:2023-04-17 |
# Memento: 不運、効率的、信頼性のあるML実験を実現する Memento: Facilitating Effortless, Efficient, and Reliable ML Experiments ( http://arxiv.org/abs/2304.09175v1 ) ライセンス: Link先を確認 | Zac Pullar-Strecker, Xinglong Chang, Liam Brydon, Ioannis Ziogas, Katharina Dost, and J\"org Wicker | (参考訳) 統合されたフレームワークがないため、複雑な機械学習実験を実行するのは難しく、時間がかかる。
これにより、プロジェクトに集中するのではなく、並列化、キャッシング、チェックポイントなどの必要な機能の実装に時間を費やさざるを得なくなる。
本稿では,計算集約的な実験の効率的な管理と実行を支援するPythonパッケージであるMementoを紹介する。
Mementoは、簡単な構成マトリックスと、複数のスレッドで同時に実験を実行する機能を提供することで、実験パイプラインを合理化することができる。
Mementoのデモは、https://wickerlab.org/publication/mementoで公開されている。 Running complex sets of machine learning experiments is challenging and time-consuming due to the lack of a unified framework. This leaves researchers forced to spend time implementing necessary features such as parallelization, caching, and checkpointing themselves instead of focussing on their project. To simplify the process, in this paper, we introduce Memento, a Python package that is designed to aid researchers and data scientists in the efficient management and execution of computationally intensive experiments. Memento has the capacity to streamline any experimental pipeline by providing a straightforward configuration matrix and the ability to concurrently run experiments across multiple threads. A demonstration of Memento is available at: https://wickerlab.org/publication/memento. | 翻訳日:2023-04-20 16:44:09 公開日:2023-04-17 |
# 人間支援のためのビジュアルプランナーとしての事前学習言語モデル Pretrained Language Models as Visual Planners for Human Assistance ( http://arxiv.org/abs/2304.09179v1 ) ライセンス: Link先を確認 | Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain, Ruta Desai | (参考訳) 複雑な多段階目標を達成するためのユーザを誘導するマルチモーダルaiアシスタントに向けて,視覚計画支援タスク(vpa)を提案する。
自然言語で簡潔に記述されたゴール(例えば「棚を作る」など)と、これまでのユーザの進捗をビデオで見た場合、VPAの目的は、その目標を達成するための計画、すなわち「砂の棚」や「塗料の棚」といった一連のアクションを得ることである。
このためには、未解決の動画からのユーザの進捗を評価し、それに関連する目標、すなわちアクションの関連性とそれらの間の依存関係の順序付けの要件に関連付ける必要がある。
そのため、長いビデオ履歴と任意に複雑なアクション依存関係を扱う必要がある。
これらの課題に対処するため、VPAをビデオアクションセグメンテーションと予測に分解する。
予測ステップをマルチモーダルシーケンスモデリング問題として定式化し,事前学習したlmsをシーケンスモデルとして利用する視覚言語モデルベースプランナー(vlamp)を提案する。
VLaMPは,生成した計画を評価するすべての指標に対して,基準値よりもはるかに優れた性能を示す。
さらに, 広範なアブレーションにより, 言語事前学習の価値, 視覚観察, 目標情報などを分離した。
支援のためのビジュアルプランニングに関する将来の研究を可能にするため、私たちはデータ、モデル、コードをリリースします。 To make progress towards multi-modal AI assistants which can guide users to achieve complex multi-step goals, we propose the task of Visual Planning for Assistance (VPA). Given a goal briefly described in natural language, e.g., "make a shelf", and a video of the user's progress so far, the aim of VPA is to obtain a plan, i.e., a sequence of actions such as "sand shelf", "paint shelf", etc., to achieve the goal. This requires assessing the user's progress from the untrimmed video, and relating it to the requirements of underlying goal, i.e., relevance of actions and ordering dependencies amongst them. Consequently, this requires handling long video history, and arbitrarily complex action dependencies. To address these challenges, we decompose VPA into video action segmentation and forecasting. We formulate the forecasting step as a multi-modal sequence modeling problem and present Visual Language Model based Planner (VLaMP), which leverages pre-trained LMs as the sequence model. We demonstrate that VLaMP performs significantly better than baselines w.r.t all metrics that evaluate the generated plan. Moreover, through extensive ablations, we also isolate the value of language pre-training, visual observations, and goal information on the performance. We will release our data, model, and code to enable future research on visual planning for assistance. | 翻訳日:2023-04-20 16:33:44 公開日:2023-04-17 |
# 機械学習を用いたアルツハイマー病の診断 Alzheimers Disease Diagnosis using Machine Learning: A Review ( http://arxiv.org/abs/2304.09178v1 ) ライセンス: Link先を確認 | Nair Bini Balakrishnan, P.S. Sreeja, Jisha Jose Panackal | (参考訳) アルツハイマー病ADは急性神経疾患であり、脳細胞を変性させ、徐々に記憶喪失を引き起こす。
主に高齢者に影響する致命的な脳疾患である。
脳の認知機能と生物学的機能を低下させ、脳を連続的に縮小させ、それを萎縮(Atrophy)と呼ぶ。
アルツハイマー病の正確な診断には、機械学習のような最先端の方法が不可欠である。
近年、医療業界では機械学習が注目され人気を集めている。
アルツハイマー病が進行するにつれて、アルツハイマー病の患者は最も基本的な仕事をこなすのにはるかに困難になり、最悪の場合、脳は完全に機能を停止します。
早期アルツハイマー病の可能性がある人はML法を用いて判定することができる。
本分析では,2008年から2023年にかけての深層学習技術と強化学習に基づくアルツハイマー病の診断について検討した。
本研究は,調査後の関連論文60件について検討した。
これらの論文はadのバイオマーカーと機械学習技術に基づいて分析された。
分析の結果,深層学習手法は特徴抽出や広告分類を精度良く行うことができることがわかった。
DRL法は画像処理の分野ではあまり使われていない。
深層学習と強化学習の比較の結果から,認知症検出における深層強化学習drlの範囲を検討する必要がある。 Alzheimers Disease AD is an acute neuro disease that degenerates the brain cells and thus leads to memory loss progressively. It is a fatal brain disease that mostly affects the elderly. It steers the decline of cognitive and biological functions of the brain and shrinks the brain successively, which in turn is known as Atrophy. For an accurate diagnosis of Alzheimers disease, cutting edge methods like machine learning are essential. Recently, machine learning has gained a lot of attention and popularity in the medical industry. As the illness progresses, those with Alzheimers have a far more difficult time doing even the most basic tasks, and in the worst case, their brain completely stops functioning. A persons likelihood of having early-stage Alzheimers disease may be determined using the ML method. In this analysis, papers on Alzheimers disease diagnosis based on deep learning techniques and reinforcement learning between 2008 and 2023 found in google scholar were studied. Sixty relevant papers obtained after the search was considered for this study. These papers were analysed based on the biomarkers of AD and the machine-learning techniques used. The analysis shows that deep learning methods have an immense ability to extract features and classify AD with good accuracy. The DRL methods have not been used much in the field of image processing. The comparison results of deep learning and reinforcement learning illustrate that the scope of Deep Reinforcement Learning DRL in dementia detection needs to be explored. | 翻訳日:2023-04-20 16:33:22 公開日:2023-04-17 |
# グループAUC最適化によるパーソナライズランキングの強化 Enhancing Personalized Ranking With Differentiable Group AUC Optimization ( http://arxiv.org/abs/2304.09176v1 ) ライセンス: Link先を確認 | Xiao Sun, Bo Zhang, Chenrui Zhang, Han Ren, Mingchen Cai | (参考訳) AUCは分類器の性能を評価するための一般的な指標である。
しかし、ほとんどの分類器はクロスエントロピーで訓練されており、AUCメトリックを直接最適化していないため、トレーニングと評価の段階の間にギャップが残っている。
本稿では,二進分類器の訓練時に直接適用可能であり,勾配に基づく手法で最適化した,最大違反の個人化可能なauc最適化手法であるpdaom lossを提案する。
具体的には,ユーザidでグループ化されたサブバッチ内の正と負のサンプルのペアの難解なペアによる指数関数的損失を構築し,独立ユーザの観点から,分類器が反対のサンプルのハード・ディストリクトされたペアの関係に注意を払うように指導する。
対指数損失の原型と比較すると、提案したPDAOM損失は、オフライン評価におけるAUCとGAUCの指標を改善するだけでなく、トレーニング対象の計算複雑性を低減する。
さらに,Meituanのフィードレコメンデーションアプリケーション「Guess What You Like」におけるPDAOM損失のオンライン評価では,ベースラインモデルと比較してクリック数1.40%増加とオーダー数0.65%増加を示しており,この高度に発達したオンラインライフサービスレコメンデーションシステムにおいて大きな改善となっている。 AUC is a common metric for evaluating the performance of a classifier. However, most classifiers are trained with cross entropy, and it does not optimize the AUC metric directly, which leaves a gap between the training and evaluation stage. In this paper, we propose the PDAOM loss, a Personalized and Differentiable AUC Optimization method with Maximum violation, which can be directly applied when training a binary classifier and optimized with gradient-based methods. Specifically, we construct the pairwise exponential loss with difficult pair of positive and negative samples within sub-batches grouped by user ID, aiming to guide the classifier to pay attention to the relation between hard-distinguished pairs of opposite samples from the perspective of independent users. Compared to the origin form of pairwise exponential loss, the proposed PDAOM loss not only improves the AUC and GAUC metrics in the offline evaluation, but also reduces the computation complexity of the training objective. Furthermore, online evaluation of the PDAOM loss on the 'Guess What You Like' feed recommendation application in Meituan manifests 1.40% increase in click count and 0.65% increase in order count compared to the baseline model, which is a significant improvement in this well-developed online life service recommendation system. | 翻訳日:2023-04-20 16:33:03 公開日:2023-04-17 |
# K平均クラスタリングに基づくラベルフリーモデル評価のための特徴整合 K-means Clustering Based Feature Consistency Alignment for Label-free Model Evaluation ( http://arxiv.org/abs/2304.09758v1 ) ライセンス: Link先を確認 | Shuyu Miao and Lin Zheng and Jingjing Liu and and Hong Jin | (参考訳) ラベルフリーモデル評価は, 基礎的事実に頼ることなく, 様々なテストセット上でのモデル性能を予測することを目的としている。
このタスクの主な課題は、従来の教師付きモデル評価とは異なり、テストデータにラベルがないことである。
本稿では, cvpr 2023 の visual dataset understanding workshop の第1回 datacv challenge のソリューションについて述べる。
まず,k-meansクラスタリングに基づく特徴整合性アライメント(kcfca)と呼ばれる新しい手法を提案する。
KCFCAはK平均アルゴリズムを用いてラベル付きトレーニングセットとラベルなしテストセットをクラスタ化し、クラスタセンターに特徴整合性を持たせる。
次に,分布の変化とモデルの精度の関係を捉える動的回帰モデルを開発した。
第三に、外乱モデル因子を発見し、外乱モデルを排除するアルゴリズムを設計し、複数の自己回帰モデルの強みを組み合わせる。
DataCV Challengeのリーダーボードでは、RMSEが6.8526で2位になった。
本手法は,最良ベースライン法より36\%改善した(6.8526対10.7378)。
さらに,本手法は,検証データセット上で比較的堅牢で最適な単一モデル性能を実現する。 The label-free model evaluation aims to predict the model performance on various test sets without relying on ground truths. The main challenge of this task is the absence of labels in the test data, unlike in classical supervised model evaluation. This paper presents our solutions for the 1st DataCV Challenge of the Visual Dataset Understanding workshop at CVPR 2023. Firstly, we propose a novel method called K-means Clustering Based Feature Consistency Alignment (KCFCA), which is tailored to handle the distribution shifts of various datasets. KCFCA utilizes the K-means algorithm to cluster labeled training sets and unlabeled test sets, and then aligns the cluster centers with feature consistency. Secondly, we develop a dynamic regression model to capture the relationship between the shifts in distribution and model accuracy. Thirdly, we design an algorithm to discover the outlier model factors, eliminate the outlier models, and combine the strengths of multiple autoeval models. On the DataCV Challenge leaderboard, our approach secured 2nd place with an RMSE of 6.8526. Our method significantly improved over the best baseline method by 36\% (6.8526 vs. 10.7378). Furthermore, our method achieves a relatively more robust and optimal single model performance on the validation dataset. | 翻訳日:2023-04-20 13:55:43 公開日:2023-04-17 |
# 潜在指紋を用いた画像生成モデルの作成 Attributing Image Generative Models using Latent Fingerprints ( http://arxiv.org/abs/2304.09752v1 ) ライセンス: Link先を確認 | Guangyu Nie, Changhoon Kim, Yezhou Yang, Yi Ren | (参考訳) 生成モデルは、自然から取られたものと区別できないコンテンツの作成を可能にした。
このようなモデルのオープンソース開発は、悪意のある目的のために誤用されるリスクに関する懸念を引き起こした。
潜在的なリスク軽減戦略の1つは、指紋による生成モデルの解析である。
現在のフィンガープリント手法は、ロバストな帰属精度と生成品質の間の大きなトレードオフを示しており、このトレードオフを改善するための設計原則も欠如している。
本稿では,指紋としての潜在意味寸法の使用について検討し,指紋の寸法,強度,キャパシティなどの設計変数が精度と品質のトレードオフに与える影響について検討する。
従来の sota と比較して,本手法は最小計算を必要とせず,大規模モデルにも適用可能である。
提案手法の有効性を示すために,StyleGAN2と潜在拡散モデルを用いた。 Generative models have enabled the creation of contents that are indistinguishable from those taken from the nature. Open-source development of such models raised concerns about the risks in their misuse for malicious purposes. One potential risk mitigation strategy is to attribute generative models via fingerprinting. Current fingerprinting methods exhibit significant tradeoff between robust attribution accuracy and generation quality, and also lack designing principles to improve this tradeoff. This paper investigates the use of latent semantic dimensions as fingerprints, from where we can analyze the effects of design variables, including the choice of fingerprinting dimensions, strength, and capacity, on the accuracy-quality tradeoff. Compared with previous SOTA, our method requires minimum computation and is more applicable to large-scale models. We use StyleGAN2 and the latent diffusion model to demonstrate the efficacy of our method. | 翻訳日:2023-04-20 13:54:57 公開日:2023-04-17 |
# 従来型計算機上での高速量子探索アルゴリズムモデリング:終端問題の情報解析 Fast quantum search algorithm modelling on conventional computers: Information analysis of termination problem ( http://arxiv.org/abs/2304.09745v1 ) ライセンス: Link先を確認 | Sergey V. Ulyanov and Viktor S. Ulyanov | (参考訳) 量子アルゴリズムをシミュレートする最も単純な手法 - 量子演算子の直接行列表現に基づいて記述されたQA。
このアプローチを用いて、QAの動作をシミュレートし、忠実度解析を行うことは比較的容易である。
より効率的な高速qaシミュレーション技術は、オペレータ行列の全てまたは一部を必要な現在の計算ベースで計算することに基づいている。
この手法を用いることで、演算子行列の全てまたは一部を保存することを避けることができる。
オンデマンドの計算手法は、行列要素をより効率的に計算できるように、量子演算子とその構造の研究から恩恵を受ける。
古典的アーキテクチャを持つコンピュータ上でのGrover量子探索アルゴリズムの例を効果的にシミュレーションする。 The simplest technique for simulating a quantum algorithm - QA described based on the direct matrix representation of the quantum operators. Using this approach, it is relatively simple to simulate the operation of a QA and to perform fidelity analysis. A more efficient fast QA simulation technique is based on computing all or part of the operator matrices on an as needed current computational basis. Using this technique, it is possible to avoid storing all or part of the operator matrices. The compute on demand approach benefits from a study of the quantum operators, and their structure so that the matrix elements can be computed more efficiently. Effective simulation of Grover quantum search algorithm as example on computer with classical architecture is considered. | 翻訳日:2023-04-20 13:54:18 公開日:2023-04-17 |
# 分散型自律組織(DAO)の実践方法の公開 Unpacking How Decentralized Autonomous Organizations (DAOs) Work in Practice ( http://arxiv.org/abs/2304.09822v1 ) ライセンス: Link先を確認 | Tanusree Sharma, Yujin Kwon, Kornrapat Pongmala, Henry Wang, Andrew Miller, Dawn Song, Yang Wang | (参考訳) 分散自律組織(DAOs)は、分散ガバナンスと意思決定をサポートするためにブロックチェーン上で自己実行型のスマートコントラクトを活用する、共有ビジョン(サステナビリティの促進など)に対して(擬名的な)エンティティのグループをコーディネートする新しい方法として登場した。
わずか数年で、投資、教育、健康、研究など、様々な分野で4000以上のdaoがローンチされている。
このような急速な成長と多様性にもかかわらず、これらのDAOが実際にどのように機能し、その目標を達成するのにどの程度効果があるのかは不明だ。
これを踏まえて、DAOが実際にどのように機能するかを解き放つことを目指しています。
我々は,さまざまなカテゴリとスマートコントラクトの多様な10のdaoについて詳細な分析を行い,オンチェーン(投票結果など)とオフチェーンデータ(コミュニティディスカッションなど)と,dao主催者/メンバとのインタビューを行った。
具体的には、分散化や自律性の度合いなど、DAOの重要な側面を特徴づけるためのメトリクスを定義しました。
議決権の分散化が貧弱なコンプレックスダオ,アサンギダオ,バンクレス,クラウスハウスを観察し,一方,一人ひとりのdaos(例:人間性の証明)では,時間とともに分散化が改善している。
さらに、自治の度合いはDAOによって異なり、一部の(例えば、コンプレックスやクラウスハウス)は第三者に依存している。
最後に,本研究の成果に基づいて,今後のDAOシステムの設計上の意味について述べる。 Decentralized Autonomous Organizations (DAOs) have emerged as a novel way to coordinate a group of (pseudonymous) entities towards a shared vision (e.g., promoting sustainability), utilizing self-executing smart contracts on blockchains to support decentralized governance and decision-making. In just a few years, over 4,000 DAOs have been launched in various domains, such as investment, education, health, and research. Despite such rapid growth and diversity, it is unclear how these DAOs actually work in practice and to what extent they are effective in achieving their goals. Given this, we aim to unpack how (well) DAOs work in practice. We conducted an in-depth analysis of a diverse set of 10 DAOs of various categories and smart contracts, leveraging on-chain (e.g., voting results) and off-chain data (e.g., community discussions) as well as our interviews with DAO organizers/members. Specifically, we defined metrics to characterize key aspects of DAOs, such as the degrees of decentralization and autonomy. We observed CompoundDAO, AssangeDAO, Bankless, and Krausehouse having poor decentralization in voting, while decentralization has improved over time for one-person-one-vote DAOs (e.g., Proof of Humanity). Moreover, the degree of autonomy varies among DAOs, with some (e.g., Compound and Krausehouse) relying more on third parties than others. Lastly, we offer a set of design implications for future DAO systems based on our findings. | 翻訳日:2023-04-20 13:26:48 公開日:2023-04-17 |
# 知能学習システムにおけるメタ認知介入のための深層強化学習の活用 Leveraging Deep Reinforcement Learning for Metacognitive Interventions across Intelligent Tutoring Systems ( http://arxiv.org/abs/2304.09821v1 ) ライセンス: Link先を確認 | Mark Abdelshiheed, John Wesley Hostetter, Tiffany Barnes, Min Chi | (参考訳) この研究は、メタ認知的介入を提供するための2つのアプローチと、Intelligent Tutoring Systems (ITS)における将来の学習のための学生の準備に対する影響を比較した。
実験1では,古典的な人工知能を用いて,生徒を異なるメタ認知グループに分類し,分類されたグループに基づいて静的な介入を行う。
Exp.2では,Deep Reinforcement Learning(DRL)を利用して,生徒のメタ認知レベルの動的変化を考慮した適応的介入を行った。
両方の実験で、学生はこれらの介入を受け、デフォルトのフォワードチェイン戦略をサポートする論理チューターで後方チェイン(BC)戦略をどのように、いつ使うかを教えた。
6週間後、我々は介入なしでbcのみをサポートする確率チューターで生徒を訓練した。
その結果,適応型DRLによる介入は,学生間のメタ認知スキルギャップを埋めることがわかった。
対照的に、静的分類器に基づく介入は、事前bcの使い方を知っている学生のサブセットにのみ恩恵を与えた。
さらに,我々のDRLエージェントは,両ITSのコントロールピアを大幅に超えて,将来の学習のための実験的な学生を準備した。 This work compares two approaches to provide metacognitive interventions and their impact on preparing students for future learning across Intelligent Tutoring Systems (ITSs). In two consecutive semesters, we conducted two classroom experiments: Exp. 1 used a classic artificial intelligence approach to classify students into different metacognitive groups and provide static interventions based on their classified groups. In Exp. 2, we leveraged Deep Reinforcement Learning (DRL) to provide adaptive interventions that consider the dynamic changes in the student's metacognitive levels. In both experiments, students received these interventions that taught how and when to use a backward-chaining (BC) strategy on a logic tutor that supports a default forward-chaining strategy. Six weeks later, we trained students on a probability tutor that only supports BC without interventions. Our results show that adaptive DRL-based interventions closed the metacognitive skills gap between students. In contrast, static classifier-based interventions only benefited a subset of students who knew how to use BC in advance. Additionally, our DRL agent prepared the experimental students for future learning by significantly surpassing their control peers on both ITSs. | 翻訳日:2023-04-20 13:26:16 公開日:2023-04-17 |
# バイアスを理解するための真のバランスのとれたデータセット?
アイデンティティや画像の数ではなく、正確性に影響を与える要因 A Real Balanced Dataset For Understanding Bias? Factors That Impact Accuracy, Not Numbers of Identities and Images ( http://arxiv.org/abs/2304.09818v1 ) ライセンス: Link先を確認 | Haiyu Wu, Kevin W. Bowyer | (参考訳) 近年、人口集団間での顔認識精度の格差が注目されている。
顔認識アルゴリズムの精度を評価するために、様々な顔画像データセットが「フェア」または「バランス」として提案されている。
これらのデータセットは、しばしば人口統計グループ間のアイデンティティとイメージの数のバランスをとる。
評価データセットにおけるアイデンティティの数と画像が、1対1の顔マッチング精度の駆動要因ではないことに注意する必要がある。
さらに、アイデンティティの数と画像のバランスは、頭部ポーズ、明るさ、画質など、正確性に影響を与える他の要因のバランスを確保できない。
最近提案されたデータセットを用いてこれらの問題を実証する。
そこで本論文では, バイアスの少ない評価を行うために, 偏差評価データセットの作成を容易にするバイアス対応ツールキットを提案する。 The issue of disparities in face recognition accuracy across demographic groups has attracted increasing attention in recent years. Various face image datasets have been proposed as 'fair' or 'balanced' to assess the accuracy of face recognition algorithms across demographics. While these datasets often balance the number of identities and images across demographic groups. It is important to note that the number of identities and images in an evaluation dataset are not the driving factors for 1-to-1 face matching accuracy. Moreover, balancing the number of identities and images does not ensure balance in other factors known to impact accuracy, such as head pose, brightness, and image quality. We demonstrate these issues using several recently proposed datasets. To enhance the capacity for less biased evaluations, we propose a bias-aware toolkit that facilitates the creation of cross-demographic evaluation datasets balanced on factors mentioned in this paper. | 翻訳日:2023-04-20 13:25:33 公開日:2023-04-17 |
# 高周波トレーディング予測のための最適出力長短期記憶セル Optimum Output Long Short-Term Memory Cell for High-Frequency Trading Forecasting ( http://arxiv.org/abs/2304.09840v1 ) ライセンス: Link先を確認 | Adamantios Ntakaris, Moncef Gabbouj, Juho Kanniainen | (参考訳) 高頻度取引は、正確な株価予測のために情報遅延のない高速データ処理を必要とする。
この高ペースの株価予測は通常、高周波取引に固有の時間不規則のため、シーケンシャルかつ時間に依存しない信号として扱う必要があるベクトルに基づいている。
これらの時間不規則性を考慮したよく文書化されテストされた手法は、long short-term memory neural networkと呼ばれるリカレントニューラルネットワークの一種である。
この種のニューラルネットワークは、セル内の順番が最適かどうかを知らずにゲートや状態を介して逐次的および静的な計算を行うセルに基づいて形成される。
本稿では,最良ゲートや状態を最終出力として選択する,改良されたリアルタイムな長寿命メモリセルを提案する。
私たちの細胞は浅いトポロジーの下で動作しており、最小のルックバック期間を持ち、オンラインでトレーニングされています。
本改訂したセルは,2つの高液量米国株と2つの低液量北欧株で試験されたリミットオーダーブック中価格予測などのオンライン高頻度トレーディング予測タスクにおいて,他のリカレントニューラルネットワークと比較して低い予測誤差を達成している。 High-frequency trading requires fast data processing without information lags for precise stock price forecasting. This high-paced stock price forecasting is usually based on vectors that need to be treated as sequential and time-independent signals due to the time irregularities that are inherent in high-frequency trading. A well-documented and tested method that considers these time-irregularities is a type of recurrent neural network, named long short-term memory neural network. This type of neural network is formed based on cells that perform sequential and stale calculations via gates and states without knowing whether their order, within the cell, is optimal. In this paper, we propose a revised and real-time adjusted long short-term memory cell that selects the best gate or state as its final output. Our cell is running under a shallow topology, has a minimal look-back period, and is trained online. This revised cell achieves lower forecasting error compared to other recurrent neural networks for online high-frequency trading forecasting tasks such as the limit order book mid-price prediction as it has been tested on two high-liquid US and two less-liquid Nordic stocks. | 翻訳日:2023-04-20 13:16:09 公開日:2023-04-17 |
# リーマン多様体上のMat\'ern Gaussian過程 Mat\'ern Gaussian processes on Riemannian manifolds ( http://arxiv.org/abs/2006.10160v6 ) ライセンス: Link先を確認 | Viacheslav Borovitskiy, Alexander Terenin, Peter Mostowsky, Marc Peter Deisenroth | (参考訳) ガウス過程は未知の関数を学習するのに有効なモデルクラスであり、特に予測の不確実性を正確に表現する設定が重要となる。
物理科学の応用に動機づけられ、広く使われているガウス過程のマット・エルン類は、確率的偏微分方程式の解としてこの過程を再表現することによって、リーマン多様体であるようなモデル函数に一般化された。
本研究では,コンパクトリーマン多様体上のこれらの過程の核を,ラプラス・ベルトラミ作用素のスペクトル理論によって完全に構成的に計算する手法を提案する。
また、Mat\'ern から広く用いられる2乗指数ガウス過程への一般化も拡張する。
Riemannian Mat\'ern Gaussianのプロセスをよく理解されたテクニックでトレーニングできるようにすることで、私たちの作業は、ミニバッチ、オンライン、非共役的な設定での使用を可能にし、機械学習実践者にとってよりアクセスしやすいものにします。 Gaussian processes are an effective model class for learning unknown functions, particularly in settings where accurately representing predictive uncertainty is of key importance. Motivated by applications in the physical sciences, the widely-used Mat\'ern class of Gaussian processes has recently been generalized to model functions whose domains are Riemannian manifolds, by re-expressing said processes as solutions of stochastic partial differential equations. In this work, we propose techniques for computing the kernels of these processes on compact Riemannian manifolds via spectral theory of the Laplace-Beltrami operator in a fully constructive manner, thereby allowing them to be trained via standard scalable techniques such as inducing point methods. We also extend the generalization from the Mat\'ern to the widely-used squared exponential Gaussian process. By allowing Riemannian Mat\'ern Gaussian processes to be trained using well-understood techniques, our work enables their use in mini-batch, online, and non-conjugate settings, and makes them more accessible to machine learning practitioners. | 翻訳日:2023-04-19 19:55:05 公開日:2023-04-17 |
# pl条件をもつ非凸強凹min-max問題に対する高速目的と双対ギャップ収束 Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition ( http://arxiv.org/abs/2006.06889v8 ) ライセンス: Link先を確認 | Zhishuai Guo, Yan Yan, Zhuoning Yuan, Tianbao Yang | (参考訳) 本稿では, 深層学習(深層AUCの最大化, 分散ロバスト最適化など)の潜在的な応用により, 注目を集めているスムーズな非凸性 min-max 問題の解法に着目する。
しかし、既存のアルゴリズムの多くは実際は遅く、その解析は収束をほぼ定常点に回っており、より強力な収束保証を持つより高速な確率的アルゴリズムの設計にPolyak-Lojasiewicz(PL)条件を活用することを検討する。
PL条件は多くの確率最小化アルゴリズムの設計に利用されてきたが、その非凸min-max最適化への応用は稀である。
本稿では,多くの確率的更新を埋め込み可能な近位ステージベース手法の汎用フレームワークを提案し,解析する。
高速収束は主目的ギャップと双対性ギャップの両方の観点から確立される。
既存の研究と比較すると
(i)本解析は,主目的ギャップと正規化関数の双対ギャップからなる新しいリアプノフ関数に基づく。
(ii) 結果はより包括的に改善され, 仮定の異なる条件数への依存度が向上した。
また,本手法の有効性を検証するために,深層および非深層学習実験を行った。 This paper focuses on stochastic methods for solving smooth non-convex strongly-concave min-max problems, which have received increasing attention due to their potential applications in deep learning (e.g., deep AUC maximization, distributionally robust optimization). However, most of the existing algorithms are slow in practice, and their analysis revolves around the convergence to a nearly stationary point.We consider leveraging the Polyak-Lojasiewicz (PL) condition to design faster stochastic algorithms with stronger convergence guarantee. Although PL condition has been utilized for designing many stochastic minimization algorithms, their applications for non-convex min-max optimization remain rare. In this paper, we propose and analyze a generic framework of proximal stage-based method with many well-known stochastic updates embeddable. Fast convergence is established in terms of both the primal objective gap and the duality gap. Compared with existing studies, (i) our analysis is based on a novel Lyapunov function consisting of the primal objective gap and the duality gap of a regularized function, and (ii) the results are more comprehensive with improved rates that have better dependence on the condition number under different assumptions. We also conduct deep and non-deep learning experiments to verify the effectiveness of our methods. | 翻訳日:2023-04-19 19:54:43 公開日:2023-04-17 |
# 動的モード分解におけるカーネル視点 The kernel perspective on dynamic mode decomposition ( http://arxiv.org/abs/2106.00106v3 ) ライセンス: Link先を確認 | Efrain Gonzalez, Moad Abudia, Michael Jury, Rushikesh Kamalapurkar, Joel A. Rosenfeld | (参考訳) この写本は、クープマン作用素の動的モード分解(DMD)に関する理論的仮定を再検討し、例えば固有関数の格子の存在、クープマン作用素間の共通固有関数の存在、クープマン作用素の有界性とコンパクト性を含む。
仮定の制限性を示す反例が各仮定に対して提供される。
特に、この写本はガウスのRBFカーネル関数のネイティブ再生カーネルヒルベルト空間(RKHS)が、力学がアフィンであれば有界クープマン作用素のみをサポートすることを証明している。
さらに、RKHSよりも密に定義されたクープマン演算子のみを必要とするMDDの新しいフレームワークを導入し、その効果を数値的な例を通して示す。 This manuscript revisits theoretical assumptions concerning dynamic mode decomposition (DMD) of Koopman operators, including the existence of lattices of eigenfunctions, common eigenfunctions between Koopman operators, and boundedness and compactness of Koopman operators. Counterexamples that illustrate restrictiveness of the assumptions are provided for each of the assumptions. In particular, this manuscript proves that the native reproducing kernel Hilbert space (RKHS) of the Gaussian RBF kernel function only supports bounded Koopman operators if the dynamics are affine. In addition, a new framework for DMD, that requires only densely defined Koopman operators over RKHSs is introduced, and its effectiveness is demonstrated through numerical examples. | 翻訳日:2023-04-19 19:29:27 公開日:2023-04-17 |
# 平均フィールドゲームにおける逆逆強化学習 Adversarial Inverse Reinforcement Learning for Mean Field Games ( http://arxiv.org/abs/2104.14654v5 ) ライセンス: Link先を確認 | Yang Chen, Libo Zhang, Jiamou Liu and Michael Witbrock | (参考訳) 平均場ゲーム(MFG)は、平均場理論を利用してエージェント間の相互作用を単純化することにより、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
実演行動から報酬信号を回収することにより、逆強化学習(IRL)を適用して、大集団の行動を予測する。
しかし、既存のMFGのIRL法では、個々のエージェントの動作を示す不確実性について説明できない。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
我々は、最大エントロピーIRLと新しい平衡概念に基づいてMF-AIRLを構築する。
不完全な実演を伴うシミュレーションタスクに対する我々のアプローチを評価する。
その結果,MF-AIRLは報酬回収法よりも優れていることが示された。 Mean field games (MFGs) provide a mathematically tractable framework for modelling large-scale multi-agent systems by leveraging mean field theory to simplify interactions among agents. It enables applying inverse reinforcement learning (IRL) to predict behaviours of large populations by recovering reward signals from demonstrated behaviours. However, existing IRL methods for MFGs are powerless to reason about uncertainties in demonstrated behaviours of individual agents. This paper proposes a novel framework, Mean-Field Adversarial IRL (MF-AIRL), which is capable of tackling uncertainties in demonstrations. We build MF-AIRL upon maximum entropy IRL and a new equilibrium concept. We evaluate our approach on simulated tasks with imperfect demonstrations. Experimental results demonstrate the superiority of MF-AIRL over existing methods in reward recovery. | 翻訳日:2023-04-19 19:29:15 公開日:2023-04-17 |
# 無線ネットワークにおけるエネルギアウェア電力配分のためのグラフベースアルゴリズムの展開 Graph-based Algorithm Unfolding for Energy-aware Power Allocation in Wireless Networks ( http://arxiv.org/abs/2201.11799v2 ) ライセンス: Link先を確認 | Boning Li, Gunjan Verma, Santiago Segarra | (参考訳) 本稿では,無線通信ネットワークにおける電力割当のための重み付き和エネルギー効率(wsee)を最大化するためのグラフベーストレーサブルフレームワークを開発した。
この問題の非凸性に対処するため,提案手法は古典的反復的準最適アプローチに着想を得て,学習可能なコンポーネントで拡張されたモジュラ構造からなる。
より正確には、逐次凹凸近似(SCA)法の深い展開を提案する。
拡張SCA(USCA)フレームワークでは、元のプリセットパラメータは、マルチユーザチャネル状態情報を基礎となるグラフ隣接行列として直接活用するグラフ畳み込みニューラルネットワーク(GCN)を介して学習可能になった。
無線ネットワークデータに適用するモデルにとって望ましい特性である,提案アーキテクチャの置換同値性を示す。
USCAフレームワークは、プログレッシブトレーニング戦略を用いて確率勾配降下法を用いて訓練される。
教師なし損失は、最大出力制約下での目標の単調特性を特徴付けるために慎重に考案される。
包括的数値計算により、サイズ、密度、チャネル分布の異なるネットワークトポロジーにまたがる一般化性が示される。
詳細な比較は、最先端のベンチマークよりもUSCAのパフォーマンスと堅牢性が改善されたことを示している。 We develop a novel graph-based trainable framework to maximize the weighted sum energy efficiency (WSEE) for power allocation in wireless communication networks. To address the non-convex nature of the problem, the proposed method consists of modular structures inspired by a classical iterative suboptimal approach and enhanced with learnable components. More precisely, we propose a deep unfolding of the successive concave approximation (SCA) method. In our unfolded SCA (USCA) framework, the originally preset parameters are now learnable via graph convolutional neural networks (GCNs) that directly exploit multi-user channel state information as the underlying graph adjacency matrix. We show the permutation equivariance of the proposed architecture, which is a desirable property for models applied to wireless network data. The USCA framework is trained through a stochastic gradient descent approach using a progressive training strategy. The unsupervised loss is carefully devised to feature the monotonic property of the objective under maximum power constraints. Comprehensive numerical results demonstrate its generalizability across different network topologies of varying size, density, and channel distribution. Thorough comparisons illustrate the improved performance and robustness of USCA over state-of-the-art benchmarks. | 翻訳日:2023-04-19 19:20:08 公開日:2023-04-17 |
# Slower Online Networkによるより高速な深層強化学習 Faster Deep Reinforcement Learning with Slower Online Network ( http://arxiv.org/abs/2112.05848v3 ) ライセンス: Link先を確認 | Kavosh Asadi, Rasool Fakoor, Omer Gottesman, Taesup Kim, Michael L. Littman, Alexander J. Smola | (参考訳) 深層強化学習アルゴリズムは、オンラインネットワークと、ある程度の遅延でオンラインネットワークを追跡するターゲットネットワークという、価値関数最適化に2つのネットワークを使用することが多い。
2つの別々のネットワークを使用することで、エージェントはブートストラップを行う際に発生する問題に対してヘッジすることができる。
本稿では,dqn と rainbow という2つの深層強化学習アルゴリズムを提案し,オンラインネットワークがターゲットネットワークの近傍に留まるようインセンティブを与える更新を行った。
これにより、ノイズの多い更新の存在下での深層強化学習の堅牢性が改善される。
結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅にパフォーマンスが向上し、この単純なアイデアが深層強化学習に有効であることを実証した。
私たちの論文のコードは、github.com/amazon-research/fast-rl-with-slow-updatesで入手できる。 Deep reinforcement learning algorithms often use two networks for value function optimization: an online network, and a target network that tracks the online network with some delay. Using two separate networks enables the agent to hedge against issues that arise when performing bootstrapping. In this paper we endow two popular deep reinforcement learning algorithms, namely DQN and Rainbow, with updates that incentivize the online network to remain in the proximity of the target network. This improves the robustness of deep reinforcement learning in presence of noisy updates. The resultant agents, called DQN Pro and Rainbow Pro, exhibit significant performance improvements over their original counterparts on the Atari benchmark demonstrating the effectiveness of this simple idea in deep reinforcement learning. The code for our paper is available here: Github.com/amazon-research/fast-rl-with-slow-updates. | 翻訳日:2023-04-19 19:19:10 公開日:2023-04-17 |
# グラフニューラルネットワークとランダムフォレストを用いた大型磁気モーメント材料の予測 Prediction of Large Magnetic Moment Materials With Graph Neural Networks and Random Forests ( http://arxiv.org/abs/2111.14712v4 ) ライセンス: Link先を確認 | S\'ekou-Oumar Kaba, Benjamin Groleau-Par\'e, Marc-Antoine Gauthier, Andr\'e-Marie Tremblay, Simon Verret, Chlo\'e Gauvin-Ndiaye | (参考訳) 磁気材料は、電気モーター、風力タービン発電機、磁気冷凍システムなど、生態遷移を駆動する多くの技術の重要な要素である。
したがって、大きな磁気モーメントを持つ物質の発見が優先される。
ここでは、最先端の機械学習手法を用いて、数十万の既存材料の無機結晶構造データベース(ICSD)をスキャンし、強磁性で大きな磁気モーメントを持つ物質を見つける。
結晶グラフ畳み込みニューラルネットワーク(CGCNN)、物質グラフネットワーク(MEGNet)、ランダム森林は、高スループットDFT予測の結果を含むマテリアルプロジェクトデータベース上で訓練される。
ランダムな森林では,化学組成と結晶構造に基づいて,100近い関連する記述子を選択する確率的手法を用いる。
これにより、ニューラルネットワークに匹敵する結果が得られる。
これらの異なる機械学習アプローチの比較は、icsdデータベース上での予測の誤りを推定する。
実験データとの比較により最終予測を検証した結果,磁気モーメントが大きく,まだ実験的に研究されていない15の材料が得られた。 Magnetic materials are crucial components of many technologies that could drive the ecological transition, including electric motors, wind turbine generators and magnetic refrigeration systems. Discovering materials with large magnetic moments is therefore an increasing priority. Here, using state-of-the-art machine learning methods, we scan the Inorganic Crystal Structure Database (ICSD) of hundreds of thousands of existing materials to find those that are ferromagnetic and have large magnetic moments. Crystal graph convolutional neural networks (CGCNN), materials graph network (MEGNet) and random forests are trained on the Materials Project database that contains the results of high-throughput DFT predictions. For random forests, we use a stochastic method to select nearly one hundred relevant descriptors based on chemical composition and crystal structure. This gives results that are comparable to those of neural networks. The comparison between these different machine learning approaches gives an estimate of the errors for our predictions on the ICSD database. Validating our final predictions by comparisons with available experimental data, we found 15 materials that are likely to have large magnetic moments and have not been yet studied experimentally. | 翻訳日:2023-04-19 19:18:55 公開日:2023-04-17 |
# 学習値関数に対するロバスト損失 Robust Losses for Learning Value Functions ( http://arxiv.org/abs/2205.08464v2 ) ライセンス: Link先を確認 | Andrew Patterson, Victor Liao, Martha White | (参考訳) 強化学習におけるほとんどの値関数学習アルゴリズムは平均二乗(投影)ベルマン誤差に基づいている。
しかし、二乗誤差は外れ値に敏感であることが知られ、目的の解を歪め、高次勾配と高分散勾配をもたらす。
これらの高次更新を制御するために、RLの典型的な戦略は、クリッピング勾配、クリッピング報酬、リスケーリング報酬、クリッピングエラーを含む。
これらの戦略は、ハブ損失のような堅牢な損失に関連しているように見えるが、それらは、既知の損失を最小限にしない半段階的な更新ルールに基づいている。
本研究では,二乗ベルマン誤差をサドルポイント最適化問題として再構成する最近の知見に基づいて,フーバーベルマン誤差と絶対ベルマン誤差に対するサドルポイント再構成を提案する。
まず、ロバストな損失の形式化から始まり、オンラインのオフポリシー予測とコントロール設定の両方において、これらの損失を最小限に抑えるために、音勾配に基づくアプローチを導出します。
我々は、ロバストな損失の解を特徴付け、ロバストな損失が平均2乗のベルマン誤差よりも明らかに優れた解を定義する問題設定に関する洞察を与える。
最後に, 勾配に基づくアルゴリズムは, 予測と制御の両方においてより安定であり, メタパラメータに対する感度が低いことを示す。 Most value function learning algorithms in reinforcement learning are based on the mean squared (projected) Bellman error. However, squared errors are known to be sensitive to outliers, both skewing the solution of the objective and resulting in high-magnitude and high-variance gradients. To control these high-magnitude updates, typical strategies in RL involve clipping gradients, clipping rewards, rescaling rewards, or clipping errors. While these strategies appear to be related to robust losses -- like the Huber loss -- they are built on semi-gradient update rules which do not minimize a known loss. In this work, we build on recent insights reformulating squared Bellman errors as a saddlepoint optimization problem and propose a saddlepoint reformulation for a Huber Bellman error and Absolute Bellman error. We start from a formalization of robust losses, then derive sound gradient-based approaches to minimize these losses in both the online off-policy prediction and control settings. We characterize the solutions of the robust losses, providing insight into the problem settings where the robust losses define notably better solutions than the mean squared Bellman error. Finally, we show that the resulting gradient-based algorithms are more stable, for both prediction and control, with less sensitivity to meta-parameters. | 翻訳日:2023-04-19 19:01:43 公開日:2023-04-17 |
# 新しい透明性戦略に基づくマンモグラムのBI-RADS分類法 A Novel Transparency Strategy-based Data Augmentation Approach for BI-RADS Classification of Mammograms ( http://arxiv.org/abs/2203.10609v2 ) ライセンス: Link先を確認 | Sam B. Tran, Huyen T. X. Nguyen, Chi Phan, Hieu H. Pham, Ha Q. Nguyen | (参考訳) マンモグラフィ分類タスクにおける深層学習(DL)アルゴリズムの性能向上のために,画像拡張技術が広く研究されている。
近年,データ不足やデータ不均衡問題に対する画像強調の有効性が実証されている。
本稿では,マンモグラム分類器の乳房画像報告・データシステム(BI-RADS)スコアを向上するための新しい透明性戦略を提案する。
提案手法では,関心領域(roi)情報を用いて,乳癌(bi-rads 3, 4, 5)の高リスクトレーニング例を原画像から生成する。
3つの異なるデータセットに関する広範な実験により,提案手法はマンモグラム分類性能を大幅に向上させ,最先端のデータ拡張技術であるcutmixを上回った。
本研究は,bi-rads分類における他の拡張戦略よりも透明性の高い手法であり,他のコンピュータビジョンタスクにも広く適用可能であることを強調する。 Image augmentation techniques have been widely investigated to improve the performance of deep learning (DL) algorithms on mammography classification tasks. Recent methods have proved the efficiency of image augmentation on data deficiency or data imbalance issues. In this paper, we propose a novel transparency strategy to boost the Breast Imaging Reporting and Data System (BI-RADS) scores of mammogram classifiers. The proposed approach utilizes the Region of Interest (ROI) information to generate more high-risk training examples for breast cancer (BI-RADS 3, 4, 5) from original images. Our extensive experiments on three different datasets show that the proposed approach significantly improves the mammogram classification performance and surpasses a state-of-the-art data augmentation technique called CutMix. This study also highlights that our transparency method is more effective than other augmentation strategies for BI-RADS classification and can be widely applied to other computer vision tasks. | 翻訳日:2023-04-19 18:59:23 公開日:2023-04-17 |
# K平均マスクトランス K-Means Mask Transformer ( http://arxiv.org/abs/2207.04044v4 ) ライセンス: Link先を確認 | Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen | (参考訳) ビジョンタスクにおけるトランスフォーマーの台頭は、ネットワークバックボーンの設計を進歩させるだけでなく、エンドツーエンドの画像認識(オブジェクト検出やパノプティックセグメンテーションなど)を実現するための新しいページも開始する。
自然言語処理(NLP)から派生したトランスフォーマーアーキテクチャは、配列内の要素間の長距離相互作用を効果的に学習する。
しかし、既存のトランスフォーマーベースの視覚モデルは、言語と画像、特に空間的に平坦なピクセル特徴の非常に大きなシーケンス長の違いを無視して、単にnlpからアイデアを借用しているだけである。
これはその後、ピクセル機能とオブジェクトクエリの相互接続における学習を妨げる。
本稿では,画素とオブジェクトクエリの関係を再考し,クラスタリングプロセスとしてのクロスアテンション学習の再構築を提案する。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformer(kMaX-DeepLab)を開発した。
その結果、当社のkMaX-DeepLabは、58.0% PQのCOCO val、68.4% PQ、44.0% AP、83.5% mIoUのCityscapes val、50.9% PQ、55.2% mIoUのADE20K val、テスト時間拡張または外部データセットなしで、新しい最先端のパフォーマンスを実現した。
私たちは、視覚タスクに適したトランスフォーマーの設計に光を当てられることを願っています。
コードとモデルはhttps://github.com/google-research/deeplab2で利用可能 The rise of transformers in vision tasks not only advances network backbone designs, but also starts a brand-new page to achieve end-to-end image recognition (e.g., object detection and panoptic segmentation). Originated from Natural Language Processing (NLP), transformer architectures, consisting of self-attention and cross-attention, effectively learn long-range interactions between elements in a sequence. However, we observe that most existing transformer-based vision models simply borrow the idea from NLP, neglecting the crucial difference between languages and images, particularly the extremely large sequence length of spatially flattened pixel features. This subsequently impedes the learning in cross-attention between pixel features and object queries. In this paper, we rethink the relationship between pixels and object queries and propose to reformulate the cross-attention learning as a clustering process. Inspired by the traditional k-means clustering algorithm, we develop a k-means Mask Xformer (kMaX-DeepLab) for segmentation tasks, which not only improves the state-of-the-art, but also enjoys a simple and elegant design. As a result, our kMaX-DeepLab achieves a new state-of-the-art performance on COCO val set with 58.0% PQ, Cityscapes val set with 68.4% PQ, 44.0% AP, and 83.5% mIoU, and ADE20K val set with 50.9% PQ and 55.2% mIoU without test-time augmentation or external dataset. We hope our work can shed some light on designing transformers tailored for vision tasks. Code and models are available at https://github.com/google-research/deeplab2 | 翻訳日:2023-04-19 18:52:43 公開日:2023-04-17 |
# サイト依存$g-$factorによるホール量子ドットのゲートベーススピン読み出し Gate-based spin readout of hole quantum dots with site-dependent $g-$factors ( http://arxiv.org/abs/2206.13125v2 ) ライセンス: Link先を確認 | Angus Russell and Alexander Zotov and Ruichen Zhao and Andrew S. Dzurak and M. Fernando Gonzalez-Zalba and Alessandro Rossi | (参考訳) グループIV半導体におけるホールスピン量子ビットの急速な進歩は、スケーラビリティのポテンシャルによって引き起こされている。
これは工業的製造基準との互換性と、全電動ドライブによる操作の容易さと対応性に起因している。
しかし、強いスピン軌道相互作用のため、これらの系はLand\'e $g-$factorのようなキー量子ビット制御パラメータに可変性と異方性を示し、信頼できる量子ビット演算に注意を要する。
本研究では,ゲート型反射率計を用いてスピン読み出しを行い,シリコン中のホールダブル量子ドットを実験的に検討する。
磁気分光法により生じる反射位相信号の特徴は,2点のサイト依存の$g-$factorに関する情報を伝達する。
解析モデルを用いて, システムの物理パラメータを抽出し, 数値計算により, 局所的な$g-$factorsに関する情報を反射率測定から簡便に抽出する可能性を示す。 The rapid progress of hole spin qubits in group IV semiconductors has been driven by their potential for scalability. This is owed to the compatibility with industrial manufacturing standards, as well as the ease of operation and addressability via all-electric drives. However, owing to a strong spin-orbit interaction, these systems present variability and anisotropy in key qubit control parameters such as the Land\'e $g-$factor, requiring careful characterisation for reliable qubit operation. Here, we experimentally investigate a hole double quantum dot in silicon by carrying out spin readout with gate-based reflectometry. We show that characteristic features in the reflected phase signal arising from magneto-spectroscopy convey information on site-dependent $g-$factors in the two dots. Using analytical modeling, we extract the physical parameters of our system and, through numerical calculations, we extend the results to point out the prospect of conveniently extracting information about the local $g-$factors from reflectometry measurements. | 翻訳日:2023-04-19 18:51:28 公開日:2023-04-17 |
# 隣接スライス深部ディスクリプタを用いたct脳内出血のスライスレベル検出 Slice-level Detection of Intracranial Hemorrhage on CT Using Deep Descriptors of Adjacent Slices ( http://arxiv.org/abs/2208.03403v2 ) ライセンス: Link先を確認 | Dat T. Ngo, Thao T.B. Nguyen, Hieu T. Nguyen, Dung B. Nguyen, Ha Q. Nguyen, Hieu H. Pham | (参考訳) ディープニューラルネットワークなどの表現学習技術の急速な発展と、大規模で注釈付き医療画像データセットの利用可能化により、3D画像解析と診断における教師あり機械学習の利用が急速に増加している。
特に、深層畳み込みニューラルネットワーク(D-CNN)が重要な役割を担い、臨床医や医療専門家が病気の診断と治療を支援するために医療画像コミュニティに採用された。
しかし、d-cnnのような深層ニューラルネットワークを高分解能3dctスキャンによる診断タスクの訓練と参照は、強力な計算課題をもたらす。
この課題は、3Dスキャンではなく、2D画像の学習表現に堅牢なディープラーニングベースのアプローチを開発する必要性を高める。
本研究では,軸に沿って隣接するスライスのディスクリプタに基づいて,ctスキャンで<emph{slice-level} 分類器を訓練する新たな戦略を初めて提案する。
特に、それぞれが畳み込みニューラルネットワーク(CNN)を介して抽出される。
この方法は、ISCの存在を予測し、それを5つのサブタイプに分類することを目的としたRSNA頭蓋内出血(ICH)データセットなどのスライスラベル付きCTデータセットに適用できる。
我々は、モデルアンサンブルが許されるRSNA ICHチャレンジの最高パフォーマンスソリューションのトップ4%の1つのモデルを得る。
また,提案手法がcq500のベースラインモデルを大きく上回ることを示した。
提案手法は汎用的であり,MRIなどの他の3次元診断タスクにも適用可能である。
この分野の新たな進歩を促進するため、論文の受理時に、コードと事前訓練されたモデルを利用可能にします。 The rapid development in representation learning techniques such as deep neural networks and the availability of large-scale, well-annotated medical imaging datasets have to a rapid increase in the use of supervised machine learning in the 3D medical image analysis and diagnosis. In particular, deep convolutional neural networks (D-CNNs) have been key players and were adopted by the medical imaging community to assist clinicians and medical experts in disease diagnosis and treatment. However, training and inferencing deep neural networks such as D-CNN on high-resolution 3D volumes of Computed Tomography (CT) scans for diagnostic tasks pose formidable computational challenges. This challenge raises the need of developing deep learning-based approaches that are robust in learning representations in 2D images, instead 3D scans. In this work, we propose for the first time a new strategy to train \emph{slice-level} classifiers on CT scans based on the descriptors of the adjacent slices along the axis. In particular, each of which is extracted through a convolutional neural network (CNN). This method is applicable to CT datasets with per-slice labels such as the RSNA Intracranial Hemorrhage (ICH) dataset, which aims to predict the presence of ICH and classify it into 5 different sub-types. We obtain a single model in the top 4% best-performing solutions of the RSNA ICH challenge, where model ensembles are allowed. Experiments also show that the proposed method significantly outperforms the baseline model on CQ500. The proposed method is general and can be applied to other 3D medical diagnosis tasks such as MRI imaging. To encourage new advances in the field, we will make our codes and pre-trained model available upon acceptance of the paper. | 翻訳日:2023-04-19 18:42:16 公開日:2023-04-17 |
# pointnorm: デュアル正規化はポイントクラウド分析に必要なすべてです PointNorm: Dual Normalization is All You Need for Point Cloud Analysis ( http://arxiv.org/abs/2207.06324v4 ) ライセンス: Link先を確認 | Shen Zheng, Jinqian Pan, Changjie Lu, Gaurav Gupta | (参考訳) ポイントクラウド分析は、ポイントクラウドデータ構造の不規則性のために困難である。
既存の作品では、通常はpointnet++のアドホックなサンプリンググループ化操作を使用し、さらに洗練されたローカルおよび/またはグローバルな特徴抽出器を使用してポイントクラウドの3d幾何学を利用する。
残念ながら、サンプリンググループ化操作は点雲の不規則性に対処しないが、複雑な局所的および/またはグローバルな特徴抽出器は計算効率を低下させた。
本稿では,サンプリンググループ化後の新しいDualNormモジュールを導入し,不規則問題に効果的かつ効率的に対処する。
デュアルノーム加群は、サンプリングされた点に対する群点の正規化を行う点正規化と、サンプリングされた点からグループ化された点への逆点正規化からなる。
提案するフレームワークであるPointNormは、ローカル平均およびグローバル標準偏差を利用して、ローカルおよびグローバル両方の特徴の恩恵を受けながら、忠実な推論速度を維持している。
実験の結果,ModelNet40分類,ScanObjectNN分類,ShapeNetPart Part Segmentation,S3DIS Semantic Segmentationの精度と効率が向上した。
コードはhttps://github.com/ShenZheng2000/PointNorm-for-Point-Cloud-Analysisで公開されている。 Point cloud analysis is challenging due to the irregularity of the point cloud data structure. Existing works typically employ the ad-hoc sampling-grouping operation of PointNet++, followed by sophisticated local and/or global feature extractors for leveraging the 3D geometry of the point cloud. Unfortunately, the sampling-grouping operations do not address the point cloud's irregularity, whereas the intricate local and/or global feature extractors led to poor computational efficiency. In this paper, we introduce a novel DualNorm module after the sampling-grouping operation to effectively and efficiently address the irregularity issue. The DualNorm module consists of Point Normalization, which normalizes the grouped points to the sampled points, and Reverse Point Normalization, which normalizes the sampled points to the grouped points. The proposed framework, PointNorm, utilizes local mean and global standard deviation to benefit from both local and global features while maintaining a faithful inference speed. Experiments show that we achieved excellent accuracy and efficiency on ModelNet40 classification, ScanObjectNN classification, ShapeNetPart Part Segmentation, and S3DIS Semantic Segmentation. Code is available at https://github.com/ShenZheng2000/PointNorm-for-Point-Cloud-Analysis. | 翻訳日:2023-04-19 18:39:57 公開日:2023-04-17 |
# エンティティ解決アルゴリズムのパフォーマンスの推定: PatentsView.orgから学んだ教訓 Estimating the Performance of Entity Resolution Algorithms: Lessons Learned Through PatentsView.org ( http://arxiv.org/abs/2210.01230v2 ) ライセンス: Link先を確認 | Olivier Binette, Sokhna A York, Emma Hickerson, Youngsoo Baek, Sarvo Madhavan, Christina Jones | (参考訳) 本稿では,エンティティ解決アルゴリズムの新しい評価手法を提案する。
米国特許商標庁の特許データ調査ツールであるPatentsView.orgが、エンティティ解決アルゴリズムを用いて特許発明者を曖昧にしている。
サンプリングバイアスを考慮したデータ収集手法と性能推定器を提供する。
当社のアプローチはシンプルで実践的で原則的です -- patentsViewの曖昧なパフォーマンスの最初の代表的な絵を描くことができる重要な特徴です。
このアプローチは、PatentsViewのユーザにデータの信頼性を知らせ、競合する曖昧性アルゴリズムの比較を可能にするために使用される。 This paper introduces a novel evaluation methodology for entity resolution algorithms. It is motivated by PatentsView.org, a U.S. Patents and Trademarks Office patent data exploration tool that disambiguates patent inventors using an entity resolution algorithm. We provide a data collection methodology and tailored performance estimators that account for sampling biases. Our approach is simple, practical and principled -- key characteristics that allow us to paint the first representative picture of PatentsView's disambiguation performance. This approach is used to inform PatentsView's users of the reliability of the data and to allow the comparison of competing disambiguation algorithms. | 翻訳日:2023-04-19 18:34:29 公開日:2023-04-17 |
# スケールと一般化の異なるマルチタスクデータに関するオフラインQ-Learning Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes ( http://arxiv.org/abs/2211.15144v2 ) ライセンス: Link先を確認 | Aviral Kumar, Rishabh Agarwal, Xinyang Geng, George Tucker, Sergey Levine | (参考訳) オフライン強化学習(rl)の可能性は、大規模な異種データセットでトレーニングされた高容量モデルが、視覚とnlpの類似の進歩と同様に、広く一般化されるエージェントにつながる可能性があることである。
しかし、最近の研究は、オフラインのRLメソッドはモデルキャパシティのスケールアップに固有の課題に直面していると主張している。
これらの研究から得られた知見をもとに,先行設計の選択肢を再検討し,適切な選択を行うことでそれを見出す。resnet,クロスエントロピーベースの分散バックアップ,機能正規化,オフラインのq-learningアルゴリズムは,モデルキャパシティでスケールする強力なパフォーマンスを示す。
マルチタスクのAtariをスケーリングと一般化のためのテストベッドとして使用し、最大8000万のパラメータネットワークを用いて40ゲームに1つのポリシーをトレーニングし、モデル性能がキャパシティと良好にスケールできることを発見した。
以前の作業とは対照的に、大規模な(4mのトランジッションで完全にトレーニングされた場合でも、データセットのパフォーマンス以上を推定する(人間レベルのパフォーマンスは51%)。
回帰条件付き教師付きアプローチと比較して、オフラインのq-learningはモデルキャパシティと同様にスケールし、特にデータセットが最適でない場合、パフォーマンスが向上する。
最後に、多様なデータセットを持つオフラインのq-learningは、新しいゲームへの迅速な移行とトレーニングゲームの新たなバリエーションに関する高速なオンライン学習を促進する強力な表現を学習するのに十分であることを示し、既存の最先端表現学習アプローチよりも改善する。 The potential of offline reinforcement learning (RL) is that high-capacity models trained on large, heterogeneous datasets can lead to agents that generalize broadly, analogously to similar advances in vision and NLP. However, recent works argue that offline RL methods encounter unique challenges to scaling up model capacity. Drawing on the learnings from these works, we re-examine previous design choices and find that with appropriate choices: ResNets, cross-entropy based distributional backups, and feature normalization, offline Q-learning algorithms exhibit strong performance that scales with model capacity. Using multi-task Atari as a testbed for scaling and generalization, we train a single policy on 40 games with near-human performance using up-to 80 million parameter networks, finding that model performance scales favorably with capacity. In contrast to prior work, we extrapolate beyond dataset performance even when trained entirely on a large (400M transitions) but highly suboptimal dataset (51% human-level performance). Compared to return-conditioned supervised approaches, offline Q-learning scales similarly with model capacity and has better performance, especially when the dataset is suboptimal. Finally, we show that offline Q-learning with a diverse dataset is sufficient to learn powerful representations that facilitate rapid transfer to novel games and fast online learning on new variations of a training game, improving over existing state-of-the-art representation learning approaches. | 翻訳日:2023-04-19 18:15:35 公開日:2023-04-17 |
# 波動流:滑らかな正規化流れにおける境界条件の強制とフェルミオン波動関数への応用 Waveflow: Enforcing boundary conditions in smooth normalizing flows with application to fermionic wave functions ( http://arxiv.org/abs/2211.14839v2 ) ライセンス: Link先を確認 | Luca Thiede, Chong Sun, Al\'an Aspuru-Guzik | (参考訳) 本稿では,まず,流れの正規化というトポロジー問題を扱う新しい方法を提案する。
次に, 境界条件のクラスを正規化フローに強制する手法について述べる。
第三に、以前の研究と同様、スプラインを利用するI-Spline bijectionを導入するが、これらの作品とは対照的に、任意に微分できることが多い。
そして最後に,これらの手法を用いて,mmcや正規化定数の推定を必要とせず,変動量子モンテカルロを用いて効率的に学習できる実空間における1次元多粒子フェルミオン波動関数のアンサッツであるwaveflowを作成する。
フェルミオン波動関数の必要な反対称性を強制するために、置換群の基本領域のみに正規化フローを訓練し、境界値問題に効果的に還元する。 In this paper, we introduce four main novelties: First, we present a new way of handling the topology problem of normalizing flows. Second, we describe a technique to enforce certain classes of boundary conditions onto normalizing flows. Third, we introduce the I-Spline bijection, which, similar to previous work, leverages splines but, in contrast to those works, can be made arbitrarily often differentiable. And finally, we use these techniques to create Waveflow, an Ansatz for the one-space-dimensional multi-particle fermionic wave functions in real space based on normalizing flows, that can be efficiently trained with Variational Quantum Monte Carlo without the need for MCMC nor estimation of a normalization constant. To enforce the necessary anti-symmetry of fermionic wave functions, we train the normalizing flow only on the fundamental domain of the permutation group, which effectively reduces it to a boundary value problem. | 翻訳日:2023-04-19 18:15:05 公開日:2023-04-17 |
# マルチブランチアーキテクチャによる個人化フェデレーション学習 Personalized Federated Learning with Multi-branch Architecture ( http://arxiv.org/abs/2211.07931v2 ) ライセンス: Link先を確認 | Junki Mori, Tomoyuki Yoshiyama, Furukawa Ryo, Isamu Teranishi | (参考訳) Federated Learning(FL)は、複数のクライアントが相互に生データを公開することなく、協力的にモデルをトレーニングできる分散機械学習技術である。
従来のFLは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルを訓練するが、クライアント間の統計データの異質性は、各クライアントのデータに対して優れたパフォーマンスでパーソナライズされたモデルを訓練するパーソナライズされたFL(PFL)の開発につながっている。
PFLの主な課題は、クライアントが複雑な分散からのデータを持ち、お互いの分散を判断できない状況において、類似したデータを持つクライアントがより協力できるようにする方法である。
本稿では、ニューラルネットワークの各レイヤを複数のブランチに分割し、各ブランチにクライアント固有の重みを割り当てることでパーソナライズを実現するマルチブランチアーキテクチャを用いた新しいPFL手法(pFedMB)を提案する。
また,通信効率とモデル性能を向上させるために,各ブランチに割り当てられたクライアント固有の重み付けによる重み付け平均値でグローバルに更新する集約手法を設計した。
pFedMBは単純だが、各ブランチに割り当てられた重みを調整することで、各クライアントが同様のクライアントと知識を共有するのを容易にする。
CIFAR10およびCIFAR100データセットを用いて,pFedMBが最先端のPFL法よりも優れた性能を示すことを示す。 Federated learning (FL) is a decentralized machine learning technique that enables multiple clients to collaboratively train models without requiring clients to reveal their raw data to each other. Although traditional FL trains a single global model with average performance among clients, statistical data heterogeneity across clients has resulted in the development of personalized FL (PFL), which trains personalized models with good performance on each client's data. A key challenge with PFL is how to facilitate clients with similar data to collaborate more in a situation where each client has data from complex distribution and cannot determine one another's distribution. In this paper, we propose a new PFL method (pFedMB) using multi-branch architecture, which achieves personalization by splitting each layer of a neural network into multiple branches and assigning client-specific weights to each branch. We also design an aggregation method to improve the communication efficiency and the model performance, with which each branch is globally updated with weighted averaging by client-specific weights assigned to the branch. pFedMB is simple but effective in facilitating each client to share knowledge with similar clients by adjusting the weights assigned to each branch. We experimentally show that pFedMB performs better than the state-of-the-art PFL methods using the CIFAR10 and CIFAR100 datasets. | 翻訳日:2023-04-19 18:14:27 公開日:2023-04-17 |
# オートエンコーダとSINDyアプローチによるパラメタライズドシステムの低次モデリング:周期解の継続 Reduced order modeling of parametrized systems through autoencoders and SINDy approach: continuation of periodic solutions ( http://arxiv.org/abs/2211.06786v2 ) ライセンス: Link先を確認 | Paolo Conti, Giorgio Gobat, Stefania Fresca, Andrea Manzoni, Attilio Frangi | (参考訳) 偏微分方程式(PDE)によって支配される複雑な現象の高精度なシミュレーションは、典型的には侵入法や高価な計算コストを必要とするが、制御パラメータと初期条件の複数組み合わせに対するPDEの定常解の近似が禁止される。
したがって、パラメータの異なる物理現象の動的特性を維持しつつ、正確だが高速な予測を可能にする効率的な縮小順序モデル(ROM)の構築が最重要となる。
本研究では,ROM構築と動的識別の低減を組み合わせたデータ駆動型非侵入型フレームワークを提案する。
提案手法は,非線形力学(SINDy)のパラメトリックスパース同定による自己エンコーダニューラルネットワークを利用して,低次元の動的モデルを構築する。
このモデルは、新しいパラメータインスタンスでフルタイムのソリューションを効率的に計算するためにクエリされ、継続アルゴリズムに直接供給される。
これらはシステムパラメータの関数として周期的定常応答の進化を追跡し、過渡位相の計算を避け、不安定性と分岐を検出することを目的としている。
削減されたダイナミックスの明示的でパラメトリズドなモデリングを特徴とし、提案したデータ駆動フレームワークは、時間とパラメータの両方に関して、顕著な一般化能力を示す。
構造力学および流体力学問題への応用は,提案手法の有効性と精度を示す。 Highly accurate simulations of complex phenomena governed by partial differential equations (PDEs) typically require intrusive methods and entail expensive computational costs, which might become prohibitive when approximating steady-state solutions of PDEs for multiple combinations of control parameters and initial conditions. Therefore, constructing efficient reduced order models (ROMs) that enable accurate but fast predictions, while retaining the dynamical characteristics of the physical phenomenon as parameters vary, is of paramount importance. In this work, a data-driven, non-intrusive framework which combines ROM construction with reduced dynamics identification, is presented. Starting from a limited amount of full order solutions, the proposed approach leverages autoencoder neural networks with parametric sparse identification of nonlinear dynamics (SINDy) to construct a low-dimensional dynamical model. This model can be queried to efficiently compute full-time solutions at new parameter instances, as well as directly fed to continuation algorithms. These aim at tracking the evolution of periodic steady-state responses as functions of system parameters, avoiding the computation of the transient phase, and allowing to detect instabilities and bifurcations. Featuring an explicit and parametrized modeling of the reduced dynamics, the proposed data-driven framework presents remarkable capabilities to generalize with respect to both time and parameters. Applications to structural mechanics and fluid dynamics problems illustrate the effectiveness and accuracy of the proposed method. | 翻訳日:2023-04-19 18:14:01 公開日:2023-04-17 |
# アルゴリズムで再訪した不安定な公式定理 The unstable formula theorem revisited via algorithms ( http://arxiv.org/abs/2212.05050v2 ) ライセンス: Link先を確認 | Maryanthe Malliaris, Shay Moran | (参考訳) 本稿では,理論の安定性に関するモデル理論に基づく基礎的結果の驚くべき相互作用について述べる。
具体的には、シェラの有名な不安定なフォーミュラ定理の完全なアルゴリズム類似体を開発し、アルゴリズム特性が無限に取って代わる。
これはいくつかの新しい定理と最近の研究に基づいている。
特に, 独立興味の学習モデルである「おそらく最終的に正しい」学習モデルを導入し, このモデルを用いてリトルストーン(安定)クラスを特徴付け, モデル理論における型定義可能性に類似した近似によるリトルストーンクラスを記述する。 This paper is about the surprising interaction of a foundational result from model theory about stability of theories, which seems to be inherently about the infinite, with algorithmic stability in learning. Specifically, we develop a complete algorithmic analogue of Shelah's celebrated Unstable Formula Theorem, with algorithmic properties taking the place of the infinite. This draws on several new theorems as well as much recent work. In particular we introduce a new ``Probably Eventually Correct'' learning model, of independent interest, and characterize Littlestone (stable) classes in terms of this model; and we describe Littlestone classes via approximations, by analogy to definability of types in model theory. | 翻訳日:2023-04-19 18:04:42 公開日:2023-04-17 |
# 意識は学習である: 結合によって学習する予測処理システムは、自身を意識として知覚するかもしれない Consciousness is learning: predictive processing systems that learn by binding may perceive themselves as conscious ( http://arxiv.org/abs/2301.07016v2 ) ライセンス: Link先を確認 | V.A. Aksyuk | (参考訳) 機械学習アルゴリズムは、特定の複雑な領域において超人的性能を達成した。
しかし、少数の例からオンラインを学び、ドメインをまたいで効率的に一般化することは、いまだにあり得ない。
人間では、そのような学習は宣言的な記憶形成を通じて進行し、意識と密接に関連している。
予測処理は、感覚データと行動制御の両方に深い知覚モデルを実装するものとして大脳皮質を理解するための原理的ベイズ推論フレームワークとして進歩してきた。
しかし、予測処理は、素早い構成学習や意識の謎に対する直接的な洞察をほとんど与えない。
本稿では,予測できない推論の階層的結合によるオンライン学習を行うことにより,単一事例からの知覚や行動に対する作業記憶を形成することにより,新たな状況下での予測処理システムを柔軟に一般化できることを示す。
このような作業記憶の内容は一元化しつつも差別化され、選択的注意によって維持され、マスキングの観察、先入観的統合、その他の意識研究のパラダイムケースと一致していると論じる。
複数の生存戦略と再生戦略を同時に実施する複雑な行動方針の強化学習に知覚的価値予測を用いることで、脳がどのように進化したかを説明する。
「意識体験」とは、意識のメタ問題に対する答えとして、そのような学習システムが自身の機能を表現する方法である。
提案手法は,機能バインディング,繰り返し処理,予測処理をグローバルワークスペースと自然に統一し,より少ない範囲において,意識の高次理論である。 Machine learning algorithms have achieved superhuman performance in specific complex domains. Yet learning online from few examples and efficiently generalizing across domains remains elusive. In humans such learning proceeds via declarative memory formation and is closely associated with consciousness. Predictive processing has been advanced as a principled Bayesian inference framework for understanding the cortex as implementing deep generative perceptual models for both sensory data and action control. However, predictive processing offers little direct insight into fast compositional learning or the mystery of consciousness. Here we propose that through implementing online learning by hierarchical binding of unpredicted inferences, a predictive processing system may flexibly generalize in novel situations by forming working memories for perceptions and actions from single examples, which can become short- and long-term declarative memories retrievable by associative recall. We argue that the contents of such working memories are unified yet differentiated, can be maintained by selective attention and are consistent with observations of masking, postdictive perceptual integration, and other paradigm cases of consciousness research. We describe how the brain could have evolved to use perceptual value prediction for reinforcement learning of complex action policies simultaneously implementing multiple survival and reproduction strategies. 'Conscious experience' is how such a learning system perceptually represents its own functioning, suggesting an answer to the meta problem of consciousness. Our proposal naturally unifies feature binding, recurrent processing, and predictive processing with global workspace, and, to a lesser extent, the higher order theories of consciousness. | 翻訳日:2023-04-19 17:57:27 公開日:2023-04-17 |
# ニューラルシンボリックコンピューティングのためのセマンティクスフレームワーク A Semantic Framework for Neural-Symbolic Computing ( http://arxiv.org/abs/2212.12050v2 ) ライセンス: Link先を確認 | Simon Odense, Artur d'Avila Garcez | (参考訳) AI、ニューラルネットワーク、シンボリックシステムに対する2つのアプローチは、AI問題に対して非常に成功している。
しかし、人間のような知能に必要な一般的な推論能力は達成できなかった。
これはそれぞれのアプローチに固有の弱点があるという主張がある。
幸いにも、これらの弱点は補完的なもので、ニューラルネットワークが抱える問題や逆転に象徴的なシステムが対応している。
ニューラルシンボリックAIの分野は、ニューラルネットワークとシンボリックAIを統合システムに組み合わせることで、この非対称性を活用しようとする。
これはしばしば、記号的知識をニューラルネットワークに符号化することで実現されている。
残念ながら、多くの異なる方法が提案されているが、それらを比較するための符号化の共通定義は存在しない。
我々は、神経シンボリックaiのためのセマンティックフレームワークを導入することで、この問題を正そうとしている。
このフレームワークの様々な形態の知識表現とニューラルネットワークのニューラルエンコーディングへの応用例と証明を多数提供している。
これらは、当初、異なるアプローチで、すべて、ニューラルネットワークの象徴的AIのセマンティックエンコーディングと呼ばれるフレームワークの正式な定義に該当することが示されている。 Two approaches to AI, neural networks and symbolic systems, have been proven very successful for an array of AI problems. However, neither has been able to achieve the general reasoning ability required for human-like intelligence. It has been argued that this is due to inherent weaknesses in each approach. Luckily, these weaknesses appear to be complementary, with symbolic systems being adept at the kinds of things neural networks have trouble with and vice-versa. The field of neural-symbolic AI attempts to exploit this asymmetry by combining neural networks and symbolic AI into integrated systems. Often this has been done by encoding symbolic knowledge into neural networks. Unfortunately, although many different methods for this have been proposed, there is no common definition of an encoding to compare them. We seek to rectify this problem by introducing a semantic framework for neural-symbolic AI, which is then shown to be general enough to account for a large family of neural-symbolic systems. We provide a number of examples and proofs of the application of the framework to the neural encoding of various forms of knowledge representation and neural network. These, at first sight disparate approaches, are all shown to fall within the framework's formal definition of what we call semantic encoding for neural-symbolic AI. | 翻訳日:2023-04-19 17:54:47 公開日:2023-04-17 |
# リー群とその同次空間上の定常核とガウス過程 II:非コンパクト対称空間 Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces II: non-compact symmetric spaces ( http://arxiv.org/abs/2301.13088v2 ) ライセンス: Link先を確認 | Iskander Azangulov, Andrei Smolensky, Alexander Terenin, Viacheslav Borovitskiy | (参考訳) ガウス過程は、機械学習における時空間モデルの最も重要なクラスであることは間違いない。
彼らはモデル化された関数に関する事前情報を符号化し、ベイズ学習の正確または近似に使用できる。
多くの応用、特に物理科学や工学において、地球統計学や神経科学などの分野において、対称性への不変性は考慮できる最も基本的な情報形式の一つである。
そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。
本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。
私たちの技術はそれを可能にします
i)共分散カーネルを計算し、
(ii)そのような空間上で定義される前ガウス過程及び後ガウス過程からのサンプルは、実際的に両方ある。
この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。
我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。 Gaussian processes are arguably the most important class of spatiotemporal models within machine learning. They encode prior information about the modeled function and can be used for exact or approximate Bayesian learning. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners. | 翻訳日:2023-04-19 17:44:58 公開日:2023-04-17 |
# AttMEMO : 大容量メモリシステムにおけるメモリ化による変圧器の高速化 AttMEMO : Accelerating Transformers with Memoization on Big Memory Systems ( http://arxiv.org/abs/2301.09262v2 ) ライセンス: Link先を確認 | Yuan Feng, Hyeran Jeon, Filip Blagojevic, Cyril Guyot, Qing Li, and Dong Li | (参考訳) トランスフォーマーモデルは、推論精度と推論スループットが優れているため人気がある。
しかし、変換器は計算集約的であり、長い推測時間を引き起こす。
トランスフォーマー推論アクセラレーションに関する既存の研究は、トランスフォーマーアーキテクチャの変更や特別なハードウェアの必要性によって生じる制限がある。
本稿では,上述の制約を伴わない変圧器の自己着脱機構の高速化にメモ化を利用する機会を明らかにする。
推論シーケンスにまたがる注意計算に高い類似性があるというユニークな観察に基づいて,新たに出現する巨大メモリシステムを活用したメモ化データベースを構築した。
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
また,メモリのコピーや不要なオーバーヘッドを回避するため,メモリマッピングや選択的メモ化といった手法も紹介する。
22%の推論遅延を平均(最大68%)で削減できるが、推論精度は無視できる。 Transformer models gain popularity because of their superior inference accuracy and inference throughput. However, the transformer is computation-intensive, causing a long inference time. The existing works on transformer inference acceleration have limitations caused by either the modification of transformer architectures or the need of specialized hardware. In this paper, we identify the opportunities of using memoization to accelerate the self-attention mechanism in transformers without the above limitations. Built upon a unique observation that there is rich similarity in attention computation across inference sequences, we build a memoization database that leverages the emerging big memory system. We introduce a novel embedding technique to find semantically similar inputs to identify computation similarity. We also introduce a series of techniques such as memory mapping and selective memoization to avoid memory copy and unnecessary overhead. We enable 22% inference-latency reduction on average (up to 68%) with negligible loss in inference accuracy. | 翻訳日:2023-04-19 17:44:38 公開日:2023-04-17 |
# 配電シフト時のモデル性能診断 Diagnosing Model Performance Under Distribution Shift ( http://arxiv.org/abs/2303.02011v3 ) ライセンス: Link先を確認 | Tiffany Tianhui Cai, Hongseok Namkoong, Steve Yadlowsky | (参考訳) 予測モデルは、トレーニングディストリビューションとは異なるターゲットディストリビューションにデプロイされた場合、パフォーマンスが良くない。
このような運用上の障害モードを理解するために,分散シフト分解 (disde) と呼ばれる手法を開発した。
我々の手法は性能低下を用語に分解する
1) 訓練の難易度が高まるが, 頻繁な実例の増加。
2)特徴と成果の関係の変化,及び
3) 訓練中の実例での成績不良や不注意。
これらの用語は、トレーニングとターゲットの間でy \mid x$の条件分布を変化させながら、y \mid x$の条件分布を固定し、y \mid x$の条件分布をx$で変更することで定義される。
これを実現するために、トレーニングとターゲットの両方で共通する値からなる$X$の仮説分布を定義し、$Y \mid X$と予測性能を比較するのが簡単である。
我々はこの仮説分布について再重み付け手法を用いて評価する。
実証的に、我々の方法がどのようにできるかを示す。
1)表型国勢調査データに基づく雇用予測のための配当シフトにおける潜在的なモデリング改善
2) 特定の領域適応手法が衛星画像分類のモデル性能を向上できない理由を説明する。 Prediction models can perform poorly when deployed to target distributions different from the training distribution. To understand these operational failure modes, we develop a method, called DIstribution Shift DEcomposition (DISDE), to attribute a drop in performance to different types of distribution shifts. Our approach decomposes the performance drop into terms for 1) an increase in harder but frequently seen examples from training, 2) changes in the relationship between features and outcomes, and 3) poor performance on examples infrequent or unseen during training. These terms are defined by fixing a distribution on $X$ while varying the conditional distribution of $Y \mid X$ between training and target, or by fixing the conditional distribution of $Y \mid X$ while varying the distribution on $X$. In order to do this, we define a hypothetical distribution on $X$ consisting of values common in both training and target, over which it is easy to compare $Y \mid X$ and thus predictive performance. We estimate performance on this hypothetical distribution via reweighting methods. Empirically, we show how our method can 1) inform potential modeling improvements across distribution shifts for employment prediction on tabular census data, and 2) help to explain why certain domain adaptation methods fail to improve model performance for satellite image classification. | 翻訳日:2023-04-19 17:37:14 公開日:2023-04-17 |
# 第5回愛着行動分析コンペティションにおける大規模事前学習モデルを用いたマルチモーダル顔行動単位検出 Multi-modal Facial Action Unit Detection with Large Pre-trained Models for the 5th Competition on Affective Behavior Analysis in-the-wild ( http://arxiv.org/abs/2303.10590v3 ) ライセンス: Link先を確認 | Yufeng Yin, Minh Tran, Di Chang, Xinrui Wang, Mohammad Soleymani | (参考訳) 顔面行動単位検出は表情分析において重要な課題として現れており、口唇の締め付けや頬の上げなど、特定の定義済みの客観的な表情を検出することを目的としている。
本稿では,ABAW (Affective Behavior Analysis in-wild) 2023 Competition for AU Detectionについて述べる。
本研究では,大規模事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔行動単位検出のためのマルチモーダル手法を提案する。
視覚的特徴抽出のための高品質な詳細を提供するために,超解像度と顔アライメントをトレーニングデータに適用し,潜在的な性能向上を示す。
第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。 Facial action unit detection has emerged as an important task within facial expression analysis, aimed at detecting specific pre-defined, objective facial expressions, such as lip tightening and cheek raising. This paper presents our submission to the Affective Behavior Analysis in-the-wild (ABAW) 2023 Competition for AU detection. We propose a multi-modal method for facial action unit detection with visual, acoustic, and lexical features extracted from the large pre-trained models. To provide high-quality details for visual feature extraction, we apply super-resolution and face alignment to the training data and show potential performance gain. Our approach achieves the F1 score of 52.3% on the official validation set of the 5th ABAW Challenge. | 翻訳日:2023-04-19 17:27:09 公開日:2023-04-17 |
# クイック・デンス・リトリーバーとKALE:非対称二重エンコーダ用エンベディングのトレーニング・コールバック・リブラーアライメント Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders ( http://arxiv.org/abs/2304.01016v2 ) ライセンス: Link先を確認 | Daniel Campos, Alessandro Magnani, and ChengXiang Zhai | (参考訳) 本稿では,コンテクストとクエリエンコーダ間の構造的圧縮とモデルサイズ非対称性を導入することで,言語モデルに基づく高密度検索システムの推論遅延を改善する問題を考える。
まず,MSMARCO,Natural Questions,TriviaQA,SQUAD,SCIFACTに対する事前および後圧縮の影響について検討し,高密度検索における二重エンコーダの非対称性が推論効率の向上につながることを示した。
そこで我々はKulback Leibler Alignment of Embeddings (KALE)を紹介した。これは学習後にクエリエンコーダをプルーニング・アライメントすることで、高密度検索手法の推論効率を高めるための効率的かつ正確な方法である。
具体的には、双方向エンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。 In this paper, we consider the problem of improving the inference latency of language model-based dense retrieval systems by introducing structural compression and model size asymmetry between the context and query encoders. First, we investigate the impact of pre and post-training compression on the MSMARCO, Natural Questions, TriviaQA, SQUAD, and SCIFACT, finding that asymmetry in the dual encoders in dense retrieval can lead to improved inference efficiency. Knowing this, we introduce Kullback Leibler Alignment of Embeddings (KALE), an efficient and accurate method for increasing the inference efficiency of dense retrieval methods by pruning and aligning the query encoder after training. Specifically, KALE extends traditional Knowledge Distillation after bi-encoder training, allowing for effective query encoder compression without full retraining or index generation. Using KALE and asymmetric training, we can generate models which exceed the performance of DistilBERT despite having 3x faster inference. | 翻訳日:2023-04-19 17:19:22 公開日:2023-04-17 |
# EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証 EgoTV: Egocentric Task Verification from Natural Language Task Descriptions ( http://arxiv.org/abs/2303.16975v3 ) ライセンス: Link先を確認 | Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai | (参考訳) 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。
EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を含むマルチステップタスクに加えて、タスクの達成方法に関する部分的な詳細のみを含む抽象化されたタスク記述が含まれている。
また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。
EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。
コントリビューションには、EgoTVおよびCTVデータセットのリリースと、エゴセントリック補助剤の研究のためのNSGモデルが含まれている。 To enable progress towards egocentric agents capable of understanding everyday tasks specified in natural language, we propose a benchmark and a synthetic dataset called Egocentric Task Verification (EgoTV). EgoTV contains multi-step tasks with multiple sub-task decompositions, state changes, object interactions, and sub-task ordering constraints, in addition to abstracted task descriptions that contain only partial details about ways to accomplish a task. We also propose a novel Neuro-Symbolic Grounding (NSG) approach to enable the causal, temporal, and compositional reasoning of such tasks. We demonstrate NSG's capability towards task tracking and verification on our EgoTV dataset and a real-world dataset derived from CrossTask (CTV). Our contributions include the release of the EgoTV and CTV datasets, and the NSG model for future research on egocentric assistive agents. | 翻訳日:2023-04-19 17:17:41 公開日:2023-04-17 |
# samが医用画像に出会うとき:多相肝腫瘍分画におけるsegment anything model(sam)の検討 When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation ( http://arxiv.org/abs/2304.08506v1 ) ライセンス: Link先を確認 | Chuanfei Hu, Xinde Li | (参考訳) 大規模なサンプルなしでセグメンテーションを学ぶことは、人間の固有の能力である。
最近、segment anything model (sam)は、コンピュータビジョンコミュニティからかなりの注目を集めるゼロショット画像のセグメンテーションを実行する。
本稿では,医療画像解析におけるSAMの有用性,特にMPLiTS(multi-phase liver tumor segmentation)について,プロンプト,データ分解能,位相の観点から検討する。
実験の結果、SAMと期待性能の間に大きなギャップがあることが示されている。
幸いなことに、質的な結果はSAMがインタラクティブな医療画像セグメンテーションのコミュニティにとって強力なアノテーションツールであることを示している。 Learning to segmentation without large-scale samples is an inherent capability of human. Recently, Segment Anything Model (SAM) performs the significant zero-shot image segmentation, attracting considerable attention from the computer vision community. Here, we investigate the capability of SAM for medical image analysis, especially for multi-phase liver tumor segmentation (MPLiTS), in terms of prompts, data resolution, phases. Experimental results demonstrate that there might be a large gap between SAM and expected performance. Fortunately, the qualitative results show that SAM is a powerful annotation tool for the community of interactive medical image segmentation. | 翻訳日:2023-04-19 17:02:03 公開日:2023-04-17 |
# シーケンシャル転送最適化のためのスケーラブルなテスト問題生成器 A Scalable Test Problem Generator for Sequential Transfer Optimization ( http://arxiv.org/abs/2304.08503v1 ) ライセンス: Link先を確認 | Xiaoming Xue and Cuie Yang and Liang Feng and Kai Zhang and Linqi Song and Kay Chen Tan | (参考訳) データベースに格納された事前解決された最適化タスクから得られた知識を活用し、最適化性能の向上を目指すシーケンシャル転送最適化(sto)が近年研究の注目を集めている。
しかし、アルゴリズム設計の進歩にもかかわらず、STOの試験問題は十分に設計されていない。
しばしば、それらは同じ最適性を持つ他のベンチマーク関数によってランダムに組み立てられるか、あるいは限られたバリエーションを示す実用的な問題から生成される。
これらの問題におけるソースとターゲットタスクの最適解の間の関係は手動で構成され、従って単調であり、現実世界の問題の多様な関係を表現する能力を制限する。
したがって、これらの問題に対する多くのアルゴリズムによる有望な結果は非常に偏りがあり、他の問題への一般化が困難である。
そこで我々はまず,STO問題(STOP)を特徴付けるための初歩的な概念をいくつか紹介し,従来の研究で見過ごされた重要な問題,すなわち,ソースの最適性と目標タスクの関係を定量的に記述する類似性分布を提示する。
次に,汎用設計ガイドラインと拡張性に優れた問題生成器を提案する。
具体的には、パラメータ化密度関数を変更することで、問題の類似度分布を体系的にカスタマイズすることができ、現実世界の問題の多様な類似性関係に対する幅広い表現が可能となる。
最後に、12個のSTOPからなるベンチマークスイートを、異なるSTOアルゴリズムを比較するためのアリーナとして機能するジェネレータを用いて開発する。
ベンチマークスイートのソースコードはhttps://github.com/xminghsueh/stopにある。 Sequential transfer optimization (STO), which aims to improve optimization performance by exploiting knowledge captured from previously-solved optimization tasks stored in a database, has been gaining increasing research attention in recent years. However, despite significant advancements in algorithm design, the test problems in STO are not well designed. Oftentimes, they are either randomly assembled by other benchmark functions that have identical optima or are generated from practical problems that exhibit limited variations. The relationships between the optimal solutions of source and target tasks in these problems are manually configured and thus monotonous, limiting their ability to represent the diverse relationships of real-world problems. Consequently, the promising results achieved by many algorithms on these problems are highly biased and difficult to be generalized to other problems. In light of this, we first introduce a few rudimentary concepts for characterizing STO problems (STOPs) and present an important problem feature overlooked in previous studies, namely similarity distribution, which quantitatively delineates the relationship between the optima of source and target tasks. Then, we propose general design guidelines and a problem generator with superior extendibility. Specifically, the similarity distribution of a problem can be systematically customized by modifying a parameterized density function, enabling a broad spectrum of representation for the diverse similarity relationships of real-world problems. Lastly, a benchmark suite with 12 individual STOPs is developed using the proposed generator, which can serve as an arena for comparing different STO algorithms. The source code of the benchmark suite is available at https://github.com/XmingHsueh/STOP. | 翻訳日:2023-04-19 17:01:50 公開日:2023-04-17 |
# CyFormer: サイクルアテンションによるリチウムイオン電池の正確な状態予測 CyFormer: Accurate State-of-Health Prediction of Lithium-Ion Batteries via Cyclic Attention ( http://arxiv.org/abs/2304.08502v1 ) ライセンス: Link先を確認 | Zhiqiang Nie, Jiankun Zhao, Qicheng Li, Yong Qin | (参考訳) リチウムイオン電池の健康状態(SoH)を予測することは、電気自動車のバッテリー管理システムの基本課題である。
過去の高齢化データに基づいて将来のSoHを推定することを目的としている。
既存のディープラーニング手法のほとんどは、フィルタベースの特徴抽出器(cnnやカルマンフィルタなど)とリカレント時系列モデルに依存している。
効率的ではあるが、それらは概して循環的な特徴や、トレーニングとテストバッテリーのドメインギャップを無視している。
そこで本研究では, 変圧器を用いた周期時間列モデルであるCyFormerを提案する。
従来のCNN-RNN構造の代わりにエンコーダ・デコーダアーキテクチャを採用する。
エンコーダでは、列方向および列方向の注意ブロックが、サイクル内およびサイクル間接続を効果的に捕捉し、循環的特徴を抽出する。
デコーダでは、SoHがこれらの機能にクロスアタッチして最終的な予測を形成する。
さらに、トレーニングセットとテストセットの間のドメイン間ギャップを狭めるために、転校学習戦略も活用する。
具体的には、微調整を用いて、モデルを目標の作業条件にシフトする。
最後に, プルーニングによりモデルをより効率的にした。
実験の結果,試験電池の精細調整のためのデータはわずか10\%で0.75\%のmaeを達成し,従来の方法を大きく上回った。
本手法は,全周期時間列予測タスクに対する潜在的解決策を提供する。 Predicting the State-of-Health (SoH) of lithium-ion batteries is a fundamental task of battery management systems on electric vehicles. It aims at estimating future SoH based on historical aging data. Most existing deep learning methods rely on filter-based feature extractors (e.g., CNN or Kalman filters) and recurrent time sequence models. Though efficient, they generally ignore cyclic features and the domain gap between training and testing batteries. To address this problem, we present CyFormer, a transformer-based cyclic time sequence model for SoH prediction. Instead of the conventional CNN-RNN structure, we adopt an encoder-decoder architecture. In the encoder, row-wise and column-wise attention blocks effectively capture intra-cycle and inter-cycle connections and extract cyclic features. In the decoder, the SoH queries cross-attend to these features to form the final predictions. We further utilize a transfer learning strategy to narrow the domain gap between the training and testing set. To be specific, we use fine-tuning to shift the model to a target working condition. Finally, we made our model more efficient by pruning. The experiment shows that our method attains an MAE of 0.75\% with only 10\% data for fine-tuning on a testing battery, surpassing prior methods by a large margin. Effective and robust, our method provides a potential solution for all cyclic time sequence prediction tasks. | 翻訳日:2023-04-19 17:01:26 公開日:2023-04-17 |
# 単段拡散NeRF : 3次元生成と再構成への統一的アプローチ Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction ( http://arxiv.org/abs/2304.06714v2 ) ライセンス: Link先を確認 | Hansheng Chen, Jiatao Gu, Anpei Chen, Wei Tian, Zhuowen Tu, Lingjie Liu, Hao Su | (参考訳) 3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
多くのタスク固有の手法にもかかわらず、包括的なモデルの開発は依然として困難である。
本稿では,様々な物体の多視点画像からニューラルレイディアンス場(NeRF)の一般化を学習するために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
これまでの研究では、事前訓練されたNeRFを実データとして利用して拡散モデルを訓練してきた。
そこで本研究では,nrfオートデコーダと潜在拡散モデルを同時に最適化し,可視性の低いビューからでも同時3次元再構成と事前学習を実現する,エンドツーエンドの目標を持つ新しい単段階学習パラダイムを提案する。
実験時には, 未条件発生前の拡散を直接サンプリングしたり, 未確認物体の任意の観測と組み合わせてNeRF再構成を行うことができる。
SSDNeRFは、非条件生成および単一/スパースビュー3D再構成において、主要なタスク固有手法に匹敵するロバストな結果を示す。 3D-aware image synthesis encompasses a variety of tasks, such as scene generation and novel view synthesis from images. Despite numerous task-specific methods, developing a comprehensive model remains challenging. In this paper, we present SSDNeRF, a unified approach that employs an expressive diffusion model to learn a generalizable prior of neural radiance fields (NeRF) from multi-view images of diverse objects. Previous studies have used two-stage approaches that rely on pretrained NeRFs as real data to train diffusion models. In contrast, we propose a new single-stage training paradigm with an end-to-end objective that jointly optimizes a NeRF auto-decoder and a latent diffusion model, enabling simultaneous 3D reconstruction and prior learning, even from sparsely available views. At test time, we can directly sample the diffusion prior for unconditional generation, or combine it with arbitrary observations of unseen objects for NeRF reconstruction. SSDNeRF demonstrates robust results comparable to or better than leading task-specific methods in unconditional generation and single/sparse-view 3D reconstruction. | 翻訳日:2023-04-19 16:58:50 公開日:2023-04-17 |
# 白色雑音と損失を考慮した投影計測の適合性 Compatibility of projective measurements subject to white noise and loss ( http://arxiv.org/abs/2304.08548v1 ) ライセンス: Link先を確認 | Pavel Sekatski | (参考訳) 2つ以上の量子測定が不完全さに苦しむと、それらの非互換性を失うことが知られている。
有限次元 d の量子系に対して、ホワイトノイズと損失を受ける全ての射影測定の不整合性を研究する。
我々は、この一連の測定が可視性$p$と効率$\eta$という観点で互換性を持つために必要な条件を導出する。 It is well known that when two or more quantum measurements suffer from imperfections they may lose their incompatibility. For a quantum system of finite dimension d we study the incompatibility of all projective measurements subjected to white noise and loss. We derive a necessary and sufficient conditions for this set of measurements to becomes compatible in terms of their visibility $p$ and efficiency $\eta$. | 翻訳日:2023-04-19 16:51:14 公開日:2023-04-17 |
# 古典・量子マルチパラメータセンシングのための新しいカスケードアーキテクチャ New Cascaded Architecture for Classical and Quantum Multiparameter Sensing ( http://arxiv.org/abs/2304.08545v1 ) ライセンス: Link先を確認 | Gregory Krueper, Lior Cohen, Juliet T. Gopinath | (参考訳) 本稿では,自由空間,光ファイバ,オンチップに実装可能な,量子エンハンス型多パラメータ光位相センシングの革新的な概念を提案する。
我々の測定可能な位相は連続またはカスケードであり、単一の入力と出力しか持たない位置の関数として測定できる。
我々は最大20段階までモデル化し,追加フェーズの電力要求のニアリニアスケーリングを示す。
この手法は、マルチパラメータ量子メートル法における新しいパラダイムを表し、リモートセンシング、通信、地球物理学に応用できる。 We present an innovative concept for quantum-enhanced multiparameter optical phase sensing that can be implemented in free space, optical fiber or on-chip. Our measurable phases are in series, or cascaded, enabling measurements as a function of position with only a single input and output. We have modeled up to 20 phases, and fitting shows near-linear scaling of the power requirements for additional phases. This novel approach represents a new paradigm in multiparameter quantum metrology, and can be applied to remote sensing, communications, and geophysics. | 翻訳日:2023-04-19 16:51:08 公開日:2023-04-17 |
# 位置の相対論的確率密度 Relativistic probability densities for location ( http://arxiv.org/abs/2304.08540v1 ) ライセンス: Link先を確認 | Joshua G. Fenwick, Rainer Dick | (参考訳) 量子力学の基本原理としてボルン則を定めれば、相対論的粒子に対しても正規化可能な波動関数の存在が求められる。
実際、正規化k空間振幅のフーリエ変換は、局所運動量擬密度からエネルギーと運動量の標準k空間期待値を再現する正規化x空間波パケットを生成する。
しかし、ボゾン場の場合、波状パケットは対応する相対論的量子場と非局所的に関連しているため、正準局所エネルギー-運動量密度は擬密度と異なり、波状パケットの点で非局所的に現れる。
我々は、無質量クライン・ゴードン場における正準エネルギー密度、正準電荷密度、エネルギー擬密度とボルン密度の関係について検討した。
非局所的な数学的関係にもかかわらず、それらの極大は共通の位置の不確実性である$\delta x$ を超えて逸脱しないという意味で相互に局所的である。
実際、正規化された量子状態が粒子のような位置信号を生成すると期待される場合、それらは実質的に区別がつかない。
また、結果を質量のないディラックフィールドに翻訳します。
以上の結果から, 正規化エネルギー密度はボソンの位置に対して適切な尺度であり, 正規化電荷密度はフェルミオンの適切な尺度であることが示された。 Imposing the Born rule as a fundamental principle of quantum mechanics would require the existence of normalizable wave functions also for relativistic particles. Indeed, the Fourier transforms of normalized k-space amplitudes yield normalized x-space wave packets which reproduce the standard k-space expectation values for energy and momentum from local momentum pseudo-densities. However, in the case of bosonic fields, the wave packets are nonlocally related to the corresponding relativistic quantum fields, and therefore the canonical local energy-momentum densities differ from the pseudo-densities and appear nonlocal in terms of the wave packets. We examine the relation between the canonical energy density, the canonical charge density, the energy pseudo-density, and the Born density for the massless free Klein-Gordon field. We find that those four proxies for particle location are tantalizingly close even in this extremely relativistic case: In spite of their nonlocal mathematical relations, they are mutually local in the sense that their maxima do not deviate beyond a common position uncertainty $\Delta x$. Indeed, they are practically indistinguishable in cases where we would expect a normalized quantum state to produce particle-like position signals, viz. if we are observing quanta with momenta $p\gg\Delta p\ge\hbar/2\Delta x$. We also translate our results to massless Dirac fields. Our results confirm and illustrate that the normalized energy density provides a suitable measure for positions of bosons, whereas normalized charge density provides a suitable measure for fermions. | 翻訳日:2023-04-19 16:50:59 公開日:2023-04-17 |
# シンプレクティック幾何学と回路量子化 Symplectic geometry and circuit quantization ( http://arxiv.org/abs/2304.08531v1 ) ライセンス: Link先を確認 | Andrew Osborne, Trevyn Larson, Sarah Jones, Ray W. Simmonds, Andr\'as Gyenis, Andrew Lucas | (参考訳) 回路量子化は、高い精度で量子回路の挙動を記述する非常に成功した理論である。
最も広く使われている回路量子化のアプローチは、磁束または回路内の電荷が自由度である古典的なラグランジアンを導入することである。
非線形回路要素(ジョセフソン接合や量子位相スリップなど)を組み合わせることで、標準ラグランジアン記述(したがって標準量子化法)が存在しない回路を構築することができる。
シンプレクティック幾何学とグラフ理論の数学に着想を得て、この問題に取り組み、非散逸的電磁回路のハミルトン的定式化を示す。
結果として得られる回路量子化の手順は、回路要素が線形か非線形か、あるいは回路が外部バイアスによって駆動されるかに依存しない。
本稿では,従来の手法では量子化できない回路を含む,回路の量子化のための効率的なアルゴリズムを提案する。 Circuit quantization is an extraordinarily successful theory that describes the behavior of quantum circuits with high precision. The most widely used approach of circuit quantization relies on introducing a classical Lagrangian whose degrees of freedom are either magnetic fluxes or electric charges in the circuit. By combining nonlinear circuit elements (such as Josephson junctions or quantum phase slips), it is possible to build circuits where a standard Lagrangian description (and thus the standard quantization method) does not exist. Inspired by the mathematics of symplectic geometry and graph theory, we address this challenge, and present a Hamiltonian formulation of non-dissipative electrodynamic circuits. The resulting procedure for circuit quantization is independent of whether circuit elements are linear or nonlinear, or if the circuit is driven by external biases. We explain how to re-derive known results from our formalism, and provide an efficient algorithm for quantizing circuits, including those that cannot be quantized using existing methods. | 翻訳日:2023-04-19 16:50:33 公開日:2023-04-17 |
# 資源配分におけるバランスの確保と効率性:福祉プログラムの意識向上を目的としたオンライン広告を事例として Popular Support for Balancing Equity and Efficiency in Resource Allocation: A Case Study in Online Advertising to Increase Welfare Program Awareness ( http://arxiv.org/abs/2304.08530v1 ) ライセンス: Link先を確認 | Allison Koenecke, Eric Giannella, Robb Willer, Sharad Goel | (参考訳) 限られたリソースの供給をアルゴリズム的に最適化することは、医療から融資まで、ドメイン間で共通している。
最適化は効率的なリソース割り当てにつながるが、追加の監視なしにデプロイすれば、不平等も悪化する。
許容できる効率と等価性のトレードオフに関する一般的な好みについてはほとんど知られていないため、コミュニティのニーズや欲求に反応するアルゴリズムを設計することは困難である。
本稿では、カリフォルニアの栄養補助プログラム(SNAP、以前はフードスタンプと呼ばれていた)の応用プロセスを効率化するオンラインサービスであるGetCalFreshの文脈で、このトレードオフとコンコニタントな嗜好について検討する。
GetCalFreshは、多言語SNAPアプリケーションサービスの認知を高めるために、オンライン広告を運営している。
まず、広告が1ドルあたりの登録数を最大限に増やすように最適化された場合、非英語の言語広告のコストが比較的高いため、不釣り合いに少数のスペイン語話者が登録されることを実証する。
これらの結果を多種多様なアメリカ人の調査(N = 1,532)に組み込むと、効率性に加えて株式を評価することに対する広く一般的な支持が得られます。
これらの結果は、アルゴリズム資源割り当てで一般的な効率中心のパラダイムを再評価する近年の要求に反する。 Algorithmically optimizing the provision of limited resources is commonplace across domains from healthcare to lending. Optimization can lead to efficient resource allocation, but, if deployed without additional scrutiny, can also exacerbate inequality. Little is known about popular preferences regarding acceptable efficiency-equity trade-offs, making it difficult to design algorithms that are responsive to community needs and desires. Here we examine this trade-off and concomitant preferences in the context of GetCalFresh, an online service that streamlines the application process for California's Supplementary Nutrition Assistance Program (SNAP, formerly known as food stamps). GetCalFresh runs online advertisements to raise awareness of their multilingual SNAP application service. We first demonstrate that when ads are optimized to garner the most enrollments per dollar, a disproportionately small number of Spanish speakers enroll due to relatively higher costs of non-English language advertising. Embedding these results in a survey (N = 1,532) of a diverse set of Americans, we find broad popular support for valuing equity in addition to efficiency: respondents generally preferred reducing total enrollments to facilitate increased enrollment of Spanish speakers. These results buttress recent calls to reevaluate the efficiency-centric paradigm popular in algorithmic resource allocation. | 翻訳日:2023-04-19 16:50:17 公開日:2023-04-17 |
# 量子ゲートの重ね合わせによる量子計算の強化 Enhancing Quantum Computation via Superposition of Quantum Gates ( http://arxiv.org/abs/2304.08529v1 ) ライセンス: Link先を確認 | Jorge Miguel-Ramiro, Zheng Shi, Luca Dellantonio, Albie Chan, Christine A. Muschik and Wolfgang D\"ur | (参考訳) 量子デバイスにおけるノイズや不完全性の影響を克服することは、実行可能な量子応用の主要な課題の1つである。
本稿では,1つのゲートや計算全体の忠実度を高めるために,コヒーレントな重ね合わせでそれらを実行することで,異なるプロトコルを「重畳量子エラー緩和(SQEM)」と表現する。
提案手法により,ほとんどのデコヒーレンスおよび標準実験パラメーター系において,有意なノイズ抑制が達成できることを示す。
我々のプロトコルは、結果が後選択されないような決定論的、あるいは確率的のいずれかであり、その場合、明確な条件が満たさない限り、結果の状態は破棄されなければならない。
十分に多くの資源を使用し、広い仮定の下で作業することで、我々の手法は要求される出力状態を単位忠実度で得ることができる。
最後に, ゲート型, 計測型, 干渉型モデルに対する我々のアプローチを分析し, あらゆるケースで適用可能性を示し, それらが依存する基本的なメカニズムを調査した。 Overcoming the influence of noise and imperfections in quantum devices is one of the main challenges for viable quantum applications. In this article, we present different protocols, which we denote as "superposed quantum error mitigation" (SQEM), that enhance the fidelity of single gates or entire computations by performing them in coherent superposition. Our results demonstrate that via our methods, significant noise suppression can be achieved for most kinds of decoherence and standard experimental parameter regimes. Our protocols can be either deterministic, such that the outcome is never post-selected, or probabilistic, in which case the resulting state must be discarded unless a well-specified condition is met. By using sufficiently many resources and working under broad assumptions, our methods can yield the desired output state with unit fidelity. Finally, we analyze our approach for gate-based, measurement-based and interferometric-based models, demonstrating the applicability in all cases and investigating the fundamental mechanisms they rely upon. | 翻訳日:2023-04-19 16:49:52 公開日:2023-04-17 |
# SQEM: 重畳された量子エラー低減 SQEM: Superposed Quantum Error Mitigation ( http://arxiv.org/abs/2304.08528v1 ) ライセンス: Link先を確認 | Jorge Miguel-Ramiro, Zheng Shi, Luca Dellantonio, Albie Chan, Christine A. Muschik and Wolfgang D\"ur | (参考訳) ノイズや不完全さの影響を克服することは、量子コンピューティングの主要な課題の1つだ。
ここでは、興味のシステムかいくつかの補助状態のいずれかに基づいて、重ね合わせに所望のユニタリ計算を適用するアプローチを提案する。
任意の雑音過程を考慮した場合、同一動作の並列適用が大きなノイズ低減につながることを示す。
まず,提案手法の確率的実装をデザインする。
これらはプラグアンドプレイであり、ノイズ特性とは独立しており、後処理を必要としない。
次に,適応補正を用いて成功確率を(決定論的まで)向上できることを示す。
我々はプロトコルの性能に関する分析研究を行い、単位忠実性が漸近的に達成できることを実証する。
導入されたアプローチは、標準ゲートベース(GB)と測定ベース(MB)の計算モデルの両方に適している。 Overcoming the influence of noise and imperfections is one of the main challenges in quantum computing. Here, we present an approach based on applying a desired unitary computation in superposition, either on the system of interest or some auxiliary states. We demonstrate that parallel applications of the same operation lead to significant noise mitigation when arbitrary noise processes are considered. We first design probabilistic implementations of our scheme. These are plug-and-play, are independent of the noise characteristic and require no post-processing. We then show that the success probability can be enhanced (up to deterministic) using adaptive corrections. We provide an analytical study of our protocol performance and demonstrate that unit fidelity can be achieved asymptotically. The approaches introduced are suitable to both standard gate-based (GB) and measurement-based (MB) computational models. | 翻訳日:2023-04-19 16:49:35 公開日:2023-04-17 |
# スロー駆動マルチサイト浴による低温熱化 Thermalization at Low Temperatures via Slowly-Driven Multi-Site Baths ( http://arxiv.org/abs/2304.08525v1 ) ライセンス: Link先を確認 | Cristian Zanoci, Yongchan Yoo, Brian Swingle | (参考訳) 浴槽に結合した一次元開量子系の熱化特性について検討した。
浴槽はリンドブラッド作用素を介して熱状態に駆動され、システムはハミルトン動力学を実行する。
具体的には,多地点浴について検討し,浴槽が設定した一定の温度で,後期定常状態がギブス状態と類似する程度について検討する。
我々は,自由フェルミオン技術によってアクセス可能な非相互作用フェルミオンモデルと,テンソルネットワーク法でアクセス可能なxzモデルとカイラルクロックモデルという3つの相互作用モデルについて検討した。
弱結合と低速駆動限界に向けてチューニングすることで,浴槽の大きさが十分に大きい場合,システムの大部分の低温を設計できることを示す。
従来報告したよりも低温でのxzモデルにおけるエネルギー輸送の研究にこの能力を用いる。
我々の研究は、低温でオープン量子システムと相互作用する将来の研究の道を開く。 We study the thermalization properties of one-dimensional open quantum systems coupled to baths at their boundary. The baths are driven to their thermal states via Lindblad operators, while the system undergoes Hamiltonian dynamics. We specifically consider multi-site baths and investigate the extent to which the late-time steady state resembles a Gibbs state at some controllable temperature set by the baths. We study three models: a non-interacting fermion model accessible via free-fermion technology, and two interacting models, the XZ model and the chiral clock model, which are accessible via tensor network methods. We show that, by tuning towards the weak coupling and slow driving limits, one can engineer low temperatures in the bulk of the system provided the bath size is big enough. We use this capability to study energy transport in the XZ model at lower temperatures than previously reported. Our work paves the way for future studies of interacting open quantum systems at low temperatures. | 翻訳日:2023-04-19 16:49:23 公開日:2023-04-17 |
# デコヒーレンスフリー部分空間への量子多体傷の埋め込み Embedding Quantum Many-Body Scars into Decoherence-Free Subspaces ( http://arxiv.org/abs/2304.08515v1 ) ライセンス: Link先を確認 | He-Ran Wang, Dong Yuan, Shun-Yao Zhang, Zhong Wang, Dong-Ling Deng and L.-M. Duan | (参考訳) 量子多体スカーは非可積分ハミルトニアンの非熱励起固有状態であり、スカーがエネルギースペクトルで等間隔の塔を形成するとき、特殊初期状態からのコヒーレントな再生ダイナミクスをサポートする。
オープン量子システムでは、制御された環境とのカップリングによる多体力学のエンジニアリングは、ほとんど解明されていない。
本稿では,量子多体傷をリンドブラッドマスター方程式のデコヒーレンスフリー部分空間に正確に埋め込むための一般的な枠組みを提案し,それらの固有初期状態に対する持続的周期振動を示す。
我々は、スカータワー全体を消滅させるローカルプロジェクターとリウビリアンディシプターを構築し、ハミルトニアン部分を利用して、ディシプターのヌル空間から望ましくない状態を回転させる。
我々は,多体スカータワーをホストする典型的なモデルを用いて,本プロトコルを実証し,デジタル量子シミュレーションとアンシラ量子ビットのリセットに基づく散逸性スカーレッドダイナミクスの観測実験手法を提案する。 Quantum many-body scars are non-thermal excited eigenstates of non-integrable Hamiltonians, which could support coherent revival dynamics from special initial states when scars form an equally spaced tower in the energy spectrum. For open quantum systems, engineering many-body scarred dynamics by a controlled coupling to the environment remains largely unexplored. In this paper, we provide a general framework to exactly embed quantum many-body scars into the decoherence-free subspaces of Lindblad master equations, and exhibit their corresponding persistent periodic oscillations for generic initial states. We construct the Liouvillian dissipators with the local projectors that annihilate the whole scar towers, and utilize the Hamiltonian part to rotate the undesired states out of the null space of dissipators. We demonstrate our protocol through several typical models hosting many-body scar towers, and propose an experimental scheme to observe the dissipative scarred dynamics based on digital quantum simulations and resetting ancilla qubits. | 翻訳日:2023-04-19 16:49:06 公開日:2023-04-17 |
# いくつかのシュロディンガー方程式の解 Solutions of some Schrodinger equations ( http://arxiv.org/abs/2304.08508v1 ) ライセンス: Link先を確認 | Brian L Burrows | (参考訳) 2種類の非エルミート系が考えられる。
そのうちの1つは非エルミートおよび非線形であり、励起状態の解を得るために反復過程が用いられる。
このモデルは多くの物理系で使われており、計算法は一般化された内積を持つ単純なヒルベルト空間を用いる。
第2の型はハミルトニアンにおいて複素項を持ち、無限区間におけるよく研究された問題である。
ここでは、有限区間を考慮し、この区間に対する固有関数の完全な集合を使用し、有限区間状態と無限区間状態の関係を議論する。 Two types of non-Hermitian systems are considered. One of them is both non-Hermitian and non-Linear and an iterative process is used to obtain excited state solutions; the ground state may be solved exactly. The model has been used in many physical systems and the method of calculation uses a simple Hilbert space with a generalised inner product. The second type has a complex term in the Hamiltonian and is a well studied problem in the infinite interval. Here a finite interval is considered and a complete set of eigenfunctions for this interval is used.The relationship between the finite interval states and the infinite interval states is discussed. | 翻訳日:2023-04-19 16:48:44 公開日:2023-04-17 |
# スパース・インフォーマティブ・変数による予測 : 血糖予測のケーススタディ Forecasting with Sparse but Informative Variables: A Case Study in Predicting Blood Glucose ( http://arxiv.org/abs/2304.08593v1 ) ライセンス: Link先を確認 | Harry Rubin-Falcone and Joyce Lee and Jenna Wiens | (参考訳) 時系列予測では、将来の目標値は内因的効果と外因的効果の両方に影響される可能性がある。
例えば、血糖値を予測する場合、内因性効果は標的信号の履歴のみから推測できる(\textit{i} blood glucose)が、内因性効果の影響を正確にモデル化するには、摂取される炭水化物量のような補助的シグナルが必要である。
標準的な予測手法は、外生的および内生的効果が同様の速度で変化すると仮定することが多い。
しかし、補助信号が目標変数よりもはるかに低い周波数で生成される場合(例えば、血糖測定は5分毎に行われ、食事は数時間に1回行われる)、よく知られた過剰な効果(例えば、炭水化物は血糖を増加させる)さえも学ぶことは困難である。
これらの<textit{sparse but informative variables} (SIVs)をよりよく活用するために、SIVの時間点効果を正確に学習する新しいエンコーダ/デコーダ予測手法を導入する。
(i)本質的な効果から分離し、
(ii)ドメイン知識に基づく学習効果の制限。
血糖予測の課題に関するシミュレーションデータセットでは、SIVが正確に記録されると、rMSE (13.07 [95% CI: 11.77,14.16] vs. 14.14 [12.69,15.27]) でベースラインアプローチよりも優れている。
劣化したsivが存在する場合、提案手法はベースラインに比べて誤差が少ないが、ノイズが増加するにつれて利点は減少する。
それらの効果を分離し、ドメイン知識を取り入れることで、我々のアプローチは予測にSIVをより活用することができる。 In time-series forecasting, future target values may be affected by both intrinsic and extrinsic effects. When forecasting blood glucose, for example, intrinsic effects can be inferred from the history of the target signal alone (\textit{i.e.} blood glucose), but accurately modeling the impact of extrinsic effects requires auxiliary signals, like the amount of carbohydrates ingested. Standard forecasting techniques often assume that extrinsic and intrinsic effects vary at similar rates. However, when auxiliary signals are generated at a much lower frequency than the target variable (e.g., blood glucose measurements are made every 5 minutes, while meals occur once every few hours), even well-known extrinsic effects (e.g., carbohydrates increase blood glucose) may prove difficult to learn. To better utilize these \textit{sparse but informative variables} (SIVs), we introduce a novel encoder/decoder forecasting approach that accurately learns the per-timepoint effect of the SIV, by (i) isolating it from intrinsic effects and (ii) restricting its learned effect based on domain knowledge. On a simulated dataset pertaining to the task of blood glucose forecasting, when the SIV is accurately recorded our approach outperforms baseline approaches in terms of rMSE (13.07 [95% CI: 11.77,14.16] vs. 14.14 [12.69,15.27]). In the presence of a corrupted SIV, the proposed approach can still result in lower error compared to the baseline but the advantage is reduced as noise increases. By isolating their effects and incorporating domain knowledge, our approach makes it possible to better utilize SIVs in forecasting. | 翻訳日:2023-04-19 16:43:14 公開日:2023-04-17 |
# 計算負荷を低減した高速・トラグルサ耐性分散SGD Fast and Straggler-Tolerant Distributed SGD with Reduced Computation Load ( http://arxiv.org/abs/2304.08589v1 ) ライセンス: Link先を確認 | Maximilian Egger, Serge Kas Hanna and Rawad Bitar | (参考訳) 分散機械学習では、中央ノードは計算コストのかかる計算を外部ワーカーノードにアウトソースする。
確率勾配降下(SGD)のような最適化手順の特性は、ストラグラーと呼ばれる非応答あるいは遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
アルゴリズムが進化して収束の速度を最適化するのを待つ労働者の数に適応する以前の研究が提案された。
対照的に、独立確率変数を用いて通信時間と計算時間をモデル化する。
このモデルを考慮すると、アルゴリズムの実行時間を通して、作業者数と計算負荷の両方を適応させる新しいスキームを構築する。
その結果,分散SGDの収束速度は,通信負荷のわずかな増加を犠牲にして,計算負荷を大幅に削減した。 In distributed machine learning, a central node outsources computationally expensive calculations to external worker nodes. The properties of optimization procedures like stochastic gradient descent (SGD) can be leveraged to mitigate the effect of unresponsive or slow workers called stragglers, that otherwise degrade the benefit of outsourcing the computation. This can be done by only waiting for a subset of the workers to finish their computation at each iteration of the algorithm. Previous works proposed to adapt the number of workers to wait for as the algorithm evolves to optimize the speed of convergence. In contrast, we model the communication and computation times using independent random variables. Considering this model, we construct a novel scheme that adapts both the number of workers and the computation load throughout the run-time of the algorithm. Consequently, we improve the convergence speed of distributed SGD while significantly reducing the computation load, at the expense of a slight increase in communication load. | 翻訳日:2023-04-19 16:42:41 公開日:2023-04-17 |
# ソーシャルメディアのテキストコンテンツにおけるサーカズム検出の目視 Researchers eye-view of sarcasm detection in social media textual content ( http://arxiv.org/abs/2304.08582v1 ) ライセンス: Link先を確認 | Swapnil Mane, Vaibhav Khatavkar | (参考訳) ソーシャルメディアにおけるあらゆる形態のコミュニケーションにおける皮肉テキストの膨大な利用は、ターゲットユーザに対する生理的影響をもたらす。
各ユーザには、皮肉を誤用し認識する別のアプローチがある。
サーカスムの検出はユーザにとっても困難であり、視点、コンテキスト、特別なシンボルなど多くのものに依存します。
ですから,非皮肉文と皮肉文を区別するのは,機械にとって難しい作業です。
現在の状況では、どのモデルが、多くのテキストコーパスから正確にサーカズムを検出するかについての正確なルールはない。
したがって、サルカズム検出領域における楽観的で今後のアプローチに焦点を当てる必要がある。
本稿では,様々な皮肉検出手法について論じ,いくつかのアプローチ,最適な特徴を持つ関連するデータセット,研究者の課題について述べる。 The enormous use of sarcastic text in all forms of communication in social media will have a physiological effect on target users. Each user has a different approach to misusing and recognising sarcasm. Sarcasm detection is difficult even for users, and this will depend on many things such as perspective, context, special symbols. So, that will be a challenging task for machines to differentiate sarcastic sentences from non-sarcastic sentences. There are no exact rules based on which model will accurately detect sarcasm from many text corpus in the current situation. So, one needs to focus on optimistic and forthcoming approaches in the sarcasm detection domain. This paper discusses various sarcasm detection techniques and concludes with some approaches, related datasets with optimal features, and the researcher's challenges. | 翻訳日:2023-04-19 16:42:25 公開日:2023-04-17 |
# U2RLE:不確実なガイド付き2段階ルームレイアウト推定 U2RLE: Uncertainty-Guided 2-Stage Room Layout Estimation ( http://arxiv.org/abs/2304.08580v1 ) ライセンス: Link先を確認 | Pooya Fayyazsanavi, Zhiqiang Wan, Will Hutchcroft, Ivaylo Boyadzhiev, Yuguang Li, Jana Kosecka, Sing Bing Kang | (参考訳) 既存の深層学習に基づく部屋配置推定手法は全体的な精度が良いが, 遠方壁境界では有効ではない。
この問題に対処するため,U2RLEと呼ばれる新しい2段階CNNアーキテクチャを導入し,レイアウト境界推定のための新しい不確実性誘導手法を提案する。
初期段階は床壁境界と不確実性の両方を予測し、その後異なる距離認識損失を用いて高い位置不確実性を持つ境界を洗練する。
最後に、2つのステージからの出力をマージして部屋レイアウトを生成する。
ZInDとStructure3Dデータセットを用いた実験は、U2RLEが現在の最先端よりも改善され、近壁と遠壁の両方をよりよく処理できることを示している。
特にU2RLEは、最も遠い壁の最先端技術よりも優れています。 While the existing deep learning-based room layout estimation techniques demonstrate good overall accuracy, they are less effective for distant floor-wall boundary. To tackle this problem, we propose a novel uncertainty-guided approach for layout boundary estimation introducing new two-stage CNN architecture termed U2RLE. The initial stage predicts both floor-wall boundary and its uncertainty and is followed by the refinement of boundaries with high positional uncertainty using a different, distance-aware loss. Finally, outputs from the two stages are merged to produce the room layout. Experiments using ZInD and Structure3D datasets show that U2RLE improves over current state-of-the-art, being able to handle both near and far walls better. In particular, U2RLE outperforms current state-of-the-art techniques for the most distant walls. | 翻訳日:2023-04-19 16:42:13 公開日:2023-04-17 |
# アバターの足の成長 : 拡散モデルによるスパーストラッキング入力からの滑らかな人間の動きの生成 Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model ( http://arxiv.org/abs/2304.08577v1 ) ライセンス: Link先を確認 | Yuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali Thabet, Artsiom Sanakoyeu | (参考訳) 近年のAR/VRアプリケーションの普及に伴い、3Dフルボディアバターの現実的かつ正確な制御が要求の高い機能となっている。
特に課題は、単独のhmd(ヘッドマウントデバイス)からのみスパーストラッキング信号が利用可能であり、しばしばユーザーの頭と手首を追跡することに限られていることである。
この信号は上半身の動きを復元するのに十分なものであるが、下半身は追跡されず、上半身関節が提供する限られた情報から合成されなければならない。
本稿では,下半身追跡信号の少ない全体追跡に特化して設計された新しい条件拡散モデル AGRoL を提案する。
本モデルは,単純多層パーセプトロン(mlp)アーキテクチャと,運動データに対する新しいコンディショニングスキームに基づいている。
正確でスムーズな全身の動き、特に挑戦的な下肢の動きを予測できる。
一般的なディフュージョンアーキテクチャとは異なり、私たちのコンパクトアーキテクチャはリアルタイムに実行でき、オンラインボディトラッキングアプリケーションに適している。
amass motion captureデータセット上でモデルをトレーニングし,評価し,本手法が生成した動作精度と滑らかさにおいて最先端手法よりも優れていることを示す。
広範な実験とアブレーション研究を通じて、デザインの選択をさらに正当化する。 With the recent surge in popularity of AR/VR applications, realistic and accurate control of 3D full-body avatars has become a highly demanded feature. A particular challenge is that only a sparse tracking signal is available from standalone HMDs (Head Mounted Devices), often limited to tracking the user's head and wrists. While this signal is resourceful for reconstructing the upper body motion, the lower body is not tracked and must be synthesized from the limited information provided by the upper body joints. In this paper, we present AGRoL, a novel conditional diffusion model specifically designed to track full bodies given sparse upper-body tracking signals. Our model is based on a simple multi-layer perceptron (MLP) architecture and a novel conditioning scheme for motion data. It can predict accurate and smooth full-body motion, particularly the challenging lower body movement. Unlike common diffusion architectures, our compact architecture can run in real-time, making it suitable for online body-tracking applications. We train and evaluate our model on AMASS motion capture dataset, and demonstrate that our approach outperforms state-of-the-art methods in generated motion accuracy and smoothness. We further justify our design choices through extensive experiments and ablation studies. | 翻訳日:2023-04-19 16:41:58 公開日:2023-04-17 |
# n$-表現可能性問題の解からの量子多体理論 Quantum Many-body Theory from a Solution of the $N$-representability Problem ( http://arxiv.org/abs/2304.08570v1 ) ライセンス: Link先を確認 | David A. Mazziotti | (参考訳) ここでは、基底状態の2粒子還元密度行列(2-RDM)を多粒子波動関数なしで直接決定する$N$-representability問題の解に基づく多体理論を提案する。
我々は、高次RDM上の物理的制約を再表現し、2-RDMの直接制約を生成する方程式を導出する。
このアプローチは、高いRDMや波動関数に明示的に依存しない2-RDM制約の完全な階層を生成する。
高階制約行列のユニタリ分解の2粒子部分を用いることで、これらの行列の低ランク構造を潜在的に活用できる形で半定値プログラミングによるエネルギー最小化を解くことができる。
我々は、h$_{8}$環の基底状態の電子エネルギーと性質を計算して示す。 Here we present a many-body theory based on a solution of the $N$-representability problem in which the ground-state two-particle reduced density matrix (2-RDM) is determined directly without the many-particle wave function. We derive an equation that re-expresses physical constraints on higher-order RDMs to generate direct constraints on the 2-RDM, which are required for its derivation from an $N$-particle density matrix, known as $N$-representability conditions. The approach produces a complete hierarchy of 2-RDM constraints that do not depend explicitly upon the higher RDMs or the wave function. By using the two-particle part of a unitary decomposition of higher-order constraint matrices, we can solve the energy minimization by semidefinite programming in a form where the low-rank structure of these matrices can be potentially exploited. We illustrate by computing the ground-state electronic energy and properties of the H$_{8}$ ring. | 翻訳日:2023-04-19 16:41:36 公開日:2023-04-17 |
# GrOVe: 埋め込みを用いたグラフニューラルネットワークのオーナシップ検証 GrOVe: Ownership Verification of Graph Neural Networks using Embeddings ( http://arxiv.org/abs/2304.08566v1 ) ライセンス: Link先を確認 | Asim Waheed, Vasisht Duddu, N. Asokan | (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワークなどのさまざまなアプリケーション設定において、大規模グラフ構造化データから推論をモデル化し、描画するための最先端のアプローチとして登場した。
GNNの主な目標は、ノードの特徴とノード周辺の局所グラフ構造の両方をエンコードするデータセットにおいて、各グラフノードへの埋め込みを学ぶことである。
gnnがグラフノードに生成する埋め込みは、gnnに固有のものだ。
以前の研究によると、GNNは抽出攻撃をモデル化する傾向がある。
モデル抽出攻撃と防御は、他の非グラフ設定で広く研究されている。
モデル抽出の検出や防止は困難であるように思われるが、効果的なオーナシップ検証技術によってそれを抑止することは、潜在的な防御となる。
グラフ以外の設定では、指紋モデルやそれらの構築に使用されるデータは、オーナシップ検証に有望なアプローチであることが示されている。
我々は,対象モデルと被疑者モデルが与えられた場合,被疑モデルが対象モデルとは独立に訓練されたか,あるいはモデル抽出によって得られた対象モデルのサロゲートであったかを確実に判断できる,最先端のgnnモデルフィンガープリントスキームであるgroveを提案する。
GrOVeは、独立モデルが元のターゲットモデルと同じトレーニングデータセットとアーキテクチャを使用している場合でも、サロゲートと独立モデルを区別できることを示す。
6つのベンチマークデータセットと3つのモデルアーキテクチャを用いて、偽陽性率と偽陰性率を一貫して達成していることを示す。
我々は, 計算効率を保ちつつ, 既知の指紋回避技術に対して頑健であることを示す。 Graph neural networks (GNNs) have emerged as a state-of-the-art approach to model and draw inferences from large scale graph-structured data in various application settings such as social networking. The primary goal of a GNN is to learn an embedding for each graph node in a dataset that encodes both the node features and the local graph structure around the node. Embeddings generated by a GNN for a graph node are unique to that GNN. Prior work has shown that GNNs are prone to model extraction attacks. Model extraction attacks and defenses have been explored extensively in other non-graph settings. While detecting or preventing model extraction appears to be difficult, deterring them via effective ownership verification techniques offer a potential defense. In non-graph settings, fingerprinting models, or the data used to build them, have shown to be a promising approach toward ownership verification. We present GrOVe, a state-of-the-art GNN model fingerprinting scheme that, given a target model and a suspect model, can reliably determine if the suspect model was trained independently of the target model or if it is a surrogate of the target model obtained via model extraction. We show that GrOVe can distinguish between surrogate and independent models even when the independent model uses the same training dataset and architecture as the original target model. Using six benchmark datasets and three model architectures, we show that consistently achieves low false-positive and false-negative rates. We demonstrate that is robust against known fingerprint evasion techniques while remaining computationally efficient. | 翻訳日:2023-04-19 16:41:22 公開日:2023-04-17 |
# CAM2: 大規模レコメンダシステムのための整合性を考慮したマルチタスクランキングモデル CAM2: Conformity-Aware Multi-Task Ranking Model for Large-Scale Recommender Systems ( http://arxiv.org/abs/2304.08562v1 ) ライセンス: Link先を確認 | Ameya Raul, Amey Porobo Dharwadker, Brad Schumitsch | (参考訳) 過去のユーザインタラクションデータに適合させることで、大規模な産業レコメンデーションシステムモデルを学ぶことは、適合バイアスに弱い。
これは、ユーザの関心が決定しづらいことや、個々のユーザとの関係性以外のエコシステム要因に基づいて多くのアイテムがやりとりされることなど、いくつかの要因による可能性がある。
本研究では,最大規模の産業向けレコメンデーションプラットフォームのユーザに対して,関連項目を提供するための適合性対応型マルチタスクランキングモデルであるcam2を紹介する。
CAM2は、因果モデリングを利用して、ユーザの人気アイテムへの適合性を真の関心から遠ざけることで、これらの課題に体系的に対処する。
このフレームワークは汎用的で、あらゆる大規模レコメンダシステムにおいて、適合性とユーザ関連性の複数の表現をサポートするようにスケールすることができる。
我々は,実運用中のマルチタスクランキングモデルと比較し,オフライン評価指標の改善を通じて,提案モデルの有効性を示す。
また、オンライン実験を通じて、CAM2モデルによってユーザーエンゲージメントが大幅に50%増加し、Facebook Watch上の日々のアクティブユーザー数が0.21%増加し、数十億人のユーザーを提供する人気のビデオ発見共有プラットフォームである。 Learning large-scale industrial recommender system models by fitting them to historical user interaction data makes them vulnerable to conformity bias. This may be due to a number of factors, including the fact that user interests may be difficult to determine and that many items are often interacted with based on ecosystem factors other than their relevance to the individual user. In this work, we introduce CAM2, a conformity-aware multi-task ranking model to serve relevant items to users on one of the largest industrial recommendation platforms. CAM2 addresses these challenges systematically by leveraging causal modeling to disentangle users' conformity to popular items from their true interests. This framework is generalizable and can be scaled to support multiple representations of conformity and user relevance in any large-scale recommender system. We provide deeper practical insights and demonstrate the effectiveness of the proposed model through improvements in offline evaluation metrics compared to our production multi-task ranking model. We also show through online experiments that the CAM2 model results in a significant 0.50% increase in aggregated user engagement, coupled with a 0.21% increase in daily active users on Facebook Watch, a popular video discovery and sharing platform serving billions of users. | 翻訳日:2023-04-19 16:40:56 公開日:2023-04-17 |
# グラフ分類のための確率的部分グラフ近傍ポーリング Stochastic Subgraph Neighborhood Pooling for Subgraph Classification ( http://arxiv.org/abs/2304.08556v1 ) ライセンス: Link先を確認 | Shweta Ann Jacob, Paul Louis and Amirali Salehi-Abari | (参考訳) グラフ表現学習において、サブグラフ分類(subgraph classification)は、グラフ内のノード群(つまりサブグラフ)を分類するタスクである。
サブグラフ分類は、タンパク質群の細胞機能の予測や、表現型の集合が与えられたまれな疾患の同定などの応用がある。
グラフニューラルネットワーク(GNN)は、ノード、リンク、グラフレベルのタスクのデファクトソリューションであるが、サブグラフ分類タスクではうまく機能しない。
グラフ分類用に調整されたGNNでさえ、サブグラフの外的トポロジーを無視するため、サブグラフ分類に直接転送することはできない。
現在のグラフ分類の最先端モデルは、この欠点をラベル付けトリックまたは複数のメッセージパッシングチャネルを通じて解決している。
一般化を維持しながらスケーラビリティの問題に対処するため,グラフとその周辺情報(つまり外部トポロジ)をラベル付けトリックなどの計算コストのかかる操作を伴わずに,共同で集約するStochastic Subgraph Neighborhood Pooling (SSNP)を提案する。
また,スケーラビリティと一般化をさらに向上するため,SSNPのための単純なデータ拡張前処理ステップを提案し,サブグラフ近傍の複数のスパースビューを生成する。
我々のモデルは、ラベル付けトリックなしでGNNよりも表現力が高いことを示す。
我々のモデルは、トレーニングにおいて最大3倍高速でありながら、最先端の手法(マージンは最大2%)より優れています。 Subgraph classification is an emerging field in graph representation learning where the task is to classify a group of nodes (i.e., a subgraph) within a graph. Subgraph classification has applications such as predicting the cellular function of a group of proteins or identifying rare diseases given a collection of phenotypes. Graph neural networks (GNNs) are the de facto solution for node, link, and graph-level tasks but fail to perform well on subgraph classification tasks. Even GNNs tailored for graph classification are not directly transferable to subgraph classification as they ignore the external topology of the subgraph, thus failing to capture how the subgraph is located within the larger graph. The current state-of-the-art models for subgraph classification address this shortcoming through either labeling tricks or multiple message-passing channels, both of which impose a computation burden and are not scalable to large graphs. To address the scalability issue while maintaining generalization, we propose Stochastic Subgraph Neighborhood Pooling (SSNP), which jointly aggregates the subgraph and its neighborhood (i.e., external topology) information without any computationally expensive operations such as labeling tricks. To improve scalability and generalization further, we also propose a simple data augmentation pre-processing step for SSNP that creates multiple sparse views of the subgraph neighborhood. We show that our model is more expressive than GNNs without labeling tricks. Our extensive experiments demonstrate that our models outperform current state-of-the-art methods (with a margin of up to 2%) while being up to 3X faster in training. | 翻訳日:2023-04-19 16:40:34 公開日:2023-04-17 |
# Generative Disco:音楽可視化のためのテキスト・ビデオ生成 Generative Disco: Text-to-Video Generation for Music Visualization ( http://arxiv.org/abs/2304.08551v1 ) ライセンス: Link先を確認 | Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton | (参考訳) 視覚は、音楽を通じて伝達される感情やメッセージの増幅方法によって、私たちの音楽体験の中核となる部分です。
しかし、音楽の視覚化は複雑で時間がかかり、リソース集約的なプロセスである。
生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。
ユーザは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。
これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じて、挟まれて生成される。
色,時間,主題,スタイルの変化を表現する"トランジション"と,視覚的強調と一貫性を促進する"ホールド"という,生成ビデオを改善するためのデザインパターンを紹介する。
専門家による研究では、システムは楽しく、調査しやすく、表現力が高いことが示されている。
我々は、プロ向けジェネレーティブ・ディスコのユースケースと、AI生成コンテンツが創造的な仕事の風景をどのように変えつつあるかについて結論づける。 Visuals are a core part of our experience of music, owing to the way they can amplify the emotions and messages conveyed through the music. However, creating music visualization is a complex, time-consuming, and resource-intensive process. We introduce Generative Disco, a generative AI system that helps generate music visualizations with large language models and text-to-image models. Users select intervals of music to visualize and then parameterize that visualization by defining start and end prompts. These prompts are warped between and generated according to the beat of the music for audioreactive video. We introduce design patterns for improving generated videos: "transitions", which express shifts in color, time, subject, or style, and "holds", which encourage visual emphasis and consistency. A study with professionals showed that the system was enjoyable, easy to explore, and highly expressive. We conclude on use cases of Generative Disco for professionals and how AI-generated content is changing the landscape of creative work. | 翻訳日:2023-04-19 16:40:07 公開日:2023-04-17 |
# 複合開量子系に対する時間畳み込みのないマスター方程式 Time-convolutionless master equations for composite open quantum systems ( http://arxiv.org/abs/2304.08627v1 ) ライセンス: Link先を確認 | A. Yu. Karasev, A. E. Teretenkov | (参考訳) 本研究では、複合開量子系のマスター方程式について考察する。
そのような方程式を定義する摂動列の項に対して純粋に代数式を提供する。
また、ボゴロボフ・ヴァン・ホーヴ極限が存在する条件を与え、この極限に対するいくつかの補正について論じる。
結果を説明するための例を示す。
特に、この例では、時間畳み込みのないマスター方程式の不均一項は、貯水池相関時間後に消滅するが、そのような時間スケールでの初期条件の再正規化に繋がる。 In this work we consider the master equations for composite open quantum systems. We provide purely algebraic formulae for terms of perturbation series defining such equations. We also give conditions under which the Bogolubov-van Hove limit exists and discuss some corrections to this limit. We present an example to illustrate our results. In particular, this example shows, that inhomogeneous terms in time-convolutionless master equations can vanish after reservoir correlation time, but lead to renormalization of initial conditions at such a timescale. | 翻訳日:2023-04-19 16:32:50 公開日:2023-04-17 |
# 深層学習による異常特徴を持つ異方性構成の探索:古典的および量子古典的ハイブリッド異常検出の適用 Exploring exotic configurations with anomalous features with deep learning: Application of classical and quantum-classical hybrid anomaly detection ( http://arxiv.org/abs/2304.08616v1 ) ライセンス: Link先を確認 | Kumar J. B. Ghosh, Sumit Ghosh | (参考訳) 本稿では,古典的および量子古典的ハイブリッド異常検出手法を応用し,異常な特徴を持つエキゾチックな構成を探索する。
我々はアンダーソンモデルを,強い不純物の存在下での高コンダクタンスと弱い不純物の存在下での低コンダクタンスという2種類の異常をランダムな不純物分布の関数として定義するプロトタイプとみなす。
このような異常な結果はデータセットの10%未満を占め、トレーニングプロセスの一部ではない。
したがって、異常検出は、従来の分類や回帰法では不可能である未知の特徴を検出するのにより適している。
また、古典的手法とハイブリッド法の性能を体系的に研究し、量子回路の導入により、適切な性能指標で定量化できる異常検出の性能が著しく向上することを示した。
私たちのアプローチは本質的に非常に汎用的であり、エキゾチックな新機能を保持できる新しい構成を見つけるために多くのパラメータに依存するあらゆるシステムで使用できます。 In this paper we present the application of classical and quantum-classical hybrid anomaly detection schemes to explore exotic configuration with anomalous features. We consider the Anderson model as a prototype where we define two types of anomalies - a high conductance in presence of strong impurity and low conductance in presence of weak impurity - as a function of random impurity distribution. Such anomalous outcome constitutes less than 10% of a data set and is not a part of the training process. The anomaly detection is therefore more suitable to detect unknown features which is not possible with conventional classification or regression methods. We also present a systematic study of the performance of the classical and the hybrid method and show that the inclusion of a quantum circuit significantly enhances the performance of anomaly detection which we quantify with suitable performance metrics. Our approach is quite generic in nature and can be used for any system that relies on a large number of parameters to find their new configurations which can hold exotic new features. | 翻訳日:2023-04-19 16:32:41 公開日:2023-04-17 |
# 信号処理グランドチャレンジ2023-e-prevention--精神疾患患者の再発指標としての睡眠行動 Signal Processing Grand Challenge 2023 -- e-Prevention: Sleep Behavior as an Indicator of Relapses in Psychotic Patients ( http://arxiv.org/abs/2304.08614v1 ) ライセンス: Link先を確認 | Kleanthis Avramidis, Kranti Adsul, Digbalay Bose, Shrikanth Narayanan | (参考訳) 本稿では,精神病患者の再発検出におけるUSC SAILのシグナル処理グランドチャレンジ2023-e-Prevention(タスク2)への取り組みと成果について述べる。
再発予測は、主に症状の不均一性と個人間の治療に対する反応のために困難であることが証明されている。
我々は,教師なしの機械学習環境において,睡眠行動機能を用いて異常日数を推定することで,これらの課題に対処した。
野生で収集された人的活動と心拍データから情報的特徴を抽出し,特徴型と時間分解能の様々な組み合わせを評価する。
短時間の睡眠行動機能は、覚醒時とより長い時間間隔よりも優れていることがわかりました。
我々の提出はタスクの公式リーダーボードで3位にランクされ、精神病再発の客観的かつ非侵襲的な予測因子としての可能性を示した。 This paper presents the approach and results of USC SAIL's submission to the Signal Processing Grand Challenge 2023 - e-Prevention (Task 2), on detecting relapses in psychotic patients. Relapse prediction has proven to be challenging, primarily due to the heterogeneity of symptoms and responses to treatment between individuals. We address these challenges by investigating the use of sleep behavior features to estimate relapse days as outliers in an unsupervised machine learning setting. We extract informative features from human activity and heart rate data collected in the wild, and evaluate various combinations of feature types and time resolutions. We found that short-time sleep behavior features outperformed their awake counterparts and larger time intervals. Our submission was ranked 3rd in the Task's official leaderboard, demonstrating the potential of such features as an objective and non-invasive predictor of psychotic relapses. | 翻訳日:2023-04-19 16:32:21 公開日:2023-04-17 |
# Bridging Discreteとバックプロパゲーション: ストレートスロットと向こう側 Bridging Discrete and Backpropagation: Straight-Through and Beyond ( http://arxiv.org/abs/2304.08612v1 ) ライセンス: Link先を確認 | Liyuan Liu, Chengyu Dong, Xiaodong Liu, Bin Yu, Jianfeng Gao | (参考訳) ディープラーニングの基礎となるバックプロパゲーションは、連続変数のみの計算勾配に限られている。
この制限は離散潜在変数に関する様々な研究を妨げる。
この問題に対処するために、離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
まず,広く用いられているストレートスルー(st)ヒューリスティックを調べ,勾配の一階近似として機能することを示す。
そこで本研究では,二階数値解法である heun's method を統合し,勾配を近似するreinmax法を提案する。
本手法はヘッセンや他の二階微分を必要としない2階精度を実現する。
構造化出力予測と教師なし生成モデルタスクの実験を行う。
以上の結果から,ShaoursはSTやStraight-Through Gumbel-Softmaxなど,最先端技術に一貫した改善をもたらすことが示された。
実装はhttps://github.com/microsoft/reinmaxでリリースされる。 Backpropagation, the cornerstone of deep learning, is limited to computing gradients solely for continuous variables. This limitation hinders various research on problems involving discrete latent variables. To address this issue, we propose a novel approach for approximating the gradient of parameters involved in generating discrete latent variables. First, we examine the widely used Straight-Through (ST) heuristic and demonstrate that it works as a first-order approximation of the gradient. Guided by our findings, we propose a novel method called ReinMax, which integrates Heun's Method, a second-order numerical method for solving ODEs, to approximate the gradient. Our method achieves second-order accuracy without requiring Hessian or other second-order derivatives. We conduct experiments on structured output prediction and unsupervised generative modeling tasks. Our results show that \ours brings consistent improvements over the state of the art, including ST and Straight-Through Gumbel-Softmax. Implementations are released at https://github.com/microsoft/ReinMax. | 翻訳日:2023-04-19 16:32:03 公開日:2023-04-17 |
# スピン系における角運動量誤差に対するマルチスピンクリフォード符号 Multispin Clifford codes for angular momentum errors in spin systems ( http://arxiv.org/abs/2304.08611v1 ) ライセンス: Link先を確認 | Sivaprasad Omanakuttan and Jonathan Gross | (参考訳) 系の物理対称性は量子エラー補正において中心的な役割を果たす。
本研究では,angular-momentum symmetry (spins) を用いたシステム群に量子ビットを符号化し,phys で開発されたツールを拡張する。
Rev. Lett.
127, 010504 単一の大きなスピンで
原子系に存在する大きなスピンを考慮し、その集合対称部分空間に焦点を当てることで、角運動量演算子における誤差を2次に補正できる八面体対称性を持つ新しい符号を開発する。
これらの誤差には、マイクロ波制御誤差や光ポンピングなど、物理的に最も関連するノイズ源が含まれる。
さらに,超越的な単一量子Clifford演算を許容しながら,表面コードとの距離スケーリングの相似性を示す新しい量子ビット符号についても検討する。 The physical symmetries of a system play a central role in quantum error correction. In this work we encode a qubit in a collection of systems with angular-momentum symmetry (spins), extending the tools developed in Phys. Rev. Lett. 127, 010504 for single large spins. By considering large spins present in atomic systems and focusing on their collective symmetric subspace, we develop new codes with octahedral symmetry capable of correcting errors up to second order in angular-momentum operators. These errors include the most physically relevant noise sources such as microwave control errors and optical pumping. We additionally explore new qubit codes that exhibit distance scaling commensurate with the surface code while permitting transversal single-qubit Clifford operations. | 翻訳日:2023-04-19 16:31:48 公開日:2023-04-17 |
# 連合学習とスマートグリッドの交差する道-概要,課題,展望- Crossing Roads of Federated Learning and Smart Grids: Overview, Challenges, and Perspectives ( http://arxiv.org/abs/2304.08602v1 ) ライセンス: Link先を確認 | Hafsa Bousbiat, Roumaysa Bousselidj, Yassine Himeur, Abbes Amira, Faycal Bensaali, Fodil Fadli, Wathiq Mansoor, Wilfried Elmenreich | (参考訳) 消費者のプライバシはスマートグリッド(sgs)において、特に異なるサービスのための機械学習モデルのトレーニングに使用される場合、エネルギーデータの感度が主な関心事である。
これらのデータ駆動モデルは、多くの場合、プライバシー漏洩のリスクにつながる許容可能なパフォーマンスを達成するために、大量のデータを必要とする。
トレーニングをエッジに押し上げることで、フェデレートラーニング(FL)は、プライバシ保護とこれらのモデルの予測パフォーマンスとの間によい妥協を提供する。
本報告では, 負荷予測, 電気自動車, 故障診断, 負荷分散, 再生エネルギーなど, その利点と欠点を論じながら, SGにおけるFL適用の概要を述べる。
また,データパーティショニング,通信トポロジ,セキュリティ機構を考慮し,主要な設計動向と分類の可能性の分析を行う。
最後に、この技術に直面する主な課題と今後の展望について概説する。 Consumer's privacy is a main concern in Smart Grids (SGs) due to the sensitivity of energy data, particularly when used to train machine learning models for different services. These data-driven models often require huge amounts of data to achieve acceptable performance leading in most cases to risks of privacy leakage. By pushing the training to the edge, Federated Learning (FL) offers a good compromise between privacy preservation and the predictive performance of these models. The current paper presents an overview of FL applications in SGs while discussing their advantages and drawbacks, mainly in load forecasting, electric vehicles, fault diagnoses, load disaggregation and renewable energies. In addition, an analysis of main design trends and possible taxonomies is provided considering data partitioning, the communication topology, and security mechanisms. Towards the end, an overview of main challenges facing this technology and potential future directions is presented. | 翻訳日:2023-04-19 16:31:32 公開日:2023-04-17 |
# RS2G:ロバストな自律認識とシナリオ理解のためのデータ駆動のシーングラフ抽出と埋め込み RS2G: Data-Driven Scene-Graph Extraction and Embedding for Robust Autonomous Perception and Scenario Understanding ( http://arxiv.org/abs/2304.08600v1 ) ライセンス: Link先を確認 | Arnav Vaibhav Malawade, Shih-Yuan Yu, Junyao Wang, Mohammad Abdullah Al Faruque | (参考訳) 人間ドライバーは当然、道路利用者間のやりとりを理解し、安全に交通をナビゲートする。
したがって、自動運転車の開発には、予測不可能でダイナミックな環境を理解し、ナビゲートするために、そのような知識を模倣し、道路利用者間の相互作用をモデル化する能力が必要である。
しかし、実世界のシナリオはトレーニングデータセットとは異なることが多いため、環境における様々な道路利用者の振る舞いを効果的にモデル化することは重要な研究課題である。
この現実は、幅広い領域に一般化するモデルを必要とし、シナリオ理解を改善するために、道路利用者と環境の間の相互作用を明示的にモデル化する。
グラフ学習手法はシナリオのグラフ表現を用いて相互作用をモデル化することでこの問題に対処する。
しかし,既存の手法では,学習領域から得られた知識を現実のシナリオに効果的に伝達することはできない。
この制約は、グラフ抽出に使用されるドメイン固有の規則によって引き起こされる。
これらの制約に対処するために、我々は、自律的なシーン理解タスクを解決するために、道路シーンの最良のグラフ表現を抽出することを学ぶデータ駆動グラフ抽出およびモデリングアプローチであるRoadScene2Graph(RS2G)を提案する。
rs2gは,規則に基づくグラフ抽出法やディープラーニングモデルよりも,主観的リスクアセスメントにおいて優れたパフォーマンスを実現する。
RS2Gは一般化とSim2Real転送学習を改善しており、シミュレーションデータセットから得られた知識を実世界のシナリオに転送する能力を示している。
また、RS2Gが下流分類器に対してより有用なグラフ表現をいかに生み出すかを示す。
最後に、RS2Gがルールベースのグラフエッジの相対的重要性を識別し、インテリジェントなグラフ空間調整を可能にする方法を示す。 Human drivers naturally reason about interactions between road users to understand and safely navigate through traffic. Thus, developing autonomous vehicles necessitates the ability to mimic such knowledge and model interactions between road users to understand and navigate unpredictable, dynamic environments. However, since real-world scenarios often differ from training datasets, effectively modeling the behavior of various road users in an environment remains a significant research challenge. This reality necessitates models that generalize to a broad range of domains and explicitly model interactions between road users and the environment to improve scenario understanding. Graph learning methods address this problem by modeling interactions using graph representations of scenarios. However, existing methods cannot effectively transfer knowledge gained from the training domain to real-world scenarios. This constraint is caused by the domain-specific rules used for graph extraction that can vary in effectiveness across domains, limiting generalization ability. To address these limitations, we propose RoadScene2Graph (RS2G): a data-driven graph extraction and modeling approach that learns to extract the best graph representation of a road scene for solving autonomous scene understanding tasks. We show that RS2G enables better performance at subjective risk assessment than rule-based graph extraction methods and deep-learning-based models. RS2G also improves generalization and Sim2Real transfer learning, which denotes the ability to transfer knowledge gained from simulation datasets to unseen real-world scenarios. We also present ablation studies showing how RS2G produces a more useful graph representation for downstream classifiers. Finally, we show how RS2G can identify the relative importance of rule-based graph edges and enables intelligent graph sparsity tuning. | 翻訳日:2023-04-19 16:31:17 公開日:2023-04-17 |
# 生物学、認知、意思決定における量子的モデリングのためのオープンシステム、量子確率および論理 Open systems, quantum probability and logic for quantum-like modeling in biology, cognition, and decision making ( http://arxiv.org/abs/2304.08599v1 ) ライセンス: Link先を確認 | Andrei Khrennikov | (参考訳) 本研究の目的は, ゲノムやタンパク質から動物, 人間, 生態学, 社会システムに至るまで, 複雑な生物系の挙動をモデル化するために, 量子論の数学的フォーマリズムと方法論を適用する可能性を明らかにすることである。
このようなモデルは量子様として知られ、生物学的現象の真の量子物理モデリングと区別されるべきである。
量子的モデルの特徴の1つは、マクロ生物システムへの適用性、またはより正確には情報処理への応用である。
量子様モデリングは量子情報理論の基礎を持ち、量子情報革命の成果の一つと見なすことができる。
孤立生物系は死滅しているため、生物学的および心的過程のモデリングは、その最も一般的な形式であるオープン量子系の理論に基づくべきである。
本稿では,生物学と認知,特に量子機器の理論と量子マスター方程式への応用を宣伝する。
我々はQBズムに特に興味を持つ量子的モデルの基本的実体の解釈が、最も有用な解釈である可能性について言及する。 The aim of this review is to highlight the possibility to apply the mathematical formalism and methodology of quantum theory to model behaviour of complex biosystems, from genomes and proteins to animals, humans, ecological and social systems. Such models are known as quantum-like and they should be distinguished from genuine quantum physical modeling of biological phenomena. One of the distinguishing features of quantum-like models is their applicability to macroscopic biosystems, or to be more precise, to information processing in them. Quantum-like modeling has the base in quantum information theory and it can be considered as one of the fruits of the quantum information revolution. Since any isolated biosystem is dead, modeling of biological as well as mental processes should be based on theory of open systems in its most general form -- theory of open quantum systems. In this review we advertise its applications to biology and cognition, especially theory of quantum instruments and quantum master equation. We mention the possible interpretations of the basic entities of quantum-like models with special interest to QBism is as may be the most useful interpretation. | 翻訳日:2023-04-19 16:30:46 公開日:2023-04-17 |
# eTOP: AutoMLシステムの高速トレーニングのためのパイプラインの早期終了 eTOP: Early Termination of Pipelines for Faster Training of AutoML Systems ( http://arxiv.org/abs/2304.08597v1 ) ライセンス: Link先を確認 | Haoxiang Zhang, Juliana Freire, Yash Garg | (参考訳) ソフトウェアとハードウェア技術の最近の進歩により、日々のアプリケーションでAI/MLモデルを使用することで、サービス品質が大幅に向上した。
しかしながら、あるアプリケーションでは、適切なai/mlモデルを見つけることは複雑でコストのかかるプロセスであり、データ前処理、機能工学、選択、モデルチューニングなど、複数の相互リンクされたステップ(パイプラインと呼ばれる)の生成、トレーニング、評価を含む。
これらのパイプラインは複雑(構造上)でコストがかかる(計算リソースと時間の両方で)ため、各ステップに関連付けられたハイパーパラメータがエンドツーエンドで実行される。
AutoMLシステムはこれらのハイパーパラメータの検索を自動化するが、パイプラインの出力の最適化に依存するため遅い。
我々は,任意のAutoMLシステム上で動作するeTOPフレームワークを提案し,パイプラインを最後まで実行するか,中間ステップで終了するかを決定する。
26のベンチマークデータセットの実験的評価とetopwith mlbox4の統合により、automlシステムのトレーニング時間はベースラインのmlboxの40倍に短縮される。 Recent advancements in software and hardware technologies have enabled the use of AI/ML models in everyday applications has significantly improved the quality of service rendered. However, for a given application, finding the right AI/ML model is a complex and costly process, that involves the generation, training, and evaluation of multiple interlinked steps (called pipelines), such as data pre-processing, feature engineering, selection, and model tuning. These pipelines are complex (in structure) and costly (both in compute resource and time) to execute end-to-end, with a hyper-parameter associated with each step. AutoML systems automate the search of these hyper-parameters but are slow, as they rely on optimizing the pipeline's end output. We propose the eTOP Framework which works on top of any AutoML system and decides whether or not to execute the pipeline to the end or terminate at an intermediate step. Experimental evaluation on 26 benchmark datasets and integration of eTOPwith MLBox4 reduces the training time of the AutoML system upto 40x than baseline MLBox. | 翻訳日:2023-04-19 16:30:29 公開日:2023-04-17 |
# AdaMTL:効率的なマルチタスク学習のための適応型入力依存推論 AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task Learning ( http://arxiv.org/abs/2304.08594v1 ) ライセンス: Link先を確認 | Marina Neseem, Ahmed Agiza, Sherief Reda | (参考訳) 現代の拡張現実アプリケーションは、各入力フレームで同時に複数のタスクを実行する必要がある。
マルチタスク学習(MTL)は、複数のタスクがエンコーダを共有して入力フレームから代表的特徴を抽出し、タスク固有のデコーダがタスク毎に予測を生成する、効果的なアプローチである。
一般に、MLLモデルにおける共有エンコーダは、様々なタスクや入力データによく適応するために、大きな表現能力を持つ必要があり、これは推論遅延に悪影響を及ぼす。
本稿では,入力フレームの複雑さのばらつきが大きいため,出力にはいくつかの計算が不要な場合があることを論じる。
そこで本稿では,MTLモデルのタスク認識推論ポリシーを入力依存で学習するフレームワークであるAdaMTLを紹介する。
具体的には,タスク対応の軽量ポリシネットワークを共有エンコーダにアタッチし,mtlモデルと協調して不要な計算を認識する。
実行時、タスク対応ポリシネットワークは、入力フレームとターゲットの計算複雑性に応じて、モデルのどの部分がアクティベートするかを決定します。
PASCALデータセットの大規模な実験により、AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
SOTA MTL法と組み合わせて、AdaMTLは精度を7.8%向上させ、効率を3.1倍向上させる。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は静的 MTL モデルと比較して、推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
私たちのコードはhttps://github.com/scale-lab/adamtl.gitで公開しています。 Modern Augmented reality applications require performing multiple tasks on each input frame simultaneously. Multi-task learning (MTL) represents an effective approach where multiple tasks share an encoder to extract representative features from the input frame, followed by task-specific decoders to generate predictions for each task. Generally, the shared encoder in MTL models needs to have a large representational capacity in order to generalize well to various tasks and input data, which has a negative effect on the inference latency. In this paper, we argue that due to the large variations in the complexity of the input frames, some computations might be unnecessary for the output. Therefore, we introduce AdaMTL, an adaptive framework that learns task-aware inference policies for the MTL models in an input-dependent manner. Specifically, we attach a task-aware lightweight policy network to the shared encoder and co-train it alongside the MTL model to recognize unnecessary computations. During runtime, our task-aware policy network decides which parts of the model to activate depending on the input frame and the target computational complexity. Extensive experiments on the PASCAL dataset demonstrate that AdaMTL reduces the computational complexity by 43% while improving the accuracy by 1.32% compared to single-task models. Combined with SOTA MTL methodologies, AdaMTL boosts the accuracy by 7.8% while improving the efficiency by 3.1X. When deployed on Vuzix M4000 smart glasses, AdaMTL reduces the inference latency and the energy consumption by up to 21.8% and 37.5%, respectively, compared to the static MTL model. Our code is publicly available at https://github.com/scale-lab/AdaMTL.git. | 翻訳日:2023-04-19 16:30:12 公開日:2023-04-17 |
# (lc)$^2$: クロスモーダル位置認識のためのlidarカメラループ制約 (LC)$^2$: LiDAR-Camera Loop Constraints For Cross-Modal Place Recognition ( http://arxiv.org/abs/2304.08660v1 ) ライセンス: Link先を確認 | Alex Junho Lee, Seungwon Song, Hyungtae Lim, Woojoo Lee and Hyun Myung | (参考訳) ローカライゼーションは自律ナビゲーションにとって難しい課題だった。
ループ検出アルゴリズムは、ロボットの場所認識と再局在化のための環境変化を克服しなければならない。
それゆえ、深層学習は測定値の定位記述子への一貫した変換のために広く研究されている。
ストリートビューの画像は簡単にアクセスできるが、画像は外観の変化に弱い。
LiDARは正確な構造情報をしっかりと提供できる。
しかし、ポイントクラウドデータベースの構築は高価であり、ポイントクラウドは限られた場所のみに存在する。
従来の2D画像と3Dポイントクラウドを直接埋め込みするネットワークを訓練する作業とは異なり、マッチングのために両データを2.5D深度画像に変換する。
本研究では,先行点クラウドマップを使わずにLiDARローカライゼーションを実現するために,(LC)$^2$と呼ばれる新しいクロスマッチング手法を提案する。
この目的のために、LiDAR測定は、一致する前にレンジ画像の形式で表現され、モダリティの差が小さくなる。
その後、ネットワークは、異種画像と範囲画像から局在記述子を抽出するように訓練される。
次に、ベストマッチはポーズグラフのループファクタとして使用される。
照明条件が著しく異なる複数のセッションを含む公開データセットを用いて,lidarベースのナビゲーションシステムが画像データベースから最適化され,その逆も可能であることを実証した。 Localization has been a challenging task for autonomous navigation. A loop detection algorithm must overcome environmental changes for the place recognition and re-localization of robots. Therefore, deep learning has been extensively studied for the consistent transformation of measurements into localization descriptors. Street view images are easily accessible; however, images are vulnerable to appearance changes. LiDAR can robustly provide precise structural information. However, constructing a point cloud database is expensive, and point clouds exist only in limited places. Different from previous works that train networks to produce shared embedding directly between the 2D image and 3D point cloud, we transform both data into 2.5D depth images for matching. In this work, we propose a novel cross-matching method, called (LC)$^2$, for achieving LiDAR localization without a prior point cloud map. To this end, LiDAR measurements are expressed in the form of range images before matching them to reduce the modality discrepancy. Subsequently, the network is trained to extract localization descriptors from disparity and range images. Next, the best matches are employed as a loop factor in a pose graph. Using public datasets that include multiple sessions in significantly different lighting conditions, we demonstrated that LiDAR-based navigation systems could be optimized from image databases and vice versa. | 翻訳日:2023-04-19 16:24:40 公開日:2023-04-17 |
# マルチモーダルセンサ融合を用いたDEDプリントSS316L部品の表面ポロシティのその場予測 In-situ surface porosity prediction in DED (directed energy deposition) printed SS316L parts using multimodal sensor fusion ( http://arxiv.org/abs/2304.08658v1 ) ライセンス: Link先を確認 | Adithyaa Karthikeyan, Himanshu Balhara, Andreas K Lianos, Abhishek Hanchate, Satish TS Bukkapatnam | (参考訳) 本研究の目的は,高空間(0.5mm)および時間(1ms)の細孔形成と,ハイブリッド指向型エネルギー堆積法(DED)プロセスで収集したAEおよび他のマルチモーダルセンサデータの時間周波数パターンを関連付けることである。
LIME(Local Interpretable Model-Agnostic Explanations)に説明可能なAI手法を適用すると、AEの特定の高周波波形シグネチャは、DEDプロセスにおいて細孔形成のための2つの主要な経路、すなわち、スパッタイベントと、低熱入力による隣接プリントトラック間の融合に起因していると考えられる。
このアプローチは、印刷されたすべてのボクセル(0.5mm)に細孔が存在することを、リアルタイムに予測するエキサイティングな可能性を開く。
SS316Lの材料試料を印刷し、その後加工しながら、力、AE、振動、温度を含む同期マルチモーダルセンサデータを収集した。
プロセスチェーン中に収集されたセンサデータの時間周波数パターン(スペクトログラム)に基づいて、ボクセル表面における細孔の存在を識別するためにディープ畳み込みニューラルネットワーク分類器を用いた。
その結果, DEDで収集した信号は, ボクセルのポロシティ検出のために加工した信号に比べて感度が高かった(分類試験精度87%)。
石灰分析から得られた基礎的な説明は、高周波ae波形で捕獲されたエネルギーは、融液プール内で比較的低いレーザー-物質相互作用を示す多孔質ボクセルに対して33%低く、そのため隣り合うプリントトラック間の融合や重なりが不十分であることを示唆している。
印刷時にスパッタ現象が流行する多孔質ボクセルは, 他の多孔質ボクセルと比較して, 高周波ae帯のエネルギー含有量が約27%高かった。
AEシグナルからのこれらのシグネチャは、スパッタと不十分な融合による細孔形成の理解をさらに深めることができる。 This study aims to relate the time-frequency patterns of acoustic emission (AE) and other multi-modal sensor data collected in a hybrid directed energy deposition (DED) process to the pore formations at high spatial (0.5 mm) and time (< 1ms) resolutions. Adapting an explainable AI method in LIME (Local Interpretable Model-Agnostic Explanations), certain high-frequency waveform signatures of AE are to be attributed to two major pathways for pore formation in a DED process, namely, spatter events and insufficient fusion between adjacent printing tracks from low heat input. This approach opens an exciting possibility to predict, in real-time, the presence of a pore in every voxel (0.5 mm in size) as they are printed, a major leap forward compared to prior efforts. Synchronized multimodal sensor data including force, AE, vibration and temperature were gathered while an SS316L material sample was printed and subsequently machined. A deep convolution neural network classifier was used to identify the presence of pores on a voxel surface based on time-frequency patterns (spectrograms) of the sensor data collected during the process chain. The results suggest signals collected during DED were more sensitive compared to those from machining for detecting porosity in voxels (classification test accuracy of 87%). The underlying explanations drawn from LIME analysis suggests that energy captured in high frequency AE waveforms are 33% lower for porous voxels indicating a relatively lower laser-material interaction in the melt pool, and hence insufficient fusion and poor overlap between adjacent printing tracks. The porous voxels for which spatter events were prevalent during printing had about 27% higher energy contents in the high frequency AE band compared to other porous voxels. These signatures from AE signal can further the understanding of pore formation from spatter and insufficient fusion. | 翻訳日:2023-04-19 16:24:22 公開日:2023-04-17 |
# 確率論的神経要約における不確かさの校正と選択生成について:ベンチマークによる検討 On Uncertainty Calibration and Selective Generation in Probabilistic Neural Summarization: A Benchmark Study ( http://arxiv.org/abs/2304.08653v1 ) ライセンス: Link先を確認 | Polina Zablotskaia, Du Phan, Joshua Maynez, Shashi Narayan, Jie Ren, Jeremiah Liu | (参考訳) 最近の要約用深層モデルは印象的なベンチマーク性能を達成しているが、誤った予測の不確実性を生成する傾向がある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法である。
しかし、複雑な自己回帰的要約タスクにおける相対的な効果は十分に理解されていない。
そこで本研究では,難易度が異なる3つの大規模ベンチマークにおいて,神経要約モデルの不確実性品質を改善するために,様々な確率的手法の有効性を徹底的に検討する。
確率的手法はモデルの生成と不確実性の品質を一貫して改善し,選択的生成性能(すなわち低品質要約の省略)を実際に改善することを示す。
また,nlpコミュニティで広く採用されている確率的手法(ディープアンサンブルやモンテカルロ・ドロップアウトなど)の顕著な失敗パターンを明らかにし,データセットに適した方法を選択することの重要性を警告した。 Modern deep models for summarization attains impressive benchmark performance, but they are prone to generating miscalibrated predictive uncertainty. This means that they assign high confidence to low-quality predictions, leading to compromised reliability and trustworthiness in real-world applications. Probabilistic deep learning methods are common solutions to the miscalibration problem. However, their relative effectiveness in complex autoregressive summarization tasks are not well-understood. In this work, we thoroughly investigate different state-of-the-art probabilistic methods' effectiveness in improving the uncertainty quality of the neural summarization models, across three large-scale benchmarks with varying difficulty. We show that the probabilistic methods consistently improve the model's generation and uncertainty quality, leading to improved selective generation performance (i.e., abstaining from low-quality summaries) in practice. We also reveal notable failure patterns of probabilistic methods widely-adopted in NLP community (e.g., Deep Ensemble and Monte Carlo Dropout), cautioning the importance of choosing appropriate method for the data setting. | 翻訳日:2023-04-19 16:23:45 公開日:2023-04-17 |
# BERT法に基づく米国最高裁判所判例の分類 Classification of US Supreme Court Cases using BERT-Based Techniques ( http://arxiv.org/abs/2304.08649v1 ) ライセンス: Link先を確認 | Shubham Vatsal, Adam Meyers and John Ortega | (参考訳) 変換器(BERT)からの双方向エンコーダ表現に基づくモデルは、名前付きエンティティ認識(NER)やPOSタグ付け(part-of-speech)といった多くの自然言語処理(NLP)タスクに対して、SOTA(State of the Art)結果を生成する。
興味深い現象は、BERTベースのモデルは、ファーストパスまたはアウト・オブ・ボックスベースでの使用が困難であると考えられる米国最高裁判所のような長い文書を分類する際に発生する。
本稿では,米国最高裁判所判決や最高裁判所データベース(SCDB)のためのBERTに基づく分類手法を実験し,以前のSOTA結果と比較する。
次に、長いドキュメントのSOTAモデルと結果を比較します。
その結果,(1)15カテゴリーの広い分類課題と(2)279カテゴリーの細粒度分類課題の2つの分類課題について比較した。
その結果,これまでに報告したsomaの結果から,それぞれ8\%,28\%の改善率を示す279カテゴリで80\%,細粒度で60\%の精度が得られた。 Models based on bidirectional encoder representations from transformers (BERT) produce state of the art (SOTA) results on many natural language processing (NLP) tasks such as named entity recognition (NER), part-of-speech (POS) tagging etc. An interesting phenomenon occurs when classifying long documents such as those from the US supreme court where BERT-based models can be considered difficult to use on a first-pass or out-of-the-box basis. In this paper, we experiment with several BERT-based classification techniques for US supreme court decisions or supreme court database (SCDB) and compare them with the previous SOTA results. We then compare our results specifically with SOTA models for long documents. We compare our results for two classification tasks: (1) a broad classification task with 15 categories and (2) a fine-grained classification task with 279 categories. Our best result produces an accuracy of 80\% on the 15 broad categories and 60\% on the fine-grained 279 categories which marks an improvement of 8\% and 28\% respectively from previously reported SOTA results. | 翻訳日:2023-04-19 16:23:26 公開日:2023-04-17 |
# ProPanDL: 不確実性を認識したパノプティブセグメンテーションのためのモジュールアーキテクチャ ProPanDL: A Modular Architecture for Uncertainty-Aware Panoptic Segmentation ( http://arxiv.org/abs/2304.08645v1 ) ライセンス: Link先を確認 | Jacob Deery, Chang Won Lee, Steven Waslander | (参考訳) 本稿では,不確実性を考慮したパノプティックセグメンテーションが可能なネットワークであるProPanDLを紹介する。
既存のセグメンテーション法とは異なり、propandlはパンオプティカルセグメンテーションの意味的側面と空間的側面の両方の完全な確率分布を推定することができる。
パラメトリック(可変ネットワーク)とパラメータフリー(サンプルネット)の両方の分布を推定できるProPanDL変種を実装し,評価する。
これらの手法を,セマンティック不確実性推定のための2つの手法(温度スケーリングとエビデンシャルディープラーニング)と組み合わせる。
不確実性を認識したパンオプティカルセグメンテーションタスクを評価するために,空間的・意味的不確かさを別々に評価する新しいメトリクスを提案することにより,既存のアプローチの限界に対処した。
さらに,空間出力分布のロバストな評価のために,適切なスコアルールであるエネルギースコアの利用を提案する。
これらの指標を用いて,ProPanDL変異体を広範囲に評価する。
以上の結果から, ProPanDLは, 高い性能を維持しつつ, 高い校正, 有意な出力分布を推定できることを示した。 We introduce ProPanDL, a family of networks capable of uncertainty-aware panoptic segmentation. Unlike existing segmentation methods, ProPanDL is capable of estimating full probability distributions for both the semantic and spatial aspects of panoptic segmentation. We implement and evaluate ProPanDL variants capable of estimating both parametric (Variance Network) and parameter-free (SampleNet) distributions quantifying pixel-wise spatial uncertainty. We couple these approaches with two methods (Temperature Scaling and Evidential Deep Learning) for semantic uncertainty estimation. To evaluate the uncertainty-aware panoptic segmentation task, we address limitations with existing approaches by proposing new metrics that enable separate evaluation of spatial and semantic uncertainty. We additionally propose the use of the energy score, a proper scoring rule, for more robust evaluation of spatial output distributions. Using these metrics, we conduct an extensive evaluation of ProPanDL variants. Our results demonstrate that ProPanDL is capable of estimating well-calibrated and meaningful output distributions while still retaining strong performance on the base panoptic segmentation task. | 翻訳日:2023-04-19 16:23:04 公開日:2023-04-17 |
# TAP:道路網における交通事故予測のための総合データリポジトリ TAP: A Comprehensive Data Repository for Traffic Accident Prediction in Road Networks ( http://arxiv.org/abs/2304.08640v1 ) ライセンス: Link先を確認 | Baixiang Huang, Bryan Hooi, Kai Shu | (参考訳) 道路安全は世界的な公衆衛生上の問題である。
効果的な交通事故予測は、道路交通事故の低減に重要な役割を果たす。
しかし、既存の機械学習アプローチは、道路ネットワーク内の異なる事故場所間の潜在的な関係を考慮せずに、独立して交通事故を予測することに集中する傾向にある。
グラフ構造情報を組み込むため、グラフニューラルネットワーク(GNN)のようなグラフベースのアプローチを自然に適用することができる。
しかし、GNNを事故予測問題に適用することは、適切なグラフ構造化交通事故データセットがないために困難に直面している。
このギャップを埋めるため,我々は,事故発生予測と事故発生予測という2つの代表的なタスクとともに,実世界のグラフベースの交通事故予測(tap)データリポジトリを構築した。
全国的なカバレッジ、実世界のネットワークトポロジ、豊富な地理空間機能により、このデータリポジトリはさまざまなトラフィック関連のタスクに使用できる。
さらに、作成したデータセットを用いて、11の最先端GNN変種と2つの非グラフベース機械学習手法を包括的に評価する。
そこで本研究では,道路網からの角方向情報と方向情報を取り込むためのlinkage(travel)モデルを用いた,新たな交通事故脆弱性推定手法を提案する。
提案モデルがベースラインを一貫して上回ることを示す。
データとコードはgithubから入手できる(https://github.com/baixianghuang/travel)。 Road safety is a major global public health concern. Effective traffic crash prediction can play a critical role in reducing road traffic accidents. However, Existing machine learning approaches tend to focus on predicting traffic accidents in isolation, without considering the potential relationships between different accident locations within road networks. To incorporate graph structure information, graph-based approaches such as Graph Neural Networks (GNNs) can be naturally applied. However, applying GNNs to the accident prediction problem faces challenges due to the lack of suitable graph-structured traffic accident datasets. To bridge this gap, we have constructed a real-world graph-based Traffic Accident Prediction (TAP) data repository, along with two representative tasks: accident occurrence prediction and accident severity prediction. With nationwide coverage, real-world network topology, and rich geospatial features, this data repository can be used for a variety of traffic-related tasks. We further comprehensively evaluate eleven state-of-the-art GNN variants and two non-graph-based machine learning methods using the created datasets. Significantly facilitated by the proposed data, we develop a novel Traffic Accident Vulnerability Estimation via Linkage (TRAVEL) model, which is designed to capture angular and directional information from road networks. We demonstrate that the proposed model consistently outperforms the baselines. The data and code are available on GitHub (https://github.com/baixianghuang/travel). | 翻訳日:2023-04-19 16:22:42 公開日:2023-04-17 |
# pgmpy:ベイジアンネットワークのためのpythonツールキット pgmpy: A Python Toolkit for Bayesian Networks ( http://arxiv.org/abs/2304.08639v1 ) ライセンス: Link先を確認 | Ankur Ankan and Johannes Textor | (参考訳) ベイジアンネットワーク(BN)は、モデリング、予測、意思決定に様々な分野で使われている。
pgmpyは、BNと関連するモデルを扱うためのアルゴリズムとツールのコレクションを提供するpythonパッケージである。
構造学習、パラメータ推定、近似と正確な推論、因果推論、シミュレーションのためのアルゴリズムを実装している。
これらの実装はモジュール性と拡張性に重点を置いており、ユーザーが既存のアルゴリズムをすばやく修正/追加したり、異なるユースケースで新しいアルゴリズムを実装することができる。
pgmpyはmitライセンスでリリースされており、ソースコードはhttps://github.com/pgmpy/pgmpyで利用可能である。 Bayesian Networks (BNs) are used in various fields for modeling, prediction, and decision making. pgmpy is a python package that provides a collection of algorithms and tools to work with BNs and related models. It implements algorithms for structure learning, parameter estimation, approximate and exact inference, causal inference, and simulations. These implementations focus on modularity and easy extensibility to allow users to quickly modify/add to existing algorithms, or to implement new algorithms for different use cases. pgmpy is released under the MIT License; the source code is available at: https://github.com/pgmpy/pgmpy, and the documentation at: https://pgmpy.org. | 翻訳日:2023-04-19 16:22:21 公開日:2023-04-17 |
# 大規模言語モデル出力の評価:談話と記憶 An Evaluation on Large Language Model Outputs: Discourse and Memorization ( http://arxiv.org/abs/2304.08637v1 ) ライセンス: Link先を確認 | Adrian de Wynter, Xun Wang, Alex Sokolov, Qilong Gu and Si-Qing Chen | (参考訳) 本稿では,最も広く普及している大言語モデル(LLM)の9つの出力を実証的に評価する。
分析は市販のツールを使って行います。
本研究は,文章の暗記率,一意テキストの割合,および全出力品質の相関関係を,反実的文や論理的に定式化された文などのアウトプット・パロジに関して測定し,話題に留まらないような一般的な失敗とを関連づけた。
総合的に評価した出力の80.0%は記憶されたデータを含むが、記憶された内容が最も多く含む出力は高品質であると考えられた。
評価されたモデルでは、記憶されたテキストの出力率が減少することを示すため、緩和戦略を議論し、評価する。
我々は、学習し、記憶し、質の高いテキストを評価することの意味に関する潜在的な意味についての議論を締めくくった。 We present an empirical evaluation of various outputs generated by nine of the most widely-available large language models (LLMs). Our analysis is done with off-the-shelf, readily-available tools. We find a correlation between percentage of memorized text, percentage of unique text, and overall output quality, when measured with respect to output pathologies such as counterfactual and logically-flawed statements, and general failures like not staying on topic. Overall, 80.0% of the outputs evaluated contained memorized data, but outputs containing the most memorized content were also more likely to be considered of high quality. We discuss and evaluate mitigation strategies, showing that, in the models evaluated, the rate of memorized text being output is reduced. We conclude with a discussion on potential implications around what it means to learn, to memorize, and to evaluate quality text. | 翻訳日:2023-04-19 16:22:05 公開日:2023-04-17 |
# $\beta$-Variational Quantum Eigensolver を用いた量子ボルツマンマシンの訓練 Training Quantum Boltzmann Machines with the $\beta$-Variational Quantum Eigensolver ( http://arxiv.org/abs/2304.08631v1 ) ライセンス: Link先を確認 | Onno Huijgen and Luuk Coopmans and Peyman Najafi and Marcello Benedetti and Hilbert J. Kappen | (参考訳) 量子ボルツマンマシン(Quantum Boltzmann machine, QBM)は、古典的データと量子状態の両方に対する生成機械学習モデルである。
QBMのトレーニングは、モデルからターゲット状態への相対エントロピーを最小化することで構成される。
これはQBM期待値を必要とするが、これは一般に大きなモデルで計算的に計算可能である。
したがって、実際にうまく機能するヒューリスティックなトレーニング手法を開発することが重要である。
本研究では, ネストループを特徴とするヒューリスティックな手法について検討する: 内ループは, Liuらによる$\beta$-variational quantum eigensolver (\beta$-VQE) を, QBM期待値の近似のために訓練し, 外ループはターゲットに対する相対エントロピーを最小化するためにQBMを訓練する。
我々は,$\beta$-VQEで得られた低ランク表現が,古典的データや低温量子トモグラフィなどの低ランク対象状態の学習に有効な方法であることを示す。
最大10キュービットの数値シミュレーションにより,古典的および量子的ターゲットデータの両方で実験を行った。
ここで考慮された場合、得られたQBMはターゲットを高忠実度にモデル化することができる。
このアプローチは、短期量子デバイス上で変分訓練されたqbmへの貴重な経路を提供する。 The quantum Boltzmann machine (QBM) is a generative machine learning model for both classical data and quantum states. The training of the QBM consists of minimizing the relative entropy from the model to the target state. This requires QBM expectation values which are computationally intractable for large models in general. It is therefore important to develop heuristic training methods that work well in practice. In this work, we study a heuristic method characterized by a nested loop: the inner loop trains the $\beta$-variational quantum eigensolver ($\beta$-VQE) by Liu et al. (2021) to approximate the QBM expectation values; the outer loop trains the QBM to minimize the relative entropy to the target. We show that low-rank representations obtained by $\beta$-VQE provide an efficient way to learn low-rank target states, such as classical data and low-temperature quantum tomography. We test the method on both classical and quantum target data with numerical simulations of up to 10 qubits. For the cases considered here, the obtained QBMs can model the target to high fidelity. The approach offers a valuable route towards variationally training QBMs on near-term quantum devices. | 翻訳日:2023-04-19 16:21:47 公開日:2023-04-17 |
# 量子超伝導デバイスにおける導電損失の同定と緩和 Identification and Mitigation of Conducting Package Losses for Quantum Superconducting Devices ( http://arxiv.org/abs/2304.08629v1 ) ライセンス: Link先を確認 | Yizhou Huang, Yi-Hsiang Huang, Haozhi Wang, Zach Steffen, Jonathan Cripe, F. C. Wellstood, B. S. Palmer | (参考訳) 量子計算には低損失超伝導マイクロ波デバイスが必要である。
本稿では,超伝導共振器のパッケージングにおける損失が,基本共振周波数が4.9ghzから5.8ghzの薄膜al四波共振器の最大内部品質因子(qi)に与える影響を示す一連の測定とシミュレーションについて述べる。
共振器の幅とギャップの異なる共振器を用いてQiに影響を及ぼす共振器の異なる電磁エネルギー量をサンプリングした。
共振器装置のサファイア基板の裏面を導電性銀接着剤でCuパッケージに付着させると、電磁サンプリング体積が増大するにつれて、最大到達可能なQiの単調低下が生じる。
これは、大きな表面抵抗領域における誘導電流と基板下の散逸の結果である。
基板の下に穴をあけ, 超伝導材料をパッケージに使用することにより, オーミック損失を低減し, より大きな共振器の最大Qiを増加させる。 Low-loss superconducting microwave devices are required for quantum computation. Here, we present a series of measurements and simulations showing that conducting losses in the packaging of our superconducting resonator devices affect the maximum achievable internal quality factors (Qi) for a series of thin-film Al quarter-wave resonators with fundamental resonant frequencies varying between 4.9 and 5.8 GHz. By utilizing resonators with different widths and gaps, we sampled different electromagnetic energy volumes for the resonators affecting Qi. When the backside of the sapphire substrate of the resonator device is adhered to a Cu package with a conducting silver glue, a monotonic decrease in the maximum achievable Qi is found as the electromagnetic sampling volume is increased. This is a result of induced currents in large surface resistance regions and dissipation underneath the substrate. By placing a hole underneath the substrate and using superconducting material for the package, we decrease the ohmic losses and increase the maximum Qi for the larger size resonators. | 翻訳日:2023-04-19 16:21:22 公開日:2023-04-17 |
# insta(nt)pet療法:gan生成画像によるソーシャルメディアコンテンツの治療 Insta(nt) Pet Therapy: GAN-generated Images for Therapeutic Social Media Content ( http://arxiv.org/abs/2304.08665v1 ) ライセンス: Link先を確認 | Tanish Jain | (参考訳) ペットの画像をオンラインで見る効果はよく研究されている。
しかし、ペットの飼い主が写真を撮ってアップロードすることに頼っているため、このようなコンテンツの大量生産は困難である。
私は、偽のペット画像を大規模に作成するために、ジェネレーティブ・アドバイサル・ネットワークベースのフレームワークを使用します。
これらの画像はInstagramのアカウントにアップロードされ、従来のペット写真を含むアカウントからの画像に匹敵するレベルのユーザーエンゲージメントを駆動する。 The positive therapeutic effect of viewing pet images online has been well-studied. However, it is difficult to obtain large-scale production of such content since it relies on pet owners to capture photographs and upload them. I use a Generative Adversarial Network-based framework for the creation of fake pet images at scale. These images are uploaded on an Instagram account where they drive user engagement at levels comparable to those seen with images from accounts with traditional pet photographs, underlining the applicability of the framework to be used for pet-therapy social media content. | 翻訳日:2023-04-19 16:11:54 公開日:2023-04-17 |
# 学習した動作残差を用いた連続多用途ジャンプ Continuous Versatile Jumping Using Learned Action Residuals ( http://arxiv.org/abs/2304.08663v1 ) ライセンス: Link先を確認 | Yuxiang Yang, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots | (参考訳) 脚のあるロボットが困難な地形を横切るためには跳躍が不可欠だ。
本研究では,四足歩行ロボットの連続跳躍動作を学習するために,最適制御と強化学習を組み合わせた階層的枠組みを提案する。
我々のフレームワークの中核はスタンスコントローラであり、手動で設計した加速度コントローラと学習された残留ポリシーを組み合わせる。
加速制御装置は、効率的な訓練を行うためのポリシーを温め始めるので、訓練されたポリシーは加速度制御装置の制限を克服し、ジャンプ安定性を向上させる。
さらに、低レベル全体制御器は、姿勢制御器からの身体ポーズ指令をモータ指令に変換する。
シミュレーションでトレーニングした後、フレームワークを実際のロボットに直接配置し、全方位を最大50cm、前方60cm、最大90度のジャンプターンを含む、万能で連続的なジャンプ動作を行うことができます。
詳細はWebサイト(https://sites.google.com/view/learning-to-jump.com)を参照してほしい。 Jumping is essential for legged robots to traverse through difficult terrains. In this work, we propose a hierarchical framework that combines optimal control and reinforcement learning to learn continuous jumping motions for quadrupedal robots. The core of our framework is a stance controller, which combines a manually designed acceleration controller with a learned residual policy. As the acceleration controller warm starts policy for efficient training, the trained policy overcomes the limitation of the acceleration controller and improves the jumping stability. In addition, a low-level whole-body controller converts the body pose command from the stance controller to motor commands. After training in simulation, our framework can be deployed directly to the real robot, and perform versatile, continuous jumping motions, including omni-directional jumps at up to 50cm high, 60cm forward, and jump-turning at up to 90 degrees. Please visit our website for more results: https://sites.google.com/view/learning-to-jump. | 翻訳日:2023-04-19 16:11:37 公開日:2023-04-17 |
# 常に強化する: CTR予測のためのドリフト対応インクリメンタルラーニングフレームワーク Always Strengthen Your Strengths: A Drift-Aware Incremental Learning Framework for CTR Prediction ( http://arxiv.org/abs/2304.09062v1 ) ライセンス: Link先を確認 | Congcong Liu, Fei Teng, Xiwei Zhao, Zhangang Lin, Jinghe Hu, Jingping Shao | (参考訳) クリックスルー率(CTR)予測はレコメンデーションシステムやオンライン広告プラットフォームにおいて非常に重要である。
産業シナリオで提供される場合、CTRモデルで観測されたユーザ生成データは通常、ストリームとして到着する。
ストリーミングデータには、基礎となる分布が時間とともにドリフトし、再帰する可能性があるという特徴がある。
これにより、モデルが単に新しいデータ分散に常に適応すれば、破滅的な忘れることになる。
また、発生した分布を再学習するのは非効率である。
大規模産業アプリケーションにおけるメモリ制約やデータ分布の多様性から,リプレイやパラメータ分離,知識蒸留といった破滅的な忘れ方策の展開は困難である。
本研究では,CTR予測における破滅的な忘れに対処するために,アンサンブル学習に基づく新たなドリフト対応インクリメンタルラーニングフレームワークを設計する。
ストリーミングデータ上の明示的なエラーベースのドリフト検出により、フレームワークはさらに適合度の高いアンサンブルを強化し、壊滅的な干渉を避ける入力分布にマッチしないアンサンブルを凍結する。
オフライン実験における評価とa/bテストはいずれも,本手法が考慮したすべてのベースラインを上回っていることを示している。 Click-through rate (CTR) prediction is of great importance in recommendation systems and online advertising platforms. When served in industrial scenarios, the user-generated data observed by the CTR model typically arrives as a stream. Streaming data has the characteristic that the underlying distribution drifts over time and may recur. This can lead to catastrophic forgetting if the model simply adapts to new data distribution all the time. Also, it's inefficient to relearn distribution that has been occurred. Due to memory constraints and diversity of data distributions in large-scale industrial applications, conventional strategies for catastrophic forgetting such as replay, parameter isolation, and knowledge distillation are difficult to be deployed. In this work, we design a novel drift-aware incremental learning framework based on ensemble learning to address catastrophic forgetting in CTR prediction. With explicit error-based drift detection on streaming data, the framework further strengthens well-adapted ensembles and freezes ensembles that do not match the input distribution avoiding catastrophic interference. Both evaluations on offline experiments and A/B test shows that our method outperforms all baselines considered. | 翻訳日:2023-04-19 14:13:30 公開日:2023-04-17 |
# LaSNN:ディープスパイクニューラルネットワークの効果的かつ効率的なトレーニングのためのレイヤワイズANN-to-SNN蒸留 LaSNN: Layer-wise ANN-to-SNN Distillation for Effective and Efficient Training in Deep Spiking Neural Networks ( http://arxiv.org/abs/2304.09101v1 ) ライセンス: Link先を確認 | Di Hong, Jiangrong Shen, Yu Qi, Yueming Wang | (参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動機構のため、生物学的に現実的で、低消費電力計算において現実的に有望である。
通常、SNNの訓練は様々なタスクにおいて精度の低下に悩まされ、ANNと比較して性能が劣る。
トレーニングされたANNのパラメータを同じ構造を持つSNNにマッピングすることで、競合精度を得るための変換方式を提案する。
しかし、これらの変換されたSNNには膨大な時間ステップが必要であるため、エネルギー効率が低下する。
ANNの精度とSNNの計算効率の両面から、レイヤワイドのANN-to-SNN知識蒸留(LaSNN)という新しいSNNトレーニングフレームワークを提案する。
競合精度と推論遅延の低減のために、LaSNNは、ANNのパラメータを変換する以外の知識を蒸留することにより、よく訓練されたANNからの学習を小さなSNNに転送する。
不均一なANNとSNN間の情報ギャップは、アテンションスキームを導入し、ANNの知識を効果的に圧縮し、我々の層ワイド蒸留パラダイムを利用して効率的に伝達する。
3つのベンチマークデータセット(CIFAR-10, CIFAR-100, Tiny ImageNet)上でLaSNNの有効性, 有効性, 拡張性を示すための詳細な実験を行った。
同様の性能を持つ変換SNNに比べて,ANNと20倍高速な推定を行う。
より重要なことは、LaSNNはデリケートで拡張性があり、異なるアーキテクチャ/深さと入力エンコーディングメソッドを持つSNN向けに懸命に開発することができる。 Spiking Neural Networks (SNNs) are biologically realistic and practically promising in low-power computation because of their event-driven mechanism. Usually, the training of SNNs suffers accuracy loss on various tasks, yielding an inferior performance compared with ANNs. A conversion scheme is proposed to obtain competitive accuracy by mapping trained ANNs' parameters to SNNs with the same structures. However, an enormous number of time steps are required for these converted SNNs, thus losing the energy-efficient benefit. Utilizing both the accuracy advantages of ANNs and the computing efficiency of SNNs, a novel SNN training framework is proposed, namely layer-wise ANN-to-SNN knowledge distillation (LaSNN). In order to achieve competitive accuracy and reduced inference latency, LaSNN transfers the learning from a well-trained ANN to a small SNN by distilling the knowledge other than converting the parameters of ANN. The information gap between heterogeneous ANN and SNN is bridged by introducing the attention scheme, the knowledge in an ANN is effectively compressed and then efficiently transferred by utilizing our layer-wise distillation paradigm. We conduct detailed experiments to demonstrate the effectiveness, efficacy, and scalability of LaSNN on three benchmark data sets (CIFAR-10, CIFAR-100, and Tiny ImageNet). We achieve competitive top-1 accuracy compared to ANNs and 20x faster inference than converted SNNs with similar performance. More importantly, LaSNN is dexterous and extensible that can be effortlessly developed for SNNs with different architectures/depths and input encoding methods, contributing to their potential development. | 翻訳日:2023-04-19 14:04:45 公開日:2023-04-17 |
# MDDL:マルチチャネルフィードにおける強化学習に基づく位置アロケーションのためのフレームワーク MDDL: A Framework for Reinforcement Learning-based Position Allocation in Multi-Channel Feed ( http://arxiv.org/abs/2304.09087v1 ) ライセンス: Link先を確認 | Xiaowen Shi, Ze Wang, Yuanying Cai, Xiaoxu Wu, Fan Yang, Guogang Liao, Yongkang Wang, Xingxing Wang, Dong Wang | (参考訳) 現在、位置割り当てシステムにおける主流のアプローチは、強化学習モデルを用いて様々なチャンネルの項目の適切な位置を割り当て、それらをフィードに混ぜることである。
位置割り当てのための強化学習(RL)モデルを訓練するために使用されるデータには、名前付き戦略データとランダムデータがある。
戦略データは現在のオンラインモデルから収集され、状態-作用ペアの不均衡な分布に悩まされ、トレーニング中に深刻な過大評価問題を引き起こす。
一方、ランダムデータは、より均一な状態-作用ペアの分布を提供するが、ランダムな探索によるプラットフォーム収益とユーザエクスペリエンスに悪影響を及ぼす可能性があるため、産業シナリオでの獲得は困難である。
2種類のデータには分布が異なるため、RLモデルトレーニングの有効性を高めるために両方のデータを活用する効果的な戦略を設計することは、非常に難しい問題となっている。
本研究では,MDDL (Multi-Distribution Data Learning) というフレームワークを提案し,混合マルチディストリビューションデータに基づくRLモデルの学習に戦略データとランダムデータの両方を効果的に活用することの課題に対処する。
具体的には、MDDLは、戦略データにおける過大評価問題を軽減し、ランダムデータに対するRL信号を最大化し、効果的な学習を容易にするために、新しい模倣学習信号を組み込んでいる。
本実験では,提案するmddlフレームワークを実世界の位置割当システムで評価し,従来のベースラインよりも優れた性能を示した。
MDDLはMeituanのフードデリバリープラットフォームに完全にデプロイされており、現在3億人のユーザーにサービスを提供している。 Nowadays, the mainstream approach in position allocation system is to utilize a reinforcement learning model to allocate appropriate locations for items in various channels and then mix them into the feed. There are two types of data employed to train reinforcement learning (RL) model for position allocation, named strategy data and random data. Strategy data is collected from the current online model, it suffers from an imbalanced distribution of state-action pairs, resulting in severe overestimation problems during training. On the other hand, random data offers a more uniform distribution of state-action pairs, but is challenging to obtain in industrial scenarios as it could negatively impact platform revenue and user experience due to random exploration. As the two types of data have different distributions, designing an effective strategy to leverage both types of data to enhance the efficacy of the RL model training has become a highly challenging problem. In this study, we propose a framework named Multi-Distribution Data Learning (MDDL) to address the challenge of effectively utilizing both strategy and random data for training RL models on mixed multi-distribution data. Specifically, MDDL incorporates a novel imitation learning signal to mitigate overestimation problems in strategy data and maximizes the RL signal for random data to facilitate effective learning. In our experiments, we evaluated the proposed MDDL framework in a real-world position allocation system and demonstrated its superior performance compared to the previous baseline. MDDL has been fully deployed on the Meituan food delivery platform and currently serves over 300 million users. | 翻訳日:2023-04-19 14:03:17 公開日:2023-04-17 |
# Debiased Recommendationsにおける無バイアス評価とのバランス Balancing Unobserved Confounding with a Few Unbiased Ratings in Debiased Recommendations ( http://arxiv.org/abs/2304.09085v1 ) ライセンス: Link先を確認 | Haoxuan Li, Yanghao Xiao, Chunyuan Zheng, Peng Wu | (参考訳) リコメンダシステムは情報過負荷に対処する有効なツールと考えられているが、様々なバイアスが存在することによって、大規模観測データを直接トレーニングすることで、準最適予測性能が得られることが広く知られている。
対照的に、ランダムに制御された試験またはa/bテストから得られた偏りのない評価は、金本位制と見なされるが、実際には高価かつ小規模である。
両方のデータを活用するために、最近の研究では、偏りのない評価を用いて、偏りのあるデータセットでトレーニングされた固有性やインプテーションモデルのパラメータを修正することを提案している。
しかし、既存の手法は、観測されていない共起やモデル誤特定の存在下で正確な予測を得ることができない。
本稿では,既存のデバイアス法に適用可能なモデル非依存バランス手法を提案する。
提案手法では, バイアスデータを用いて学習したモデルパラメータを補正し, バイアスデータのバランス係数を適応的に学習することで, バイアスデータを完全に活用する。
実世界の広範囲な実験を行い,提案手法を4つの代表的なデバイアス法に適用し,その効果を実証した。 Recommender systems are seen as an effective tool to address information overload, but it is widely known that the presence of various biases makes direct training on large-scale observational data result in sub-optimal prediction performance. In contrast, unbiased ratings obtained from randomized controlled trials or A/B tests are considered to be the golden standard, but are costly and small in scale in reality. To exploit both types of data, recent works proposed to use unbiased ratings to correct the parameters of the propensity or imputation models trained on the biased dataset. However, the existing methods fail to obtain accurate predictions in the presence of unobserved confounding or model misspecification. In this paper, we propose a theoretically guaranteed model-agnostic balancing approach that can be applied to any existing debiasing method with the aim of combating unobserved confounding and model misspecification. The proposed approach makes full use of unbiased data by alternatively correcting model parameters learned with biased data, and adaptively learning balance coefficients of biased samples for further debiasing. Extensive real-world experiments are conducted along with the deployment of our proposal on four representative debiasing methods to demonstrate the effectiveness. | 翻訳日:2023-04-19 14:02:50 公開日:2023-04-17 |
# drift: アイテムに対する暗黙的なフィードバックを備えたフェデレーションレコメンダシステム DRIFT: A Federated Recommender System with Implicit Feedback on the Items ( http://arxiv.org/abs/2304.09084v1 ) ライセンス: Link先を確認 | Theo Nommay | (参考訳) 現在、オンラインで利用できるアイテムが増えているため、ユーザーが好きなアイテムを見つけるのが難しくなっている。
Recommender システムは,ユーザにとって最も適した項目を見つけることを目的としている。
コンテキストによっては、これらのインタラクションは多かれ少なかれセンシティブになり、収集はユーザのプライバシに関する重要な問題をもたらす。
フェデレーションシステムでは,ユーザの個人情報を保存せずに正確かつ効率的なレコメンデーションを行うことが可能である。
しかし,これらのシステムはユーザからのフィードバックを瞬時に利用する。
本稿では,暗黙のフィードバックを用いた推薦システムのための統合アーキテクチャであるDRIFTを提案する。
我々の学習モデルは、暗黙のフィードバックSAROSを用いた最近のアルゴリズムに基づく。
ユーザのプライバシを損なうことなく,salosと同じくらい正確なレコメンデーションを目指しています。
本報告では,実験のおかげだが,収束に関する理論的解析のおかげであることを示す。
また,計算時間は相互作用の数に関して線形複雑性を持つことを示した。
最後に,提案手法が安全であることを示し,連合システムの参加者は,インタラクションに関わる項目を持つdosを除いては,ユーザによるインタラクションを推測できない。 Nowadays there are more and more items available online, this makes it hard for users to find items that they like. Recommender systems aim to find the item who best suits the user, using his historical interactions. Depending on the context, these interactions may be more or less sensitive and collecting them brings an important problem concerning the users' privacy. Federated systems have shown that it is possible to make accurate and efficient recommendations without storing users' personal information. However, these systems use instantaneous feedback from the user. In this report, we propose DRIFT, a federated architecture for recommender systems, using implicit feedback. Our learning model is based on a recent algorithm for recommendation with implicit feedbacks SAROS. We aim to make recommendations as precise as SAROS, without compromising the users' privacy. In this report we show that thanks to our experiments, but also thanks to a theoretical analysis on the convergence. We have shown also that the computation time has a linear complexity with respect to the number of interactions made. Finally, we have shown that our algorithm is secure, and participants in our federated system cannot guess the interactions made by the user, except DOs that have the item involved in the interaction. | 翻訳日:2023-04-19 14:02:27 公開日:2023-04-17 |
# ルックアライクなモデリングのための顧客の360度ビューの検討 Exploring 360-Degree View of Customers for Lookalike Modeling ( http://arxiv.org/abs/2304.09105v1 ) ライセンス: Link先を確認 | Md Mostafizur Rahman, Daisuke Kikuta, Satyen Abrol, Yu Hirate, Toyotaro Suzumura, Pablo Loyola, Takuma Ebisu, Manoj Kondapaka | (参考訳) Lookaのようなモデルは、非常に大きなユーザーベースから既存の広告キャンペーンを売り、強化するために、ユーザー類似性が重要な役割を果たすという仮定に基づいている。
これらのモデルに関連する課題は、ユーザベースの不均一性とその疎性にある。
本研究は,楽天グループの顧客ターゲットを改善するために,利用者の行動や,人口動態,異なるプラットフォーム上での購買行動,顧客の忠誠行動,ルックアライスなモデルを構築するための新しい枠組みを提案する。
実際のeコマースおよび旅行データセットに関する大規模な実験は、ユーザターゲティングタスクにおいて提案したルックアライズモデルの有効性を示す。 Lookalike models are based on the assumption that user similarity plays an important role towards product selling and enhancing the existing advertising campaigns from a very large user base. Challenges associated to these models reside on the heterogeneity of the user base and its sparsity. In this work, we propose a novel framework that unifies the customers different behaviors or features such as demographics, buying behaviors on different platforms, customer loyalty behaviors and build a lookalike model to improve customer targeting for Rakuten Group, Inc. Extensive experiments on real e-commerce and travel datasets demonstrate the effectiveness of our proposed lookalike model for user targeting task. | 翻訳日:2023-04-19 13:53:04 公開日:2023-04-17 |
# Marginalized Coupled Dictionary Learning を用いたリアルタイム画像アノテーションの実現 Toward Real-Time Image Annotation Using Marginalized Coupled Dictionary Learning ( http://arxiv.org/abs/2304.06907v2 ) ライセンス: Link先を確認 | Seyed Mahdi Roostaiyan, Mohammad Mehdi Hosseini, Mahya Mohammadi Kashani, S. Hamid Amiri | (参考訳) ほとんどの画像検索システムでは、画像にはタグやアノテーションと呼ばれる様々な高レベルセマンティクスが含まれている。
事実上、不均衡なラベルを扱う最先端の画像アノテーションメソッドはすべて、時間を要する検索ベースの技術です。
本稿では,限られた数のビジュアルプロトタイプとそれに対応するセマンティクスを同時に学習するために,新しい統合辞書学習手法を提案する。
このアプローチはリアルタイム画像アノテーションの手順につながる。
本稿では,不均衡ラベル付き画像アノテーションに不適当な二乗損失関数の代わりに,限界損失関数を用いる。
本手法では, 簡易かつ効率的なプロトタイプ更新手法を活用するために, 余剰損失関数を用いた。
一方,意味プロトタイプに${\ell}_1$正規化を導入し,学習した意味プロトタイプにおけるラベルのばらばらで不均衡な性質を保存した。
最後に、様々なデータセットに対する総合的な実験結果から、画像アノテーションタスクの精度と時間の観点から、提案手法の効率性を示す。
リファレンス実装はhttps://github.com/hamid-amiri/MCDL-Image-Annotationで公開されている。 In most image retrieval systems, images include various high-level semantics, called tags or annotations. Virtually all the state-of-the-art image annotation methods that handle imbalanced labeling are search-based techniques which are time-consuming. In this paper, a novel coupled dictionary learning approach is proposed to learn a limited number of visual prototypes and their corresponding semantics simultaneously. This approach leads to a real-time image annotation procedure. Another contribution of this paper is that utilizes a marginalized loss function instead of the squared loss function that is inappropriate for image annotation with imbalanced labels. We have employed a marginalized loss function in our method to leverage a simple and effective method of prototype updating. Meanwhile, we have introduced ${\ell}_1$ regularization on semantic prototypes to preserve the sparse and imbalanced nature of labels in learned semantic prototypes. Finally, comprehensive experimental results on various datasets demonstrate the efficiency of the proposed method for image annotation tasks in terms of accuracy and time. The reference implementation is publicly available on https://github.com/hamid-amiri/MCDL-Image-Annotation. | 翻訳日:2023-04-19 11:34:45 公開日:2023-04-17 |
# 峡谷の量子相 The quantum phase of a dyon ( http://arxiv.org/abs/1910.01117v3 ) ライセンス: Link先を確認 | Ricardo Heras | (参考訳) ディオンが無限長のソレノイドを囲む一様の電場と磁場を囲むとき、その波動関数は双対性不変な量子位相を蓄積する。
ここで、この峡谷位相を導出し、その双対対称性がアハロノフ・ボーム位相とその双対位相を統一することを示す。
我々は、エネルギー準位、二スリット干渉シフト、および双対性不変量子位相に関連する散乱振幅を求める。
dyon がスピン 1/2 を持つと仮定すると、このスピンは導入位相に影響しない。
スピン 1/2 dyon は電気的および磁気的モーメントを持ち、前者はシュヴィンガー=ツワンジガー量子化条件により後者よりも大きい。 When a dyon encircles an infinitely-long solenoid enclosing uniform electric and magnetic fields, its wave function accumulates a duality-invariant quantum phase, which is topological because it depends on a winding number and is nonlocal because the enclosed fields act on the dyon in regions where these fields vanish. Here, we derive this dyon phase and show how its duality symmetry unifies the Aharonov-Bohm phase with its dual phase. We obtain the energy levels, the two-slit interference shift, and the scattering amplitude associated with the duality-invariant quantum phase. Assuming that the dyon has spin 1/2, we show that this spin does not affect the introduced phase. We argue that a spin 1/2 dyon has electric and magnetic moments, the former being greater than the latter because of the Schwinger-Zwanziger quantisation condition. | 翻訳日:2023-04-19 02:12:46 公開日:2023-04-17 |
# 量子相対エントロピーをもつ第二法則的不等式 : 序説 Second Law-Like Inequalities with Quantum Relative Entropy: An Introduction ( http://arxiv.org/abs/1202.0983v4 ) ライセンス: Link先を確認 | Takahiro Sagawa | (参考訳) 有限次元ヒルベルト空間に対する量子相対エントロピーの基本特性について考察する。
特に、熱力学の第二法則に関連するいくつかの不等式に焦点をあて、量子相対エントロピーの正則性と単調性が重要な役割を果たす。
さらに、正則性は量子ゆらぎ定理と密接に関連し、一方単調性は非平衡定常状態に対するハナノ・ササ不等式の量子バージョンにつながる。
単調性にもとづいて,第2法則に類似した数学的構造を持つ量子相互情報に対するデータ処理の不等式についても論じる。
さらに、量子フィードバック制御を用いた一般化第二法則を導出する。
さらに,petz に沿った単調性の証明についても検討する。 We review the fundamental properties of the quantum relative entropy for finite-dimensional Hilbert spaces. In particular, we focus on several inequalities that are related to the second law of thermodynamics, where the positivity and the monotonicity of the quantum relative entropy play key roles; these properties are directly applicable to derivations of the second law (e.g., the Clausius inequality). Moreover, the positivity is closely related to the quantum fluctuation theorem, while the monotonicity leads to a quantum version of the Hatano-Sasa inequality for nonequilibrium steady states. Based on the monotonicity, we also discuss the data processing inequality for the quantum mutual information, which has a similar mathematical structure to that of the second law. Moreover, we derive a generalized second law with quantum feedback control. In addition, we review a proof of the monotonicity in line with Petz. | 翻訳日:2023-04-19 02:11:31 公開日:2023-04-17 |
# ガウス混合モデルにおける局所最小構造 Local Minima Structures in Gaussian Mixture Models ( http://arxiv.org/abs/2009.13040v2 ) ライセンス: Link先を確認 | Yudong Chen, Dogyoon Song, Xumei Xi and Yuqian Zhang | (参考訳) ガウス混合モデル(GMM)の負の対数様機能(負の対数様機能)のランドスケープを,個体数制限の総数で検討した。
目的関数は凸でないので、十分に分離された混合モデルであっても、グローバルに最適ではない複数の局所極小が存在する。
本研究は,すべての局所的ミニマが,真の位置混合のクラスター中心(すなわちガウス成分)を部分的に識別する共通構造を共有していることを明らかにする。
具体的には、各局所最小値は2つのサブコンフィギュレーションの重複しない組み合わせとして表現できる: 単一の平均推定を複数のガウス成分に適合させるか、または単一の真の成分に複数の推定を適合させる。
これらの結果は、真の混合成分が特定の分離条件を満たす設定に適用され、コンポーネントの数が過大に指定されている場合でも有効である。
また、3つの成分からなる1次元GMMの設定についてよりきめ細かな解析を行い、分離への依存性を改善した近似誤差境界を提供する。 We investigate the landscape of the negative log-likelihood function of Gaussian Mixture Models (GMMs) with a general number of components in the population limit. As the objective function is non-convex, there can be multiple local minima that are not globally optimal, even for well-separated mixture models. Our study reveals that all local minima share a common structure that partially identifies the cluster centers (i.e., means of the Gaussian components) of the true location mixture. Specifically, each local minimum can be represented as a non-overlapping combination of two types of sub-configurations: fitting a single mean estimate to multiple Gaussian components or fitting multiple estimates to a single true component. These results apply to settings where the true mixture components satisfy a certain separation condition, and are valid even when the number of components is over- or under-specified. We also present a more fine-grained analysis for the setting of one-dimensional GMMs with three components, which provide sharper approximation error bounds with improved dependence on the separation. | 翻訳日:2023-04-19 02:09:15 公開日:2023-04-17 |
# 非パラメトリックIVモデルにおける適応的・最適仮説テスト Adaptive, Rate-Optimal Hypothesis Testing in Nonparametric IV Models ( http://arxiv.org/abs/2006.09587v3 ) ライセンス: Link先を確認 | Christoph Breunig, Xiaohong Chen | (参考訳) 非パラメトリックインストゥルメンタル変数(npiv)モデルにおける構造関数に対する不等式(単調性、凸性など)と等式(パラメトリック、半パラメトリックなど)に対する新しい適応的仮説テストを提案する。
実験統計は, 拘束型と非拘束型のNPIV推定器間の2次距離を改良した1次サンプルアナログに基づく。
シーブチューニングパラメータとボンフェルロニ調整されたカイ二乗臨界値の計算量的・データ駆動的選択を提供する。
本試験は,楽器の内在性と未知強度の存在下での代替関数の未知の滑らかさに適応する。
テストの適応ミニマックスレートは$l^2$である。
すなわち、合成ヌル上のタイプiの誤差と非パラメトリックな代替モデル上のタイプiiの誤差の和は、未知の正則性を持つnpivモデルに対する他の仮説テストによっては改善できない。
L^2$のデータ駆動信頼セットは、適応テストの反転によって得られる。
シミュレーションにより、我々の適応テストはNPIVモデルにおける単調性およびパラメトリックの制約に対する既存の非適応テストよりもはるかに大きいサイズと有限サンプルパワーを制御することを確認した。
異なる製品需要とエンゲル曲線の形状制限を試験するための実証的応用について述べる。 We propose a new adaptive hypothesis test for inequality (e.g., monotonicity, convexity) and equality (e.g., parametric, semiparametric) restrictions on a structural function in a nonparametric instrumental variables (NPIV) model. Our test statistic is based on a modified leave-one-out sample analog of a quadratic distance between the restricted and unrestricted sieve NPIV estimators. We provide computationally simple, data-driven choices of sieve tuning parameters and Bonferroni adjusted chi-squared critical values. Our test adapts to the unknown smoothness of alternative functions in the presence of unknown degree of endogeneity and unknown strength of the instruments. It attains the adaptive minimax rate of testing in $L^2$. That is, the sum of its type I error uniformly over the composite null and its type II error uniformly over nonparametric alternative models cannot be improved by any other hypothesis test for NPIV models of unknown regularities. Data-driven confidence sets in $L^2$ are obtained by inverting the adaptive test. Simulations confirm that our adaptive test controls size and its finite-sample power greatly exceeds existing non-adaptive tests for monotonicity and parametric restrictions in NPIV models. Empirical applications to test for shape restrictions of differentiated products demand and of Engel curves are presented. | 翻訳日:2023-04-19 02:08:18 公開日:2023-04-17 |
# 生成モデルを用いたモデルベース強化学習におけるサンプルサイズ障壁の破断 Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2005.12900v8 ) ライセンス: Link先を確認 | Gen Li, Yuting Wei, Yuejie Chi, Yuxin Chen | (参考訳) 本稿では,生成モデル(あるいはシミュレータ)へのアクセスを想定した強化学習のサンプル効率について述べる。
まず、状態空間 $\mathcal{S}$ および作用空間 $\mathcal{A}$ で、$\gamma$-discounted infinite-horizon Markov decision process (MDPs) を考える。
この問題に取り組む多くの先行研究にもかかわらず、サンプルの複雑さと統計的正確性の間のトレードオフの完全な図はまだ決定されていない。
特に、全ての先行結果は、それらの主張する統計的保証が少なくとも$\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$を超える場合にのみ保持されるという意味で、厳しいサンプルサイズ障壁に悩まされる。
現在の論文では、サンプルサイズが$\frac{|\mathcal{s}|||\mathcal{a}|}{1-\gamma}$ (modulo some log factor) のオーダーを超えると、2つのアルゴリズム -- 摂動モデルベースアルゴリズムと保守モデルベースアルゴリズム -- の最小最適性を確認することで、この障壁を克服している。
無限水平 MDP を超えて、時間的不均一な有限水平 MDP を更に研究し、モデルに基づく計画アルゴリズムが目的の精度レベルから最小値-最適サンプル複雑性を達成するのに十分であることを示す。
私たちの知る限りでは、この研究はサンプルサイズの範囲全体に対応する最初のミニマックス最適保証を提供する(意味のあるポリシーを見つけることは理論的には不可能である)。 This paper is concerned with the sample efficiency of reinforcement learning, assuming access to a generative model (or simulator). We first consider $\gamma$-discounted infinite-horizon Markov decision processes (MDPs) with state space $\mathcal{S}$ and action space $\mathcal{A}$. Despite a number of prior works tackling this problem, a complete picture of the trade-offs between sample complexity and statistical accuracy is yet to be determined. In particular, all prior results suffer from a severe sample size barrier, in the sense that their claimed statistical guarantees hold only when the sample size exceeds at least $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$. The current paper overcomes this barrier by certifying the minimax optimality of two algorithms -- a perturbed model-based algorithm and a conservative model-based algorithm -- as soon as the sample size exceeds the order of $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$ (modulo some log factor). Moving beyond infinite-horizon MDPs, we further study time-inhomogeneous finite-horizon MDPs, and prove that a plain model-based planning algorithm suffices to achieve minimax-optimal sample complexity given any target accuracy level. To the best of our knowledge, this work delivers the first minimax-optimal guarantees that accommodate the entire range of sample sizes (beyond which finding a meaningful policy is information theoretically infeasible). | 翻訳日:2023-04-19 02:07:45 公開日:2023-04-17 |
# 言語接地によるゼロショット構成政策学習 Zero-Shot Compositional Policy Learning via Language Grounding ( http://arxiv.org/abs/2004.07200v2 ) ライセンス: Link先を確認 | Tianshi Cao, Jingkang Wang, Yining Zhang, Sivabalan Manivasagam | (参考訳) 近年の強化学習(RL)と模倣学習(IL)の進歩にもかかわらず、既存のアルゴリズムは訓練環境を超えて一般化することができない。
実際、人間は言語記述のような世界に関する事前知識を活用することで、新しいタスクに迅速に適応することができる。
ドメイン適応型言語誘導エージェントの研究を容易にするために,環境を異なる属性の合成として特徴付ける,ゼロショット合成政策学習タスクを提案する。
この研究を支援する公開環境がないため,環境のダイナミクスを視覚的な外観から切り離した新たな研究プラットフォーム babyai++ を導入する。
それぞれのエピソードで、babyai++は様々な視覚と力学の組み合わせと対応する記述テキストを提供する。
学習エージェントの適応能力を評価するために,BabyAI++でテストする視覚力学ペアリングのセットを保留する。
当然のことながら、現在の言語誘導RL/IL技術はトレーニング環境に適合せず、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
そこで本研究では,視覚言語接地を行うための注意機構を備えたマルチモーダル融合手法を提案する。
広範な実験により、言語基底化が様々な動的環境にまたがるエージェントの一般化を改善できるという強い証拠が示されている。 Despite recent breakthroughs in reinforcement learning (RL) and imitation learning (IL), existing algorithms fail to generalize beyond the training environments. In reality, humans can adapt to new tasks quickly by leveraging prior knowledge about the world such as language descriptions. To facilitate the research on language-guided agents with domain adaption, we propose a novel zero-shot compositional policy learning task, where the environments are characterized as a composition of different attributes. Since there are no public environments supporting this study, we introduce a new research platform BabyAI++ in which the dynamics of environments are disentangled from visual appearance. At each episode, BabyAI++ provides varied vision-dynamics combinations along with corresponding descriptive texts. To evaluate the adaption capability of learned agents, a set of vision-dynamics pairings are held-out for testing on BabyAI++. Unsurprisingly, we find that current language-guided RL/IL techniques overfit to the training environments and suffer from a huge performance drop when facing unseen combinations. In response, we propose a multi-modal fusion method with an attention mechanism to perform visual language-grounding. Extensive experiments show strong evidence that language grounding is able to improve the generalization of agents across environments with varied dynamics. | 翻訳日:2023-04-19 02:07:09 公開日:2023-04-17 |
# 二次元半金属からの電子熱電界放出の普遍モデル Universal model for electron thermal-field emission from two-dimensional semimetals ( http://arxiv.org/abs/2003.14004v3 ) ライセンス: Link先を確認 | L. K. Ang, Yee Sin Ang, Ching Hua Lee | (参考訳) 2次元半金属からの平面外(または垂直)電子熱場放出の理論を示す。
この電流-電圧温度特性は、グラフェンとその少数層、ノダルポイント半金属、ダイラック半金属を含む2d半金属の広いクラスに適用可能な普遍的スケーリング関係により、位相相転移の寸前でよく把握できることを示した。
ここでは、普遍的な放出挙動の重要な結果が明らかにされる: バンドトポロジーが物理的観測値に異なる形で現れるという共通の期待とは対照的に、2つの空間次元のバンドトポロジーは互いに区別できず、電子放出特性に特別な符号を持たない。
本研究は, 2次元材料における半古典的半イオン放出法則の量子展開を示し, 陰極からの電子放出の理解と2次元材料を用いた真空ナノエレクトロニクスの設計のための電荷界面輸送に関する理論的基礎を提供する。 We present the theory of out-of-plane (or vertical) electron thermal-field emission from 2D semimetals. We show that the current-voltage-temperature characteristic is well-captured by a universal scaling relation applicable for broad classes of 2D semimetals, including graphene and its few-layer, nodal point semimetal, Dirac semimetal at the verge of topological phase transition and nodal line semimetal. Here an important consequence of the universal emission behavior is revealed: in contrast to the common expectation that band topology shall manifest differently in the physical observables, band topologies in two spatial dimension are indistinguishable from each others and bear no special signature in the electron emission characteristics. Our findings represent the quantum extension of the universal semiclassical thermionic emission scaling law in 2D materials, and provide the theoretical foundations for the understanding of electron emission from cathode and charge interface transport for the design of 2D-material-based vacuum nanoelectronics. | 翻訳日:2023-04-19 02:06:50 公開日:2023-04-17 |
# ラベルなしデータ(Open-LACU)を利用した拡張カテゴリによるオープンセット学習 Open-set learning with augmented category by exploiting unlabeled data (Open-LACU) ( http://arxiv.org/abs/2002.01368v5 ) ライセンス: Link先を確認 | Emile R. Engelbrecht, Johan A. du Preez | (参考訳) 半教師付き学習(SSL)とオープンセット認識(OSR)を単一のトレーニングポリシーで合成する試みがいくつか行われた。
しかし、それぞれの試みはラベルのないトレーニングセットに新しいカテゴリを組み込むことでオープンセットの定義に違反した。
このような \textit{observed} の新規カテゴリは、アプリケーショングレードのデータセットで間違いなく普及しているが、テスト中にのみ現れる OSR 定義の \textit{unobserved} の新規カテゴリと混同してはならない。
本研究は,観察されたカテゴリーと観察されていないカテゴリの分類を一般化する新たな学習方針を提案する。
特に,ラベルなしデータ(open-lacu)ポリシを活用した拡張カテゴリを用いたオープンセット学習では,観察された新規カテゴリの背景カテゴリと,観察されていない新規カテゴリの未知カテゴリを定義している。
これらの新しいカテゴリタイプを分離することにより、Open-LACUは、すべてのカテゴリをラベル付けする必要をなくし、時間とともに現れる未観測の新規カテゴリを完全に分離することで安全な分類を保証することで、コスト効率のトレーニングを促進する。
最後に、この新たなアプリケーショングレード学習ポリシーのベンチマーク結果を確立するための統一的なアプローチを提案する。 Several efforts have been made to synthesize semi-supervised learning (SSL) and open set recognition (OSR) within a single training policy. However, each attempt violated the definition of an open set by incorporating novel categories within the unlabeled training set. Although such \textit{observed} novel categories are undoubtedly prevalent in application-grade datasets, they should not be conflated with the OSR-defined \textit{unobserved} novel categories, which only emerge during testing. This study proposes a new learning policy wherein classifiers generalize between observed and unobserved novel categories. Specifically, our open-set learning with augmented category by exploiting unlabeled data (Open-LACU) policy defines a background category for observed novel categories and an unknown category for unobserved novel categories. By separating these novel category types, Open-LACU promotes cost-efficient training by eliminating the need to label every category and ensures safe classification by completely separating unobserved novel categories that appear over time. Finally, we present a unified approach to establish benchmark results for this emerging and more application-grade learning policy. | 翻訳日:2023-04-19 02:06:31 公開日:2023-04-17 |
# CogDL: グラフディープラーニングのための総合ライブラリ CogDL: A Comprehensive Library for Graph Deep Learning ( http://arxiv.org/abs/2103.00959v4 ) ライセンス: Link先を確認 | Yukuo Cen, Zhenyu Hou, Yan Wang, Qibin Chen, Yizhen Luo, Zhongming Yu, Hengrui Zhang, Xingcheng Yao, Aohan Zeng, Shiguang Guo, Yuxiao Dong, Yang Yang, Peng Zhang, Guohao Dai, Yu Wang, Chang Zhou, Hongxia Yang, Jie Tang | (参考訳) グラフニューラルネットワーク(GNN)は近年,グラフ学習コミュニティから大きな注目を集めている。
ソーシャルネットワークや生物グラフなど、さまざまな分野の様々な現実世界のアプリケーションで広く採用されている。
グラフ深層学習の研究と応用は、グラフデータのスパースな性質、GNNの複雑な訓練、グラフタスクの非標準評価など、新しい課題を提示している。
この問題に対処するために、研究者や実践者が実験を行い、メソッドを比較し、簡単かつ効率的にアプリケーションを構築することができるグラフ深層学習のための包括的なライブラリであるCagDLを紹介します。
CogDLでは,様々なグラフタスクに対するGNNモデルのトレーニングと評価のための統一設計を提案し,既存のグラフ学習ライブラリに特有のものとなった。
この統一トレーナーを利用することで、cogdlは混合精度トレーニングのようないくつかのトレーニング技術でgnnトレーニングループを最適化することができる。
さらに,我々は,CogDLのための効率的なスパース演算子を開発し,効率向上のための最も競争力のあるグラフライブラリとなる。
もうひとつの重要なcogdl機能は、グラフ学習のオープンかつ再現可能な研究を促進することを目的とした、使いやすさを重視したものだ。
我々はCogDLを活用して,コミュニティが直接使用し,再現可能な基本グラフタスクのベンチマーク結果を報告し,維持する。 Graph neural networks (GNNs) have attracted tremendous attention from the graph learning community in recent years. It has been widely adopted in various real-world applications from diverse domains, such as social networks and biological graphs. The research and applications of graph deep learning present new challenges, including the sparse nature of graph data, complicated training of GNNs, and non-standard evaluation of graph tasks. To tackle the issues, we present CogDL, a comprehensive library for graph deep learning that allows researchers and practitioners to conduct experiments, compare methods, and build applications with ease and efficiency. In CogDL, we propose a unified design for the training and evaluation of GNN models for various graph tasks, making it unique among existing graph learning libraries. By utilizing this unified trainer, CogDL can optimize the GNN training loop with several training techniques, such as mixed precision training. Moreover, we develop efficient sparse operators for CogDL, enabling it to become the most competitive graph library for efficiency. Another important CogDL feature is its focus on ease of use with the aim of facilitating open and reproducible research of graph learning. We leverage CogDL to report and maintain benchmark results on fundamental graph tasks, which can be reproduced and directly used by the community. | 翻訳日:2023-04-19 01:31:46 公開日:2023-04-17 |
# 2つの量子ラウンドにおける多人数量子計算と不正多数決の委譲 Delegating Multi-Party Quantum Computations vs. Dishonest Majority in Two Quantum Rounds ( http://arxiv.org/abs/2102.12949v3 ) ライセンス: Link先を確認 | Theodoros Kapourniotis, Elham Kashefi, Luka Music and Harold Ollivier | (参考訳) Multi-Party Quantum Computation (MPQC)は、量子ネットワークの潜在的なキラーアプリケーションとして多くの注目を集めている。
この分野での最近の課題への貢献として,1つの正直なクライアントであっても,盲点と検証可能性を達成する構成可能なプロトコルを提案する。
我々のプロトコルのセキュリティは、情報理論的に安全な方法で、古典的な構成可能なセキュアなマルチパーティ計算(SMPC)のセキュリティに還元される。
したがって,本方式は,同じレベルのセキュリティを有する量子方式に,統計的にセキュアなアップグレードを提供する。
また、
i) クライアントは,計算を完全フォールトトレラントなサーバに委譲することができ,マルチパーティ量子計算の潜在能力を最大限に活用するためには,単一キュービット演算のみを実行する必要がある。
(II)サーバとの量子通信の量は、計算開始時の量子状態の送信と終了時の出力状態の受信に還元され、最適であり、対話型量子通信の必要性を除去する。
(iii)その上に構築されたシングルクライアントデリゲートプロトコルと比較して、最小の乗算キュービットオーバヘッドを持つ。
本論文の主な技術的要素は,視覚障害者量子計算のための新しい構成可能な資源であるDouble Blind Quantum ComputationによるMPQC構築のブートストラッピングである。 Multi-Party Quantum Computation (MPQC) has attracted a lot of attention as a potential killer-app for quantum networks through it's ability to preserve privacy and integrity of the highly valuable computations they would enable. Contributing to the latest challenges in this field, we present a composable protocol achieving blindness and verifiability even in the case of a single honest client. The security of our protocol is reduced, in an information-theoretically secure way, to that of a classical composable Secure Multi-Party Computation (SMPC) used to coordinate the various parties. Our scheme thus provides a statistically secure upgrade of such classical scheme to a quantum one with the same level of security. In addition, (i) the clients can delegate their computation to a powerful fully fault-tolerant server and only need to perform single qubit operations to unlock the full potential of multi-party quantum computation; (ii) the amount of quantum communication with the server is reduced to sending quantum states at the beginning of the computation and receiving the output states at the end, which is optimal and removes the need for interactive quantum communication; and (iii) it has a low constant multiplicative qubit overhead compared to the single-client delegated protocol it is built upon. The main technical ingredient of our paper is the bootstraping of the MPQC construction by Double Blind Quantum Computation, a new composable resource for blind multiparty quantum computation, that demonstrates the surprising fact that the full protocol does not require verifiability of all components to achieve security. | 翻訳日:2023-04-19 01:31:01 公開日:2023-04-17 |
# $\beta$-divergence を用いた非負行列因子化の連乗極小化 Joint Majorization-Minimization for Nonnegative Matrix Factorization with the $\beta$-divergence ( http://arxiv.org/abs/2106.15214v4 ) ライセンス: Link先を確認 | Arthur Marmin and Jos\'e Henrique de Morais Goulart and C\'edric F\'evotte | (参考訳) 本稿では,$\beta$-divergence 目的関数を持つ非負行列分解 (nmf) に対する新しい乗法的更新を提案する。
我々の新しい更新は,2つの要因に対して補助関数(目的関数の厳密な上界)を構築し,各イテレーションで最小化する連立偏極最小化(MM)スキームから導かれる。
これは、各因子に対して主化子を別々に導出する古典的なアプローチとは対照的である。
このような古典的なアプローチと同様に、我々のジョイントMMアルゴリズムは、実装が容易な乗法的更新をもたらす。
しかし、特に2乗ユークリッド距離やクルバックリーバー(英語版)や板倉斎藤ダイバージェンス(英語版)のような重要な応用的関心のある約$\beta$-divergences(英語版)に対して、計算時間が大幅に減少する(等しくよい解の場合)。
種々のデータセット(顔画像,音声スペクトログラム,ハイパースペクトルデータ,歌曲数)を用いて実験結果を報告する。
データセットの$\beta$の値と、私たちのジョイントMMアプローチでは、従来の交替方式と比較して、CPU時間の約13.%から7.8.%に短縮することができます。 This article proposes new multiplicative updates for nonnegative matrix factorization (NMF) with the $\beta$-divergence objective function. Our new updates are derived from a joint majorization-minimization (MM) scheme, in which an auxiliary function (a tight upper bound of the objective function) is built for the two factors jointly and minimized at each iteration. This is in contrast with the classic approach in which a majorizer is derived for each factor separately. Like that classic approach, our joint MM algorithm also results in multiplicative updates that are simple to implement. They however yield a significant drop of computation time (for equally good solutions), in particular for some $\beta$-divergences of important applicative interest, such as the squared Euclidean distance and the Kullback-Leibler or Itakura-Saito divergences. We report experimental results using diverse datasets: face images, an audio spectrogram, hyperspectral data and song play counts. Depending on the value of $\beta$ and on the dataset, our joint MM approach can yield CPU time reductions from about $13\%$ to $78\%$ in comparison to the classic alternating scheme. | 翻訳日:2023-04-19 01:22:29 公開日:2023-04-17 |
# PVT v2: ピラミッドビジョン変換器によるベースラインの改善 PVT v2: Improved Baselines with Pyramid Vision Transformer ( http://arxiv.org/abs/2106.13797v7 ) ライセンス: Link先を確認 | Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao | (参考訳) Transformerは最近、コンピュータビジョンの進歩を奨励している。
本研究では,(1)線形複雑度注意層,(2)重なり合うパッチ埋め込み,(3)畳み込みフィードフォワードネットワークなどの3つの設計を付加することにより,元のピラミドビジョン変換器(PVT v1)の改良による新しいベースラインを提案する。
これらの修正により、PVT v2はPVT v1の計算複雑性を線形に減らし、分類、検出、セグメンテーションといった基本的なビジョンタスクを大幅に改善する。
特に、提案されたPVT v2は、Swin Transformerのような最近の作品と同等または優れたパフォーマンスを実現している。
この研究がコンピュータビジョンにおける最先端のTransformerの研究を促進することを願っている。
コードはhttps://github.com/whai362/pvtで入手できる。 Transformer recently has presented encouraging progress in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (PVT v1) by adding three designs, including (1) linear complexity attention layer, (2) overlapping patch embedding, and (3) convolutional feed-forward network. With these modifications, PVT v2 reduces the computational complexity of PVT v1 to linear and achieves significant improvements on fundamental vision tasks such as classification, detection, and segmentation. Notably, the proposed PVT v2 achieves comparable or better performances than recent works such as Swin Transformer. We hope this work will facilitate state-of-the-art Transformer researches in computer vision. Code is available at https://github.com/whai362/PVT. | 翻訳日:2023-04-19 01:22:04 公開日:2023-04-17 |
# 3次元解剖学的脳MRIにおけるCNNのベンチマーク:アーキテクチャ、データ拡張、ディープラーニング Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data Augmentation and Deep Ensemble Learning ( http://arxiv.org/abs/2106.01132v2 ) ライセンス: Link先を確認 | Benoit Dufumier, Pietro Gori, Ilaria Battaglia, Julie Victor, Antoine Grigis, Edouard Duchesnay | (参考訳) ディープラーニング(DL)、特にCNNモデルは、さまざまなビジョンタスクのデファクトメソッドとなり、従来の機械学習(ML)メソッドよりも優れています。
その結果、特に表現型予測やコンピュータ支援診断において、神経画像の分野で多くの注目を集めた。
しかしながら、現在の研究の多くは、特定の前処理パイプラインやカスタムCNNアーキテクチャとともに、小さなシングルサイトコホートを扱うことが多いため、比較するのは困難である。
本稿では,Voxel-Based Morphometry(VBM)前処理と準RAW画像の両面から,データ拡張と深層アンサンブル学習の利点を評価するため,最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案する。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は準RAWデータよりも有意に向上した。
トレーニングセットが10kサンプルに近づき、準ローデータがほぼVBMの性能に達すると、この発見は進化した。
さらに,線形モデルはVBMデータ上でSOTA CNNと同等に動作することを示した。
また、DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータ構造のパフォーマンスにおいて良い妥協をもたらすことを実証しました。
したがって、既定のアーキテクチャとして採用することを提案する。
また,N=10kのマルチサイトイメージをトレーニングしても,現在のCNNは依然として買収サイトに偏っていることも確認した。
この文脈では、VBM前処理は、このサイト効果を制限する効率的な方法を提供する。
驚いたことに、データ拡張技術の明確なメリットは見つからなかった。
最後に,大規模CNNモデルの校正に深層アンサンブル学習が適していることを確認した。 Deep Learning (DL) and specifically CNN models have become a de facto method for a wide range of vision tasks, outperforming traditional machine learning (ML) methods. Consequently, they drew a lot of attention in the neuroimaging field in particular for phenotype prediction or computer-aided diagnosis. However, most of the current studies often deal with small single-site cohorts, along with a specific pre-processing pipeline and custom CNN architectures, which make them difficult to compare to. We propose an extensive benchmark of recent state-of-the-art (SOTA) 3D CNN, evaluating also the benefits of data augmentation and deep ensemble learning, on both Voxel-Based Morphometry (VBM) pre-processing and quasi-raw images. Experiments were conducted on a large multi-site 3D brain anatomical MRI data-set comprising N=10k scans on 3 challenging tasks: age prediction, sex classification, and schizophrenia diagnosis. We found that all models provide significantly better predictions with VBM images than quasi-raw data. This finding evolved as the training set approaches 10k samples where quasi-raw data almost reach the performance of VBM. Moreover, we showed that linear models perform comparably with SOTA CNN on VBM data. We also demonstrated that DenseNet and tiny-DenseNet, a lighter version that we proposed, provide a good compromise in terms of performance in all data regime. Therefore, we suggest to employ them as the architectures by default. Critically, we also showed that current CNN are still very biased towards the acquisition site, even when trained with N=10k multi-site images. In this context, VBM pre-processing provides an efficient way to limit this site effect. Surprisingly, we did not find any clear benefit from data augmentation techniques. Finally, we proved that deep ensemble learning is well suited to re-calibrate big CNN models without sacrificing performance. | 翻訳日:2023-04-19 01:20:45 公開日:2023-04-17 |
# 最小冗長ゲート型リカレントニューラルネットワーク Least Redundant Gated Recurrent Neural Network ( http://arxiv.org/abs/2105.14092v6 ) ライセンス: Link先を確認 | {\L}ukasz Neumann, {\L}ukasz Lepak, Pawe{\l} Wawrzy\'nski | (参考訳) リカレントニューラルネットワークは、シーケンシャルデータ処理の重要なツールである。
しかし、彼らは訓練に関する問題で悪名高い。
課題には、連続した状態と安定性とトレーニングの効率性の間の複雑な関係の取得が含まれる。
本稿では,Deep Memory Update (DMU) と呼ばれるリカレントニューラルネットワークを提案する。
これは、ラグ状態とネットワーク入力の深い変換により、前のメモリ状態を更新することに基づいている。
このアーキテクチャは、任意の非線形関数を用いて内部状態の変換を学ぶことができる。
学習速度をモジュールのサイズに関連付けるため、トレーニングは安定して高速である。
DMUは標準コンポーネントをベースとしていますが、実験結果から、Long Short-Term Memory、Gated Recurrent Units、Recurrent Highway Networksといった最先端アーキテクチャと競合し、しばしば性能を向上できることが確認できます。 Recurrent neural networks are important tools for sequential data processing. However, they are notorious for problems regarding their training. Challenges include capturing complex relations between consecutive states and stability and efficiency of training. In this paper, we introduce a recurrent neural architecture called Deep Memory Update (DMU). It is based on updating the previous memory state with a deep transformation of the lagged state and the network input. The architecture is able to learn to transform its internal state using any nonlinear function. Its training is stable and fast due to relating its learning rate to the size of the module. Even though DMU is based on standard components, experimental results presented here confirm that it can compete with and often outperform state-of-the-art architectures such as Long Short-Term Memory, Gated Recurrent Units, and Recurrent Highway Networks. | 翻訳日:2023-04-19 01:19:44 公開日:2023-04-17 |
# コンセンサス空間におけるクラスタリングによる幾何学的モデル探索 Finding Geometric Models by Clustering in the Consensus Space ( http://arxiv.org/abs/2103.13875v2 ) ライセンス: Link先を確認 | Daniel Barath, Denys Rozumny, Ivan Eichhardt, Levente Hajder, Jiri Matas | (参考訳) 本稿では,未知数の幾何モデル,例えばホモグラフを求める新しいアルゴリズムを提案する。
この問題は、spash point-to-model代入を形成することなく、支配的なモデルインスタンスを段階的に見つけることで形式化される。
支配的なインスタンスは、前述したインスタンスを考慮したモデル品質関数によって駆動されるransacライクなサンプリングと統合プロセスを通じて見つかる。
新しいものは、コンセンサス空間におけるクラスタリングによって見つかる。
この新たな定式化は、複数の視覚問題でリアルタイムに実行しながら、最先端の精度を持つ単純な反復アルゴリズムをもたらす。
また,実世界のデータが空間的にコヒーレントな構造を形成する傾向があることを反映する決定論的サンプリング器を提案する。
サンプルは、徐々に密度を増した近傍グラフで連結成分を返す。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これらには,多重一般化ホモグラフからのポーズ推定,高速移動物体の軌道推定,グローバルsfmアルゴリズムにおける複数ホモグラフの利用方法などが含まれる。
ソースコード: https://github.com/danini/clustering-in-consensus-space。 We propose a new algorithm for finding an unknown number of geometric models, e.g., homographies. The problem is formalized as finding dominant model instances progressively without forming crisp point-to-model assignments. Dominant instances are found via a RANSAC-like sampling and a consolidation process driven by a model quality function considering previously proposed instances. New ones are found by clustering in the consensus space. This new formulation leads to a simple iterative algorithm with state-of-the-art accuracy while running in real-time on a number of vision problems - at least two orders of magnitude faster than the competitors on two-view motion estimation. Also, we propose a deterministic sampler reflecting the fact that real-world data tend to form spatially coherent structures. The sampler returns connected components in a progressively densified neighborhood-graph. We present a number of applications where the use of multiple geometric models improves accuracy. These include pose estimation from multiple generalized homographies; trajectory estimation of fast-moving objects; and we also propose a way of using multiple homographies in global SfM algorithms. Source code: https://github.com/danini/clustering-in-consensus-space. | 翻訳日:2023-04-19 01:19:13 公開日:2023-04-17 |
# 本物のシャミール秘密共有によるpacベイズ回帰の安全性 Secure PAC Bayesian Regression via Real Shamir Secret Sharing ( http://arxiv.org/abs/2109.11200v3 ) ライセンス: Link先を確認 | Jaron Skovsted Gundersen, Bulut Kuskonmaz, Rafael Wisniewski | (参考訳) システム識別と機械学習の一般的なアプローチは、トレーニングデータを使用してテストデータインスタンスを可能な限り正確に予測してモデルを生成することだ。
それでも、データのプライバシーに関する懸念はますます高まっている。
本稿では,最近紹介した実数シークレット共有手法に基づく線形モデル学習のためのセキュアなプロトコルを提案する。
我々はPACベイズ境界を出発点として、PACベイズ境界からデータと先行に依存するモデルパラメータの閉形式を導出する。
モデルパラメータを得るためには、線形システムを解く必要がある。
しかし、複数の当事者が異なるデータインスタンスを持っていて、データのプライバシを諦めたくないという状況を考える。
したがって、データのプライバシーを侵害することなく、実数秘密共有とマルチパーティ計算を用いてデータを共有し、線形回帰を安全に解決することを提案する。
安全な逆法と安全なガウス除去法という2つの方法を提案し,最後にこれらの方法を比較する。
秘密の共有を直接実数で使用する利点は、プロトコルの単純さと必要なラウンド数に反映されている。
しかし、これはシェアが少量の情報をリークする可能性があるという欠点が伴うが、我々の分析では、リークは小さいと論じている。 A common approach of system identification and machine learning is to generate a model by using training data to predict the test data instances as accurate as possible. Nonetheless, concerns about data privacy are increasingly raised, but not always addressed. We present a secure protocol for learning a linear model relying on recently described technique called real number secret sharing. We take as our starting point the PAC Bayesian bounds and deduce a closed form for the model parameters which depends on the data and the prior from the PAC Bayesian bounds. To obtain the model parameters one needs to solve a linear system. However, we consider the situation where several parties hold different data instances and they are not willing to give up the privacy of the data. Hence, we suggest to use real number secret sharing and multiparty computation to share the data and solve the linear regression in a secure way without violating the privacy of data. We suggest two methods; a secure inverse method and a secure Gaussian elimination method, and compare these methods at the end. The benefit of using secret sharing directly on real numbers is reflected in the simplicity of the protocols and the number of rounds needed. However, this comes with the drawback that a share might leak a small amount of information, but in our analysis we argue that the leakage is small. | 翻訳日:2023-04-19 01:13:20 公開日:2023-04-17 |
# 位置条件推論 Situated Conditional Reasoning ( http://arxiv.org/abs/2109.01552v2 ) ライセンス: Link先を確認 | Giovanni Casini, Thomas Meyer, Ivan Varzinczak | (参考訳) 条件付きはモデリングに有用であるが、情報を正確に捉えるのに十分表現できるとは限らない。
本稿では,状況に基づく条件付けの形式について述べる。
これらの条件は古典的条件よりも表現力が高く、いくつかのアプリケーション領域で使われるのに十分な一般性を持ち、例えば期待と反事実を区別することができる。
形式的には、クラース、レーマン、マギドールのスタイルで条件設定を一般化することが示される。
状況に基づく条件は,一組の合理性仮定を用いて記述できることを示す。
次に,これらの条件に対する直感的な意味論を提案し,意味的構成が命題の表現と正確に一致することを示す表現結果を示す。
セマンティクスを具体化して、位置条件付き知識ベースのためのエンテーメントの形式を定義し、最小限のクロージャ(minimal closure)と呼ぶ。
これは有理閉包(rational closure)として知られる命題条件付き知識ベースに関する補足のバージョンを思い起こさせるものであり、実際にインスパイアされている。
最後に、最小限のクロージャの計算を一連の命題の絞り込みと満足度チェックに還元できることを示す。
これは有理閉包のケースでもあるが、結果が最小閉包へと続くことは少々驚きである。 Conditionals are useful for modelling, but are not always sufficiently expressive for capturing information accurately. In this paper we make the case for a form of conditional that is situation-based. These conditionals are more expressive than classical conditionals, are general enough to be used in several application domains, and are able to distinguish, for example, between expectations and counterfactuals. Formally, they are shown to generalise the conditional setting in the style of Kraus, Lehmann, and Magidor. We show that situation-based conditionals can be described in terms of a set of rationality postulates. We then propose an intuitive semantics for these conditionals, and present a representation result which shows that our semantic construction corresponds exactly to the description in terms of postulates. With the semantics in place, we proceed to define a form of entailment for situated conditional knowledge bases, which we refer to as minimal closure. It is reminiscent of and, indeed, inspired by, the version of entailment for propositional conditional knowledge bases known as rational closure. Finally, we proceed to show that it is possible to reduce the computation of minimal closure to a series of propositional entailment and satisfiability checks. While this is also the case for rational closure, it is somewhat surprising that the result carries over to minimal closure. | 翻訳日:2023-04-19 01:12:34 公開日:2023-04-17 |
# 視覚的に重要な特徴を再現するGANに基づく定型再構成学習 Learning GAN-based Foveated Reconstruction to Recover Perceptually Important Image Features ( http://arxiv.org/abs/2108.03499v3 ) ライセンス: Link先を確認 | Luca Surace (Universit\`a della Svizzera italiana), Marek Wernikowski (West Pomeranian University of Technology), Cara Tursun (Universit\`a della Svizzera italiana and University of Groningen), Karol Myszkowski (Max Planck Institute for Informatics), Rados{\l}aw Mantiuk (West Pomeranian University of Technology), Piotr Didyk (Universit\`a della Svizzera italiana) | (参考訳) 焦点画像は、人間の視覚系の網膜感度に応じて分布するばらばらなサンプル集合から完全に再構成することができ、偏心性の増加とともに急速に減少する。
近年,ジェネレーティブ・アドバイサル・ネットワークの利用は画像情報の幻覚化に成功し,そのような課題に対して有望な解決策であることが示されている。
他の教師付き学習手法と同様に、損失関数の定義とトレーニング戦略は、出力の品質に大きな影響を及ぼす。
本研究では,人間の視覚システムの能力や限界をよりよく把握し,視覚的に重要な画像の特徴を再構築できるように,望ましくない再建技術の訓練を効率的に指導する問題を考える。
第一の目的は、人間が検出できない歪みに敏感なトレーニング手順を、知覚上重要なアーティファクトを罰することに集中させることです。
GANをベースとしたソリューションの性質を考えると、異なる密度の入力サンプルの場合、幻覚に対する人間の視覚の感受性に焦点を当てる。
本研究では, 心理物理実験, データセット, 画像再構成の訓練手順を提案する。
提案手法は,出力の知覚上重要な偏差のみをペナルティ化することにより,ジェネレータネットワークを柔軟にする。
その結果,知覚的に重要な画像特徴の回復が強調された。
我々はこの戦略を評価し,新たに訓練された客観的指標,最近のビデオ品質指標,ユーザ実験を用いて,代替ソリューションと比較した。
評価の結果,ganベーストレーニング法と比較して画像再構成品質が有意に向上した。 A foveated image can be entirely reconstructed from a sparse set of samples distributed according to the retinal sensitivity of the human visual system, which rapidly decreases with increasing eccentricity. The use of Generative Adversarial Networks has recently been shown to be a promising solution for such a task, as they can successfully hallucinate missing image information. As in the case of other supervised learning approaches, the definition of the loss function and the training strategy heavily influence the quality of the output. In this work,we consider the problem of efficiently guiding the training of foveated reconstruction techniques such that they are more aware of the capabilities and limitations of the human visual system, and thus can reconstruct visually important image features. Our primary goal is to make the training procedure less sensitive to distortions that humans cannot detect and focus on penalizing perceptually important artifacts. Given the nature of GAN-based solutions, we focus on the sensitivity of human vision to hallucination in case of input samples with different densities. We propose psychophysical experiments, a dataset, and a procedure for training foveated image reconstruction. The proposed strategy renders the generator network flexible by penalizing only perceptually important deviations in the output. As a result, the method emphasized the recovery of perceptually important image features. We evaluated our strategy and compared it with alternative solutions by using a newly trained objective metric, a recent foveated video quality metric, and user experiments. Our evaluations revealed significant improvements in the perceived image reconstruction quality compared with the standard GAN-based training approach. | 翻訳日:2023-04-19 01:11:27 公開日:2023-04-17 |
# 2段階発電スケジューリングのためのネット需要規定 Prescribing net demand for two-stage electricity generation scheduling ( http://arxiv.org/abs/2108.01003v3 ) ライセンス: Link先を確認 | Juan M. Morales, Miguel \'A. Mu\~noz and Salvador Pineda | (参考訳) 本稿では,フォワードディスパッチとリアルタイム再配信からなる2段階のスケジューリング問題を考える。
前者は、未供給の電力消費や再生可能発電を含む不確実な純需要に直面して行う必要がある。
後者は、システムの実際の運用中にバランスの取れた電力を利用することで、前回のスケジュールに関して考えられる偏差に対処する。
標準産業の実践は、その条件付き期待値(通常はポイント予測と呼ばれる)を適切に見積もって、リアルタイムに電力のバランスをとる必要性を最小限に抑えることで、前段階における不確定な純需要を扱う。
しかし、電力系統のコスト構造が非対称であり、その運用点に依存することが知られており、電力不均衡の量を最小化することは必ずしも運用コストの最小化と一致しない。
本稿では,電力系統のコスト非対称性を考慮に入れたネット需要の処方令として,利用可能な歴史データから構築するバイレベルプログラムを提案する。
さらに,このコストを電力系統の運用点に強く依存させるため,提案した基準を事前のネット需要体制に合わせるためにクラスタリングを利用する。
欧州電力システムに基づく実証的な例とより現実的なケーススタディによって、我々のアプローチは、慣習的なやり方と比較してかなりのコスト削減をもたらすことが示されている。 We consider a two-stage generation scheduling problem comprising a forward dispatch and a real-time re-dispatch. The former must be conducted facing an uncertain net demand that includes non-dispatchable electricity consumption and renewable power generation. The latter copes with the plausible deviations with respect to the forward schedule by making use of balancing power during the actual operation of the system. Standard industry practice deals with the uncertain net demand in the forward stage by replacing it with a good estimate of its conditional expectation (usually referred to as a point forecast), so as to minimize the need for balancing power in real time. However, it is well known that the cost structure of a power system is highly asymmetric and dependent on its operating point, with the result that minimizing the amount of power imbalances is not necessarily aligned with minimizing operating costs. In this paper, we propose a bilevel program to construct, from the available historical data, a prescription of the net demand that does account for the power system's cost asymmetry. Furthermore, to accommodate the strong dependence of this cost on the power system's operating point, we use clustering to tailor the proposed prescription to the foreseen net-demand regime. By way of an illustrative example and a more realistic case study based on the European power system, we show that our approach leads to substantial cost savings compared to the customary way of doing. | 翻訳日:2023-04-19 01:11:04 公開日:2023-04-17 |
# Differential-Critic GAN: 選好のキューで望むものを生成する Differential-Critic GAN: Generating What You Want by a Cue of Preferences ( http://arxiv.org/abs/2107.06700v3 ) ライセンス: Link先を確認 | Yinghua Yao, Yuangang Pan, Ivor W.Tsang, Xin Yao | (参考訳) 本稿では,全データセットが所望のプロパティを持つ場合のみに,ユーザ要求データの分散を学習するためのディファレンシャル・クリティカル・ジェネレータ・ネットワーク(DiCGAN)を提案する。
DiCGANは、ユーザの期待に応えて望ましいデータを生成し、望ましい特性を持つ生物製品の設計を支援する。
既存のアプローチでは、まず所望のサンプルを選択し、選択したサンプルに正規のGANを訓練して、ユーザが望むデータ分布を導出する。
しかし、望ましいデータの選択は、データセット全体のグローバルな知識と監視に依存する。
DiCGANは、局所的な知識であり、トレーニングデータの一部として定義できるペアワイズな選好から学ぶディファレンシャルな批判を導入する。
批評家は、ワッサースタイン・ガンの批判に対するさらなるランキングの損失を定義することで成り立っている。
それは、各サンプルのペア間の批判値の違いをユーザの好みに内包し、データ全体ではなく、望ましいデータの生成を導く。
データ品質を確保するためのより効率的なソリューションとして、我々は、DiCGANの収束性を理論的に証明した制約付き最適化問題として、DiCGANをさらに再構成する。
各種アプリケーションを用いた多種多様なデータセットに対する広範囲な実験により、DiCGANは、特に望ましくないデータや限られた監視の場合に、ユーザの望むデータ分布を学習する上で、最先端のパフォーマンスを達成することを示す。 This paper proposes Differential-Critic Generative Adversarial Network (DiCGAN) to learn the distribution of user-desired data when only partial instead of the entire dataset possesses the desired property. DiCGAN generates desired data that meets the user's expectations and can assist in designing biological products with desired properties. Existing approaches select the desired samples first and train regular GANs on the selected samples to derive the user-desired data distribution. However, the selection of the desired data relies on global knowledge and supervision over the entire dataset. DiCGAN introduces a differential critic that learns from pairwise preferences, which are local knowledge and can be defined on a part of training data. The critic is built by defining an additional ranking loss over the Wasserstein GAN's critic. It endows the difference of critic values between each pair of samples with the user preference and guides the generation of the desired data instead of the whole data. For a more efficient solution to ensure data quality, we further reformulate DiCGAN as a constrained optimization problem, based on which we theoretically prove the convergence of our DiCGAN. Extensive experiments on a diverse set of datasets with various applications demonstrate that our DiCGAN achieves state-of-the-art performance in learning the user-desired data distributions, especially in the cases of insufficient desired data and limited supervision. | 翻訳日:2023-04-19 01:10:40 公開日:2023-04-17 |
# 良性オーバーフィッティングの必然的バイアス The Implicit Bias of Benign Overfitting ( http://arxiv.org/abs/2201.11489v5 ) ライセンス: Link先を確認 | Ohad Shamir | (参考訳) 予測器がほぼ最適の損失を達成しながらノイズの多いトレーニングデータに完全に適合する良性オーバーフィッティング現象は近年注目されているが、まだ十分に特定された線形回帰設定を超えて完全には理解されていない。
本稿では, 回帰処理と分類処理の両方において, 良性オーバーフィットの発生を期待できるかどうかを, 新たな結果として提示する。
我々は、ある固定次元 $k$ の任意の入力分布を高次元分布と結合する線形予測器の良性オーバーフィッティングのための原型的でむしろ汎用的なデータモデルを考える。
必ずしも適切に特定されていない線形回帰に対しては、最小ノルム補間予測器(標準訓練法が収束する)が一般に一貫性のない解に偏りがあることが示される。
さらに, 回帰問題に対する良性過剰の存在が他の回帰問題にその存在を妨げていることを示す議論によって, 標準線形回帰を越えてこれを拡張できることを示す。
次に分類問題に目を向け、状況がより有利であることを示します。
具体的には、マックスマージン予測器(標準訓練法が方向収束することが知られている)が、重み付き \emph{ squared hinge loss} の最小化に漸近的に偏っていることを証明する。
これにより、分類における良性過剰適合の問題を、この損失が誤分類エラーの適切な代名詞であるかどうかというより単純な問題に還元し、新しい設定で良性過剰適合を示すために使用することができる。 The phenomenon of benign overfitting, where a predictor perfectly fits noisy training data while attaining near-optimal expected loss, has received much attention in recent years, but still remains not fully understood beyond well-specified linear regression setups. In this paper, we provide several new results on when one can or cannot expect benign overfitting to occur, for both regression and classification tasks. We consider a prototypical and rather generic data model for benign overfitting of linear predictors, where an arbitrary input distribution of some fixed dimension $k$ is concatenated with a high-dimensional distribution. For linear regression which is not necessarily well-specified, we show that the minimum-norm interpolating predictor (that standard training methods converge to) is biased towards an inconsistent solution in general, hence benign overfitting will generally not occur. Moreover, we show how this can be extended beyond standard linear regression, by an argument proving how the existence of benign overfitting on some regression problems precludes its existence on other regression problems. We then turn to classification problems, and show that the situation there is much more favorable. Specifically, we prove that the max-margin predictor (to which standard training methods are known to converge in direction) is asymptotically biased towards minimizing a weighted \emph{squared hinge loss}. This allows us to reduce the question of benign overfitting in classification to the simpler question of whether this loss is a good surrogate for the misclassification error, and use it to show benign overfitting in some new settings. | 翻訳日:2023-04-19 01:03:50 公開日:2023-04-17 |
# 2チームゼロサムゲームにおけるnash平衡への収束に向けて Towards convergence to Nash equilibria in two-team zero-sum games ( http://arxiv.org/abs/2111.04178v4 ) ライセンス: Link先を確認 | Fivos Kalogiannis, Ioannis Panageas, Emmanouil-Vasileios Vlatakis-Gkaragkounis | (参考訳) 2チームeスポーツにおける機械学習の現代的応用と、複数エージェント生成対向ネットワークの優れた表現性は、2チームゲームにおける最適化に関する重要かつ見過ごされた理論的疑問を提起する。
正式には、2チームのゼロサムゲームはマルチプレイヤーゲームとして定義され、プレイヤーは2つの競合するエージェントに分割され、それぞれがチームメイトと同一のユーティリティを経験し、相手チームのそれと反対である。
我々はNash equilibria(NE)の解の概念に焦点を当てる。
このクラスのゲームに対する NE の計算は、複雑性クラス ${\mathrm{CLS}}$ に対して $\textit{hard}$ であることを示す。
完全情報フィードバックを持つゲームにおけるオンライン学習アルゴリズムの能力をさらに検証するために,そのようなゲームファミリーの単純だが非自明なベンチマークを提案する。
これらのゲームは、関連するアルゴリズムの収束を証明するために使われる性質を享受しない。
特に, 動的系の観点を用いて, 勾配降下上昇, 楽観的変種, 楽観的乗法重みの更新, 余剰勾配が(局所的にも)nash平衡に収束しないことを示す。
より明るい注意として,制御理論の手法を活用し,ある条件下ではナッシュ平衡へのラストイテレート局所収束を享受する一階法を提案する。
また,提案手法は一般のmin-max最適化に独立した関心を持っている。 Contemporary applications of machine learning in two-team e-sports and the superior expressivity of multi-agent generative adversarial networks raise important and overlooked theoretical questions regarding optimization in two-team games. Formally, two-team zero-sum games are defined as multi-player games where players are split into two competing sets of agents, each experiencing a utility identical to that of their teammates and opposite to that of the opposing team. We focus on the solution concept of Nash equilibria (NE). We first show that computing NE for this class of games is $\textit{hard}$ for the complexity class ${\mathrm{CLS}}$. To further examine the capabilities of online learning algorithms in games with full-information feedback, we propose a benchmark of a simple -- yet nontrivial -- family of such games. These games do not enjoy the properties used to prove convergence for relevant algorithms. In particular, we use a dynamical systems perspective to demonstrate that gradient descent-ascent, its optimistic variant, optimistic multiplicative weights update, and extra gradient fail to converge (even locally) to a Nash equilibrium. On a brighter note, we propose a first-order method that leverages control theory techniques and under some conditions enjoys last-iterate local convergence to a Nash equilibrium. We also believe our proposed method is of independent interest for general min-max optimization. | 翻訳日:2023-04-19 01:01:56 公開日:2023-04-17 |
# RL4RS:強化学習に基づくレコメンダシステムのための実世界データセット RL4RS: A Real-World Dataset for Reinforcement Learning based Recommender System ( http://arxiv.org/abs/2110.11073v5 ) ライセンス: Link先を確認 | Kai Wang, Zhene Zou, Minghao Zhao, Qilin Deng, Yue Shang, Yile Liang, Runze Wu, Xudong Shen, Tangjie Lyu, Changjie Fan | (参考訳) 強化学習に基づく推薦システム(RL-based RS)は,多段階意思決定タスクにレコメンデーションを投入することで,収集したデータの集合から適切なポリシーを学習することを目的としている。
しかし、現在のRLベースのRS研究は一般的に大きな現実的ギャップがある。
本稿では,RLをベースとしたRSドメインのリソース制限により,これまで使用されていた人工データセットと半シミュレーションRSデータセットを置き換えることを期待する,最初のオープンソースの実世界のデータセットであるRL4RSを紹介する。
学術的なRL研究とは異なり、RLベースのRSは、デプロイ前によく検証されるという困難に悩まされている。
本研究では, 環境シミュレーションの評価, 環境評価, 対実的政策評価, テストセットから構築した環境評価を含む, 新たなシステム評価フレームワークを提案する。
要約すると、現実のギャップを特に懸念する新たなリソースであるRL4RS(Reinforcement Learning for Recommender Systems)には、2つの実世界のデータセット、データ理解ツール、チューニングされたシミュレーション環境、関連するRLベースライン、バッチRLベースライン、および対実的なポリシー評価アルゴリズムが含まれている。
RL4RSスイートはhttps://github.com/fuxiAIlab/RL4RSで見ることができる。
rlベースのレコメンダシステムに加えて,このリソースが応用強化学習の研究に寄与することを期待している。 Reinforcement learning based recommender systems (RL-based RS) aim at learning a good policy from a batch of collected data, by casting recommendations to multi-step decision-making tasks. However, current RL-based RS research commonly has a large reality gap. In this paper, we introduce the first open-source real-world dataset, RL4RS, hoping to replace the artificial datasets and semi-simulated RS datasets previous studies used due to the resource limitation of the RL-based RS domain. Unlike academic RL research, RL-based RS suffers from the difficulties of being well-validated before deployment. We attempt to propose a new systematic evaluation framework, including evaluation of environment simulation, evaluation on environments, counterfactual policy evaluation, and evaluation on environments built from test set. In summary, the RL4RS (Reinforcement Learning for Recommender Systems), a new resource with special concerns on the reality gaps, contains two real-world datasets, data understanding tools, tuned simulation environments, related advanced RL baselines, batch RL baselines, and counterfactual policy evaluation algorithms. The RL4RS suite can be found at https://github.com/fuxiAIlab/RL4RS. In addition to the RL-based recommender systems, we expect the resource to contribute to research in applied reinforcement learning. | 翻訳日:2023-04-19 01:01:03 公開日:2023-04-17 |
# 大規模3次元再構成のためのパワーバンドル調整 Power Bundle Adjustment for Large-Scale 3D Reconstruction ( http://arxiv.org/abs/2204.12834v4 ) ライセンス: Link先を確認 | Simon Weber and Nikolaus Demmel and Tin Chon Chan and Daniel Cremers | (参考訳) 本稿では,大規模バンドル調整問題に対する拡張型アルゴリズムとしてPower Bundle Adjustmentを導入する。
これは逆シュア補体のパワー級数展開に基づいており、逆展開法と呼ばれる新しい解の族を構成する。
我々は理論上、級数の使用を正当化し、我々のアプローチの収束を証明する。
実世界のbalデータセットを用いて,提案する解法が最先端の反復法に挑戦し,非常に精度の高い解法であっても,正規方程式の解法を大幅に加速することを示した。
この実装が容易なソルバは、最近発表された分散バンドル調整フレームワークを補完することもできる。
提案するパワーバンドル調整をサブプロブレムソルバとして使用することで,分散最適化の速度と精度が大幅に向上することを示す。 We introduce Power Bundle Adjustment as an expansion type algorithm for solving large-scale bundle adjustment problems. It is based on the power series expansion of the inverse Schur complement and constitutes a new family of solvers that we call inverse expansion methods. We theoretically justify the use of power series and we prove the convergence of our approach. Using the real-world BAL dataset we show that the proposed solver challenges the state-of-the-art iterative methods and significantly accelerates the solution of the normal equation, even for reaching a very high accuracy. This easy-to-implement solver can also complement a recently presented distributed bundle adjustment framework. We demonstrate that employing the proposed Power Bundle Adjustment as a sub-problem solver significantly improves speed and accuracy of the distributed optimization. | 翻訳日:2023-04-19 00:53:53 公開日:2023-04-17 |
# ハイブリッド電気自動車の電池消費予測の不確かさ Uncertainty-Aware Prediction of Battery Energy Consumption for Hybrid Electric Vehicles ( http://arxiv.org/abs/2204.12825v2 ) ライセンス: Link先を確認 | Jihed Khiari, Cristina Olaverri-Monreal | (参考訳) 自動車の使い勝手はエネルギー消費に大きく依存している。
特に、電気(EV)、ハイブリッド(HEV)、プラグインハイブリッド(PHEV)車両の大量導入を妨げる主な要因の1つは、走行時のエネルギーの可利用性について不確実な場合に発生する範囲不安である。
そこで本研究では,バッテリエネルギー消費をモデル化する機械学習手法を提案する。
予測の不確実性を減らすことにより、この手法は車両の性能に対する信頼性を高め、使用性を高めることができる。
ほとんどの関連する研究は、エネルギー消費に影響を与える電池の物理モデルや化学モデルに焦点を当てている。
我々は,バッテリ関連属性を含む実世界のデータセットに依存するデータ駆動アプローチを提案する。
従来の手法に比べて,予測の不確実性や精度が向上した。 The usability of vehicles is highly dependent on their energy consumption. In particular, one of the main factors hindering the mass adoption of electric (EV), hybrid (HEV), and plug-in hybrid (PHEV) vehicles is range anxiety, which occurs when a driver is uncertain about the availability of energy for a given trip. To tackle this problem, we propose a machine learning approach for modeling the battery energy consumption. By reducing predictive uncertainty, this method can help increase trust in the vehicle's performance and thus boost its usability. Most related work focuses on physical and/or chemical models of the battery that affect the energy consumption. We propose a data-driven approach which relies on real-world datasets including battery related attributes. Our approach showed an improvement in terms of predictive uncertainty as well as in accuracy compared to traditional methods. | 翻訳日:2023-04-19 00:53:41 公開日:2023-04-17 |
# プライバシー保護でポートレート・マットリングを再考 Rethinking Portrait Matting with Privacy Preserving ( http://arxiv.org/abs/2203.16828v2 ) ライセンス: Link先を確認 | Sihan Ma, Jizhizi Li, Jing Zhang, He Zhang, Dacheng Tao | (参考訳) 近年,機械学習における識別可能な情報によるプライバシー問題への懸念が高まっている。
しかし、過去の肖像画マッチング手法はすべて識別可能な画像に基づいていた。
p3m-10kは、プライバシ保存型ポートレートマットリング(p3m)のための最初の大規模匿名化ベンチマークである。
P3M-10kは10,421枚の高解像度の顔黒のポートレート画像と高品質のアルファマットで構成されており、トリマップフリーおよびトリマップベースのマット法の両方を体系的に評価し、プライバシ保護トレーニング(PPT)設定下でのモデル一般化能力に関する有用な知見を得ることができる。
また、CNNとトランスフォーマーの両バックボーンに互換性のあるP3M-Netと呼ばれる統合マッティングモデルを提案する。
PPT設定下でのクロスドメインパフォーマンスギャップ問題を緩和するため、公衆の有名画像から顔情報を借り、ネットワークにデータと特徴レベルの顔コンテキストの再取得を指示するシンプルで効果的なコピー&ペースト戦略(P3M-CP)を考案した。
p3m-10kとパブリックベンチマークに関する広範な実験は、p3m-netが最先端の手法よりも優れていることや、p3m-cpがクロスドメインの一般化能力を向上させることの有効性を示している。 Recently, there has been an increasing concern about the privacy issue raised by identifiable information in machine learning. However, previous portrait matting methods were all based on identifiable images. To fill the gap, we present P3M-10k, which is the first large-scale anonymized benchmark for Privacy-Preserving Portrait Matting (P3M). P3M-10k consists of 10,421 high resolution face-blurred portrait images along with high-quality alpha mattes, which enables us to systematically evaluate both trimap-free and trimap-based matting methods and obtain some useful findings about model generalization ability under the privacy preserving training (PPT) setting. We also present a unified matting model dubbed P3M-Net that is compatible with both CNN and transformer backbones. To further mitigate the cross-domain performance gap issue under the PPT setting, we devise a simple yet effective Copy and Paste strategy (P3M-CP), which borrows facial information from public celebrity images and directs the network to reacquire the face context at both data and feature level. Extensive experiments on P3M-10k and public benchmarks demonstrate the superiority of P3M-Net over state-of-the-art methods and the effectiveness of P3M-CP in improving the cross-domain generalization ability, implying a great significance of P3M for future research and real-world applications. | 翻訳日:2023-04-19 00:53:28 公開日:2023-04-17 |
# カーネル回帰の次元化とワッサースタイン安定性 Dimensionality Reduction and Wasserstein Stability for Kernel Regression ( http://arxiv.org/abs/2203.09347v2 ) ライセンス: Link先を確認 | Stephan Eckstein, Armin Iske, Mathias Trabs | (参考訳) 高次元回帰(high-dimensional regression)フレームワークでは、まず入力変数の次元を減少させ、次に、還元された入力変数をカーネル回帰で出力変数を予測するnaive two-step手順の結果を調べる。
結果として生じる回帰誤差を分析するために、ワッサースタイン距離に関する核回帰に対する新しい安定性結果が導出される。
これにより、摂動入力データが回帰関数に適合する際に発生するエラーをバウンドすることができる。
一般安定性の結果を主成分分析(pca)に適用する。
主成分分析とカーネル回帰の両方に関する文献からの既知の推定結果から、2段階の手順の収束率を推定する。
後者は、半教師付き設定で特に有用であることが判明した。 In a high-dimensional regression framework, we study consequences of the naive two-step procedure where first the dimension of the input variables is reduced and second, the reduced input variables are used to predict the output variable with kernel regression. In order to analyze the resulting regression errors, a novel stability result for kernel regression with respect to the Wasserstein distance is derived. This allows us to bound errors that occur when perturbed input data is used to fit the regression function. We apply the general stability result to principal component analysis (PCA). Exploiting known estimates from the literature on both principal component analysis and kernel regression, we deduce convergence rates for the two-step procedure. The latter turns out to be particularly useful in a semi-supervised setting. | 翻訳日:2023-04-19 00:51:53 公開日:2023-04-17 |
# 高速適応ベイズ推定によるロバストスピン緩和法 Robust spin relaxometry with fast adaptive Bayesian estimation ( http://arxiv.org/abs/2202.12218v2 ) ライセンス: Link先を確認 | Michael Caouette-Mansour, Adrian Solyom, Brandon Ruffolo, Robert D. McMichael, Jack Sankey, and Lilian Childress | (参考訳) ダイヤモンド中の窒素空隙(nv)中心を持つスピン緩和度測定は、スペクトル選択性、原子局在性、およびマイクロ波周波数磁気ノイズのキャリブレーション測定を提供し、凝縮物および生体システムのための汎用プローブを提供する。
典型的には、リラクゼーションレートは最適感度を提供しない曲線フィッティング技術で推定され、しばしばシステムの特に不利な取得時間がドリフトや他の関心のダイナミクスに繋がる。
ここでは、適応ベイズ推定がこの問題によく適合していることを示し、動的緩和パルス列を生成し、最適動作条件を迅速に見つける。
私たちが採用するシステムを含む)多くの状況において、このアプローチは買収を桁違いにスピードアップすることができる。
また, スピンリードアウトコントラスト, 偏光, マイクロ波パルス忠実度において, ドリフトに頑健な4信号計測プロトコルを提案する。
この組み合わせ技術は、幅広いNV緩和計測アプリケーションに対して実用的でハードウェアに依存しないアプローチを提供する。 Spin relaxometry with nitrogen-vacancy (NV) centers in diamond offers a spectrally selective, atomically localized, and calibrated measurement of microwave-frequency magnetic noise, presenting a versatile probe for condensed matter and biological systems. Typically, relaxation rates are estimated with curve-fitting techniques that do not provide optimal sensitivity, often leading to long acquisition times that are particularly detrimental in systems prone to drift or other dynamics of interest. Here we show that adaptive Bayesian estimation is well suited to this problem, producing dynamic relaxometry pulse sequences that rapidly find an optimal operating regime. In many situations (including the system we employ), this approach can speed the acquisition by an order of magnitude. We also present a four-signal measurement protocol that is robust to drifts in spin readout contrast, polarization, and microwave pulse fidelity while still achieving near-optimal sensitivity. The combined technique offers a practical, hardware-agnostic approach for a wide range of NV relaxometry applications. | 翻訳日:2023-04-19 00:51:24 公開日:2023-04-17 |
# CNNにおける特徴保存回路のプルーニング Pruning for Feature-Preserving Circuits in CNNs ( http://arxiv.org/abs/2206.01627v2 ) ライセンス: Link先を確認 | Chris Hamblin and Talia Konkle and George Alvarez | (参考訳) 深層畳み込みニューラルネットワークは様々なコンピュータビジョン問題に対する強力なモデルクラスであるが、その大きさを考えると、実装する画像フィルタリングプロセスの解釈は困難である。
本研究では,深いCNNから「機能保存回路」を抽出する手法を提案する。
これらの回路はモジュラーサブ関数であり、ネットワーク内に埋め込まれ、ターゲット機能に関連する畳み込みカーネルのサブセットのみを含む。
これらのスパース回路を抽出するための3つのサリエンシ基準の有効性を比較した。
さらに,特定の画像に対する特徴の応答を保存し,その特徴をスペーサーフィルタリングプロセスに分割する「サブ機能」回路の抽出方法を示す。
また,回路によって実装された画像フィルタリングプロセス全体を解析可能な形式でレンダリングする「回路図」の可視化ツールを開発した。 Deep convolutional neural networks are a powerful model class for a range of computer vision problems, but it is difficult to interpret the image filtering process they implement, given their sheer size. In this work, we introduce a method for extracting 'feature-preserving circuits' from deep CNNs, leveraging methods from saliency-based neural network pruning. These circuits are modular sub-functions, embedded within the network, containing only a subset of convolutional kernels relevant to a target feature. We compare the efficacy of 3 saliency-criteria for extracting these sparse circuits. Further, we show how 'sub-feature' circuits can be extracted, that preserve a feature's responses to particular images, dividing the feature into even sparser filtering processes. We also develop a tool for visualizing 'circuit diagrams', which render the entire image filtering process implemented by circuits in a parsable format. | 翻訳日:2023-04-19 00:43:19 公開日:2023-04-17 |
# 共同創設者の顔におけるペシミズム--マルコフ決定過程における効果的なオフライン強化学習の可能性 Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2205.13589v2 ) ライセンス: Link先を確認 | Miao Lu, Yifei Min, Zhaoran Wang, Zhuoran Yang | (参考訳) 半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
特に、潜在状態に依存する可能性のある行動ポリシーによって収集されたデータセットから最適なポリシーを学習することを目指している。
このようなデータセットは、潜在状態が動作と観測に同時に影響を及ぼすという意味で、既存のオフラインrlアルゴリズムでは禁止されている。
この目的のために、一般関数近似の文脈において、共役バイアスと最適と振舞いポリシーの間の分布シフトに対処する、Shaunderline{P}roxy変数 \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O})アルゴリズムを提案する。
texttt{P3O} の中核は、近位因果推論によって構築された悲観的信頼領域の結合配列であり、ミニマックス推定として定式化されている。
連結データセット上の部分カバレッジ仮定の下で、\textt{p3o} が$n^{-1/2}$-suboptimality を達成することを証明し、ここで $n$ はデータセット内の軌道数である。
我々の知る限り、 \texttt{P3O} はPOMDP に対して、データセットを合成した最初の証明可能なオフライン RL アルゴリズムである。 We study offline reinforcement learning (RL) in partially observable Markov decision processes. In particular, we aim to learn an optimal policy from a dataset collected by a behavior policy which possibly depends on the latent state. Such a dataset is confounded in the sense that the latent state simultaneously affects the action and the observation, which is prohibitive for existing offline RL algorithms. To this end, we propose the \underline{P}roxy variable \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O}) algorithm, which addresses the confounding bias and the distributional shift between the optimal and behavior policies in the context of general function approximation. At the core of \texttt{P3O} is a coupled sequence of pessimistic confidence regions constructed via proximal causal inference, which is formulated as minimax estimation. Under a partial coverage assumption on the confounded dataset, we prove that \texttt{P3O} achieves a $n^{-1/2}$-suboptimality, where $n$ is the number of trajectories in the dataset. To our best knowledge, \texttt{P3O} is the first provably efficient offline RL algorithm for POMDPs with a confounded dataset. | 翻訳日:2023-04-19 00:42:37 公開日:2023-04-17 |
# 分散ユーザのためのカーネルベース帯域での協調学習 Collaborative Learning in Kernel-based Bandits for Distributed Users ( http://arxiv.org/abs/2207.07948v2 ) ライセンス: Link先を確認 | Sudeep Salgia, Sattar Vakili, Qing Zhao | (参考訳) 中央サーバが支援する分散クライアント間の協調学習について検討する。
各クライアントは、そのローカルな目的とグローバルな目的の重み付けされた合計であるパーソナライズされた目的関数の最大化に興味を持っている。
各クライアントは、そのローカルな目的に対してランダムなバンディットフィードバックに直接アクセスするが、グローバルな目的に対する部分的な視点しか持たず、他のクライアントとの情報交換に依存して協調学習を行う。
我々は、目的関数が再生カーネルヒルベルト空間に属するカーネルベースのbanditフレームワークを採用する。
本研究では,gaussian process (gp) モデルに基づくアルゴリズムを提案する。
また,GPモデルのスパース近似を用いて,クライアント間の通信オーバヘッドを低減できることを示す。 We study collaborative learning among distributed clients facilitated by a central server. Each client is interested in maximizing a personalized objective function that is a weighted sum of its local objective and a global objective. Each client has direct access to random bandit feedback on its local objective, but only has a partial view of the global objective and relies on information exchange with other clients for collaborative learning. We adopt the kernel-based bandit framework where the objective functions belong to a reproducing kernel Hilbert space. We propose an algorithm based on surrogate Gaussian process (GP) models and establish its order-optimal regret performance (up to polylogarithmic factors). We also show that the sparse approximations of the GP models can be employed to reduce the communication overhead across clients. | 翻訳日:2023-04-19 00:35:16 公開日:2023-04-17 |
# 非平滑最適化のためのランダム化座標次法 Randomized Coordinate Subgradient Method for Nonsmooth Optimization ( http://arxiv.org/abs/2206.14981v2 ) ライセンス: Link先を確認 | Lei Zhao and Ding Chen and Daoli Zhu and Xiao Li | (参考訳) 本研究では,非平滑凸および非平滑凸(非平滑凸)最適化問題の解法として {Randomized Coordinate Subgradient Method} (RCS) を提案する。
RCSは、1つのブロック座標をランダムに選択し、繰り返しごとに更新する。
我々は,従来のリプシッツ連続性仮定よりも一般の目的関数に対する線形有界部分次数の仮定を考える。
次に,この一般化リプシッツ型仮定に基づき,凸および非凸のいずれの場合においてもrcsの完全収束解析を行う。
具体的には、期待における$\widetilde{\mathcal{O}}(1/\sqrt{k})$収束率と$\tilde o(1/\sqrt{k})$ほぼ確実に漸近収束率を、f$が非滑らか凸であるときの準最適差の点で確立する。
さらに$f$が大域二次成長条件を満たすならば、改善された$\mathcal{O}(1/k)$レートは最適解集合への平方距離で示される。
f$ が非滑らかな弱凸であり、その部分微分が大域的計量準正則性を満たす場合、期待値において$\mathcal{o}(1/t^{1/4})$ の反復複雑性が導出され、ここで$t$ は反復の総数である。
また,漸近収束結果も確立する。
解析に用いた大域的計量サブレギュラリティ特性を正当化するために, 独立に利害関係を有する具体的な(実価値)ロバストな位相検索問題に対して, この誤差境界条件を定式化する。
収束補題と弱凸函数の大域的計量部分正則性とモローエンベロープの関係は独立な関心を持つ。
最後に, 下位勾配法よりもrcsが優れていることを示す実験を複数実施した。 In this work, we propose the {Randomized Coordinate Subgradient method} (RCS) for solving nonsmooth convex and nonsmooth nonconvex (nonsmooth weakly convex) optimization problems. RCS randomly selects one block coordinate to update at each iteration, making it more practical than updating all coordinates. We consider the linearly bounded subgradients assumption for the objective function, which is more general than the traditional Lipschitz continuity assumption, to account for practical scenarios. We then conduct thorough convergence analysis for RCS in both convex and nonconvex cases based on this generalized Lipschitz-type assumption. Specifically, we establish the $\widetilde{\mathcal{O}}(1/\sqrt{k})$ convergence rate in expectation and the $\tilde o(1/\sqrt{k})$ almost sure asymptotic convergence rate in terms of suboptimality gap when $f$ is nonsmooth convex. If $f$ further satisfies the global quadratic growth condition, the improved $\mathcal{O}(1/k)$ rate is shown in terms of the squared distance to the optimal solution set. For the case when $f$ is nonsmooth weakly convex and its subdifferential satisfies the global metric subregularity property, we derive the $\mathcal{O}(1/T^{1/4})$ iteration complexity in expectation, where $T$ is the total number of iterations. We also establish an asymptotic convergence result. To justify the global metric subregularity property utilized in the analysis, we establish this error bound condition for the concrete (real valued) robust phase retrieval problem, which is of independent interest. We provide a convergence lemma and the relationship between the global metric subregularity properties of a weakly convex function and its Moreau envelope, which are also of independent interest. Finally, we conduct several experiments to demonstrate the possible superiority of RCS over the subgradient method. | 翻訳日:2023-04-19 00:33:43 公開日:2023-04-17 |
# UniCon: 視覚的質問応答のための一方向分割学習 UniCon: Unidirectional Split Learning with Contrastive Loss for Visual Question Answering ( http://arxiv.org/abs/2208.11435v2 ) ライセンス: Link先を確認 | Yuwei Sun, Hideya Ochiai | (参考訳) マルチモーダルデータを用いた視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。
しかし、重要な課題は、様々なクライアントタスクに対して堅牢な学習方法を設計することである。
機密性に関する懸念からクライアントデータの共有が制限されているため、プライバシーを確保することが重要な側面のひとつだ。
本研究は、マルチクライアントVQAタスクにおける機密性制約の問題と、クライアントのラベル付きトレーニングデータに対処することに焦点を当てる。
これらの制約を克服するために,一方向分割学習法(UniCon)を提案する。
提案手法は,異なるクライアントのデータ分布全体に対するグローバルモデルを訓練し,モデル共有を通じて洗練されたクロスモーダル表現を学習する。
プライバシーは、完全なモデルが独立したトレーニングのために2つのコンポーネントに分割される分割学習アーキテクチャを利用することによって保証される。
さらに,近年の自己教師型学習技術は,分割学習と高い互換性があることが判明した。
この組み合わせにより、ラベル付きデータなしで分類タスクを迅速に学習できる。
さらに、UniConは様々なローカルタスクからの知識を統合し、知識共有効率を向上させる。
5つの最先端VQAモデルを用いてVQA-v2データセットの総合的な実験を行い、UniConの有効性を実証した。
最高性能のモデルは49.89%の競合精度を達成した。
UniConは、クライアントプライバシを保持しながら、分散データサイロ設定でVQAタスクに取り組むための有望なソリューションを提供する。 Visual Question Answering (VQA) using multi-modal data facilitates real-life applications, such as home robots and medical diagnoses. However, one significant challenge is to design a robust learning method for various client tasks. One critical aspect is to ensure privacy, as client data sharing is limited due to confidentiality concerns. This work focuses on addressing the issue of confidentiality constraints in multi-client VQA tasks and limited labeled training data of clients. We propose the Unidirectional Split Learning with Contrastive Loss (UniCon) method to overcome these limitations. The proposed method trains a global model on the entire data distribution of different clients, learning refined cross-modal representations through model sharing. Privacy is ensured by utilizing a split learning architecture in which a complete model is partitioned into two components for independent training. Moreover, recent self-supervised learning techniques were found to be highly compatible with split learning. This combination allows for rapid learning of a classification task without labeled data. Furthermore, UniCon integrates knowledge from various local tasks, improving knowledge sharing efficiency. Comprehensive experiments were conducted on the VQA-v2 dataset using five state-of-the-art VQA models, demonstrating the effectiveness of UniCon. The best-performing model achieved a competitive accuracy of 49.89%. UniCon provides a promising solution to tackle VQA tasks in a distributed data silo setting while preserving client privacy. | 翻訳日:2023-04-19 00:26:01 公開日:2023-04-17 |
# フェイスアンチスプーフィングモデル更新のためのマルチドメイン学習 Multi-domain Learning for Updating Face Anti-spoofing Models ( http://arxiv.org/abs/2208.11148v2 ) ライセンス: Link先を確認 | Xiao Guo, Yaojie Liu, Anil Jain, and Xiaoming Liu | (参考訳) 本研究では,顔アンチスプーフィング(MD-FAS)のマルチドメイン学習について検討し,事前学習されたFASモデルを更新して,ターゲットドメインデータのみを使用して更新を行う。
我々は、md-fasの新しいモデルを提示し、高いレベルの適応性を持ちながら、新しいドメインデータを学ぶ際に忘れられる問題に対処する。
まず,spoof region estimator(sre)と呼ばれる単純かつ効果的なモジュールを開発し,spoofイメージ中のspoofトレースを同定する。
このようなスプーフトレースは、ソーストレーニング済みモデルの反応を反映しており、アップグレードされたモデルが更新中に破滅的な忘れと戦うのに役立つ。
複数の出力や低解像度のバイナリマスクを生成するスプーフトレースを推定する以前の研究とは異なり、SREは教師なしの方法で1つの詳細なピクセル単位で推定する。
次に,事前学習したモデルから知識を伝達し,異なるfasモデルとシームレスに統合する新しいフレームワークfas-wrapperを提案する。
最後に、コミュニティがMD-FASをさらに前進させるために、SIW、SIW-Mv2、Oulu-NPUに基づく新しいベンチマークを構築し、ソースドメインとターゲットドメインがスプーフタイプ、年齢、民族性、照明の点で異なる4つの異なる評価プロトコルを導入する。
提案手法は,従来の手法よりもMD-FASベンチマークの方が優れた性能を示す。
私たちのコードと新しくキュレーションされたSIW-Mv2は公開されています。 In this work, we study multi-domain learning for face anti-spoofing(MD-FAS), where a pre-trained FAS model needs to be updated to perform equally well on both source and target domains while only using target domain data for updating. We present a new model for MD-FAS, which addresses the forgetting issue when learning new domain data, while possessing a high level of adaptability. First, we devise a simple yet effective module, called spoof region estimator(SRE), to identify spoof traces in the spoof image. Such spoof traces reflect the source pre-trained model's responses that help upgraded models combat catastrophic forgetting during updating. Unlike prior works that estimate spoof traces which generate multiple outputs or a low-resolution binary mask, SRE produces one single, detailed pixel-wise estimate in an unsupervised manner. Secondly, we propose a novel framework, named FAS-wrapper, which transfers knowledge from the pre-trained models and seamlessly integrates with different FAS models. Lastly, to help the community further advance MD-FAS, we construct a new benchmark based on SIW, SIW-Mv2 and Oulu-NPU, and introduce four distinct protocols for evaluation, where source and target domains are different in terms of spoof type, age, ethnicity, and illumination. Our proposed method achieves superior performance on the MD-FAS benchmark than previous methods. Our code and newly curated SIW-Mv2 are publicly available. | 翻訳日:2023-04-19 00:25:37 公開日:2023-04-17 |
# forbid:グラフ描画のための確率的勾配降下による高速重なり除去 FORBID: Fast Overlap Removal By stochastic gradIent Descent for Graph Drawing ( http://arxiv.org/abs/2208.10334v2 ) ライセンス: Link先を確認 | Loann Giovannangeli, Frederic Lalanne, Romain Giot and Romain Bourqui | (参考訳) 多くのグラフ描画アルゴリズムはノードをポイントとみなすが、グラフ視覚化ツールはそれらを形として表現することが多い。
これらの形状はラベルなどの情報を表示するか、サイズや色で様々なデータをエンコードする。
しかし、情報の一部を隠蔽することで探索プロセスを妨げるノード間の重複を生成することができる。
したがって、グラフ視覚化の可読性を改善するためにこれらの重複を取り除くことが最も重要である。
レイアウトプロセスで処理されない場合、オーバーラップ除去(OR)アルゴリズムがレイアウト後処理として提案されている。
グラフレイアウトは通常、そのトポロジに関する情報を伝達するので、ORアルゴリズムは可能な限り保存することが重要である。
本稿では,ORを共同応力およびスケーリング最適化問題としてモデル化し,効率的な確率勾配勾配を求めるアルゴリズムを提案する。
このアプローチは最先端のアルゴリズムと比較され、いくつかの品質指標は、初期レイアウト構造を維持しながらオーバーラップを素早く除去する効率を示している。 While many graph drawing algorithms consider nodes as points, graph visualization tools often represent them as shapes. These shapes support the display of information such as labels or encode various data with size or color. However, they can create overlaps between nodes which hinder the exploration process by hiding parts of the information. It is therefore of utmost importance to remove these overlaps to improve graph visualization readability. If not handled by the layout process, Overlap Removal (OR) algorithms have been proposed as layout post-processing. As graph layouts usually convey information about their topology, it is important that OR algorithms preserve them as much as possible. We propose a novel algorithm that models OR as a joint stress and scaling optimization problem, and leverages efficient stochastic gradient descent. This approach is compared with state-of-the-art algorithms, and several quality metrics demonstrate its efficiency to quickly remove overlaps while retaining the initial layout structures. | 翻訳日:2023-04-19 00:25:09 公開日:2023-04-17 |
# 乱れた進化を伴うロバスト量子制御 Robust quantum control with disorder-dressed evolution ( http://arxiv.org/abs/2208.07008v2 ) ライセンス: Link先を確認 | Tenzan Araki, Franco Nori, Clemens Gneiting | (参考訳) 最適量子制御の理論は、目的の状態を効率的に生成する時間依存制御ハミルトニアンを特定するのに役立つ。
そのため、量子技術の設計と開発の成功において重要な役割を担っている。
しかし、しばしば供給される制御パルスは小さな摂動に非常に敏感であり、実験でそれらを確実に展開することは困難である。
ロバスト量子制御は、パルス摂動の存在下でもターゲット状態を再現する能力を保持する制御パルスを見つけることでこの問題を軽減することを目的としている。
しかし、そのようなロバストな制御パルスを見つけることは一般的に難しい。制御パルスの評価には、評価に可能なすべての歪曲バージョンを含める必要があるからだ。
ここでは,無秩序な進化方程式に基づいてロバストな制御パルスを同定できることを示す。
後者は、乱れ平均密度行列の進化を記述する量子マスター方程式の項で、ここではパルス摂動を表す障害の効果を捉えている。
このようなロバスト制御へのアプローチでは、最終状態の純度は、基礎となる制御パルスの堅牢性を示し、最終状態が純粋な(かつターゲット状態と一致する)場合、ロバスト制御パルスは除外される。
この原理は頑健な制御パルスを見つけるのに有効であることを示す。
この目的のために,krotov法を無秩序な服装進化に適用し,その応用を複数の単一キュービット制御タスクで実証する。 The theory of optimal quantum control serves to identify time-dependent control Hamiltonians that efficiently produce desired target states. As such, it plays an essential role in the successful design and development of quantum technologies. However, often the delivered control pulses are exceedingly sensitive to small perturbations, which can make it hard if not impossible to reliably deploy these in experiments. Robust quantum control aims at mitigating this issue by finding control pulses that uphold their capacity to reproduce the target states even in the presence of pulse perturbations. However, finding such robust control pulses is generically hard, since the assessment of control pulses requires the inclusion of all possible distorted versions in the evaluation. Here we show that robust control pulses can be identified based on disorder-dressed evolution equations. The latter capture the effect of disorder, which here stands for the pulse perturbations, in terms of quantum master equations describing the evolution of the disorder-averaged density matrix. In this approach to robust control, the purities of the final states indicate the robustness of the underlying control pulses, and robust control pulses are singled out if the final states are pure (and coincide with the target states). We show that this principle can be successfully employed to find robust control pulses. To this end, we adapt Krotov's method for disorder-dressed evolution and demonstrate its application with several single-qubit control tasks. | 翻訳日:2023-04-19 00:24:03 公開日:2023-04-17 |
# 学習の証明は、現在想像以上に壊れている Proof-of-Learning is Currently More Broken Than You Think ( http://arxiv.org/abs/2208.03567v2 ) ライセンス: Link先を確認 | Congyu Fang, Hengrui Jia, Anvith Thudi, Mohammad Yaghini, Christopher A. Choquette-Choo, Natalie Dullerud, Varun Chandrasekaran, Nicolas Papernot | (参考訳) Proof-of-Learning (PoL) では、モデルの所有者がトレーニングのチェックポイントをログし、トレーニングに必要な計算を拡張した証拠を確立することを提案している。
pol forego暗号アプローチと取引厳格なセキュリティによって、ディープラーニングへの拡張性が保証される。
彼らはこのアプローチの利点を、盗んだモデルに対する証明をいかにスプーフィングで計算するかを示すことによって実証的に論じた。
しかし、近年の研究は反例を提供しており、この観察を無効にしている。
この研究で、まず、現在のpol検証が敵に対して堅牢でないことは事実であるが、最近の研究は、この堅牢性の欠如をほとんど過小評価している。
これは、既存のスプーフィング戦略が再現不可能か、polの弱化インスタンス化を狙うかのどちらかであり、検証のハイパーパラメータを変更することで容易に妨害されるからである。
代わりに、pol検証のさまざまな構成で再現可能で、以前のspoofing戦略のコストのほんの一部で実行できる最初のspoofingストラテジを導入する。
これは、PoLの重要な脆弱性を特定し、証明の堅牢な検証に必要な前提条件を体系的に分析するためである。
理論的には、これらの仮定が学習理論においていかに開放的な問題に還元されるかを示し、深層学習における最適化を深く理解することなく、確実に堅牢なpol検証機構を開発することはできないと結論づける。 Proof-of-Learning (PoL) proposes that a model owner logs training checkpoints to establish a proof of having expended the computation necessary for training. The authors of PoL forego cryptographic approaches and trade rigorous security guarantees for scalability to deep learning. They empirically argued the benefit of this approach by showing how spoofing--computing a proof for a stolen model--is as expensive as obtaining the proof honestly by training the model. However, recent work has provided a counter-example and thus has invalidated this observation. In this work we demonstrate, first, that while it is true that current PoL verification is not robust to adversaries, recent work has largely underestimated this lack of robustness. This is because existing spoofing strategies are either unreproducible or target weakened instantiations of PoL--meaning they are easily thwarted by changing hyperparameters of the verification. Instead, we introduce the first spoofing strategies that can be reproduced across different configurations of the PoL verification and can be done for a fraction of the cost of previous spoofing strategies. This is possible because we identify key vulnerabilities of PoL and systematically analyze the underlying assumptions needed for robust verification of a proof. On the theoretical side, we show how realizing these assumptions reduces to open problems in learning theory.We conclude that one cannot develop a provably robust PoL verification mechanism without further understanding of optimization in deep learning. | 翻訳日:2023-04-19 00:23:25 公開日:2023-04-17 |
# 圧力分布分析による乳幼児の運動分類 -研究と臨床応用への付加価値- Infant movement classification through pressure distribution analysis -- added value for research and clinical implementation ( http://arxiv.org/abs/2208.00884v2 ) ライセンス: Link先を確認 | Tomas Kulvicius, Dajie Zhang, Karin Nielsen-Saines, Sven B\"olte, Marc Kraft, Christa Einspieler, Luise Poustka, Florentin W\"org\"otter, Peter B Marschik | (参考訳) 脳性麻痺などの神経運動障害を早期に客観的に検出することを目的として,乳児一般運動分類装置(gms)を用いた非侵襲的アプローチを提案した。
そこで本研究では,「フィジティ期」の典型的なgmパターンを「プレフィジティ期」と「プレフィジティ期」を区別するために,圧力データを用いた場合の可能性について検討した。
典型的には発達する乳児コホートから参加者 (N = 45) を採取した。
1024個のセンサーを備えた32×32グリッド圧センサマットの圧力データを含むマルチモーダルセンサデータを,2週間に1回,4~16週の生後7回の実験室で前向きに記録した。
概念実証のため,運動分類には2つの対象年齢から1776個の圧力データスニペット(長さ5s)を用いた。
各スニペットは、人間の評価者による対応する同期映像データに基づいて、Fidgety Present (FM+) またはFolt (FM-) として事前に注釈付けされた。
複数のニューラルネットワークアーキテクチャをテストして、サポートベクタマシン(SVM)、フィードフォワードネットワーク(FFN)、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワークなど、FM+とFM-クラスを区別した。
CNN はクラス FM+ 対 FM- の平均分類精度 (81.4%) を達成した。
GMAの自動化を目的とした他の手法の長所と短所を圧力センサアプローチと比較した結果,圧力センサアプローチは大規模な動きデータ取得と共有を効率的に行う上で大きな可能性を秘めていることがわかった。
これにより、乳児の神経運動機能を評価するための日々の臨床応用にスケーラブルなアプローチの改善が可能になるだろう。 Aiming at objective early detection of neuromotor disorders such as cerebral palsy, we proposed an innovative non-intrusive approach using a pressure sensing device to classify infant general movements (GMs). Here, we tested the feasibility of using pressure data to differentiate typical GM patterns of the ''fidgety period'' (i.e., fidgety movements) vs. the ''pre-fidgety period'' (i.e., writhing movements). Participants (N = 45) were sampled from a typically-developing infant cohort. Multi-modal sensor data, including pressure data from a 32x32-grid pressure sensing mat with 1024 sensors, were prospectively recorded for each infant in seven succeeding laboratory sessions in biweekly intervals from 4-16 weeks of post-term age. For proof-of-concept, 1776 pressure data snippets, each 5s long, from the two targeted age periods were taken for movement classification. Each snippet was pre-annotated based on corresponding synchronised video data by human assessors as either fidgety present (FM+) or absent (FM-). Multiple neural network architectures were tested to distinguish the FM+ vs. FM- classes, including support vector machines (SVM), feed-forward networks (FFNs), convolutional neural networks (CNNs), and long short-term memory (LSTM) networks. The CNN achieved the highest average classification accuracy (81.4%) for classes FM+ vs. FM-. Comparing the pros and cons of other methods aiming at automated GMA to the pressure sensing approach, we concluded that the pressure sensing approach has great potential for efficient large-scale motion data acquisition and sharing. This will in return enable improvement of the approach that may prove scalable for daily clinical application for evaluating infant neuromotor functions. | 翻訳日:2023-04-19 00:23:00 公開日:2023-04-17 |
# ディープ・アンサンブル・ラーニングによる敵攻撃に対するコンピュータネットワークのセキュリティ向上 Employing Deep Ensemble Learning for Improving the Security of Computer Networks against Adversarial Attacks ( http://arxiv.org/abs/2209.12195v2 ) ライセンス: Link先を確認 | Ehsan Nowroozi, Mohammadreza Mohammadi, Erkay Savas, Mauro Conti, Yassine Mekdad | (参考訳) 過去数年間、畳み込みニューラルネットワーク(CNN)は、ネットワークやマルチメディアセキュリティなど、さまざまな現実世界のサイバーセキュリティアプリケーションで有望なパフォーマンスを示している。
しかし、CNN構造の脆弱性は大きなセキュリティ問題を引き起こし、そのようなコンピュータネットワークを含むセキュリティ指向アプリケーションでの使用には不適当である。
これらのアーキテクチャを敵攻撃から守るには、攻撃が困難なセキュリティに関するアーキテクチャを使う必要がある。
本研究では,攻撃のない場合の1クラス分類(1C)と従来の2クラス分類(2C)の高度な性能を組み合わせたアンサンブル分類器に基づく新しいアーキテクチャを提案する。このアーキテクチャは1.5クラス分類器(SPRITZ-1.5C)と呼ばれ,最終密分分類器,2C分類器(CNN),2つの並列1C分類器(オートエンコーダ)を用いて構築されている。
実験では, 様々なシナリオにおける8つの敵攻撃を考慮し, 提案アーキテクチャの堅牢性を評価した。
我々は2CアーキテクチャとSPRITZ-1.5Cアーキテクチャを別々に攻撃した。
実験の結果,N-BaIoTデータセットを用いてトレーニングした2C分類器に対するI-FGSM攻撃の攻撃成功率(ASR)は0.9900であった。
対照的に、ASRはSPRITZ-1.5C分類器の0.0000である。 In the past few years, Convolutional Neural Networks (CNN) have demonstrated promising performance in various real-world cybersecurity applications, such as network and multimedia security. However, the underlying fragility of CNN structures poses major security problems, making them inappropriate for use in security-oriented applications including such computer networks. Protecting these architectures from adversarial attacks necessitates using security-wise architectures that are challenging to attack. In this study, we present a novel architecture based on an ensemble classifier that combines the enhanced security of 1-Class classification (known as 1C) with the high performance of conventional 2-Class classification (known as 2C) in the absence of attacks.Our architecture is referred to as the 1.5-Class (SPRITZ-1.5C) classifier and constructed using a final dense classifier, one 2C classifier (i.e., CNNs), and two parallel 1C classifiers (i.e., auto-encoders). In our experiments, we evaluated the robustness of our proposed architecture by considering eight possible adversarial attacks in various scenarios. We performed these attacks on the 2C and SPRITZ-1.5C architectures separately. The experimental results of our study showed that the Attack Success Rate (ASR) of the I-FGSM attack against a 2C classifier trained with the N-BaIoT dataset is 0.9900. In contrast, the ASR is 0.0000 for the SPRITZ-1.5C classifier. | 翻訳日:2023-04-19 00:16:59 公開日:2023-04-17 |
# 医用画像分析のための自己指導型学習の試み:データ,モデル,課題 Dive into Self-Supervised Learning for Medical Image Analysis: Data, Models and Tasks ( http://arxiv.org/abs/2209.12157v2 ) ライセンス: Link先を確認 | Chuyan Zhang and Yun Gu | (参考訳) 自己教師付き学習(SSL)は、様々な医療画像のタスクにおいて、大量の未ラベルデータから先行データを減らし、顕著なパフォーマンスを達成した。
しかし、特定のダウンストリームタスクに関しては、標準の `pretrain-then-finetune'' ワークフロー全体を通して適切なプリテキストタスクと実装の詳細を選択するための指示書がない。
本研究では,(1)不均衡なデータセットに対するSSLの影響,(2)ネットワークアーキテクチャ,(3)上流タスクの下流タスクへの適用性,(4)SSLの積み重ね効果,およびディープラーニングに対する共通ポリシーの4つの観点から,SSLの能力を活用することに焦点を当てる。
予測的,コントラスト的,生成的,マルチSSLアルゴリズムに関する広範な実験を通じて,大規模かつ詳細な研究を行う。
その結果から,いくつかの知見が得られた。
SSLは, 臨床診断に関心のある稀なクラスのパフォーマンスを高めることによって, クラス不均衡学習を推進している。
残念なことにSSLは、厳しい不均衡と比較的バランスの取れたデータレギュレーションや、一般的なトレーニングポリシの組み合わせなど、一部のケースでは限界あるいは負のリターンを提供する。
我々の興味深い発見は、医学的文脈におけるSSLの使用に関する実践的なガイドラインを提供し、多様なアプリケーションシナリオに対応するために普遍的なプリテキストタスクを開発する必要性を強調します。 Self-supervised learning (SSL) has achieved remarkable performance in various medical imaging tasks by dint of priors from massive unlabelled data. However, regarding a specific downstream task, there is still a lack of an instruction book on how to select suitable pretext tasks and implementation details throughout the standard ``pretrain-then-finetune'' workflow. In this work, we focus on exploiting the capacity of SSL in terms of four realistic and significant issues: (1) the impact of SSL on imbalanced datasets, (2) the network architecture, (3) the applicability of upstream tasks to downstream tasks and (4) the stacking effect of SSL and common policies for deep learning. We provide a large-scale, in-depth and fine-grained study through extensive experiments on predictive, contrastive, generative and multi-SSL algorithms. Based on the results, we have uncovered several insights. Positively, SSL advances class-imbalanced learning mainly by boosting the performance of the rare class, which is of interest to clinical diagnosis. Unfortunately, SSL offers marginal or even negative returns in some cases, including severely imbalanced and relatively balanced data regimes, as well as combinations with common training policies. Our intriguing findings provide practical guidelines for the usage of SSL in the medical context and highlight the need for developing universal pretext tasks to accommodate diverse application scenarios. | 翻訳日:2023-04-19 00:16:37 公開日:2023-04-17 |
# メタラーニングによる記号モデル非依存損失関数の学習 Learning Symbolic Model-Agnostic Loss Functions via Meta-Learning ( http://arxiv.org/abs/2209.08907v2 ) ライセンス: Link先を確認 | Christian Raymond, Qi Chen, Bing Xue, Mengjie Zhang | (参考訳) 本稿では,学習中のモデルの性能を著しく向上させる損失関数の学習を目的とした,損失関数学習の新たな話題について述べる。
具体的には,ニューロシンボリック検索によるモデル非依存損失関数学習のための新しいメタラーニングフレームワークを提案する。
このフレームワークはまず進化ベースの手法を使って原始数学演算の空間を探索し、記号的損失関数の集合を見つける。
次に、学習損失関数のセットをパラメータ化し、エンドツーエンドの勾配に基づくトレーニング手順で最適化する。
提案フレームワークの汎用性は,多種多様な教師付き学習課題に対して実証的に検証される。
提案手法により発見されたメタ学習損失関数は,多種多様なニューラルネットワークアーキテクチャやデータセット上でのクロスエントロピー損失と最先端の損失関数学習法の両方より優れていた。 In this paper, we develop upon the emerging topic of loss function learning, which aims to learn loss functions that significantly improve the performance of the models trained under them. Specifically, we propose a new meta-learning framework for learning model-agnostic loss functions via a hybrid neuro-symbolic search approach. The framework first uses evolution-based methods to search the space of primitive mathematical operations to find a set of symbolic loss functions. Second, the set of learned loss functions are subsequently parameterized and optimized via an end-to-end gradient-based training procedure. The versatility of the proposed framework is empirically validated on a diverse set of supervised learning tasks. Results show that the meta-learned loss functions discovered by the newly proposed method outperform both the cross-entropy loss and state-of-the-art loss function learning methods on a diverse range of neural network architectures and datasets. | 翻訳日:2023-04-19 00:15:47 公開日:2023-04-17 |
# Singularity Splitting Deep Ritz 法による特異音源による楕円問題の解法 Solving Elliptic Problems with Singular Sources using Singularity Splitting Deep Ritz Method ( http://arxiv.org/abs/2209.02931v2 ) ライセンス: Link先を確認 | Tianhao Hu and Bangti Jin and Zhi Zhou | (参考訳) 本研究では,変数係数と特異点を持つ二階楕円方程式のニューラルネットワークに基づく効率的な解法を開発した。
このクラスは、一般的な点源、線源、および点線源の組み合わせをカバーし、幅広い実用的応用がある。
提案手法は,ラプラス方程式の基本解を用いて解析的に知られている特異部分と,適切な修正楕円型pdeをより滑らかな源で満たした正則部分とに真の解を分解し,その正則部分に対してディープリッツ法を用いて解くことに基づく。
経路追従戦略はディリクレ境界条件を強制するペナルティパラメータを選択するために提案される。
提案手法の効率性を示すために,点源,線源,それらの組合せを用いた2次元空間および多次元空間における広範囲な数値実験を行い,ニューラルネットワークに基づく既存の手法との比較を行った。
さらに,このアプローチの誤差解析について簡単に説明する。 In this work, we develop an efficient solver based on neural networks for second-order elliptic equations with variable coefficients and singular sources. This class of problems covers general point sources, line sources and the combination of point-line sources, and has a broad range of practical applications. The proposed approach is based on decomposing the true solution into a singular part that is known analytically using the fundamental solution of the Laplace equation and a regular part that satisfies a suitable modified elliptic PDE with a smoother source, and then solving for the regular part using the deep Ritz method. A path-following strategy is suggested to select the penalty parameter for enforcing the Dirichlet boundary condition. Extensive numerical experiments in two- and multi-dimensional spaces with point sources, line sources or their combinations are presented to illustrate the efficiency of the proposed approach, and a comparative study with several existing approaches based on neural networks is also given, which shows clearly its competitiveness for the specific class of problems. In addition, we briefly discuss the error analysis of the approach. | 翻訳日:2023-04-19 00:14:35 公開日:2023-04-17 |
# 非断熱遷移の時間的再スケーリング Time rescaling of nonadiabatic transitions ( http://arxiv.org/abs/2208.14285v2 ) ライセンス: Link先を確認 | Takuya Hatomura | (参考訳) 時間依存駆動の適用は、量子制御の基本的な方法である。
駆動システムは、その時間スケールが、非断熱遷移の量が異なるため、様々なダイナミクスを示す。
スピードフォワードスケーリング理論は、追加の駆動を適用することで、適度な時間中に遅い(または速い)時間スケールのダイナミクスを観察できる。
ここでは、その非断熱遷移への応用について論じる。
加算駆動の数学的表現を導出し、それを計算する公式を見つける。
さらに,非断熱遷移の高速スケーリング理論と逆断熱駆動による断熱への近道との関係を指摘する。 Applying time-dependent driving is a basic way of quantum control. Driven systems show various dynamics as its time scale is changed due to the different amount of nonadiabatic transitions. The fast-forward scaling theory enables us to observe slow (or fast) time-scale dynamics during moderate time by applying additional driving. Here we discuss its application to nonadiabatic transitions. We derive mathematical expression of additional driving and also find a formula for calculating it. Moreover, we point out relation between the fast-forward scaling theory for nonadiabatic transitions and shortcuts to adiabaticity by counterdiabatic driving. | 翻訳日:2023-04-19 00:13:56 公開日:2023-04-17 |
# 大規模幾何学学習のための内在次元 Intrinsic Dimension for Large-Scale Geometric Learning ( http://arxiv.org/abs/2210.05301v2 ) ライセンス: Link先を確認 | Maximilian Stubbemann, Tom Hanika, Friedrich Martin Schneider | (参考訳) 次元の概念はデータの複雑さを理解するために不可欠である。
データセットの次元を決定するためのナイーブなアプローチは、属性の数に基づいています。
より洗練された手法は、データポイント間の距離など、より複雑な特徴関数を用いる内在次元(ID)の概念を導出する。
しかし、これらのアプローチの多くは経験的観察に基づいており、現代のデータセットの幾何学的特徴に対応できず、公理的な基礎を欠いている。
別のアプローチがV. Pestovによって提案され、彼は内在次元を公理的に測度現象の数学的集中と結びつけた。
これを計算する最初の方法と関連するidの概念は、大規模な実世界のデータセットでは計算が難しかった。
本研究は,その公理的ID関数を決定するための計算可能な手法を導出する。
さらに、複雑なデータの幾何学的性質がモデリングにおいてどのように説明されるかを示す。
特に、グラフデータのような近隣情報をidに組み込むための原則的な方法を提案する。
これにより,共通グラフ学習手順に対する新たな洞察が得られます。 The concept of dimension is essential to grasp the complexity of data. A naive approach to determine the dimension of a dataset is based on the number of attributes. More sophisticated methods derive a notion of intrinsic dimension (ID) that employs more complex feature functions, e.g., distances between data points. Yet, many of these approaches are based on empirical observations, cannot cope with the geometric character of contemporary datasets, and do lack an axiomatic foundation. A different approach was proposed by V. Pestov, who links the intrinsic dimension axiomatically to the mathematical concentration of measure phenomenon. First methods to compute this and related notions for ID were computationally intractable for large-scale real-world datasets. In the present work, we derive a computationally feasible method for determining said axiomatic ID functions. Moreover, we demonstrate how the geometric properties of complex data are accounted for in our modeling. In particular, we propose a principle way to incorporate neighborhood information, as in graph data, into the ID. This allows for new insights into common graph learning procedures, which we illustrate by experiments on the Open Graph Benchmark. | 翻訳日:2023-04-19 00:07:10 公開日:2023-04-17 |
# 新しい経路:合成命令と模倣学習による視覚言語ナビゲーションのスケーリング A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning ( http://arxiv.org/abs/2210.03112v3 ) ライセンス: Link先を確認 | Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge and Zarana Parekh | (参考訳) VLN(Vision-and-Language Navigation)の最近の研究は、人間の指示に従うロボットへのステップとして、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行するためにRLエージェントを訓練している。
しかし、人間の指導データの不足と訓練環境の多様性を考えると、これらのエージェントは複雑な言語基底化と空間言語理解に苦しむ。
Webからの大きなテキストとイメージテキストのデータセットを事前トレーニングすることは、広く検討されているが、改善は限られている。
合成指示による大規模拡張について検討する。
密集した360度パノラマで撮影された500以上の屋内環境を取り、これらのパノラマを通してナビゲーショントラジェクタを構築し、高品質の多言語ナビゲーションインストラクションジェネレータであるmarkyを用いて、各軌道に対して視覚的に接地した命令を生成する。
また、画像から画像へのGANを用いて、新しい視点から画像観察を合成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きく、幅広い環境と視点を含んでいる。
この規模でデータを効率的に活用するために,模倣学習による簡易変圧器エージェントを訓練する。
挑戦的なRxRデータセットでは、我々のアプローチは既存のRLエージェントよりも優れており、見る環境では71.1から79.1に、見えない環境では64.6から66.8に改善されている。
我々の研究は、大規模模倣学習と合成命令生成能力の発達を強調し、命令追従エージェントを改善するための新たな道を示す。 Recent studies in Vision-and-Language Navigation (VLN) train RL agents to execute natural-language navigation instructions in photorealistic environments, as a step towards robots that can follow human instructions. However, given the scarcity of human instruction data and limited diversity in the training environments, these agents still struggle with complex language grounding and spatial language understanding. Pretraining on large text and image-text datasets from the web has been extensively explored but the improvements are limited. We investigate large-scale augmentation with synthetic instructions. We take 500+ indoor environments captured in densely-sampled 360 degree panoramas, construct navigation trajectories through these panoramas, and generate a visually-grounded instruction for each trajectory using Marky, a high-quality multilingual navigation instruction generator. We also synthesize image observations from novel viewpoints using an image-to-image GAN. The resulting dataset of 4.2M instruction-trajectory pairs is two orders of magnitude larger than existing human-annotated datasets, and contains a wider variety of environments and viewpoints. To efficiently leverage data at this scale, we train a simple transformer agent with imitation learning. On the challenging RxR dataset, our approach outperforms all existing RL agents, improving the state-of-the-art NDTW from 71.1 to 79.1 in seen environments, and from 64.6 to 66.8 in unseen test environments. Our work points to a new path to improving instruction-following agents, emphasizing large-scale imitation learning and the development of synthetic instruction generation capabilities. | 翻訳日:2023-04-19 00:06:54 公開日:2023-04-17 |
# 変分因果推論と補間関係情報を用いた細胞応答の予測 Predicting Cellular Responses with Variational Causal Inference and Refined Relational Information ( http://arxiv.org/abs/2210.00116v2 ) ライセンス: Link先を確認 | Yulun Wu, Robert A. Barton, Zichen Wang, Vassilis N. Ioannidis, Carlo De Donno, Layne C. Price, Luis F. Voloch, George Karypis | (参考訳) 摂動下で細胞の反応を予測することは、薬物発見やパーソナライズされた治療に重要な利益をもたらす可能性がある。
本研究では,遺伝子制御ネットワーク(GRN)の形で生物学的知識を表す情報を活用し,個々の細胞応答予測を支援するため,非現実的摂動(この細胞が実際に受け取らなかった摂動)下での細胞遺伝子発現を予測するための新しいグラフ変異型ベイズ因果推論フレームワークを提案する。
データ適応型GRNを目標とし、グラフ畳み込みネットワークのアジャケーシ行列更新手法を開発し、事前学習中にGRNを洗練するために使用し、遺伝子関係やモデル性能の向上についてより深い知見を得た。
さらに, 先行研究ではまだ実施されていない限界摂動効果の漸近的に効率的な推定のために, 枠組み内のロバスト推定器を提案する。
広範な実験により,個々の応答予測に対する最先端のディープラーニングモデルよりも,このアプローチの利点を示した。 Predicting the responses of a cell under perturbations may bring important benefits to drug discovery and personalized therapeutics. In this work, we propose a novel graph variational Bayesian causal inference framework to predict a cell's gene expressions under counterfactual perturbations (perturbations that this cell did not factually receive), leveraging information representing biological knowledge in the form of gene regulatory networks (GRNs) to aid individualized cellular response predictions. Aiming at a data-adaptive GRN, we also developed an adjacency matrix updating technique for graph convolutional networks and used it to refine GRNs during pre-training, which generated more insights on gene relations and enhanced model performance. Additionally, we propose a robust estimator within our framework for the asymptotically efficient estimation of marginal perturbation effect, which is yet to be carried out in previous works. With extensive experiments, we exhibited the advantage of our approach over state-of-the-art deep learning models for individual response prediction. | 翻訳日:2023-04-19 00:06:10 公開日:2023-04-17 |
# 2台組平均値: 任意の、適応的で、ワンインワンの最適ウェイト平均値 Two-Tailed Averaging: Anytime, Adaptive, Once-in-a-While Optimal Weight Averaging for Better Generalization ( http://arxiv.org/abs/2209.12581v3 ) ライセンス: Link先を確認 | G\'abor Melis | (参考訳) テール平均化は、確率的最適化の多くの主要なイテレートをその計算から除外することで、polyak平均化の非漸近的挙動を改善する。
実際には、有限数の最適化ステップとゼロに焼鈍できない学習率により、Tail Averagingは個々のイテレーションやPolyak平均よりも、トレーニング損失の局所的な最小点にずっと近づくことができる。
しかし、無視すべきリードイテレートの数は重要なハイパーパラメータであり、平均化が早すぎるか遅すぎるかはリソースや最適でないソリューションの非効率な利用につながる。
我々の研究は一般化の改善に焦点を当てており、特に他のハイパーパラメータやオーバーフィッティングの存在下で、このハイパーパラメータの設定をさらに困難にしている。
さらに、平均化が始まる前に、損失は最終結果に弱い情報しか与えられず、早期停止は信頼できない。
これらの問題を緩和するために,超パラメータを持たず,すべての最適化ステップで最適なテールを近似する,純粋最適化ではなく一般化を改善することを目的とした末尾平均化のanytime変種を提案する。
本アルゴリズムは,最適尾長で有界な2つのランニング平均に基づいており,そのうちの1つは一定の正則性で近似最適性を達成する。
2組の重みに対する追加記憶と損失の周期的評価を必要とするため、提案アルゴリズムは、一般化を改善するための実用的で広く適用可能な方法である。 Tail Averaging improves on Polyak averaging's non-asymptotic behaviour by excluding a number of leading iterates of stochastic optimization from its calculations. In practice, with a finite number of optimization steps and a learning rate that cannot be annealed to zero, Tail Averaging can get much closer to a local minimum point of the training loss than either the individual iterates or the Polyak average. However, the number of leading iterates to ignore is an important hyperparameter, and starting averaging too early or too late leads to inefficient use of resources or suboptimal solutions. Our work focusses on improving generalization, which makes setting this hyperparameter even more difficult, especially in the presence of other hyperparameters and overfitting. Furthermore, before averaging starts, the loss is only weakly informative of the final performance, which makes early stopping unreliable. To alleviate these problems, we propose an anytime variant of Tail Averaging intended for improving generalization not pure optimization, that has no hyperparameters and approximates the optimal tail at all optimization steps. Our algorithm is based on two running averages with adaptive lengths bounded in terms of the optimal tail length, one of which achieves approximate optimality with some regularity. Requiring only the additional storage for two sets of weights and periodic evaluation of the loss, the proposed Two-Tailed Averaging algorithm is a practical and widely applicable method for improving generalization. | 翻訳日:2023-04-19 00:04:39 公開日:2023-04-17 |
# BARS:空港滑走路セグメンテーションのベンチマーク BARS: A Benchmark for Airport Runway Segmentation ( http://arxiv.org/abs/2210.12922v3 ) ライセンス: Link先を確認 | Wenhui Chen and Zhijiang Zhang and Liang Yu and Yichun Tai | (参考訳) 空港滑走路のセグメンテーションは、航空事故のリスクが最も大きい着陸段階での事故率を効果的に低減することができる。
ディープラーニング(dl)の急速な発展により、関連する手法はセグメンテーションタスクにおいて優れたパフォーマンスを達成し、複雑なシーンにうまく適応することができる。
しかし、この分野では大規模で公開可能なデータセットが不足しているため、DLに基づく手法の開発は困難である。
そこで本稿では,空港滑走路セグメンテーションのベンチマークであるBARSを提案する。
さらに、セミオートマチックなアノテーションパイプラインは、アノテーションのワークロードを減らすように設計されている。
barsは最もリッチなカテゴリとフィールド内の唯一のインスタンスアノテーションを持つ最大のデータセットを持っています。
X-Planeシミュレーションプラットフォームを使用して収集されたデータセットには,3つのカテゴリを持つ10,256イメージと30,201インスタンスが含まれている。
BARSにおける11の代表的なインスタンスセグメンテーション手法を評価し,その性能を解析した。
定期的な形状の空港滑走路の特性に基づいて,マスクベースおよび輪郭型手法のスムーズなセグメンテーション結果を得るために,プラグアンドプレイスムーズな後処理モジュール (SPM) と輪郭点制約損失 (CPCL) 関数を提案する。
さらに, 平均滑らか度 (AS) と呼ばれる新しい評価指標を開発し, 滑らか度を測定する。
実験の結果,既存のインスタンスセグメンテーション手法では,BARSの性能がよい予測結果が得られることがわかった。
SPMとCPCLは、精度を適度に向上しつつ、ASメトリックを効果的に増強することができる。
私たちの仕事はhttps://github.com/c-wenhui/barsで利用可能です。 Airport runway segmentation can effectively reduce the accident rate during the landing phase, which has the largest risk of flight accidents. With the rapid development of deep learning (DL), related methods achieve good performance on segmentation tasks and can be well adapted to complex scenes. However, the lack of large-scale, publicly available datasets in this field makes the development of methods based on DL difficult. Therefore, we propose a benchmark for airport runway segmentation, named BARS. Additionally, a semiautomatic annotation pipeline is designed to reduce the annotation workload. BARS has the largest dataset with the richest categories and the only instance annotation in the field. The dataset, which was collected using the X-Plane simulation platform, contains 10,256 images and 30,201 instances with three categories. We evaluate eleven representative instance segmentation methods on BARS and analyze their performance. Based on the characteristic of an airport runway with a regular shape, we propose a plug-and-play smoothing postprocessing module (SPM) and a contour point constraint loss (CPCL) function to smooth segmentation results for mask-based and contour-based methods, respectively. Furthermore, a novel evaluation metric named average smoothness (AS) is developed to measure smoothness. The experiments show that existing instance segmentation methods can achieve prediction results with good performance on BARS. SPM and CPCL can effectively enhance the AS metric while modestly improving accuracy. Our work will be available at https://github.com/c-wenhui/BARS. | 翻訳日:2023-04-18 23:58:17 公開日:2023-04-17 |
# 準最適状態形成による地中エネルギー推定のための$t$-gate-count改良の定量化 Quantifying $T$-gate-count improvements for ground-state-energy estimation with near-optimal state preparation ( http://arxiv.org/abs/2210.10872v3 ) ライセンス: Link先を確認 | Shivesh Pathak, Antonio Russo, Stefan Seritan, Andrew Baczewski | (参考訳) 基底状態の準備に追加の量子資源を投資することで、そのエネルギーを見積もることに伴う集約ランタイムが向上するかどうかを考察する。
我々はLin and Tongの準最適状態生成アルゴリズムを解析し、2次に近い基底状態エネルギー推定のランタイムのプロキシである$T$-gateカウントを削減可能であることを示す。
資源の見積もりは、追加の州準備コストが価値のある条件を指定するものである。 We study the question of when investing additional quantum resources in preparing a ground state will improve the aggregate runtime associated with estimating its energy. We analyze Lin and Tong's near-optimal state preparation algorithm and show that it can reduce a proxy for the runtime, the $T$-gate count, of ground state energy estimation near quadratically. Resource estimates are provided that specify the conditions under which the added cost of state preparation is worthwhile. | 翻訳日:2023-04-18 23:57:53 公開日:2023-04-17 |
# データ効率のよいナレッジグラフ構築を改善するschema-aware reference as prompt Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph Construction ( http://arxiv.org/abs/2210.10709v4 ) ライセンス: Link先を確認 | Yunzhi Yao, Shengyu Mao, Ningyu Zhang, Xiang Chen, Shumin Deng, Xi Chen, Huajun Chen | (参考訳) 事前学習言語モデルの開発により、データ効率のよい知識グラフ構築への多くのプロンプトベースのアプローチが提案され、優れた性能を達成した。
しかし、既存の知識グラフ構築のためのプロンプトベースの学習方法は、まだいくつかの潜在的な制限を受けやすい。
(i)事前定義されたスキーマによる自然言語と出力構造化知識のセマンティックギャップ。つまり、モデルは制約されたテンプレートでセマンティック知識を完全に活用できない。
(ii) 局所的なインスタンスでの表現学習は、事前学習された言語モデルの潜在的な類似性を解き放つことができない、不十分な特徴から得られる性能を制限する。
そこで本研究では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
モデルに依存しず、広範囲にわたる既存のアプローチにプラグインできる、各サンプルのプロンプトとして、人間の注釈と弱い教師付きデータから継承されたスキーマと知識を動的に活用することができる。
実験の結果,rapと統合した従来手法は,ナレッジグラフ構築のためのリレーショナルトリプル抽出とイベント抽出の5つのデータセットにおいて,低リソース設定で印象的な性能向上を達成できた。
コードはhttps://github.com/zjunlp/RAPで入手できる。 With the development of pre-trained language models, many prompt-based approaches to data-efficient knowledge graph construction have been proposed and achieved impressive performance. However, existing prompt-based learning methods for knowledge graph construction are still susceptible to several potential limitations: (i) semantic gap between natural language and output structured knowledge with pre-defined schema, which means model cannot fully exploit semantic knowledge with the constrained templates; (ii) representation learning with locally individual instances limits the performance given the insufficient features, which are unable to unleash the potential analogical capability of pre-trained language models. Motivated by these observations, we propose a retrieval-augmented approach, which retrieves schema-aware Reference As Prompt (RAP), for data-efficient knowledge graph construction. It can dynamically leverage schema and knowledge inherited from human-annotated and weak-supervised data as a prompt for each sample, which is model-agnostic and can be plugged into widespread existing approaches. Experimental results demonstrate that previous methods integrated with RAP can achieve impressive performance gains in low-resource settings on five datasets of relational triple extraction and event extraction for knowledge graph construction. Code is available in https://github.com/zjunlp/RAP. | 翻訳日:2023-04-18 23:57:42 公開日:2023-04-17 |
# デジタルライドバーグシミュレータにおける非アベリア浮体スピン液体 Non-Abelian Floquet Spin Liquids in a Digital Rydberg Simulator ( http://arxiv.org/abs/2211.00017v2 ) ライセンス: Link先を確認 | Marcin Kalinowski, Nishad Maskara, Mikhail D. Lukin | (参考訳) トポロジカルマターを理解することは、物理科学のいくつかの分野にまたがる卓越した挑戦である。
プログラム可能な量子シミュレータは、そのようなシステムを研究するための強力なアプローチとして登場した。
パラダイム的トーリック符号型の量子スピン液体が実験室で最近実現されているが、非可換励起による位相相の探索制御は未解決の問題である。
周期駆動に基づく位相物質シミュレーションの新たな手法を紹介し,解析する。
具体的には、北エフのハニカムモデルにおける非アーベルスピン液体のハミルトニアンを効果的にシミュレートする並列量子ゲート演算の周期列を通して得られるいわゆるフロケスピン液体のモデルを記述する。
提案手法では, トポロジカルな状態の生成, 制御, 読み出しなどのツールボックスを, 最先端の実験プラットフォームで効率的に実装可能であることを示す。
1つの具体的実装スキームは、Rydberg原子配列に基づいており、最近実証されたコヒーレント量子ビット輸送と制御相ゲート演算を利用する。
本稿では,非可換励起と関連するマヨラナ零モードの探索方法を説明し,核融合およびブレイディング実験をシミュレートする。
本解析は,量子シミュレータによる物質の位相相探索の可能性を示す。
北エフ材料と格子ゲージ理論のシミュレーションを含む拡張についても論じる。 Understanding topological matter is an outstanding challenge across several disciplines of physical science. Programmable quantum simulators have emerged as a powerful approach to studying such systems. While quantum spin liquids of paradigmatic toric code type have recently been realized in the laboratory, controlled exploration of topological phases with non-abelian excitations remains an open problem. We introduce and analyze a new approach to simulating topological matter based on periodic driving. Specifically, we describe a model for a so-called Floquet spin liquid, obtained through a periodic sequence of parallel quantum gate operations that effectively simulates the Hamiltonian of the non-abelian spin liquid in Kitaev's honeycomb model. We show that this approach, including the toolbox for preparation, control, and readout of topological states, can be efficiently implemented in state-of-the-art experimental platforms. One specific implementation scheme is based on Rydberg atom arrays and utilizes recently demonstrated coherent qubit transport combined with controlled-phase gate operations. We describe methods for probing the non-abelian excitations, and the associated Majorana zero modes, and simulate possible fusion and braiding experiments. Our analysis demonstrates the potential of programmable quantum simulators for exploring topological phases of matter. Extensions including simulation of Kitaev materials and lattice gauge theories are also discussed. | 翻訳日:2023-04-18 23:48:14 公開日:2023-04-17 |
# 帰納的行動推論 Abductive Action Inference ( http://arxiv.org/abs/2210.13984v3 ) ライセンス: Link先を確認 | Clement Tan, Chai Kiat Yeo, Cheston Tan, Basura Fernando | (参考訳) 帰納的推論(abductive reasoning)は、与えられた不完全な観測集合の最も可能性の高い推論を行うことを目的としている。
本研究では,「現在の状態に着くためには,どのような行動が人間によって実行されたのか?」という疑問に答える,帰納的行動推論(abductive action inference)という新しいタスクを提案する。
状態が与えられた場合,行動セット予測,行動シーケンス予測,帰納的行動検証という3つの帰納的推論問題を調査する。
我々は、Transformer、Graph Neural Network、CLIP、BLIP、エンドツーエンドトレーニングされたSlow-Fast、Resnet50-3Dモデルなど、いくつかのSOTAモデルをベンチマークする。
今回提案するobject-relational bigedモデルは,アクションゲノムデータセットにおけるこの困難なタスクにおいて,他のすべての手法を上回っている。
コードは利用可能になる。 Abductive reasoning aims to make the most likely inference for a given set of incomplete observations. In this work, we propose a new task called abductive action inference, in which given a situation, the model answers the question `what actions were executed by the human in order to arrive in the current state?'. Given a state, we investigate three abductive inference problems: action set prediction, action sequence prediction, and abductive action verification. We benchmark several SOTA models such as Transformers, Graph neural networks, CLIP, BLIP, end-to-end trained Slow-Fast, and Resnet50-3D models. Our newly proposed object-relational BiGED model outperforms all other methods on this challenging task on the Action Genome dataset. Codes will be made available. | 翻訳日:2023-04-18 23:46:00 公開日:2023-04-17 |
# MEET: バッファサンプリングのためのモンテカルロ探査-エクスプロイテーショントレードオフ MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer Sampling ( http://arxiv.org/abs/2210.13545v2 ) ライセンス: Link先を確認 | Julius Ott, Lorenzo Servadei, Jose Arjona-Medina, Enrico Rinaldi, Gianfranco Mauro, Daniela S\'anchez Lopera, Michael Stephan, Thomas Stadelmayer, Avik Santra, Robert Wille | (参考訳) データ選択は強化学習のようなあらゆるデータベースの最適化技術に不可欠である。
経験再生バッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
しかし、Q値推定には不確実性は組み込まれていない。
したがって、移行の探索や搾取を含むサンプリング戦略をタスクの複雑さに適応させることはできない。
そこで本稿では,探索・爆発トレードオフを利用した新たなサンプリング戦略を提案する。
これは、サンプリングを導くq値関数の不確実性推定によって実現され、より重要な遷移を探索し、より効率的なポリシーを学ぶ。
古典的制御環境の実験は、様々な環境にまたがって安定した結果を示す。
提案手法は,集中的な報酬に対する最先端のサンプリング戦略を上回っており,平均で26%の収束率とピーク性能が得られた。 Data selection is essential for any data-based optimization technique, such as Reinforcement Learning. State-of-the-art sampling strategies for the experience replay buffer improve the performance of the Reinforcement Learning agent. However, they do not incorporate uncertainty in the Q-Value estimation. Consequently, they cannot adapt the sampling strategies, including exploration and exploitation of transitions, to the complexity of the task. To address this, this paper proposes a new sampling strategy that leverages the exploration-exploitation trade-off. This is enabled by the uncertainty estimation of the Q-Value function, which guides the sampling to explore more significant transitions and, thus, learn a more efficient policy. Experiments on classical control environments demonstrate stable results across various environments. They show that the proposed method outperforms state-of-the-art sampling strategies for dense rewards w.r.t. convergence and peak performance by 26% on average. | 翻訳日:2023-04-18 23:45:25 公開日:2023-04-17 |
# internimage: 変形可能な畳み込みによる大規模ビジョン基盤モデルの検討 InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions ( http://arxiv.org/abs/2211.05778v4 ) ライセンス: Link先を確認 | Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao | (参考訳) 近年の大規模な視覚変換器(ViT)の進歩と比較して、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルはまだ初期段階にある。
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
大規模高密度カーネルに焦点を当てた最近のcnnとは異なり、internimage はコア演算子として変形可能な畳み込みを取り、検出やセグメンテーションといった下流タスクに必要な大きな効果的な受容場を持つだけでなく、入力やタスク情報によって条件付けられた適応的な空間集約を持つ。
その結果,従来のcnnの厳密なインダクティブバイアスを低減し,vitsのような大規模データから大規模パラメータを持つ強固で堅牢なパターンを学習することができる。
このモデルの有効性は、ImageNet、COCO、ADE20Kといった挑戦的なベンチマークで証明されている。
なお、InternImage-HはCOCOテストデブで65.4 mAP、ADE20Kで62.9 mIoUを達成し、現在のCNNやViTよりも優れていた。
コードはhttps://github.com/OpenGVLab/InternImageで公開される。 Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved a new record 65.4 mAP on COCO test-dev and 62.9 mIoU on ADE20K, outperforming current leading CNNs and ViTs. The code will be released at https://github.com/OpenGVLab/InternImage. | 翻訳日:2023-04-18 23:25:40 公開日:2023-04-17 |
# うつ病予測のための機械学習における公平性とバイアス補正:4つの異なる研究集団による結果 Fairness and bias correction in machine learning for depression prediction: results from four different study populations ( http://arxiv.org/abs/2211.05321v2 ) ライセンス: Link先を確認 | Vien Ngoc Dang, Anna Cascarano, Rosa H. Mulder, Charlotte Cecil, Maria A. Zuluaga, Jer\'onimo Hern\'andez-Gonz\'alez, Karim Lekadir | (参考訳) 精神医療、特に、収集されたデータを通して広がる過小評価された人口には、かなりのレベルのスティグマと不平等が存在する。
適切に説明されていない場合、データから学習した機械学習(ML)モデルは、すでに社会に存在している構造バイアスを強化することができる。
本稿では、異なる国と人口をカバーする4つのケーススタディにおいて、抑うつを予測するために設計されたMLモデルにおけるバイアスの体系的研究について述べる。
標準MLアプローチは定期的にバイアスのある振る舞いを示す。
しかし, 標準緩和技術, および我々のポストホック法は, 不公平バイアスの低減に有効であることを示す。
我々は,実世界における公平性と信頼感を高めた抑うつリスク予測のためのmlモデルを開発するための実践的な推奨を提供する。
うつ病予測のための最高のMLモデルが結果の平等を提供することはない。
これは、モデル選択における公平さの分析と、デバイアス介入の影響に関する透過的な報告の重要性を強調している。 A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations, which spreads through collected data. When not properly accounted for, machine learning (ML) models learned from data can reinforce the structural biases already present in society. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. However, we show that standard mitigation techniques, and our own post-hoc method, can be effective in reducing the level of unfair bias. We provide practical recommendations to develop ML models for depression risk prediction with increased fairness and trust in the real world. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions. | 翻訳日:2023-04-18 23:25:15 公開日:2023-04-17 |
# 単例による強化学習における逐次学習の活用 Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration ( http://arxiv.org/abs/2211.04786v2 ) ライセンス: Link先を確認 | Alexandre Chenu, Olivier Serris, Olivier Sigaud and Nicolas Perrin-Gilbert | (参考訳) 深層強化学習はロボット制御の学習に成功している。
しかし、エージェントが複雑なタスクを完了した後のみ報酬を受ける問題に適用した場合、対応するアルゴリズムは苦労する。
この文脈では、デモを使用することで学習プロセスが大幅にスピードアップするが、デモの獲得にはコストがかかる。
本稿では,複雑なロボットタスクの制御方針を1つのデモを用いて学習するために,逐次バイアスを活用することを提案する。
そこで本手法では,低次元目標間のシステムを制御するための目標条件ポリシーを学習する。
このシーケンシャルな目標達成アプローチは、連続した目標間の互換性の問題を引き起こします。
そこで本研究では,DCIL-IIと呼ばれる新しいアルゴリズムを提案する。
dcil-iiは前例のないサンプル効率で解決でき、ヒューマノイドのロコモーションやスタンドアップなどのシミュレートされたタスクや、シミュレーションされたキャシーロボットで高速に走ることができる。
本手法は,次世代自律ロボットの重要な特徴である,最小限の仕様の下での複雑なロボットタスクの解決に向けたステップである。 Deep Reinforcement Learning has been successfully applied to learn robotic control. However, the corresponding algorithms struggle when applied to problems where the agent is only rewarded after achieving a complex task. In this context, using demonstrations can significantly speed up the learning process, but demonstrations can be costly to acquire. In this paper, we propose to leverage a sequential bias to learn control policies for complex robotic tasks using a single demonstration. To do so, our method learns a goal-conditioned policy to control a system between successive low-dimensional goals. This sequential goal-reaching approach raises a problem of compatibility between successive goals: we need to ensure that the state resulting from reaching a goal is compatible with the achievement of the following goals. To tackle this problem, we present a new algorithm called DCIL-II. We show that DCIL-II can solve with unprecedented sample efficiency some challenging simulated tasks such as humanoid locomotion and stand-up as well as fast running with a simulated Cassie robot. Our method leveraging sequentiality is a step towards the resolution of complex robotic tasks under minimal specification effort, a key feature for the next generation of autonomous robots. | 翻訳日:2023-04-18 23:25:00 公開日:2023-04-17 |
# セマンティックな無条件頭部運動生成のための自己回帰型GAN Autoregressive GAN for Semantic Unconditional Head Motion Generation ( http://arxiv.org/abs/2211.00987v2 ) ライセンス: Link先を確認 | Louis Airale (M-PSI, ROBOTLEARN), Xavier Alameda-Pineda (ROBOTLEARN), St\'ephane Lathuili\`ere (IP Paris, IDS, MM), Dominique Vaufreydaz (M-PSI) | (参考訳) 本研究では,無条件頭部運動生成の課題を,単一基準ポーズから低次元意味空間における静止人間の顔をアニメーション化する。
Different from traditional audio-conditioned talking head generation that seldom puts emphasis on realistic head motions, we devise a GAN-based architecture that learns to synthesize rich head motion sequences over long duration while maintaining low error accumulation levels.In particular, the autoregressive generation of incremental outputs ensures smooth trajectories, while a multi-scale discriminator on input pairs drives generation toward better handling of high- and low-frequency signals and less mode collapse.We experimentally demonstrate the relevance of the proposed method and show its superiority compared to models that attained state-of-the-art performances on similar tasks. In this work, we address the task of unconditional head motion generation to animate still human faces in a low-dimensional semantic space from a single reference pose. Different from traditional audio-conditioned talking head generation that seldom puts emphasis on realistic head motions, we devise a GAN-based architecture that learns to synthesize rich head motion sequences over long duration while maintaining low error accumulation levels.In particular, the autoregressive generation of incremental outputs ensures smooth trajectories, while a multi-scale discriminator on input pairs drives generation toward better handling of high- and low-frequency signals and less mode collapse.We experimentally demonstrate the relevance of the proposed method and show its superiority compared to models that attained state-of-the-art performances on similar tasks. | 翻訳日:2023-04-18 23:24:08 公開日:2023-04-17 |
# 並列量子ドット相互作用における準安定性と量子コヒーレンス支援センシング Metastability and quantum coherence-assisted sensing in interacting parallel quantum dots ( http://arxiv.org/abs/2212.07799v2 ) ライセンス: Link先を確認 | Stephanie Matern, Katarzyna Macieszczak, Simon Wozny, Martin Leijnse | (参考訳) 本研究では,2つの相互作用する並列量子ドットの量子コヒーレンス効果を考慮した過渡ダイナミクスについて検討した。
この量子系の定常粒子電流は、他のどのエネルギースケールよりもはるかに小さい摂動に敏感である。
これは、力学におけるパリティ様対称性の存在によるものであることが示され、その結果、2つの異なる定常状態が生じる。
この対称性を破る小さな摂動の存在下で、系は2つの準安定相を持つ転移性を示し、非摂動極限における定常状態に対応する状態の組み合わせによって近似できる。
さらに、長い時間ダイナミクスは、これらのフェーズ間の古典的ダイナミクスとして記述され、一意的な定常状態へと繋がる。
特に、これらの2つの準安定相の競合は、静止電流の小さな摂動に対する敏感な挙動を説明する。
この挙動は、温度に制限されない信号対雑音比を達成するために、量子コヒーレンス効果を利用する電荷センサとして並列点を利用する可能性を示す。
その結果、平行ドットは、幅広い温度で類似の単ドット電荷センサより優れていた。 We study the transient dynamics subject to quantum coherence effects of two interacting parallel quantum dots weakly coupled to macroscopic leads. The stationary particle current of this quantum system is sensitive to perturbations much smaller than any other energy scale, specifically compared to the system-lead coupling and the temperature. We show that this is due to the presence of a parity-like symmetry in the dynamics, as a consequence of which, two distinct stationary states arise. In the presence of small perturbations breaking this symmetry, the system exhibits metastability with two metastable phases that can be approximated by a combination of states corresponding to stationary states in the unperturbed limit. Furthermore, the long-time dynamics can be described as classical dynamics between those phases, leading to a unique stationary state. In particular, the competition of those two metastable phases explains the sensitive behavior of the stationary current towards small perturbations. We show that this behavior bears the potential of utilizing the parallel dots as a charge sensor which makes use of quantum coherence effects to achieve a signal to noise ratio that is not limited by the temperature. As a consequence, the parallel dots outperform an analogous single-dot charge sensor for a wide range of temperatures. | 翻訳日:2023-04-18 23:17:19 公開日:2023-04-17 |
# 表現的アーキテクチャは、ダイナミクスに基づく神経集団モデルの解釈性を高める Expressive architectures enhance interpretability of dynamics-based neural population models ( http://arxiv.org/abs/2212.03771v3 ) ライセンス: Link先を確認 | Andrew R. Sedler, Christopher Versteeg, Chethan Pandarinath | (参考訳) 記録された神経活動から潜伏するダイナミクスを回復できる人工ニューラルネットワークは、生物学的計算の基礎となる動的モチーフを特定し解釈するための強力な手段を提供する。
ニューラルネットワークのみが潜時力学系を一意に決定しないことを考えると、解釈可能なアーキテクチャは正確かつ低次元の潜時力学を優先すべきである。
そこで本研究では,ニューラルネットワークを用いたカオスアトラクションの回復におけるシーケンシャルオートエンコーダ(SAE)の性能評価を行った。
その結果, 広範に使用されるリカレントニューラルネットワーク(RNN)を用いたSAEでは, 真の潜在状態次元での正確な発射速度を推定できず, より大きなRNNはデータに存在しない動的特徴に依存していることがわかった。
一方,神経常微分方程式(ノード)に基づくsaeは,真の潜在状態次元における正確な速度を推定すると同時に,潜在軌道や不動点構造も復元する。
アブレーションは、主にNODがベクトル場をモデル化するために高容量多層パーセプトロン(MLP)を使用でき、(2)次の状態よりもデリバティブを予測できるためである。
潜在次元からダイナミクスモデルのキャパシティを分離することで、ノードはrnn細胞が失敗する必要な低次元ダイナミクスを学ぶことができる。
さらに、NODEが導関数を予測するという事実は、潜伏状態に先立って有用な自己回帰を課す。
広く使われているrnnベースのダイナミクスの準最適解釈性は、低次元の潜在空間における正確なダイナミクスの学習を可能にするノードのような代替アーキテクチャの置き換えを動機付ける可能性がある。 Artificial neural networks that can recover latent dynamics from recorded neural activity may provide a powerful avenue for identifying and interpreting the dynamical motifs underlying biological computation. Given that neural variance alone does not uniquely determine a latent dynamical system, interpretable architectures should prioritize accurate and low-dimensional latent dynamics. In this work, we evaluated the performance of sequential autoencoders (SAEs) in recovering latent chaotic attractors from simulated neural datasets. We found that SAEs with widely-used recurrent neural network (RNN)-based dynamics were unable to infer accurate firing rates at the true latent state dimensionality, and that larger RNNs relied upon dynamical features not present in the data. On the other hand, SAEs with neural ordinary differential equation (NODE)-based dynamics inferred accurate rates at the true latent state dimensionality, while also recovering latent trajectories and fixed point structure. Ablations reveal that this is mainly because NODEs (1) allow use of higher-capacity multi-layer perceptrons (MLPs) to model the vector field and (2) predict the derivative rather than the next state. Decoupling the capacity of the dynamics model from its latent dimensionality enables NODEs to learn the requisite low-D dynamics where RNN cells fail. Additionally, the fact that the NODE predicts derivatives imposes a useful autoregressive prior on the latent states. The suboptimal interpretability of widely-used RNN-based dynamics may motivate substitution for alternative architectures, such as NODE, that enable learning of accurate dynamics in low-dimensional latent spaces. | 翻訳日:2023-04-18 23:16:25 公開日:2023-04-17 |
# インスタンスパターン作曲家による一般化可能な暗黙的神経表現 Generalizable Implicit Neural Representations via Instance Pattern Composers ( http://arxiv.org/abs/2211.13223v2 ) ライセンス: Link先を確認 | Chiheon Kim, Doyup Lee, Saehoon Kim, Minsu Cho, Wook-Shin Han | (参考訳) 近年の暗黙的神経表現(INR)の進歩にもかかわらず、INRの座標ベースの多層パーセプトロン(MLP)が、データインスタンス間の共通表現を学習し、目に見えないインスタンスに対して一般化することは、依然として困難である。
本研究では,初期MLP層内の少量の重みだけをインスタンスパターンの合成として調整することにより,座標ベースのMLPが複雑なデータインスタンスを表現できる,一般化可能なINRのフレームワークを提案する。
我々の一般化可能なINRフレームワークは、既存のメタラーニングやハイパーネットワークと完全に互換性があり、未確認インスタンスの変調重量を予測することができる。
広範囲な実験により,音声,画像,3dオブジェクトなど幅広い領域において高い性能を得られたが,アブレーション実験では重みの変調が検証された。 Despite recent advances in implicit neural representations (INRs), it remains challenging for a coordinate-based multi-layer perceptron (MLP) of INRs to learn a common representation across data instances and generalize it for unseen instances. In this work, we introduce a simple yet effective framework for generalizable INRs that enables a coordinate-based MLP to represent complex data instances by modulating only a small set of weights in an early MLP layer as an instance pattern composer; the remaining MLP weights learn pattern composition rules for common representations across instances. Our generalizable INR framework is fully compatible with existing meta-learning and hypernetworks in learning to predict the modulated weight for unseen instances. Extensive experiments demonstrate that our method achieves high performance on a wide range of domains such as an audio, image, and 3D object, while the ablation study validates our weight modulation. | 翻訳日:2023-04-18 23:15:02 公開日:2023-04-17 |
# 木の上で成長するサブグループロバストネス:実証的ベースライン調査 Subgroup Robustness Grows On Trees: An Empirical Baseline Investigation ( http://arxiv.org/abs/2211.12703v2 ) ライセンス: Link先を確認 | Josh Gardner, Zoran Popovi\'c, Ludwig Schmidt | (参考訳) 研究者は、公平で堅牢な機械学習のための多くの方法を提案してきたが、そのサブグループの堅牢性に関する包括的な実証的な評価は欠如している。
本研究では, 感性部分群が明確に定義され, 現実の公正性問題が多く, 先行研究は, 最先端のツリーベースモデルをベースラインとして比較しないことが多い, 表層データにおけるこのギャップに対処する。
我々は,最先端ツリーベース手法と他のベースラインと並行して,公正かつ堅牢な学習のためのいくつかの手法を実証的に比較する。
8つのデータセット上での340{,}000ドル以上のモデル構成を用いた実験により、木に基づく手法はロバストネスおよびフェアネスエンハンシング手法と比較して強いサブグループロバスト性を有することを示した。
さらに、最良のツリーベースモデルは様々なメトリクスよりも優れたパフォーマンスを示す傾向がありますが、ロバストモデルやグループフェアモデルは不安定性を示し、固定されたモデルで異なるメトリクス間で大きなパフォーマンスの差があります。
また,木ベースのモデルではハイパーパラメータの設定に対する感度が低く,トレーニングコストも低いことを実証した。
本研究は,木に基づくアンサンブルモデルが表データに対して有効なベースラインとなることを示唆する。
関連コードと詳細な結果については、https://github.com/jpgard/subgroup-robustness-grows-on-treesを参照。 Researchers have proposed many methods for fair and robust machine learning, but comprehensive empirical evaluation of their subgroup robustness is lacking. In this work, we address this gap in the context of tabular data, where sensitive subgroups are clearly-defined, real-world fairness problems abound, and prior works often do not compare to state-of-the-art tree-based models as baselines. We conduct an empirical comparison of several previously-proposed methods for fair and robust learning alongside state-of-the-art tree-based methods and other baselines. Via experiments with more than $340{,}000$ model configurations on eight datasets, we show that tree-based methods have strong subgroup robustness, even when compared to robustness- and fairness-enhancing methods. Moreover, the best tree-based models tend to show good performance over a range of metrics, while robust or group-fair models can show brittleness, with significant performance differences across different metrics for a fixed model. We also demonstrate that tree-based models show less sensitivity to hyperparameter configurations, and are less costly to train. Our work suggests that tree-based ensemble models make an effective baseline for tabular data, and are a sensible default when subgroup robustness is desired. For associated code and detailed results, see https://github.com/jpgard/subgroup-robustness-grows-on-trees . | 翻訳日:2023-04-18 23:14:45 公開日:2023-04-17 |
# ビデオ事前学習空間における探索による行動クローニング Behavioral Cloning via Search in Video PreTraining Latent Space ( http://arxiv.org/abs/2212.13326v2 ) ライセンス: Link先を確認 | Federico Malato, Florian Leopold, Amogh Raut, Ville Hautam\"aki, Andrew Melnik | (参考訳) 私たちの目標は、Minecraftのような環境でタスクを解決できる自律エージェントを作ることです。
そのため、模倣学習に基づくアプローチを採用しました。
我々は,専門家のデモンストレーションデータセット上での探索問題として制御問題を定式化し,エージェントが画像と動作のペアの類似したデモ軌跡から動作をコピーする。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
そして、近接探索を繰り返す。
提案手法は,有意義な実証軌道を効果的に復元し,Minecraft環境におけるエージェントの人間的行動を示す。 Our aim is to build autonomous agents that can solve tasks in environments like Minecraft. To do so, we used an imitation learning-based approach. We formulate our control problem as a search problem over a dataset of experts' demonstrations, where the agent copies actions from a similar demonstration trajectory of image-action pairs. We perform a proximity search over the BASALT MineRL-dataset in the latent representation of a Video PreTraining model. The agent copies the actions from the expert trajectory as long as the distance between the state representations of the agent and the selected expert trajectory from the dataset do not diverge. Then the proximity search is repeated. Our approach can effectively recover meaningful demonstration trajectories and show human-like behavior of an agent in the Minecraft environment. | 翻訳日:2023-04-18 21:31:34 公開日:2023-04-17 |
# 量子情報プロトコルにおける相対論的場の量子自由度の役割 The role of quantum degrees of freedom of relativistic fields in quantum information protocols ( http://arxiv.org/abs/2212.13262v2 ) ライセンス: Link先を確認 | T. Rick Perche and Eduardo Mart\'in-Mart\'inez | (参考訳) 我々は、相対論的量子情報プロトコルにおける量子自由度と相対論的場の違いを分析する。
相互作用する量子系の現象論を説明するために、量子自由度の存在が不可欠である体制を分類する。
また、相対論的量子情報プロトコルにおいて、量子場が量子制御された古典場によってよく近似できる正確な状態を特定する。
この結果は、古典的および量子場理論において、どの特徴が根本的に異なるかを明らかにするのに有用である。 We analyze the differences between relativistic fields with or without quantum degrees of freedom in relativistic quantum information protocols. We classify the regimes where the existence of quantum degrees of freedom is necessary to explain the phenomenology of interacting quantum systems. We also identify the precise regimes where quantum fields can be well approximated by quantum-controlled classical fields in relativistic quantum information protocols. Our results can be useful to discern which features are fundamentally different in classical and quantum field theory. | 翻訳日:2023-04-18 21:31:22 公開日:2023-04-17 |
# 分散顔認識デプロイメントのための顔埋め込みの効率的な集約(拡張版) Efficient aggregation of face embeddings for decentralized face recognition deployments (extended version) ( http://arxiv.org/abs/2212.10108v2 ) ライセンス: Link先を確認 | Philipp Hofer, Michael Roland, Philipp Schwarz, Ren\'e Mayrhofer | (参考訳) バイオメトリックスは最もプライバシーに敏感なデータの一つだ。
プライバシーを重視したユビキタス認証システムは、技術レベルと組織レベルの両方で潜在的な攻撃ベクトルを減らすため、分散化されたアプローチを好む。
金の標準は、ユーザが自分のデータをどこに保存するかをコントロールできるようにすることであり、その結果、多種多様なデバイスが使用される。
さらに、集中型システムと比較すると、エンドユーザの自由度が高い設計では、ネットワークオーバーヘッドが増大することが多い。
したがって、生体認証に顔認識を使用する場合、デバイス多様性を促進するために必要なネットワーク要件とハードウェア要件の両方を削減できるため、実際のデプロイメントでは顔を比較する効率的な方法が重要である。
本稿では,異なるデータセットと異なるアグリゲーション戦略の広範な分析に基づいて,顔認識に使用される組込みを効率的に集約する方法を提案する。
この分析の一部として、研究目的で利用可能な新しいデータセットが収集された。
提案手法は,プライバシと長期的なユーザビリティを重視した,大規模にスケーラブルな分散顔認識システムの構築を支援する。 Biometrics are one of the most privacy-sensitive data. Ubiquitous authentication systems with a focus on privacy favor decentralized approaches as they reduce potential attack vectors, both on a technical and organizational level. The gold standard is to let the user be in control of where their own data is stored, which consequently leads to a high variety of devices used. Moreover, in comparison with a centralized system, designs with higher end-user freedom often incur additional network overhead. Therefore, when using face recognition for biometric authentication, an efficient way to compare faces is important in practical deployments, because it reduces both network and hardware requirements that are essential to encourage device diversity. This paper proposes an efficient way to aggregate embeddings used for face recognition based on an extensive analysis on different datasets and the use of different aggregation strategies. As part of this analysis, a new dataset has been collected, which is available for research purposes. Our proposed method supports the construction of massively scalable, decentralized face recognition systems with a focus on both privacy and long-term usability. | 翻訳日:2023-04-18 21:30:49 公開日:2023-04-17 |
# ボルツマン密度の変形軌道の学習 Learning Deformation Trajectories of Boltzmann Densities ( http://arxiv.org/abs/2301.07388v3 ) ライセンス: Link先を確認 | B\'alint M\'at\'e, Fran\c{c}ois Fleuret | (参考訳) 本研究では, サンプルの有無ではなく, エネルギー関数の存在下で使用可能な連続正規化フローのトレーニング目標を提案する。
目的エネルギー$f_1$と一般化されたガウス$f_0(x) = ||x/\sigma||_p^p$のエネルギー関数の間の所定あるいは学習した補間$f_t$に依存する。
エネルギー関数の補間はボルツマン密度$p_t \propto e^{-f_t}$の補間を誘導し、密度のファミリー$p_t$に沿ってサンプルを輸送する時間依存ベクトル場$V_t$を求める。
このPDEを満たすために、$V_t$と$f_t$の間でサンプルを転送する条件をPDEに変換することができ、$V_t$と$f_t$を最適化する。
提案した学習目標とガウス混合物の逆KL偏差と量子力学粒子のボルツマン密度を二重ポテンシャルで比較した。 We introduce a training objective for continuous normalizing flows that can be used in the absence of samples but in the presence of an energy function. Our method relies on either a prescribed or a learnt interpolation $f_t$ of energy functions between the target energy $f_1$ and the energy function of a generalized Gaussian $f_0(x) = ||x/\sigma||_p^p$. The interpolation of energy functions induces an interpolation of Boltzmann densities $p_t \propto e^{-f_t}$ and we aim to find a time-dependent vector field $V_t$ that transports samples along the family $p_t$ of densities. The condition of transporting samples along the family $p_t$ can be translated to a PDE between $V_t$ and $f_t$ and we optimize $V_t$ and $f_t$ to satisfy this PDE. We experimentally compare the proposed training objective to the reverse KL-divergence on Gaussian mixtures and on the Boltzmann density of a quantum mechanical particle in a double-well potential. | 翻訳日:2023-04-18 21:23:11 公開日:2023-04-17 |
# GLIGEN: オープンセットのテキスト-画像生成 GLIGEN: Open-Set Grounded Text-to-Image Generation ( http://arxiv.org/abs/2301.07093v2 ) ライセンス: Link先を確認 | Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee | (参考訳) 大規模テキスト・画像拡散モデルは驚くべき進歩を遂げた。
しかし、ステータスクオはテキスト入力のみを使用することで、制御可能性を妨げる可能性がある。
本研究では,GLIGEN, Grounded-Language-to-Image Generationを提案する。GLIGENは,既存の学習済みテキスト・画像拡散モデルの機能を基盤として構築し,拡張する新しいアプローチである。
事前学習されたモデルの膨大な概念知識を維持するため、全ての重量を凍結し、ゲート機構を介して新しいトレーニング可能な層に接地情報を注入する。
提案モデルでは,キャプションとバウンディングボックス条件入力によるオープンワールドのグラウンドドテキスト2img生成を実現し,グラウンド化能力は空間構成や概念に優れる。
GLIGENのCOCOおよびLVISでのゼロショット性能は、既存の教師付きレイアウト・ツー・イメージベースラインよりも大きなマージンで優れている。 Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image Generation, a novel approach that builds upon and extends the functionality of existing pre-trained text-to-image diffusion models by enabling them to also be conditioned on grounding inputs. To preserve the vast concept knowledge of the pre-trained model, we freeze all of its weights and inject the grounding information into new trainable layers via a gated mechanism. Our model achieves open-world grounded text2img generation with caption and bounding box condition inputs, and the grounding ability generalizes well to novel spatial configurations and concepts. GLIGEN's zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin. | 翻訳日:2023-04-18 21:22:47 公開日:2023-04-17 |
# 画像生成器の領域拡張 Domain Expansion of Image Generators ( http://arxiv.org/abs/2301.05225v2 ) ライセンス: Link先を確認 | Yotam Nitzan, Micha\"el Gharbi, Richard Zhang, Taesung Park, Jun-Yan Zhu, Daniel Cohen-Or, Eli Shechtman | (参考訳) 既存の構造と知識を尊重しながら、すでに訓練された生成モデルに新しい概念を注入できるだろうか?
この問題に対処するための新しいタスク、ドメイン拡張を提案する。
事前訓練されたジェネレータと新しい(しかし関連する)ドメインが与えられたら、ジェネレータを拡張して、古い、新しい、調和して全てのドメインを共同でモデル化する。
まず、生成元は有意義で事前訓練された潜在空間を含むことに注意する。
新しいドメインを最大限に表現しながら、このハードアーンド表現を最小限に摂動することは可能か?
興味深いことに、潜在空間は、出力に影響を与えない未使用の「ドーマント」方向を提供する。
これらの方向を"再提案"することで、元の表現を混乱させることなく、新しいドメインを表現できる。
実際、事前訓練されたジェネレータには、数百もの新しいドメインを追加する能力があることに気付きました。
拡張手法を用いることで、モデルサイズを拡大することなく、多数のドメイン固有モデルに取って代わることができる。
さらに、単一の拡張ジェネレータはドメイン間のスムーズな遷移とドメインの構成をネイティブにサポートする。
コードとプロジェクトページはhttps://yotamnitzan.github.io/domain-expansion/。 Can one inject new concepts into an already trained generative model, while respecting its existing structure and knowledge? We propose a new task - domain expansion - to address this. Given a pretrained generator and novel (but related) domains, we expand the generator to jointly model all domains, old and new, harmoniously. First, we note the generator contains a meaningful, pretrained latent space. Is it possible to minimally perturb this hard-earned representation, while maximally representing the new domains? Interestingly, we find that the latent space offers unused, "dormant" directions, which do not affect the output. This provides an opportunity: By "repurposing" these directions, we can represent new domains without perturbing the original representation. In fact, we find that pretrained generators have the capacity to add several - even hundreds - of new domains! Using our expansion method, one "expanded" model can supersede numerous domain-specific models, without expanding the model size. Additionally, a single expanded generator natively supports smooth transitions between domains, as well as composition of domains. Code and project page available at https://yotamnitzan.github.io/domain-expansion/. | 翻訳日:2023-04-18 21:21:36 公開日:2023-04-17 |
# ゲームにおける因果関係の推論 Reasoning about Causality in Games ( http://arxiv.org/abs/2301.02324v2 ) ライセンス: Link先を確認 | Lewis Hammond, James Fox, Tom Everitt, Ryan Carey, Alessandro Abate, Michael Wooldridge | (参考訳) 因果推論(causal reasoning)とゲーム理論推論(game-theoretic reasoning)は、人工知能における基本的なトピックである。
それらの重要性にもかかわらず、この2つの形式の推論をサポートする正式なフレームワークは、これまで欠落していた。
我々は(構造的な)因果ゲームという形で解を提供し、これはパールの因果階層をゲーム理論領域に拡張する、あるいはコラーとミルチのマルチエージェント影響図を因果領域に拡張すると見なすことができる。
次に3つの重要な疑問を考えます
一 ゲームにおける(因果的)依存関係(変数間、戦略間)をどのように一様で原則化された方法でモデル化するか。
二 因果クエリを因果ゲームでどのように計算し、どのような仮定を必要とするか。
iii)因果ゲームは既存の形式とどのように比較されるか。
問題に対処する
i) エージェントの意思決定ルールとゲームを管理する分布の依存関係をエンコードするメカニカルゲームを導入する。
質問に答えて
二) 予測, 介入, 反事実の定義を提示し, それぞれに必要な仮定について議論する。
質問について
iii) 因果ゲームと他の形式主義の対応を記述し, 因果ゲームが他の因果モデルやゲーム理論モデルがサポートしていない問合せにどのように対応できるかを説明する。
最後に,広範なオープンソースpythonライブラリによって支援される,因果ゲームの可能性について強調する。 Causal reasoning and game-theoretic reasoning are fundamental topics in artificial intelligence, among many other disciplines: this paper is concerned with their intersection. Despite their importance, a formal framework that supports both these forms of reasoning has, until now, been lacking. We offer a solution in the form of (structural) causal games, which can be seen as extending Pearl's causal hierarchy to the game-theoretic domain, or as extending Koller and Milch's multi-agent influence diagrams to the causal domain. We then consider three key questions: i) How can the (causal) dependencies in games - either between variables, or between strategies - be modelled in a uniform, principled manner? ii) How may causal queries be computed in causal games, and what assumptions does this require? iii) How do causal games compare to existing formalisms? To address question i), we introduce mechanised games, which encode dependencies between agents' decision rules and the distributions governing the game. In response to question ii), we present definitions of predictions, interventions, and counterfactuals, and discuss the assumptions required for each. Regarding question iii), we describe correspondences between causal games and other formalisms, and explain how causal games can be used to answer queries that other causal or game-theoretic models do not support. Finally, we highlight possible applications of causal games, aided by an extensive open-source Python library. | 翻訳日:2023-04-18 21:21:18 公開日:2023-04-17 |
# 多様性が必要である:安定拡散によるモデル非依存なゼロショット分類の改善 Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot Classification via Stable Diffusion ( http://arxiv.org/abs/2302.03298v4 ) ライセンス: Link先を確認 | Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes | (参考訳) 本研究では,実画像を用いずに実画像の分類を行うための非特異的分類アーキテクチャ(ダウンストリームモデル)を訓練することを目的とした,モデル非依存ゼロショット分類(ma-zsc)の問題を検討する。
近年の研究では、拡散モデルを用いた合成訓練画像の生成は、ma-zscに対処する潜在的な解決策となることが示されている。
しかし、現在のこのアプローチの性能は、大規模なビジョン言語モデルによって達成されるものには及ばない。
考えられる説明の1つは、合成画像と実画像の間の潜在的な領域ギャップである。
我々の研究は、生成したデータセット内の画像の多様性を改善することにより、MA-ZSCの性能を改善することができるという最初の洞察を提供することで、この問題に対する新たな視点を提供する。
我々は,事前学習した拡散モデルを用いてテキストから画像への生成プロセスを改良し,多様性を高めることを提案する。
提案手法は,CLIPなどの最先端モデルに匹敵する,様々な分類アーキテクチャにおける顕著な改善を示す。
CIFAR10, CIFAR100, EuroSATの衛星画像領域によるゼロショット分類は特に困難である。
我々はResNetとViTを含む5つの分類アーキテクチャでアプローチを評価した。
本研究は拡散モデルを用いたma-zsc問題の初期知見を提供する。
すべてのコードはGitHubで入手できる。 In this work, we investigate the problem of Model-Agnostic Zero-Shot Classification (MA-ZSC), which refers to training non-specific classification architectures (downstream models) to classify real images without using any real images during training. Recent research has demonstrated that generating synthetic training images using diffusion models provides a potential solution to address MA-ZSC. However, the performance of this approach currently falls short of that achieved by large-scale vision-language models. One possible explanation is a potential significant domain gap between synthetic and real images. Our work offers a fresh perspective on the problem by providing initial insights that MA-ZSC performance can be improved by improving the diversity of images in the generated dataset. We propose a set of modifications to the text-to-image generation process using a pre-trained diffusion model to enhance diversity, which we refer to as our $\textbf{bag of tricks}$. Our approach shows notable improvements in various classification architectures, with results comparable to state-of-the-art models such as CLIP. To validate our approach, we conduct experiments on CIFAR10, CIFAR100, and EuroSAT, which is particularly difficult for zero-shot classification due to its satellite image domain. We evaluate our approach with five classification architectures, including ResNet and ViT. Our findings provide initial insights into the problem of MA-ZSC using diffusion models. All code will be available on GitHub. | 翻訳日:2023-04-18 21:13:53 公開日:2023-04-17 |
# lipschitz banditsアプローチによる連続ハイパーパラメータ最適化 A Lipschitz Bandits Approach for Continuous Hyperparameter Optimization ( http://arxiv.org/abs/2302.01539v2 ) ライセンス: Link先を確認 | Yasong Feng, Weijian Luo, Yimin Huang, Tianyu Wang | (参考訳) 機械学習における最も重要な問題の1つはハイパーパラメータ最適化(HPO)である。
多くのHPOアルゴリズムがあるが、理論的な保証がないか、強い仮定を必要とする。
この目的のために、目的関数のリプシッツ連続性のみを仮定するHPOのリプシッツ帯域ベースアルゴリズムであるBLiEを導入する。
BLiEは目的関数の風景を利用してハイパーパラメータ空間を適応的に探索する。
理論的には、$は
(i)$ blie は$o \left( \frac{1}{\epsilon} \right)^{d_z + \beta}$ の総予算を持つ$\epsilon$-optimalハイパーパラメータを見つける。
(ii)$ BLiE は非常に並列化可能である。
経験的に、BLiEはベンチマークタスクにおける最先端HPOアルゴリズムよりも優れていることを示す。
また,拡散モデルのノイズスケジュールの探索にBLiEを適用した。
デフォルトのスケジュールと比較すると、BLiEスケジュールはサンプリング速度を大幅に改善する。 One of the most critical problems in machine learning is HyperParameter Optimization (HPO), since choice of hyperparameters has a significant impact on final model performance. Although there are many HPO algorithms, they either have no theoretical guarantees or require strong assumptions. To this end, we introduce BLiE -- a Lipschitz-bandit-based algorithm for HPO that only assumes Lipschitz continuity of the objective function. BLiE exploits the landscape of the objective function to adaptively search over the hyperparameter space. Theoretically, we show that $(i)$ BLiE finds an $\epsilon$-optimal hyperparameter with $O \left( \frac{1}{\epsilon} \right)^{d_z + \beta}$ total budgets, where $d_z$ and $\beta$ are problem intrinsic; $(ii)$ BLiE is highly parallelizable. Empirically, we demonstrate that BLiE outperforms the state-of-the-art HPO algorithms on benchmark tasks. We also apply BLiE to search for noise schedule of diffusion models. Comparison with the default schedule shows that BLiE schedule greatly improves the sampling speed. | 翻訳日:2023-04-18 21:12:40 公開日:2023-04-17 |
# エントロピー生産における情報理論的貢献のアンサンブル依存性 Ensemble dependence of information-theoretic contributions to the entropy production ( http://arxiv.org/abs/2301.13061v2 ) ライセンス: Link先を確認 | Krzysztof Ptaszynski, Massimiliano Esposito | (参考訳) 正準状態に初期化された貯水池に結合された開放系のエントロピー生産は、システムバス相互情報と平衡から環境の変位を測定する相対エントロピーの2つの微視的情報理論的寄与の和として表現できる。
この結果は, 貯留層がマイクロカノニカルに初期化されるか, あるいは特定の純状態(例えば, 非可積分系の固有状態)に一般化されるか, システムの還元力学と熱力学が熱浴と同じであるかどうかを考察する。
このような場合、エントロピー生成は、システムと浴槽の間の相互情報と、適切に再定義された変位項の合計として表現できるが、それらの寄与の相対的な重みは貯水池の初期状態に依存する。
言い換えると、システムの同じ減少ダイナミクスを予測する環境に対する異なる統計的アンサンブルは、同じ総エントロピー生成をもたらすが、エントロピー生成に対する情報理論的な貢献は異なる。 The entropy production of an open system coupled to a reservoir initialized in a canonical state can be expressed as a sum of two microscopic information-theoretic contributions: the system-bath mutual information and the relative entropy measuring the displacement of the environment from equilibrium. We investigate whether this result can be generalized to situations where the reservoir is initialized in a microcanonical or in a certain pure state (e.g., an eigenstate of a nonintegrable system), such that the reduced dynamics and thermodynamics of the system are the same as for the thermal bath. We show that while in such a case the entropy production can still be expressed as a sum of the mutual information between the system and the bath and a properly redefined displacement term, the relative weight of those contributions depends on the initial state of the reservoir. In other words, different statistical ensembles for the environment predicting the same reduced dynamics for the system give rise to the same total entropy production but to different information-theoretic contributions to the entropy production. | 翻訳日:2023-04-18 21:11:23 公開日:2023-04-17 |
# マシンラーニングのセキュリティ防衛における品質測定 Measuring Equality in Machine Learning Security Defenses ( http://arxiv.org/abs/2302.08973v3 ) ライセンス: Link先を確認 | Luke E. Richards, Edward Raff, Cynthia Matuszek | (参考訳) 機械学習セキュリティコミュニティは、過去10年間にわたって、回避攻撃に対する無数の防御を開発してきた。
このコミュニティの未熟な疑問は: この防御策は誰を擁護するのか?
本研究では,学習システムを守るための一般的なアプローチと,それらのアプローチが異なるサブ集団で使用する場合,予期せぬ性能の低下をもたらすかどうかを検討する。
機械学習のセキュリティ手法の公正性に関する実証的な結果を通じて、この問題に答えることのできる単純なパリティ指標と分析のためのフレームワークについて概説する。
直接的害を引き起こす可能性のある多くの手法が提案されているが、これは偏りの脆弱性と偏りの拒絶である。
当社のフレームワークとメトリックは,堅牢にトレーニングされたモデル,前処理ベースのメソッド,セキュリティ予算を越える行動をキャプチャする拒否メソッドにも適用可能です。
我々は、防衛の平等性を測定するのに適した合理的な計算コストを持つ現実的なデータセットを特定する。
音声認識におけるケーススタディを通じて、このような防衛が社会的サブグループに対して平等な保護を提供していないこと、そして、ロバストネストレーニングのためにそのような分析を行う方法を示し、ランダム化スムーシングとニューラルリジェクションの2つの拒否に基づく防御の公平性の比較を示す。
我々は, 公平防衛と相関する要因のさらなる分析を行い, 今後, 防衛体制の整備を支援する方法についての調査を促進させる。
我々の知る限りでは、音声データの正確さと損益性とのトレードオフの公平性を検証し、拒絶に基づく防御に対する公平性評価に対処する最初の研究である。 The machine learning security community has developed myriad defenses for evasion attacks over the past decade. An understudied question in that community is: for whom do these defenses defend? In this work, we consider some common approaches to defending learned systems and whether those approaches may offer unexpected performance inequities when used by different sub-populations. We outline simple parity metrics and a framework for analysis that can begin to answer this question through empirical results of the fairness implications of machine learning security methods. Many methods have been proposed that can cause direct harm, which we describe as biased vulnerability and biased rejection. Our framework and metric can be applied to robustly trained models, preprocessing-based methods, and rejection methods to capture behavior over security budgets. We identify a realistic dataset with a reasonable computational cost suitable for measuring the equality of defenses. Through a case study in speech command recognition, we show how such defenses do not offer equal protection for social subgroups and how to perform such analyses for robustness training, and we present a comparison of fairness between two rejection-based defenses: randomized smoothing and neural rejection. We offer further analysis of factors that correlate to equitable defenses to stimulate the future investigation of how to assist in building such defenses. To the best of our knowledge, this is the first work that examines the fairness disparity in the accuracy-robustness trade-off in speech data and addresses fairness evaluation for rejection-based defenses. | 翻訳日:2023-04-18 21:03:31 公開日:2023-04-17 |
# データスパース領域における流れの注意に基づく領域適応予測 Attention-based Domain Adaptation Forecasting of Streamflow in Data-Sparse Regions ( http://arxiv.org/abs/2302.05386v3 ) ライセンス: Link先を確認 | Roland Oruche, Fearghal O'Donncha | (参考訳) 流量予測は、水資源管理の指導、干ばつと洪水の影響の緩和、気候スマートなインフラとガバナンスの発展に不可欠である。
しかし、多くのグローバルな地域では、証拠に基づく管理戦略を導くためのストリームフローの観測が限られている。
本稿では,データスパース領域に対する注目型領域適応ストリームフロー予測器を提案する。
提案手法では,データリッチなソースドメインの水理特性を利用して,24時間リードタイムストリームフローを効果的に予測する。
具体的には、ドメイン適応技術を活用したディープラーニングフレームワークを用いて、逆法を用いて、ストリームフローの予測と2つのドメイン間の識別を同時に訓練する。
ベースラインクロスドメイン予測モデルに対する実験により、24時間リードタイムストリームフロー予測の性能が向上した。 Streamflow forecasts are critical to guide water resource management, mitigate drought and flood effects, and develop climate-smart infrastructure and governance. Many global regions, however, have limited streamflow observations to guide evidence-based management strategies. In this paper, we propose an attention-based domain adaptation streamflow forecaster for data-sparse regions. Our approach leverages the hydrological characteristics of a data-rich source domain to induce effective 24hr lead-time streamflow prediction in a data-constrained target domain. Specifically, we employ a deep-learning framework leveraging domain adaptation techniques to simultaneously train streamflow predictions and discern between both domains using an adversarial method. Experiments against baseline cross-domain forecasting models show improved performance for 24hr lead-time streamflow forecasting. | 翻訳日:2023-04-18 21:01:48 公開日:2023-04-17 |
# xCodeEval: コード理解、生成、翻訳、検索のための大規模マルチ言語マルチタスクベンチマーク xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval ( http://arxiv.org/abs/2303.03004v2 ) ライセンス: Link先を確認 | Mohammad Abdullah Matin Khan, M Saiful Bari, Xuan Long Do, Weishi Wang, Md Rizwan Parvez, Shafiq Joty | (参考訳) 問題を解決する能力は知性の目印であり、AIの永続的な目標でした。
問題に対するソリューションとしてプログラムを作成したり、プログラムを書く開発者を支援したりできるaiシステムは、生産性を高め、プログラミングをよりアクセスしやすくする。
最近、訓練済みの大規模言語モデルでは、自然言語記述から新しいコードを生成すること、バグのあるコードを修正すること、言語間のコード変換、関連するコードセグメントの検索に顕著な能力を示している。
しかし、これらのモデルの評価は、1つか2つの特定のタスク、いくつかの言語、部分的な粒度(例えば、関数)レベル、多くの場合、適切なトレーニングデータなしで、散在的に行われてきた。
さらに懸念されるのは、ほとんどの場合、生成されたコードの評価は実際の実行よりも単なる語彙的なオーバーラップによって行われ、一方、2つのコードセグメントの意味的類似性(または等価性)は、その'`execution similarity''、すなわち、与えられた入力に対して同じ出力を得ることができることである。 The ability to solve problems is a hallmark of intelligence and has been an enduring goal in AI. AI systems that can create programs as solutions to problems or assist developers in writing programs can increase productivity and make programming more accessible. Recently, pre-trained large language models have shown impressive abilities in generating new codes from natural language descriptions, repairing buggy codes, translating codes between languages, and retrieving relevant code segments. However, the evaluation of these models has often been performed in a scattered way on only one or two specific tasks, in a few languages, at a partial granularity (e.g., function) level and in many cases without proper training data. Even more concerning is that in most cases the evaluation of generated codes has been done in terms of mere lexical overlap rather than actual execution whereas semantic similarity (or equivalence) of two code segments depends only on their ``execution similarity'', i.e., being able to get the same output for a given input. | 翻訳日:2023-04-18 20:54:45 公開日:2023-04-17 |
# AR3n:ロボットリハビリテーションのための強化学習型補助制御 AR3n: A Reinforcement Learning-based Assist-As-Needed Controller for Robotic Rehabilitation ( http://arxiv.org/abs/2303.00085v4 ) ライセンス: Link先を確認 | Shrey Pareek, Harris Nisar and Thenkurussi Kesavadas | (参考訳) 本稿では,ロボットハンドライティングリハビリテーションタスクにおいて,強化学習を利用して適応的支援を提供するアシスト・アズ・ア・ニーズド(aan)コントローラar3n(aaronと発音する)を提案する。
従来のAANコントローラとは異なり,本手法は患者固有のコントローラパラメータや物理モデルに依存しない。
複数の被験者にまたがってAR3nを一般化するための仮想患者モデルを提案する。
このシステムは、被験者の追跡誤差に基づいてロボット支援をリアルタイムで調整し、ロボット支援の量を最小化する。
コントローラはシミュレーションと人体実験によって実験的に検証される。
最後に,従来のルールベース制御器との比較検討を行い,2つの制御器の補助機構の違いを分析した。 In this paper, we present AR3n (pronounced as Aaron), an assist-as-needed (AAN) controller that utilizes reinforcement learning to supply adaptive assistance during a robot assisted handwriting rehabilitation task. Unlike previous AAN controllers, our method does not rely on patient specific controller parameters or physical models. We propose the use of a virtual patient model to generalize AR3n across multiple subjects. The system modulates robotic assistance in realtime based on a subject's tracking error, while minimizing the amount of robotic assistance. The controller is experimentally validated through a set of simulations and human subject experiments. Finally, a comparative study with a traditional rule-based controller is conducted to analyze differences in assistance mechanisms of the two controllers. | 翻訳日:2023-04-18 20:53:45 公開日:2023-04-17 |
# 視覚トランスフォーマーによるロングテール認識の再考 Rethink Long-tailed Recognition with Vision Transformers ( http://arxiv.org/abs/2302.14284v2 ) ライセンス: Link先を確認 | Zhengzhuo Xu, Shuo Yang, Xingjun Wang, Chun Yuan | (参考訳) 現実の世界では、データは長い尾の分布w.r.t.クラスや属性に従う傾向にあり、LTR(Long-Tailed Recognition)問題に挑戦する動機となっている。
本稿では,視覚変換器(ViT)を用いた最近のLTR手法を再検討する。
私たちはそれを理解し
1)ViTは長い尾のデータで訓練するのは難しい。
2) ViTはマスク生成トレーニングのような教師なしの方法で一般化された特徴を学習する。
そこで本稿では,教師なし学習を長期データ利用に適用することを提案する。
さらに,予測分布校正法(PDC)をLTRの新しい指標として提案する。
我々のPDCは予測選好のモデル校正を定量的に測定できる。
精度が向上したにもかかわらず,多くのLTR手法が若干緩和されている。
ベンチマークデータセットの大規模な実験は、PDCがモデルの予測的嗜好を正確に反映していることを検証する。 In the real world, data tends to follow long-tailed distributions w.r.t. class or attribution, motivating the challenging Long-Tailed Recognition (LTR) problem. In this paper, we revisit recent LTR methods with promising Vision Transformers (ViT). We figure out that 1) ViT is hard to train with long-tailed data. 2) ViT learns generalized features in an unsupervised manner, like mask generative training, either on long-tailed or balanced datasets. Hence, we propose to adopt unsupervised learning to utilize long-tailed data. Furthermore, we propose the Predictive Distribution Calibration (PDC) as a novel metric for LTR, where the model tends to simply classify inputs into common classes. Our PDC can measure the model calibration of predictive preferences quantitatively. On this basis, we find many LTR approaches alleviate it slightly, despite the accuracy improvement. Extensive experiments on benchmark datasets validate that PDC reflects the model's predictive preference precisely, which is consistent with the visualization. | 翻訳日:2023-04-18 20:53:31 公開日:2023-04-17 |
# センチネル-2超解離におけるエイリアスとバンドシフトの役割について On The Role of Alias and Band-Shift for Sentinel-2 Super-Resolution ( http://arxiv.org/abs/2302.11494v2 ) ライセンス: Link先を確認 | Ngoc Long Nguyen, J\'er\'emy Anger, Lara Raad, Bruno Galerne, Gabriele Facciolo | (参考訳) 本研究では,Sentinel-2画像の単一画像超解像(SISR)問題について検討する。
我々は、バンド間シフトとエイリアスというユニークなセンサー仕様のおかげで、ディープラーニングの手法が詳細を再現できることを示した。
単純な$L_1$ロスを使ってモデルをトレーニングすることで、結果は幻覚的な詳細がなくなる。
本研究では,sentinel-2/planetscope画像対のデータセットを構築し,超分解能モデル(sr)の学習と評価を行った。 In this work, we study the problem of single-image super-resolution (SISR) of Sentinel-2 imagery. We show that thanks to its unique sensor specification, namely the inter-band shift and alias, that deep-learning methods are able to recover fine details. By training a model using a simple $L_1$ loss, results are free of hallucinated details. For this study, we build a dataset of pairs of images Sentinel-2/PlanetScope to train and evaluate our super-resolution (SR) model. | 翻訳日:2023-04-18 20:53:00 公開日:2023-04-17 |
# 機械可読性情報を用いた汎用プライバシーインタフェースの実現 Enabling Versatile Privacy Interfaces Using Machine-Readable Transparency Information ( http://arxiv.org/abs/2302.10991v2 ) ライセンス: Link先を確認 | Elias Gr\"unewald, Johannes M. Halkenh\"au{\ss}er, Nicola Leschke, Johanna Washington, Cristina Paupini, Frank Pallas | (参考訳) オンラインサービスにおける個人データの処理に関する透明性は、個人データを共有すべきか否かの判断に必要条件である。
本稿では,プライバシインタフェースは,ユニバーサルデザインの原則と使用可能なプライバシに則って,表示のコンテキスト,個人の嗜好,個人的データ主体のコンピテンスを取り入れるべきである,と論じる。
そのためには、透明性情報の供給を究極のプレゼンテーションから意識的に分離する必要がある。
この目的のために,データコントローラからデータオブジェクトへの透過性情報の提供方法に関する一般的なモデルを提供し,機械可読性情報を有効に活用し,多用途なプレゼンテーションインタフェースを容易化する。
このモデルの実際の実装は2つあります。
1)GDPR対応のプライバシーダッシュボード
2)会話型AIによって実現されたチャットボットと仮想音声アシスタント。
モデルと実装をユーザ調査で評価し、これらのアプローチが効果的で時間効率の良い透明性をもたらすことを見出します。
その結果、機械可読透明性情報を用いて透明性を向上し、データコントローラがそれぞれの規制義務を満たす方法を説明する。 Transparency regarding the processing of personal data in online services is a necessary precondition for informed decisions on whether or not to share personal data. In this paper, we argue that privacy interfaces shall incorporate the context of display, personal preferences, and individual competences of data subjects following the principles of universal design and usable privacy. Doing so requires -- among others -- to consciously decouple the provision of transparency information from their ultimate presentation. To this end, we provide a general model of how transparency information can be provided from a data controller to data subjects, effectively leveraging machine-readable transparency information and facilitating versatile presentation interfaces. We contribute two actual implementations of said model: 1) a GDPR-aligned privacy dashboard and 2) a chatbot and virtual voice assistant enabled by conversational AI. We evaluate our model and implementations with a user study and find that these approaches provide effective and time-efficient transparency. Consequently, we illustrate how transparency can be enhanced using machine-readable transparency information and how data controllers can meet respective regulatory obligations. | 翻訳日:2023-04-18 20:52:31 公開日:2023-04-17 |
# モダリティを欠いた医療セグメント化のための原型知識蒸留法 Prototype Knowledge Distillation for Medical Segmentation with Missing Modality ( http://arxiv.org/abs/2303.09830v2 ) ライセンス: Link先を確認 | Shuai Wang, Zipei Yan, Daoan Zhang, Haining Wei, Zhongsen Li, Rui Li | (参考訳) 医用画像分割のための補完情報を提供するため,多モード医用画像は臨床治療において重要である。
しかし, 臨床におけるマルチモーダルデータの収集は, スキャン時間や臨床状況の制限などにより困難である。
このように、この欠落したモダリティ問題に対処するイメージセグメンテーションパラダイムを開発することは臨床的に有意義である。
本稿では,1つのモードデータのみにアクセス可能な最も困難なシナリオにおいて,課題に取り組むためのプロトタイプ知識蒸留(protokd)手法を提案する。
具体的には,マルチモダリティデータのピクセル単位での知識を単一モダリティデータに蒸留するだけでなく,クラス内およびクラス間の特徴のバリエーションを伝達することで,教師モデルからより堅牢な特徴表現を学習し,単一のモダリティデータのみを用いて推論することができる。
提案手法はBraTSベンチマークにおける最先端性能を実現する。
コードは \url{https://github.com/sakurajimamaiii/protokd} で入手できる。 Multi-modality medical imaging is crucial in clinical treatment as it can provide complementary information for medical image segmentation. However, collecting multi-modal data in clinical is difficult due to the limitation of the scan time and other clinical situations. As such, it is clinically meaningful to develop an image segmentation paradigm to handle this missing modality problem. In this paper, we propose a prototype knowledge distillation (ProtoKD) method to tackle the challenging problem, especially for the toughest scenario when only single modal data can be accessed. Specifically, our ProtoKD can not only distillate the pixel-wise knowledge of multi-modality data to single-modality data but also transfer intra-class and inter-class feature variations, such that the student model could learn more robust feature representation from the teacher model and inference with only one single modality data. Our method achieves state-of-the-art performance on BraTS benchmark. The code is available at \url{https://github.com/SakurajimaMaiii/ProtoKD}. | 翻訳日:2023-04-18 20:45:45 公開日:2023-04-17 |
# VENUS: 量子状態可視化のための幾何学的表現 VENUS: A Geometrical Representation for Quantum State Visualization ( http://arxiv.org/abs/2303.08366v2 ) ライセンス: Link先を確認 | Shaolun Ruan, Ribo Yuan, Yong Wang, Yanna Lin, Ying Mao, Weiwen Jiang, Zhepeng Wang, Wei Xu, Qiang Guan | (参考訳) 可視化は、量子コンピューティングユーザーが様々な量子コンピューティングアプリケーションで量子状態を調べるのを助ける上で重要な役割を担っている。
その中でもBloch Sphereは、量子振幅を表すために角度を利用する量子状態を示すために広く使われている視覚化である。
しかし、量子エンタングルメントと重ね合わせ(量子コンピューティングの2つの本質的性質)の可視化はサポートできない。
本稿では,量子状態表現のための新しい可視化手法であるVENUSを提案する。
量子コンピューティング特性の数学的基礎に基づく2次元幾何学的形状を明示的に関連付けることにより、VENUSは量子エンタングルメントのための1量子ビットと2量子ビットの両方の量子振幅を効果的に表現する。
また、複数の座標半円を用いて確率分布を自然にエンコードし、量子重ね合わせを直感的に解析する。
VENUSの有用性と有効性を評価するために,2つの優れたケーススタディと詳細な専門家インタビューを行った。
その結果、VENUSは1量子ビットと2量子ビットの量子状態の探索を効果的に行うことができた。 Visualizations have played a crucial role in helping quantum computing users explore quantum states in various quantum computing applications. Among them, Bloch Sphere is the widely-used visualization for showing quantum states, which leverages angles to represent quantum amplitudes. However, it cannot support the visualization of quantum entanglement and superposition, the two essential properties of quantum computing. To address this issue, we propose VENUS, a novel visualization for quantum state representation. By explicitly correlating 2D geometric shapes based on the math foundation of quantum computing characteristics, VENUS effectively represents quantum amplitudes of both the single qubit and two qubits for quantum entanglement. Also, we use multiple coordinated semicircles to naturally encode probability distribution, making the quantum superposition intuitive to analyze. We conducted two well-designed case studies and an in-depth expert interview to evaluate the usefulness and effectiveness of VENUS. The result shows that VENUS can effectively facilitate the exploration of quantum states for the single qubit and two qubits. | 翻訳日:2023-04-18 20:45:26 公開日:2023-04-17 |
# 連続感情認識における視覚聴覚融合におけるttnとtransformerの活用 Leveraging TCN and Transformer for effective visual-audio fusion in continuous emotion recognition ( http://arxiv.org/abs/2303.08356v2 ) ライセンス: Link先を確認 | Weiwei Zhou, Jiada Lu, Zhaolong Xiong, Weifeng Wang | (参考訳) 人間の感情認識は、人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,第5回ワークショップのvalence-arousal (va) estimation challenge, expression (expr) classification challenge, action unit (au) detection challenge, and competition on affective behavior analysis in-the-wild (abaw)について述べる。
具体的には,時間的畳み込みネットワーク(tcn,temporal convolutional network)とトランスフォーマー(transformer)を利用して,連続的感情認識の性能を向上させるマルチモーダル融合モデルを提案する。
本モデルは,感情認識の精度を向上させるため,視覚情報と音声情報を効果的に統合することを目的としている。
我々のモデルはベースラインを上回り、表現分類チャレンジで3位になっている。 Human emotion recognition plays an important role in human-computer interaction. In this paper, we present our approach to the Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, and Action Unit (AU) Detection Challenge of the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Specifically, we propose a novel multi-modal fusion model that leverages Temporal Convolutional Networks (TCN) and Transformer to enhance the performance of continuous emotion recognition. Our model aims to effectively integrate visual and audio information for improved accuracy in recognizing emotions. Our model outperforms the baseline and ranks 3 in the Expression Classification challenge. | 翻訳日:2023-04-18 20:45:07 公開日:2023-04-17 |
# 量子skyrmion相における位相力学的量子相転移 Topological dynamical quantum phase transition in a quantum skyrmion phase ( http://arxiv.org/abs/2303.06977v2 ) ライセンス: Link先を確認 | Vipin Vijayan, L. Chotorlishvili, A. Ernst, S. S. P. Parkin, M. I. Katsnelson, S. K. Mishra | (参考訳) 量子skyrmionic位相は2次元ヘリカルスピン格子でモデル化される。
この位相的空力相は強磁性相に移動する前に大きなパラメータ空間にその性質を保ち続ける。
次に最も近い隣り合う相互作用は安定性を改善し、パラメータ空間における位相位相のシフトを引き起こす。
観測された速度関数の非解析的挙動は、当初量子スクリミオン相にあった系が自明な量子強磁性相にキューチされたとき、動的に量子相転移を示す。
量子相の動的遷移は、最初にスカイマーミオン相にある系がヘリカル相にクエンチされたときに欠如する。 Quantum skyrmionic phase is modelled in a 2D helical spin lattice. This topological skyrmionic phase retains its nature in a large parameter space before moving to a ferromagnetic phase. Next nearest-neighbour interaction improves the stability and it also causes a shift of the topological phase in the parameter space. Nonanalytic behaviour of the rate function observed, when the system which is initially in a quantum skyrmion phase is quenched to a trivial quantum ferromagnetic phase, indicates a dynamical quantum phase transition. Dynamical quantum phase transition is absent when the system initially in a skyrmion phase is quenched to a helical phase. | 翻訳日:2023-04-18 20:44:38 公開日:2023-04-17 |
# FSVVD:全シーンのボリュームビデオのデータセット FSVVD: A Dataset of Full Scene Volumetric Video ( http://arxiv.org/abs/2303.03599v2 ) ライセンス: Link先を確認 | Kaiyuan Hu, Yili Jin, Haowen Yang, Junhua Liu, Fangxin Wang | (参考訳) 近年は、現実世界と仮想空間のギャップを埋める没入型マルチメディアの急速な発展を目撃している。
ボリュームビデオは、拡張現実を力づける新たな代表的3dビデオパラダイムとして、前例のない没入型でインタラクティブなビデオ視聴体験を提供するために際立っている。
膨大な可能性にもかかわらず、3Dボリュームビデオに対する研究はまだ初期段階にあり、さらなる探索のために十分な完全なデータセットに依存している。
しかし、既存の関連するボリュームビデオデータセットには、主に1つのオブジェクトしか含まれておらず、シーンの詳細とそれら間の相互作用が欠けている。
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、複数の人とその日常活動が外部環境と相互作用するフルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
データセットと追加ツールは、以下のWebサイトからアクセスすることができる。 Recent years have witnessed a rapid development of immersive multimedia which bridges the gap between the real world and virtual space. Volumetric videos, as an emerging representative 3D video paradigm that empowers extended reality, stand out to provide unprecedented immersive and interactive video watching experience. Despite the tremendous potential, the research towards 3D volumetric video is still in its infancy, relying on sufficient and complete datasets for further exploration. However, existing related volumetric video datasets mostly only include a single object, lacking details about the scene and the interaction between them. In this paper, we focus on the current most widely used data format, point cloud, and for the first time release a full-scene volumetric video dataset that includes multiple people and their daily activities interacting with the external environments. Comprehensive dataset description and analysis are conducted, with potential usage of this dataset. The dataset and additional tools can be accessed via the following website: https://cuhksz-inml.github.io/full_scene_volumetric_video_dataset/. | 翻訳日:2023-04-18 20:42:47 公開日:2023-04-17 |
# 1次元エミッタ鎖における分散レスサブラジアント光子貯蔵 Dispersionless subradiant photon storage in one-dimensional emitter chains ( http://arxiv.org/abs/2303.13564v2 ) ライセンス: Link先を確認 | Marcel Cech, Igor Lesanovsky, Beatriz Olmos | (参考訳) 原子エミッタは集合的に放射場に結合する。
1つのエミッタの励起は短命であるが、それらの集まりは1つのエミッタの寿命よりも数桁長い光子を含むことができる。
2レベルエミッタのサブ波長1次元格子における単一光子の最適吸収、長寿命・無分散保存、放出の正確な条件を提供する。
特に2つのストレージ方式について詳述する。
第一は、単一光子スペクトルにおける近似平坦な断面の露光に基づいており、単一の光子は、効果的にゼロな群速度を持つ波束として保存できる。
第2のスキームでは、エミッター間で誘導される相互作用の角依存性を仮想光子の交換によって利用し、環上では光子の効果的なトラップ電位が生じる。
どちらの場合も、現在の実験で利用できるパラメータの中で、単一のエミッタ寿命の数百倍の時間で高忠実な光子ストレージが得られる。 Atomic emitter ensembles couple collectively to the radiation field. Although an excitation on a single emitter may be short-lived, a collection of them can contain a photon several orders of magnitude longer than the single emitter lifetime. We provide the exact conditions for optimal absorption, long-lived and dispersionless storage, and release, of a single photon in a sub-wavelength one-dimensional lattice of two-level emitters. In particular, we detail two storage schemes. The first is based on the uncovering of approximate flat sections in the single-photon spectrum, such that a single photon can be stored as a wave packet with effective zero group velocity. For the second scheme we exploit the angular dependence of the interactions induced between the emitters and mediated via exchange of virtual photons, which on a ring gives rise to an effective trapping potential for the photon. In both cases, we are able to obtain, within current experimentally accessible parameters, high-fidelity photon storage for times hundreds of times longer than the single emitter lifetime. | 翻訳日:2023-04-18 20:36:51 公開日:2023-04-17 |
# EPro-PnP:一眼的対象推定のための一般化エンドツーエンド確率的視点n点 EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation ( http://arxiv.org/abs/2303.12787v2 ) ライセンス: Link先を確認 | Hansheng Chen, Wei Tian, Pichao Wang, Fan Wang, Lu Xiong, Hao Li | (参考訳) Perspective-n-Point (PnP) による単一のRGB画像からの3Dオブジェクトの配置は、コンピュータビジョンにおける長年の問題である。
エンドツーエンドのディープラーニングによって駆動される最近の研究は、PnPを微分可能な層として解釈し、ポーズ損失の勾配を逆伝播させることで2D-3D点対応の部分的学習を可能にすることを示唆している。
しかし、スクラッチからすべての対応を学ぶことは極めて困難であり、特に不明瞭なポーズ解では、大域的最適ポーズは理論上は微分不可能である。
本稿では,SE(3)多様体上の確率密度の異なるポーズの分布を出力する一般エンドツーエンドのポーズ推定のための確率的PnP層であるEPro-PnPを提案する。
2D-3D座標と対応する重みは、予測されたポーズ分布と目標ポーズ分布とのKL分散を最小化して学習した中間変数として扱われる。
基本原理は以前のアプローチを一般化し、注意機構に似ている。
EPro-PnPは既存の通信網を強化し、PnPベースの手法とLineMOD 6DoFのポーズ推定ベンチマークにおけるタスク固有のリーダーとのギャップを埋める。
さらに、EPro-PnPは、nuScenes 3Dオブジェクト検出ベンチマーク上で、最先端のポーズ精度を持つ新しい変形可能な対応ネットワークを実証し、ネットワーク設計の新たな可能性を探るのに役立つ。
私たちのコードはhttps://github.com/tjiiv-cprg/epro-pnp-v2で利用可能です。 Locating 3D objects from a single RGB image via Perspective-n-Point (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, allowing for partial learning of 2D-3D point correspondences by backpropagating the gradients of pose loss. Yet, learning the entire correspondences from scratch is highly challenging, particularly for ambiguous pose solutions, where the globally optimal pose is theoretically non-differentiable w.r.t. the points. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose with differentiable probability density on the SE(3) manifold. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle generalizes previous approaches, and resembles the attention mechanism. EPro-PnP can enhance existing correspondence networks, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation benchmark. Furthermore, EPro-PnP helps to explore new possibilities of network design, as we demonstrate a novel deformable correspondence network with the state-of-the-art pose accuracy on the nuScenes 3D object detection benchmark. Our code is available at https://github.com/tjiiv-cprg/EPro-PnP-v2. | 翻訳日:2023-04-18 20:36:33 公開日:2023-04-17 |
# ポスト選択量子状態のテレポーテーション Teleportation of Post-Selected Quantum States ( http://arxiv.org/abs/2303.12456v3 ) ライセンス: Link先を確認 | Daniel Collins | (参考訳) テレポーテーションにより、アリスは、事前共有された絡み合いと古典的なコミュニケーションのみを使用して、準備済みの量子状態をボブに送ることができる。
ここで、$\it{post}$-selectedである状態のテレポートが可能であることを示す。
状態の選択後$\phi$ は、アリスが実験を終えた後、彼女は測定を行い、測定結果が$\phi$である実験の実行だけを維持することを意味する。
また、事前および選択後の$\it{port}$-based Teleportationも紹介する。
最後に、これらのプロトコルを用いて、前・後選択系において瞬時非局所量子計算を行い、空間的に分離された前・後選択系の任意の非局所変数を瞬時に測定するための絡み合いを大幅に低減する。 Teleportation allows Alice to send a pre-prepared quantum state to Bob using only pre-shared entanglement and classical communication. Here we show that it is possible to teleport a state which is also $\it{post}$-selected. Post-selection of a state $\Phi$ means that after Alice has finished her experiment she performs a measurement and only keeps runs of the experiment where the measurement outcome is $\Phi$. We also demonstrate pre and post-selected $\it{port}$-based teleportation. Finally we use these protocols to perform instantaneous non-local quantum computation on pre and post-selected systems, and significantly reduce the entanglement required to instantaneously measure an arbitrary non-local variable of spatially separated pre and post-selected systems. | 翻訳日:2023-04-18 20:36:05 公開日:2023-04-17 |
# ゼロショット学習環境における政治家のイデオロギーのスケールアップに大規模言語モデルを用いる Large Language Models Can Be Used to Scale the Ideologies of Politicians in a Zero-Shot Learning Setting ( http://arxiv.org/abs/2303.12057v3 ) ライセンス: Link先を確認 | Patrick Y. Wu, Jonathan Nagler, Joshua A. Tucker, Solomon Messing | (参考訳) 大規模言語モデル(LLM)に埋め込まれた知識の集約は、社会科学における可観測性と測定の問題に対する新しい解決策の約束を保っている。
潜在的なイデオロギーを測定する — 民主的な代表のような中核的な政治機能を理解する上で極めて重要である。
我々は、ChatGPTに送ったプロンプトを用いて、第116回アメリカ合衆国上院議員間の対等にリベラル・保守的な比較を拡大する。
我々の尺度は、DW-ノミネイトのような広く使われているリベラル保守尺度と強く関連している。
私たちの規模には、イデオロギー的に極端な理由から党に反対する上院議員を中央に配置しないなど、解釈上の利点もあります。
我々の措置は他の措置よりも政治活動家の上院議員に対する認識と強く結びついており、既存の措置を記憶するのではなく、インターネットや本のコーパスから膨大な量の政治的関連データを合成するLLMと一致している。
LLMは、大量のテキストコーパスからモデル化された情報を利用する潜在構造を測定するための新しい道を開くだろう。 The aggregation of knowledge embedded in large language models (LLMs) holds the promise of new solutions to problems of observability and measurement in the social sciences. We examine this potential in a challenging setting: measuring latent ideology -- crucial for better understanding core political functions such as democratic representation. We scale pairwise liberal-conservative comparisons between members of the 116th U.S. Senate using prompts made to ChatGPT. Our measure strongly correlates with widely used liberal-conservative scales such as DW-NOMINATE. Our scale also has interpretative advantages, such as not placing senators who vote against their party for ideologically extreme reasons towards the middle. Our measure is more strongly associated with political activists' perceptions of senators than other measures, consistent with LLMs synthesizing vast amounts of politically relevant data from internet/book corpora rather than memorizing existing measures. LLMs will likely open new avenues for measuring latent constructs utilizing modeled information from massive text corpora. | 翻訳日:2023-04-18 20:35:51 公開日:2023-04-17 |
# 視覚誘発推論のための細粒領域プロンプトチューニング Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning ( http://arxiv.org/abs/2303.10428v2 ) ライセンス: Link先を確認 | Hao Zhang, Basura Fernando | (参考訳) visual abductive reasoning (var) は新たな視覚言語(vl)のトピックであり、事前知識や常識に基づいた後方推論を用いて、モデルが視覚入力(画像または画像の一部)からおそらくテキスト仮説を検索/生成する必要がある。
従来のVL検索やキャプションタスクとは異なり、帰納的推論においてテキストの実体が画像に現れる場合、推論に関する関連する事実は入力画像に直接表示されない。
さらに、推論は地域的な視覚的ヒントと因果関係があり、後者と異なる。
既存の作業は、CLIPのような基礎モデルの上に特定のプロンプトチューニング技術(例えば、カラフルなプロンプトチューニング)で、グローバル背景からの視覚的な部分を強調している。
しかし、これらの手法は同じ粒度レベルで「地域ヒント」と「グローバルコンテキスト」を均一にパッチし、帰納的推論において重要な細かい視覚的詳細を失う可能性がある。
そこで本研究では,細粒度と粗粒度を分離して"地域視覚ヒント"と"グローバルコンテキスト"を符号化する,単純かつ効果的な局所的プロンプトチューニングを提案する。
具体的には、我々のモデルは明示的にアップサンプルし、その後、局所的なヒントをパッチして、きめ細かい地域的なプロンプトを得る。
これらのプロンプトは、画像全体から粗い粒度のコンテキストトークンと連結される。
また,このモデルに新たな双対性損失を付与することで,視覚特徴を学習中の事実記述(すなわち手掛かり文)と説得性仮説(抽象推論文)の特徴に同時に回帰させる。
シャーロックデータセットの大規模な実験により、我々の完全微調整されたRGP/RGPとDual-Contrastive Lossは以前のSOTAよりも大幅に優れており、全てのメトリクス(例えば、P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better)の下で、全ての提案のうち、帰納的推論のリーダーボードで1位を獲得した。
さらなる研究のためにコードをオープンソースにします。 Visual Abductive Reasoning (VAR) is an emerging vision-language (VL) topic where the model needs to retrieve/generate a likely textual hypothesis from a visual input (image or part of an image) using backward reasoning based on prior knowledge or commonsense. Unlike in conventional VL retrieval or captioning tasks, where entities of texts appear in the image, in abductive inferences, the relevant facts about inferences are not directly visible in the input images. Besides, the inferences are causally relevant to regional visual hints and vary with the latter. Existing works highlight visual parts from a global background with specific prompt tuning techniques (e.g., colorful prompt tuning) on top of foundation models, like CLIP. However, these methods uniformly patchify "regional hints" and "global context" at the same granularity level and may lose fine-grained visual details significant for abductive reasoning. To tackle this, we propose a simple yet effective Regional Prompt Tuning, which encodes "regional visual hints" and "global contexts" separately at fine and coarse-grained levels. Specifically, our model explicitly upsamples, then patchify local hints to get fine-grained regional prompts. These prompts are concatenated with coarse-grained contextual tokens from whole images. We also equip our model with a new Dual-Contrastive Loss to regress the visual feature simultaneously toward features of factual description (a.k.a. clue text) and plausible hypothesis (abductive inference text) during training. Extensive experiments on the Sherlock dataset demonstrate that our fully fine-tuned RGP/RGPs with Dual-Contrastive Loss significantly outperforms previous SOTAs, achieving the 1 rank on abductive reasoning leaderboards among all submissions, under all metrics (e.g., P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better). We would open-source our codes for further research. | 翻訳日:2023-04-18 20:34:58 公開日:2023-04-17 |
# MotionTrack: 複数物体追跡のためのロバストな短期・長期動作学習 MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking ( http://arxiv.org/abs/2303.10404v2 ) ライセンス: Link先を確認 | Zheng Qin and Sanping Zhou and Le Wang and Jinghai Duan and Gang Hua and Wei Tang | (参考訳) マルチオブジェクトトラッキング(mot)の主な課題は、各ターゲットに対する継続的な軌道を維持することである。
既存の手法では、隣接するフレーム間の同一のターゲットと識別的外観の特徴を一致させる信頼性のある動作パターンを学習し、長い時間後に失われたターゲットを再識別する。
しかし、動き予測の信頼性や外観の識別性は、密集した群集や追跡過程における極端な閉塞によって容易に損なわれる。
本稿では,短距離から長距離のトラジェクタを関連付ける統一フレームワークにおいて,ロバストな短期動作と長期動作を学習する,単純かつ効果的なマルチオブジェクトトラッカであるmotiontrackを提案する。
密集した群れに対して, 目標の複雑な動きを推定できる短時間の軌跡から対話認識動作を学習する新しいインタラクションモジュールを設計した。
極限咬合に対しては, 目標の履歴軌跡から信頼性の高い長期動作を学習し, 遮断された軌道と対応する検出を関連付けることのできる, 新たな改良モジュールを構築した。
私たちのInteraction ModuleとRefind Moduleは、よく知られたトラッキング・バイ・検出パラダイムに組み込まれています。
MOT17とMOT20データセットの大規模な実験結果は、挑戦的なシナリオにおけるアプローチの優位性を示し、様々なMOTメトリクスで最先端のパフォーマンスを達成する。 The main challenge of Multi-Object Tracking~(MOT) lies in maintaining a continuous trajectory for each target. Existing methods often learn reliable motion patterns to match the same target between adjacent frames and discriminative appearance features to re-identify the lost targets after a long period. However, the reliability of motion prediction and the discriminability of appearances can be easily hurt by dense crowds and extreme occlusions in the tracking process. In this paper, we propose a simple yet effective multi-object tracker, i.e., MotionTrack, which learns robust short-term and long-term motions in a unified framework to associate trajectories from a short to long range. For dense crowds, we design a novel Interaction Module to learn interaction-aware motions from short-term trajectories, which can estimate the complex movement of each target. For extreme occlusions, we build a novel Refind Module to learn reliable long-term motions from the target's history trajectory, which can link the interrupted trajectory with its corresponding detection. Our Interaction Module and Refind Module are embedded in the well-known tracking-by-detection paradigm, which can work in tandem to maintain superior performance. Extensive experimental results on MOT17 and MOT20 datasets demonstrate the superiority of our approach in challenging scenarios, and it achieves state-of-the-art performances at various MOT metrics. | 翻訳日:2023-04-18 20:34:14 公開日:2023-04-17 |
# NPR:街路における夜間の場所認識 NPR: Nocturnal Place Recognition in Streets ( http://arxiv.org/abs/2304.00276v2 ) ライセンス: Link先を確認 | Bingxi Liu, Yujie Fu, Feng Lu, Jinqiang Cui, Yihong Wu, Hong Zhang | (参考訳) 視覚的位置認識(VPR)は、クエリ写真に似たデータベースイメージを既知の画像の大きなデータベースと比較することで検索するタスクである。
実世界のアプリケーションでは、夜のクエリ画像による極端な照明変更は、vprが克服しなければならない大きな障害となる。
しかし、街路レベルのVPRのための昼夜対応の訓練セットは存在しない。
この課題に対処するために,我々はvprを分割し,夜行位置認識(npr)を克服する新しいパイプラインを提案する。
具体的には、最初にストリートレベルの昼夜データセットNightStreetを構築し、未ペア画像から画像への翻訳モデルのトレーニングに使用しました。
そして、このモデルを使って既存の大規模VPRデータセットを処理し、VPR-Nightデータセットを生成し、それらを2つの人気のあるVPRパイプラインと組み合わせる方法について実証した。
最後にvprフレームワークを提案し,理論,実験,アプリケーションレベルでの説明を行った。
本フレームワークでは,上位の手法を含む2つの公開データセットのパフォーマンスを大幅に向上させることができる。 Visual Place Recognition (VPR) is the task of retrieving database images similar to a query photo by comparing it to a large database of known images. In real-world applications, extreme illumination changes caused by query images taken at night pose a significant obstacle that VPR needs to overcome. However, a training set with day-night correspondence for city-scale, street-level VPR does not exist. To address this challenge, we propose a novel pipeline that divides VPR and conquers Nocturnal Place Recognition (NPR). Specifically, we first established a street-level day-night dataset, NightStreet, and used it to train an unpaired image-to-image translation model. Then we used this model to process existing large-scale VPR datasets to generate the VPR-Night datasets and demonstrated how to combine them with two popular VPR pipelines. Finally, we proposed a divide-and-conquer VPR framework and provided explanations at the theoretical, experimental, and application levels. Under our framework, previous methods can significantly improve performance on two public datasets, including the top-ranked method. | 翻訳日:2023-04-18 20:27:20 公開日:2023-04-17 |
# MeMaHand: シングルイメージ2ハンド再構築のためのメッシュ-マンノインタラクションの爆発 MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction ( http://arxiv.org/abs/2303.15718v2 ) ライセンス: Link先を確認 | Congyi Wang, Feida Zhu, Shilei Wen | (参考訳) 手指再建作業のための既存の手法は、通常、ジェネリック3Dハンドモデルをパラメータ化したり、手指のメッシュ位置を直接予測する。
手形と回転ポーズからなるパラメトリック表現はより安定であり、非パラメトリック法はより正確なメッシュ位置を予測することができる。
本稿では,2種類の手表現の利点を利用するために,単一のRGB画像からメッシュを再構築し,二つの手のMANOパラメータを同時に推定する。
この目的を達成するために、メッシュ頂点の位置とMANOパラメータを2種類のクエリトークンとして扱う新しいメッシュ-マノ相互作用ブロック(MMIB)を提案する。
MMIBは、局所情報を集約するために1つのグラフ残差ブロックと、長距離依存をモデル化するために2つのトランスフォーマーエンコーダから構成される。
トランスエンコーダは、それぞれ手内および手間の注意をモデル化する異なる非対称注意マスクを備える。
さらに,メッシュ画像アライメントをさらに強化するために,メッシュアライメントアライメントアライメントモジュールを導入する。
interhand2.6mベンチマークの広範な実験は、最先端のハンドレコンストラクション手法に対して有望な結果を示している。 Existing methods proposed for hand reconstruction tasks usually parameterize a generic 3D hand model or predict hand mesh positions directly. The parametric representations consisting of hand shapes and rotational poses are more stable, while the non-parametric methods can predict more accurate mesh positions. In this paper, we propose to reconstruct meshes and estimate MANO parameters of two hands from a single RGB image simultaneously to utilize the merits of two kinds of hand representations. To fulfill this target, we propose novel Mesh-Mano interaction blocks (MMIBs), which take mesh vertices positions and MANO parameters as two kinds of query tokens. MMIB consists of one graph residual block to aggregate local information and two transformer encoders to model long-range dependencies. The transformer encoders are equipped with different asymmetric attention masks to model the intra-hand and inter-hand attention, respectively. Moreover, we introduce the mesh alignment refinement module to further enhance the mesh-image alignment. Extensive experiments on the InterHand2.6M benchmark demonstrate promising results over the state-of-the-art hand reconstruction methods. | 翻訳日:2023-04-18 20:24:24 公開日:2023-04-17 |
# コントラスト学習のための合成ハード負サンプル Synthetic Hard Negative Samples for Contrastive Learning ( http://arxiv.org/abs/2304.02971v2 ) ライセンス: Link先を確認 | Hengkui Dong, Xianzhong Long, Yun Li, Lei Chen | (参考訳) コントラスト学習は,視覚表現学習における自己教師あり学習に不可欠なアプローチとして現れてきた。
コントラスト学習の中心的な目的は、画像の2つの拡張バージョン(正のペア)間の類似性を最大化し、異なる画像(負のペア)間の類似性を最小化することである。
近年の研究では、難しい負のサンプル、すなわちアンカーサンプルとの区別が難しいサンプルは、コントラスト学習においてより重要な役割を果たすことが示されている。
本稿では, 難解な負のサンプルをより効果的に活用するために, コントラスト学習のための合成ハードネガティブサンプル(sscl)をサンプリングする新しい特徴量法を提案する。
具体的には
1) 負の試料を混合してより強固な負の試料を生成し, アンカー試料と他の負の試料とのコントラストを制御して試料を採取する。
2) 偽陰性試料の可能性を考慮すると, 偽陰性試料はさらに減少する。
提案手法は,異なる画像データセットの分類性能を改善し,既存の手法に容易に統合できる。 Contrastive learning has emerged as an essential approach for self-supervised learning in visual representation learning. The central objective of contrastive learning is to maximize the similarities between two augmented versions of an image (positive pairs), while minimizing the similarities between different images (negative pairs). Recent studies have demonstrated that harder negative samples, i.e., those that are more difficult to differentiate from the anchor sample, perform a more crucial function in contrastive learning. This paper proposes a novel feature-level method, namely sampling synthetic hard negative samples for contrastive learning (SSCL), to exploit harder negative samples more effectively. Specifically, 1) we generate more and harder negative samples by mixing negative samples, and then sample them by controlling the contrast of anchor sample with the other negative samples; 2) considering the possibility of false negative samples, we further debias the negative samples. Our proposed method improves the classification performance on different image datasets and can be readily integrated into existing methods. | 翻訳日:2023-04-18 20:18:07 公開日:2023-04-17 |
# 次元の呪いに対する回復力による特徴の選択 Selecting Features by their Resilience to the Curse of Dimensionality ( http://arxiv.org/abs/2304.02455v2 ) ライセンス: Link先を確認 | Maximilian Stubbemann, Tobias Hille, Tom Hanika | (参考訳) 現実世界のデータセットは、しばしば高次元であり、次元の呪いによって影響される。
これにより、理解性や解釈性が損なわれる。
複雑さを減らすために、機能選択は、そのデータから学ぶのに不可欠な機能を特定することを目的としている。
関連性の尺度や対関係の類似性は一般的に用いられるが、次元の呪いが特徴の選択プロセスに組み込まれることは稀である。
ここでは,異なるサイズのデータサブセットを識別可能な特徴を識別する新しい手法を提案する。
近年の研究を本質的次元の計算に適応させることで,データを識別できる特徴を選択できるため,次元の呪いを弱めることができる。
実験の結果,提案手法は競争力があり,確立された特徴選択法よりも優れていた。
さらに,本手法を何百万ものデータポイントからなるデータセットに拡張可能な近似法を提案する。
本研究は,データを識別し,低固有次元に関連付ける特徴が学習過程に有意であることを示す。 Real-world datasets are often of high dimension and effected by the curse of dimensionality. This hinders their comprehensibility and interpretability. To reduce the complexity feature selection aims to identify features that are crucial to learn from said data. While measures of relevance and pairwise similarities are commonly used, the curse of dimensionality is rarely incorporated into the process of selecting features. Here we step in with a novel method that identifies the features that allow to discriminate data subsets of different sizes. By adapting recent work on computing intrinsic dimensionalities, our method is able to select the features that can discriminate data and thus weaken the curse of dimensionality. Our experiments show that our method is competitive and commonly outperforms established feature selection methods. Furthermore, we propose an approximation that allows our method to scale to datasets consisting of millions of data points. Our findings suggest that features that discriminate data and are connected to a low intrinsic dimensionality are meaningful for learning procedures. | 翻訳日:2023-04-18 20:17:26 公開日:2023-04-17 |
# インフォームドダウンサンプルの静的解析 A Static Analysis of Informed Down-Samples ( http://arxiv.org/abs/2304.01978v2 ) ライセンス: Link先を確認 | Ryan Boldi, Alexander Lalejini, Thomas Helmuth, Lee Spector | (参考訳) 本稿では,レキシケース選択と組み合わせたダウンサンプリング戦略によって生じる集団レベルのテストカバレッジの損失について分析する。
本研究は,第1世代の遺伝的プログラミング・ランの個体群と,全合成個体群について記録した。
本研究は,ダウンサンプリングがランダムダウンサンプリングと比較して集団レベルのテストカバレッジを良好に維持する仮説を検証した。
さらに,どちらのダウンサンプリングも,ダウンサンプリングを伴わない標準レキシケース選択よりもテストカバレッジの損失が大きいことを示した。
しかし、人口に関するさらなる情報を考えると、インフォームドダウンサンプリングはテストカバレッジの損失をさらに減らすことができることがわかった。
また,本研究における静的集団分析を広く採用することを推奨する。 We present an analysis of the loss of population-level test coverage induced by different down-sampling strategies when combined with lexicase selection. We study recorded populations from the first generation of genetic programming runs, as well as entirely synthetic populations. Our findings verify the hypothesis that informed down-sampling better maintains population-level test coverage when compared to random down-sampling. Additionally, we show that both forms of down-sampling cause greater test coverage loss than standard lexicase selection with no down-sampling. However, given more information about the population, we found that informed down-sampling can further reduce its test coverage loss. We also recommend wider adoption of the static population analyses we present in this work. | 翻訳日:2023-04-18 20:17:10 公開日:2023-04-17 |
# doctorglm:中国の医師の微調整はハーキュリアンの仕事ではない DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task ( http://arxiv.org/abs/2304.01097v2 ) ライセンス: Link先を確認 | Honglin Xiong, Sheng Wang, Yitao Zhu, Zihao Zhao, Yuxiao Liu, Linlin Huang, Qian Wang, Dinggang Shen | (参考訳) chatgptやgpt-4を含む大規模言語モデル(llm)の最近の進歩は、人間の指示に対する理解と応答において顕著である。
にもかかわらず、これらのモデルは英語でよく機能し、医学領域で明示的に訓練されていないため、診断、医薬品の推奨、その他の医療アドバイスにおいて最適でない精度をもたらす。
加えて、対話モデルの訓練と展開は、まだ病院にとって不可能であると考えられており、LLMの推進を妨げる。
これらの課題に対処するため,我々はchatgptの助けを借りて,中国語の医療対話データベースを収集し,容易に展開できるllmの訓練手法をいくつか採用した。
注目すべきは、ChatGLM-6Bを1台のA100 80Gで13時間で微調整できたことです。
DoctorGLMは現在、様々な誤りを含む初期段階のエンジニアリングの試みである。
私たちは、医療に焦点を当てた機能を改善するためのフィードバックや提案を広くコミュニティと共有しています。 The recent progress of large language models (LLMs), including ChatGPT and GPT-4, in comprehending and responding to human instructions has been remarkable. Nevertheless, these models typically perform better in English and have not been explicitly trained for the medical domain, resulting in suboptimal precision in diagnoses, drug recommendations, and other medical advice. Additionally, training and deploying a dialogue model is still believed to be impossible for hospitals, hindering the promotion of LLMs. To tackle these challenges, we have collected databases of medical dialogues in Chinese with ChatGPT's help and adopted several techniques to train an easy-deploy LLM. Remarkably, we were able to fine-tune the ChatGLM-6B on a single A100 80G in 13 hours, which means having a healthcare-purpose LLM can be very affordable. DoctorGLM is currently an early-stage engineering attempt and contain various mistakes. We are sharing it with the broader community to invite feedback and suggestions to improve its healthcare-focused capabilities: https://github.com/xionghonglin/DoctorGLM. | 翻訳日:2023-04-18 20:16:59 公開日:2023-04-17 |
# smproblog:確率的議論のためのproblogの安定モデルセマンティクス smProbLog: Stable Model Semantics in ProbLog for Probabilistic Argumentation ( http://arxiv.org/abs/2304.00879v2 ) ライセンス: Link先を確認 | Pietro Totis, Angelika Kimmig, Luc De Raedt | (参考訳) 議論問題は、それらの関係構造から一連の引数の受け入れ可能性を決定することに関係している。
利用可能な情報が不確実な場合、確率論的議論フレームワークは、それを説明するモデリングツールを提供する。
この論文の最初の貢献は、確率的議論フレームワークを確率的論理プログラムとして新しい解釈である。
確率論理プログラム(probabilistic logic program)は、いくつかの事実に確率を付記した論理プログラムである。
本稿では,確率論的論理プログラミング(PLP)のセマンティクスにおいて,確率論的議論フレームワークを表すプログラムが共通の前提を満たしていないことを示す。
この論文の第二の貢献は、確率的事実の選択が論理原子の真理割り当てを一意に決定しないプログラムのための新しいPLP意味論である。
本論文の3番目の貢献は,この意味論をサポートするplpシステムの実装であるsmproblogの実装である。
smProbLogは確率論理型プログラミング言語ProbLogをベースにした新しいPLPフレームワークである。
smproblogはplpの典型的な推論や学習タスクをサポートしており、私たちの最初の貢献とともに確率的議論のための新しい推論ツールを提供しています。
本手法は,提案アルゴリズムの計算コストを解析し,議論問題のデータセットに適用する実験を用いて評価する。 Argumentation problems are concerned with determining the acceptability of a set of arguments from their relational structure. When the available information is uncertain, probabilistic argumentation frameworks provide modelling tools to account for it. The first contribution of this paper is a novel interpretation of probabilistic argumentation frameworks as probabilistic logic programs. Probabilistic logic programs are logic programs in which some of the facts are annotated with probabilities. We show that the programs representing probabilistic argumentation frameworks do not satisfy a common assumption in probabilistic logic programming (PLP) semantics, which is, that probabilistic facts fully capture the uncertainty in the domain under investigation. The second contribution of this paper is then a novel PLP semantics for programs where a choice of probabilistic facts does not uniquely determine the truth assignment of the logical atoms. The third contribution of this paper is the implementation of a PLP system supporting this semantics: smProbLog. smProbLog is a novel PLP framework based on the probabilistic logic programming language ProbLog. smProbLog supports many inference and learning tasks typical of PLP, which, together with our first contribution, provide novel reasoning tools for probabilistic argumentation. We evaluate our approach with experiments analyzing the computational cost of the proposed algorithms and their application to a dataset of argumentation problems. | 翻訳日:2023-04-18 20:16:43 公開日:2023-04-17 |
# トポロジー行動による電力グリッドの管理--高度なルールベースと強化学習エージェントの比較研究 Managing power grids through topology actions: A comparative study between advanced rule-based and reinforcement learning agents ( http://arxiv.org/abs/2304.00765v2 ) ライセンス: Link先を確認 | Malte Lehna and Jan Viebahn and Christoph Scholz and Antoine Marot and Sven Tomforde | (参考訳) 電力網の運用は、現在の上昇と再生可能エネルギー生産の増加により、ますます複雑になっている。
その結果、アクティブグリッド管理は従来のアプローチで限界に達している。
パワーネットワークの課題を実行するための学習の文脈において、強化学習(rl)は効率良く信頼性の高いアプローチであり、自動グリッド操作の可能性がかなり高いことが示されている。
本稿では、Binbinchenから提出されたエージェントを分析し、RLとルールベースのアプローチの両方において、エージェントを改善するための新しい戦略を提供する。
主な改善点はN-1戦略であり、1行が切断されてもグリッドを安定に保つトポロジー作用を考える。
さらに、元のグリッドへのトポロジーの回帰も提案するが、これは有益であることが証明された。
改善は、チャレンジテストセットの参照アプローチに対してテストされ、ルールベースのエージェントのパフォーマンスを27%向上することができる。
ルールベースとRLエージェントを直接比較すると、同様の性能が得られる。
しかし、rlエージェントには明確な計算上の利点がある。
また、サンプルケースの振る舞いをより詳細に分析して、さらなる洞察を与えます。
ここでは,n-1戦略を通じて,エージェントの行動がより多様化するのを観察した。 The operation of electricity grids has become increasingly complex due to the current upheaval and the increase in renewable energy production. As a consequence, active grid management is reaching its limits with conventional approaches. In the context of the Learning to Run a Power Network challenge, it has been shown that Reinforcement Learning (RL) is an efficient and reliable approach with considerable potential for automatic grid operation. In this article, we analyse the submitted agent from Binbinchen and provide novel strategies to improve the agent, both for the RL and the rule-based approach. The main improvement is a N-1 strategy, where we consider topology actions that keep the grid stable, even if one line is disconnected. More, we also propose a topology reversion to the original grid, which proved to be beneficial. The improvements are tested against reference approaches on the challenge test sets and are able to increase the performance of the rule-based agent by 27%. In direct comparison between rule-based and RL agent we find similar performance. However, the RL agent has a clear computational advantage. We also analyse the behaviour in an exemplary case in more detail to provide additional insights. Here, we observe that through the N-1 strategy, the actions of the agents become more diversified. | 翻訳日:2023-04-18 20:16:21 公開日:2023-04-17 |
# 1および2光子逆散乱の利点 Advantages of one and two-photon inverse scattering ( http://arxiv.org/abs/2304.00368v2 ) ライセンス: Link先を確認 | H. Avetisyan, V. Mkrtchian, A.E. Allahverdyan | (参考訳) 散乱対象の未知誘電率を求めるために散乱場の遠方界スペクトル相互相関関数を用いた逆散乱問題について検討した。
インシデントフィールドの1光子状態は、後方散乱系で測定が行われるため、(ナイーブな)レイリー推定と比較して、感受性の2倍以上のフーリエ成分を解決できる。
コヒーレント状態はこの最適解像度に達することができない(あるいは無視できる可視性で)。
2光子状態を使用することで1光子解像度が向上するが、その改善(視認性は100〜%)は2倍小さく、オブジェクトの事前情報を要求する。
この改善は2つの独立したレーザー場によっても実現できる。
2つの光子の絡み合った状態を使用すると、先行情報への依存が減少する(完全に排除されない)。 We study an inverse scattering problem in which the far-field spectral cross-correlation functions of scattered fields are used to determine the unknown dielectric susceptibility of the scattering object. One-photon states for the incident field can resolve (at $100\%$ visibility) twice more Fourier components of the susceptibility compared to the (naive) Rayleigh estimate, provided that the measurement is performed in the back-scattering regime. Coherent states are not capable of reaching this optimal resolution (or do so with negligible visibility). Using two-photon states improves upon the one-photon resolution, but the improvement (at $100\%$ visibility) is smaller than twice, and it demands prior information on the object. This improvement can also be realized via two independent laser fields. The dependence on the prior information can be decreased (but not eliminated completely) upon using entangled states of two photons. | 翻訳日:2023-04-18 20:15:34 公開日:2023-04-17 |
# 医用画像におけるコヒーレント概念に基づく説明と皮膚病変診断への応用 Coherent Concept-based Explanations in Medical Image and Its Application to Skin Lesion Diagnosis ( http://arxiv.org/abs/2304.04579v2 ) ライセンス: Link先を確認 | Cristiano Patr\'icio, Jo\~ao C. Neves, Lu\'is F. Teixeira | (参考訳) 悪性黒色腫の早期発見は重篤な合併症の予防と治療成功の可能性を高めるために重要である。
既存のメラノーマ皮膚病変診断のための深層学習アプローチは、モデル予測の背後にある根拠を省略し、これらの診断方法の信頼性と受容性を損なうため、ブラックボックスモデルと見なされる。
概念に基づく説明を提供する試みは、解釈を導出するための追加モデルに依存するポストホックアプローチに基づいている。
本稿では,概念エンコーダによる概念活性化の視覚的コヒーレンスを保証するために,注意機構とコヒーレンス損失項を組み込むことにより,概念ベースのモデルの解釈性を向上させるための本質的に解釈可能なフレームワークを提案する。
提案するフレームワークは、その決定を、人間の解釈可能な概念とその最終的な予測へのそれぞれの貢献、およびその概念が画像に存在する場所の視覚的解釈によって説明する。
皮膚画像データセットの実験では,既存のブラックボックスや概念に基づく皮膚病変分類モデルよりも優れていた。 Early detection of melanoma is crucial for preventing severe complications and increasing the chances of successful treatment. Existing deep learning approaches for melanoma skin lesion diagnosis are deemed black-box models, as they omit the rationale behind the model prediction, compromising the trustworthiness and acceptability of these diagnostic methods. Attempts to provide concept-based explanations are based on post-hoc approaches, which depend on an additional model to derive interpretations. In this paper, we propose an inherently interpretable framework to improve the interpretability of concept-based models by incorporating a hard attention mechanism and a coherence loss term to assure the visual coherence of concept activations by the concept encoder, without requiring the supervision of additional annotations. The proposed framework explains its decision in terms of human-interpretable concepts and their respective contribution to the final prediction, as well as a visual interpretation of the locations where the concept is present in the image. Experiments on skin image datasets demonstrate that our method outperforms existing black-box and concept-based models for skin lesion classification. | 翻訳日:2023-04-18 20:08:13 公開日:2023-04-17 |
# 混合注意に基づくRGB-T追跡 RGB-T Tracking Based on Mixed Attention ( http://arxiv.org/abs/2304.04264v3 ) ライセンス: Link先を確認 | Yang Luo, Mingtao Dong, Xiqing Guo, Jin Yu | (参考訳) RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
主な目的は、異なる条件における比較的支配的なモダリティを適応的に利用し、単一モダリティ追跡よりもロバストなトラッキングを実現することである。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
特徴抽出の段階では,異なるモダリティから特定の情報や共有情報を抽出するために,異なるトランスフォーマーのバックボーンブランチを利用する。
テンプレートと検索画像間の情報相互作用と自己強調を可能にするために、バックボーンで混合注意操作を行うことにより、ターゲットの高レベルな意味的特徴をよりよく理解する堅牢な特徴表現を構築する。
そして、特徴融合段階において、支配的モダリティの情報を高めつつ低品質モダリティノイズを抑制する混合注意型モダリティ融合ネットワークを介してモダリティ適応融合を実現する。
複数のRGB-T公開データセットの評価は,提案手法が他のRGB-Tトラッカーよりも優れ,長期追跡シナリオに適応可能であることを示す。 RGB-T tracking involves the use of images from both visible and thermal modalities. The primary objective is to adaptively leverage the relatively dominant modality in varying conditions to achieve more robust tracking compared to single-modality tracking. An RGB-T tracker based on mixed attention mechanism to achieve complementary fusion of modalities (referred to as MACFT) is proposed in this paper. In the feature extraction stage, we utilize different transformer backbone branches to extract specific and shared information from different modalities. By performing mixed attention operations in the backbone to enable information interaction and self-enhancement between the template and search images, it constructs a robust feature representation that better understands the high-level semantic features of the target. Then, in the feature fusion stage, a modality-adaptive fusion is achieved through a mixed attention-based modality fusion network, which suppresses the low-quality modality noise while enhancing the information of the dominant modality. Evaluation on multiple RGB-T public datasets demonstrates that our proposed tracker outperforms other RGB-T trackers on general evaluation metrics while also being able to adapt to longterm tracking scenarios. | 翻訳日:2023-04-18 20:07:29 公開日:2023-04-17 |
# コンフォーマル予測とコンフォーマルリスク制御による信頼度物体検出:鉄道信号への応用 Confident Object Detection via Conformal Prediction and Conformal Risk Control: an Application to Railway Signaling ( http://arxiv.org/abs/2304.06052v2 ) ライセンス: Link先を確認 | L\'eo and\'eol (IMT, ANITI), Thomas Fel, Florence De Grancey, Luca Mossina | (参考訳) 現実世界の認定システムへのディープラーニングモデルのデプロイには、不確実性を正確に反映する信頼性評価機能が必要である。
本稿では,鉄道信号検出のための信頼度の高い予測器を構築するための共形予測フレームワークについて述べる。
我々のアプローチは、列車オペレーターと最先端のオブジェクト検出器の観点から撮影された画像を含む、新しいデータセットに基づいている。
いくつかの共形アプローチをテストし,共形リスク制御に基づく新しい手法を提案する。
本研究は,モデル性能を評価するための共形予測フレームワークの可能性を示し,正式に保証された不確実性境界を達成するための実践的ガイダンスを提供する。 Deploying deep learning models in real-world certified systems requires the ability to provide confidence estimates that accurately reflect their uncertainty. In this paper, we demonstrate the use of the conformal prediction framework to construct reliable and trustworthy predictors for detecting railway signals. Our approach is based on a novel dataset that includes images taken from the perspective of a train operator and state-of-the-art object detectors. We test several conformal approaches and introduce a new method based on conformal risk control. Our findings demonstrate the potential of the conformal prediction framework to evaluate model performance and provide practical guidance for achieving formally guaranteed uncertainty bounds. | 翻訳日:2023-04-18 20:00:11 公開日:2023-04-17 |
# 知識蒸留によるニューラルネットワークからのディープスパイクニューラルネットワークの構築 Constructing Deep Spiking Neural Networks from Artificial Neural Networks with Knowledge Distillation ( http://arxiv.org/abs/2304.05627v2 ) ライセンス: Link先を確認 | Qi Xu, Yaxin Li, Jiangrong Shen, Jian K Liu, Huajin Tang, Gang Pan | (参考訳) スパイクニューラルネットワーク(snn)は、スパイクを生体神経系に近い情報単位として利用する重要なコンポーネントであるため、高い計算効率を持つ脳に触発されたモデルとしてよく知られている。
スパイクベースモデルは離散スパイク信号を活用することでエネルギー効率が良いが、その性能は現在のネットワーク構造とその訓練方法によって制限される。
離散信号として、一般的なSNNは、ニューラルネットワーク(ANN)としてパラメータ調整に直接勾配降下規則を適用することはできない。
本稿では,ANNを教師モデルとし,SNNを学生モデルとする知識蒸留(KD)を用いた深部SNNモデル構築手法を提案する。
ANN-SNNジョイントトレーニングアルゴリズムにより、学生SNNモデルは教師ANNモデルからKD方法でリッチな特徴情報を学ぶことができるが、非微分スパイクと通信する際にSNNをスクラッチから学習するのを避けることができる。
提案手法は,より効率的かつ合理的な深層スパイク構造を構築するだけでなく,直接訓練やANN to SNN法と比較して,モデル全体をトレーニングするための時間ステップも少ない。
さらに重要なことは、様々なタイプの人工雑音や自然信号に対するノイズ免疫の優れた能力を持つことだ。
提案手法は,より深い構造を高スループットで構築し,実用シナリオの軽量で効率的な脳にインスパイアされた計算に活用することで,snの性能を向上させる効率的な手法を提供する。 Spiking neural networks (SNNs) are well known as the brain-inspired models with high computing efficiency, due to a key component that they utilize spikes as information units, close to the biological neural systems. Although spiking based models are energy efficient by taking advantage of discrete spike signals, their performance is limited by current network structures and their training methods. As discrete signals, typical SNNs cannot apply the gradient descent rules directly into parameters adjustment as artificial neural networks (ANNs). Aiming at this limitation, here we propose a novel method of constructing deep SNN models with knowledge distillation (KD) that uses ANN as teacher model and SNN as student model. Through ANN-SNN joint training algorithm, the student SNN model can learn rich feature information from the teacher ANN model through the KD method, yet it avoids training SNN from scratch when communicating with non-differentiable spikes. Our method can not only build a more efficient deep spiking structure feasibly and reasonably, but use few time steps to train whole model compared to direct training or ANN to SNN methods. More importantly, it has a superb ability of noise immunity for various types of artificial noises and natural signals. The proposed novel method provides efficient ways to improve the performance of SNN through constructing deeper structures in a high-throughput fashion, with potential usage for light and efficient brain-inspired computing of practical scenarios. | 翻訳日:2023-04-18 19:59:26 公開日:2023-04-17 |
# トルクメニスタンのインターネット検閲の測定と回避--低浸透国の大規模測定を事例として Measuring and Evading Turkmenistan's Internet Censorship: A Case Study in Large-Scale Measurements of a Low-Penetration Country ( http://arxiv.org/abs/2304.04835v2 ) ライセンス: Link先を確認 | Sadia Nourin, Van Tran, Xi Jiang, Kevin Bock, Nick Feamster, Nguyen Phong Hoang, Dave Levin | (参考訳) 2006年以降、トルクメニスタンは広範囲に検閲されたインターネットと厳格に規制された情報制御ポリシーのために国境のない記者によって数少ないインターネット敵の1つに挙げられてきた。
既存のトルクメニスタンにおけるフィルタリングの報告は、少数の先進点に依存したり、少数のウェブサイトをテストする。
しかし、インターネットの普及率の低さと人口の少さは、より包括的な測定を困難にしている。
人口は600万人に過ぎず、インターネットの浸透率は38%に過ぎず、全国のボランティアを募集するか、遠隔ネットワークを大規模に測定するために有利なポイントを得るかのどちらかが難しい。
我々は、トルクメニスタンのWeb検閲の現在までの最大の測定研究を提示する。
そのために、Webの3つの基本プロトコル(DNS、HTTP、HTTPS)で数百万のドメインのブロッキング状態をテストするTMCを開発しました。
重要なことに、tmcは国内のバンテージポイントへのアクセスを必要としない。
我々は,tmcを15.5mのドメインに適用し,トルクメニスタンが122k以上のドメインを検閲していることを明らかにした。
また、これらの検閲されたドメインをリバースエンジニアリングし、6Kオーバーブロックルールを特定し、5.4M以上のドメインを偶然フィルタリングする。
最後に、オープンソースの検閲回避ツールであるgenevaを使用して、トランスポート層とアプリケーション層の両方でトルクメニスタンの検閲を打ち破ることができる5つの新しい検閲回避戦略を発見します。
TMCが収集したデータと検閲回避のためのコードの両方を公開します。 Since 2006, Turkmenistan has been listed as one of the few Internet enemies by Reporters without Borders due to its extensively censored Internet and strictly regulated information control policies. Existing reports of filtering in Turkmenistan rely on a small number of vantage points or test a small number of websites. Yet, the country's poor Internet adoption rates and small population can make more comprehensive measurement challenging. With a population of only six million people and an Internet penetration rate of only 38%, it is challenging to either recruit in-country volunteers or obtain vantage points to conduct remote network measurements at scale. We present the largest measurement study to date of Turkmenistan's Web censorship. To do so, we developed TMC, which tests the blocking status of millions of domains across the three foundational protocols of the Web (DNS, HTTP, and HTTPS). Importantly, TMC does not require access to vantage points in the country. We apply TMC to 15.5M domains, our results reveal that Turkmenistan censors more than 122K domains, using different blocklists for each protocol. We also reverse-engineer these censored domains, identifying 6K over-blocking rules causing incidental filtering of more than 5.4M domains. Finally, we use Geneva, an open-source censorship evasion tool, to discover five new censorship evasion strategies that can defeat Turkmenistan's censorship at both transport and application layers. We will publicly release both the data collected by TMC and the code for censorship evasion. | 翻訳日:2023-04-18 19:57:29 公開日:2023-04-17 |
# オブジェクト認識同変基本反応拡散モデルによる正確な遷移状態生成 Accurate transition state generation with an object-aware equivariant elementary reaction diffusion model ( http://arxiv.org/abs/2304.06174v2 ) ライセンス: Link先を確認 | Chenru Duan, Yuanqi Du, Haojun Jia, and Heather J. Kulik | (参考訳) 遷移状態 (TS) 探索は反応機構の解明と反応ネットワークの探索に重要である。
しかし、正確な3次元TS構造を探すには、ポテンシャルエネルギー面の複雑さのために多くの計算集約的な量子化学計算が必要である。
そこで我々は, 反応器, TS, および生成物の集合を生成するために, 全ての物理対称性と制約を満たすオブジェクト指向SE(3)同変拡散モデルを開発した。
反応物と生成物により、このモデルは量子化学に基づく最適化を行うのに必要な時間ではなく、数秒でTS構造を生成する。
生成されたTS構造は、真のTSに比べて0.08 {\AA}根の平均平方偏差が中央値となる。
不確実性定量化のための信頼度スコアリングモデルを用いて、最も難しい反応の14\%で量子化学に基づく最適化を行うことで、反応速度推定に必要な精度(2.6 kcal/mol)にアプローチする。
提案手法は未知の機構を持つ大規模反応ネットワークの構築に有用である。 Transition state (TS) search is key in chemistry for elucidating reaction mechanisms and exploring reaction networks. The search for accurate 3D TS structures, however, requires numerous computationally intensive quantum chemistry calculations due to the complexity of potential energy surfaces. Here, we developed an object-aware SE(3) equivariant diffusion model that satisfies all physical symmetries and constraints for generating sets of structures - reactant, TS, and product - in an elementary reaction. Provided reactant and product, this model generates a TS structure in seconds instead of hours required when performing quantum chemistry-based optimizations. The generated TS structures achieve a median of 0.08 {\AA} root mean square deviation compared to the true TS. With a confidence scoring model for uncertainty quantification, we approach an accuracy required for reaction rate estimation (2.6 kcal/mol) by only performing quantum chemistry-based optimizations on 14\% of the most challenging reactions. We envision the proposed approach useful in constructing large reaction networks with unknown mechanisms. | 翻訳日:2023-04-18 19:47:42 公開日:2023-04-17 |
# Reclaimer: クラウドマイクロサービスのための動的リソース割り当てに対する強化学習アプローチ Reclaimer: A Reinforcement Learning Approach to Dynamic Resource Allocation for Cloud Microservices ( http://arxiv.org/abs/2304.07941v1 ) ライセンス: Link先を確認 | Quintin Fettes, Avinash Karanth, Razvan Bunescu, Brandon Beckwith, Sreenivas Subramoney | (参考訳) 多くのクラウドアプリケーションは、モノリシックモデルからマイクロサービスフレームワークに移行され、数百の疎結合マイクロサービスが並行して動作し、スケーラビリティ、迅速な開発、モジュール性、分離という面で大きなメリットがある。
しかしながら、不均一な実行時間を持つマイクロサービス間の依存関係は、長いキュー、アイドルリソース、あるいはQuality-of-Service(QoS)違反をもたらす可能性がある。
本稿では,qos要件を満たしながらcpuコアの割り当てを最小化するために,マイクロサービス数と動作のランタイム変化に対応する深層強化学習モデルreclaimerを提案する。
2つのベンチマークマイクロサービスベースのアプリケーションで評価すると、reclaimerは平均cpuコアの割り当てを業界標準のスケーリングソリューションと比較して38.4%から74.4%、現在の最先端の方法と比較して27.5%から58.1%削減する。 Many cloud applications are migrated from the monolithic model to a microservices framework in which hundreds of loosely-coupled microservices run concurrently, with significant benefits in terms of scalability, rapid development, modularity, and isolation. However, dependencies among microservices with uneven execution time may result in longer queues, idle resources, or Quality-of-Service (QoS) violations. In this paper we introduce Reclaimer, a deep reinforcement learning model that adapts to runtime changes in the number and behavior of microservices in order to minimize CPU core allocation while meeting QoS requirements. When evaluated with two benchmark microservice-based applications, Reclaimer reduces the mean CPU core allocation by 38.4% to 74.4% relative to the industry-standard scaling solution, and by 27.5% to 58.1% relative to a current state-of-the art method. | 翻訳日:2023-04-18 16:43:31 公開日:2023-04-17 |
# 不整合表現学習のためのスパースと共有特徴アクティベーションの活用 Leveraging sparse and shared feature activations for disentangled representation learning ( http://arxiv.org/abs/2304.07939v1 ) ライセンス: Link先を確認 | Marco Fumero, Florian Wenzel, Luca Zancato, Alessandro Achille, Emanuele Rodol\`a, Stefano Soatto, Bernhard Sch\"olkopf, Francesco Locatello | (参考訳) 高次元データの変動の潜在要因の回復は、これまで単純な合成設定に重点を置いてきた。
主に教師なしおよび弱教師付き目的に基づいて構築され、以前の研究は、実世界のデータにおける表現学習のポジティブな意味を欠いた。
本研究では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
各教師付きタスクがばらつきの要因の未知の部分集合のみに依存すると仮定すると、私たちは教師付きマルチタスクモデルの機能空間を分断し、異なるタスク間で機能を活性化し、適切な情報を共有する。
重要なことは、我々は変化の要因を直接観察することはないが、複数のタスクへのアクセスは、十分かつ最小限の仮定の下での識別に十分であることを示す。
6つの実世界の分散シフトベンチマークと異なるデータモダリティ(画像、テキスト)のアプローチを検証し、異種表現を実環境に転送する方法を実証した。 Recovering the latent factors of variation of high dimensional data has so far focused on simple synthetic settings. Mostly building on unsupervised and weakly-supervised objectives, prior work missed out on the positive implications for representation learning on real world data. In this work, we propose to leverage knowledge extracted from a diversified set of supervised tasks to learn a common disentangled representation. Assuming each supervised task only depends on an unknown subset of the factors of variation, we disentangle the feature space of a supervised multi-task model, with features activating sparsely across different tasks and information being shared as appropriate. Importantly, we never directly observe the factors of variations but establish that access to multiple tasks is sufficient for identifiability under sufficiency and minimality assumptions. We validate our approach on six real world distribution shift benchmarks, and different data modalities (images, text), demonstrating how disentangled representations can be transferred to real settings. | 翻訳日:2023-04-18 16:43:13 公開日:2023-04-17 |
# 厳密なプライバシー会計に対するランダム化アプローチ A Randomized Approach for Tight Privacy Accounting ( http://arxiv.org/abs/2304.07927v1 ) ライセンス: Link先を確認 | Jiachen T. Wang, Saeed Mahloujifar, Tong Wu, Ruoxi Jia, Prateek Mittal | (参考訳) コンポジション上のプライバシー漏洩、すなわちプライバシ会計の境界は、差分プライバシー(DP)の鍵となる課題である。
しかし、プライバシパラメータ($\varepsilon$または$\delta$)は、しばしば見積もりが容易であるが、制限が難しい。
本稿では,プライバシパラメータの推定値を形式的保証に変換することにより,dp構成におけるプライバシパラメータの厳格な上限を提供するという課題に対処する,新たな差分プライバシパラダイムとして,予測検証リリース(evr)を提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを検証し、最終的に検証結果に基づいてクエリ出力を解放する。
EVRの中核となるコンポーネントは、プライバシー検証である。
モンテカルロ法(MC)を用いたランダムなプライバシー検証手法を開発した。
さらに,既存のDP会計手法を精度と効率で上回るMCベースのDP会計器を提案する。
我々は,新たに提案するevrパラダイムが,プライバシ保護機械学習のユーティリティプライバシートレードオフを改善することを示す。 Bounding privacy leakage over compositions, i.e., privacy accounting, is a key challenge in differential privacy (DP). However, the privacy parameter ($\varepsilon$ or $\delta$) is often easy to estimate but hard to bound. In this paper, we propose a new differential privacy paradigm called estimate-verify-release (EVR), which addresses the challenges of providing a strict upper bound for privacy parameter in DP compositions by converting an estimate of privacy parameter into a formal guarantee. The EVR paradigm first estimates the privacy parameter of a mechanism, then verifies whether it meets this guarantee, and finally releases the query output based on the verification result. The core component of the EVR is privacy verification. We develop a randomized privacy verifier using Monte Carlo (MC) technique. Furthermore, we propose an MC-based DP accountant that outperforms existing DP accounting techniques in terms of accuracy and efficiency. Our empirical evaluation shows the newly proposed EVR paradigm improves the utility-privacy tradeoff for privacy-preserving machine learning. | 翻訳日:2023-04-18 16:42:54 公開日:2023-04-17 |
# 自動フェイクニュース検出のユーザ認識: アルゴリズムはオンライン誤報と戦えるか? User Perceptions of Automatic Fake News Detection: Can Algorithms Fight Online Misinformation? ( http://arxiv.org/abs/2304.07926v1 ) ライセンス: Link先を確認 | Bruno Tafur and Advait Sarkar | (参考訳) 偽ニュース検出アルゴリズムは、様々なニュース属性とその関連に機械学習を適用する。
しかし、その成功は通常、実際のユーザとは無関係に、静的ベンチマークでアルゴリズムがどのように振る舞うかに基づいて評価される。
一方,偽ニュースに対するユーザの信頼度に関する研究では,ユーザの以前の信念や記事形式,情報源の評判といった関連要因が指摘されている。
偽ニュース検出アルゴリズムによる警告が誤情報を検知するユーザの能力にどのように影響するかを評価するユーザスタディ(n=40)を提示する。
このような警告は,ユーザの真実に対する認識に強く影響し,適度に正確な分類器でも全体のユーザ精度を向上し,不正な場合でもアルゴリズムに同意する傾向にあることがわかった。 Fake news detection algorithms apply machine learning to various news attributes and their relationships. However, their success is usually evaluated based on how the algorithm performs on a static benchmark, independent of real users. On the other hand, studies of user trust in fake news has identified relevant factors such as the user's previous beliefs, the article format, and the source's reputation. We present a user study (n=40) evaluating how warnings issued by fake news detection algorithms affect the user's ability to detect misinformation. We find that such warnings strongly influence users' perception of the truth, that even a moderately accurate classifier can improve overall user accuracy, and that users tend to be biased towards agreeing with the algorithm, even when it is incorrect. | 翻訳日:2023-04-18 16:42:36 公開日:2023-04-17 |
# 勧告における優先理解のための因果距離変分自動エンコーダ Causal Disentangled Variational Auto-Encoder for Preference Understanding in Recommendation ( http://arxiv.org/abs/2304.07922v1 ) ライセンス: Link先を確認 | Siyu Wang and Xiaocong Chen and Quan Z. Sheng and Yihong Zhang and Lina Yao | (参考訳) 推奨モデルは一般的に観察的ユーザインタラクションデータに基づいて訓練されるが、ユーザの意思決定プロセスにおける潜在要因間の相互作用は、複雑で絡み合ったデータにつながる。
これらの潜在要因を分離してその基盤となる表現を明らかにすることで、レコメンデーションモデルのロバスト性、解釈性、制御性が向上する。
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
CaD-VAE法は,現実のレコメンデーションシナリオにおける意味的関連要因間の因果関係について考察する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
その結果,CaD-VAEは既存の手法よりも優れており,複雑なユーザ行動データをレコメンデーションシステムで切り離すための有望なソリューションを提供することがわかった。 Recommendation models are typically trained on observational user interaction data, but the interactions between latent factors in users' decision-making processes lead to complex and entangled data. Disentangling these latent factors to uncover their underlying representation can improve the robustness, interpretability, and controllability of recommendation models. This paper introduces the Causal Disentangled Variational Auto-Encoder (CaD-VAE), a novel approach for learning causal disentangled representations from interaction data in recommender systems. The CaD-VAE method considers the causal relationships between semantically related factors in real-world recommendation scenarios, rather than enforcing independence as in existing disentanglement methods. The approach utilizes structural causal models to generate causal representations that describe the causal relationship between latent factors. The results demonstrate that CaD-VAE outperforms existing methods, offering a promising solution for disentangling complex user behavior data in recommendation systems. | 翻訳日:2023-04-18 16:42:22 公開日:2023-04-17 |
# オフライン強化学習による推薦システムの因果決定変換器 Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning ( http://arxiv.org/abs/2304.07920v1 ) ライセンス: Link先を確認 | Siyu Wang and Xiaocong Chen and Dietmar Jannach and Lina Yao | (参考訳) 強化学習に基づくレコメンデーションシステムは近年人気を集めている。
しかし、エージェントが推奨ポリシーの最適化に頼っている報酬関数の設計は簡単ではないことが多い。
ユーザの行動に根ざした因果関係を探索することは,エージェントにユーザのダイナミックな関心を捉えるための報酬関数の代わりとなる。
さらに、シミュレーション環境(例えば、データ非効率性)の典型的な制限のため、ほとんどの作業は大規模な状況では広く適用できない。
オフラインデータセットをシミュレータに変換しようとする作業もあるが、データ非効率により学習プロセスはさらに遅くなる。
強化学習(すなわちインタラクションによる学習)の性質上、単一のインタラクションでトレーニングするのに十分なデータを収集することはできない。
さらに、従来の強化学習アルゴリズムは、オフラインデータセットから直接学習する教師付き学習手法のような強固な能力を持っていない。
本稿では,リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
さらにcdt4recは、大規模なオフラインデータセットを処理し、データ内の短期的および長期的依存関係をキャプチャして、アクション、状態、報酬の因果関係を推定するtransformerアーキテクチャを採用している。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。 Reinforcement learning-based recommender systems have recently gained popularity. However, the design of the reward function, on which the agent relies to optimize its recommendation policy, is often not straightforward. Exploring the causality underlying users' behavior can take the place of the reward function in guiding the agent to capture the dynamic interests of users. Moreover, due to the typical limitations of simulation environments (e.g., data inefficiency), most of the work cannot be broadly applied in large-scale situations. Although some works attempt to convert the offline dataset into a simulator, data inefficiency makes the learning process even slower. Because of the nature of reinforcement learning (i.e., learning by interaction), it cannot collect enough data to train during a single interaction. Furthermore, traditional reinforcement learning algorithms do not have a solid capability like supervised learning methods to learn from offline datasets directly. In this paper, we propose a new model named the causal decision transformer for recommender systems (CDT4Rec). CDT4Rec is an offline reinforcement learning system that can learn from a dataset rather than from online interaction. Moreover, CDT4Rec employs the transformer architecture, which is capable of processing large offline datasets and capturing both short-term and long-term dependencies within the data to estimate the causal relationship between action, state, and reward. To demonstrate the feasibility and superiority of our model, we have conducted experiments on six real-world offline datasets and one online simulator. | 翻訳日:2023-04-18 16:42:02 公開日:2023-04-17 |
# 不確実性を考慮した構造知識伝達による360$^\circ高分解能深さ推定 360$^\circ$ High-Resolution Depth Estimation via Uncertainty-aware Structural Knowledge Transfer ( http://arxiv.org/abs/2304.07967v1 ) ライセンス: Link先を確認 | Zidong Cao, Hao Ai, Lin Wang | (参考訳) 近年,全方位画像 (odis) が普及しているが, 角分解能は視点画像よりも低い傾向にあり, エッジなどの構造的詳細が劣化し, 3次元シーン理解課題, 特に単眼深度推定が困難になっている。
既存の手法は一般的に高分解能(HR) ODIを入力として利用し、完全に教師付き学習によって構造の詳細を復元する。
しかしながら、hr depth ground truth (gt) マップは、実際にはリソース制約されたデバイスのために収集するには大変または高価である。
そこで本研究では,HR深度GTマップが存在しない場合に,低分解能(LR) ODIから直接HR全方位深度を推定する。
我々のキーとなる考え方は、シーン構造知識を手軽に利用できるHR画像モダリティと対応するLR深度マップから転送し、余分な推論コストを伴わずにHR深度推定の目標を達成することである。
具体的には,ODIスーパーレゾリューション(SR)を補助タスクとして導入し,HR深度推定の性能を高めるために,両タスクを弱教師付きで協調的に訓練する。
ODI SR タスクは LR ODI を入力としてHR 画像を予測し,不確実性推定によりシーン構造的知識を抽出する。
これにより,シーン構造知識伝達(SSKT)モジュールを2つのキーコンポーネントで提案する。
まず,円筒型暗黙的補間関数(ciif)を用いて,円筒型神経補間重みを学習し,二つのタスク間でciifのパラメータを共有する。
次に,hr深度推定タスクがシーン構造知識をより多く学ぶのに役立つ追加構造正規化を提供する特徴蒸留(fd)損失を提案する。 Recently, omnidirectional images (ODIs) have become increasingly popular; however, their angular resolution tends to be lower than that of perspective images.This leads to degraded structural details such as edges, causing difficulty in learning 3D scene understanding tasks, especially monocular depth estimation. Existing methods typically leverage high-resolution (HR) ODI as the input, so as to recover the structural details via fully-supervised learning. However, the HR depth ground truth (GT) maps may be arduous or expensive to be collected due to resource-constrained devices in practice. Therefore, in this paper, we explore for the first time to estimate the HR omnidirectional depth directly from a low-resolution (LR) ODI, when no HR depth GT map is available. Our key idea is to transfer the scene structural knowledge from the readily available HR image modality and the corresponding LR depth maps to achieve the goal of HR depth estimation without extra inference cost. Specifically, we introduce ODI super-resolution (SR) as an auxiliary task and train both tasks collaboratively in a weakly supervised manner to boost the performance of HR depth estimation. The ODI SR task takes an LR ODI as the input to predict an HR image, enabling us to extract the scene structural knowledge via uncertainty estimation. Buttressed by this, a scene structural knowledge transfer (SSKT) module is proposed with two key components. First, we employ a cylindrical implicit interpolation function (CIIF) to learn cylindrical neural interpolation weights for feature up-sampling and share the parameters of CIIFs between the two tasks. Then, we propose a feature distillation (FD) loss that provides extra structural regularization to help the HR depth estimation task learn more scene structural knowledge. | 翻訳日:2023-04-18 16:34:59 公開日:2023-04-17 |
# オープンダブル2レベルシステムのダイナミクスとその絡み合い発生 Dynamics of a driven open double two-level system and its entanglement generation ( http://arxiv.org/abs/2304.07959v1 ) ライセンス: Link先を確認 | W. Ma, X. L. Huang, and S. L. Wu | (参考訳) ルイス・リースンフェルド不変量理論に基づくマルコフマスター方程式を導出することにより, 開2次系の動力学について検討する。
熱貯水池への結合によって引き起こされる遷移はルイス=リースフェルト不変量の瞬時固有状態の間で起こる。
したがって、対応するルイス・リーゼンフェルド不変量に関連する異なる駆動プロトコルは、異なる開系ダイナミクスと対称性をもたらす。
特に, 2次駆動系の瞬時定常状態は, 超低温におけるルイス・リーゼンフェルド不変量の固有状態の1つであることから, ルイス・リーゼンフェルド不変量に基づく逆工学的手法は, 開量子系の量子状態の高速生成に優れた性能を持つことを示す。
例えば、完全な絡み合った状態は、逆工学的手法によって生成される。 We investigate the dynamics of the driven open double two-level system by deriving a driven Markovian master equation based on the Lewis-Riesenfeld invariant theory. The transitions induced by coupling to the heat reservoir occur between the instantaneous eigenstates of the Lewis-Riesenfeld invariant. Therefore, different driving protocols associated with corresponding Lewis-Riesenfeld invariants result in different open system dynamics and symmetries. In particular, we show that since the instantaneous steady state of the driven double two-level system is one of eigenstates of the Lewis-Riesenfeld invariant at ultralow reservoir temperature, the inverse engineering method based on the Lewis-Riesenfeld invariants has a good performance in rapidly preparing the quantum state of open quantum systems. As an example, a perfect entangled state is generated by means of the inverse engineering method. | 翻訳日:2023-04-18 16:34:25 公開日:2023-04-17 |
# 回帰に基づく感情認識における聴覚・視覚融合のための再帰的関節注意 Recursive Joint Attention for Audio-Visual Fusion in Regression based Emotion Recognition ( http://arxiv.org/abs/2304.07958v1 ) ライセンス: Link先を確認 | R Gnana Praveen, Eric Granger, Patrick Cardinal | (参考訳) 映像に基づく感情認識(ER)では、個々のモーダルのモーダル内特性を維持しつつ、音声(A)と視覚(V)のモーダル間の相補的関係を効果的に活用することが重要である。
本稿では,レグレッションベースERにおける音声と表情の融合のための長期記憶(LSTM)モジュールとともに,再帰的共同注意モデルを提案する。
具体的には, A-V の特徴表現だけでなく, A-V の特徴表現においても, A と V の相補的な性質を LSTM と再帰的に組み合わせ, LSTM と組み合わせて捉える可能性を検討した。
LSTMを再帰的関節交叉留置と統合することにより,AとVの融合において,モード内関係とモーダル間関係を効果的に利用することができる。
Affwild2と疲労(プライベート)データセットに関する広範な実験の結果は、提案したA-V融合モデルが金属の状態を著しく上回ることを示す。 In video-based emotion recognition (ER), it is important to effectively leverage the complementary relationship among audio (A) and visual (V) modalities, while retaining the intra-modal characteristics of individual modalities. In this paper, a recursive joint attention model is proposed along with long short-term memory (LSTM) modules for the fusion of vocal and facial expressions in regression-based ER. Specifically, we investigated the possibility of exploiting the complementary nature of A and V modalities using a joint cross-attention model in a recursive fashion with LSTMs to capture the intra-modal temporal dependencies within the same modalities as well as among the A-V feature representations. By integrating LSTMs with recursive joint cross-attention, our model can efficiently leverage both intra- and inter-modal relationships for the fusion of A and V modalities. The results of extensive experiments performed on the challenging Affwild2 and Fatigue (private) datasets indicate that the proposed A-V fusion model can significantly outperform state-of-art-methods. | 翻訳日:2023-04-18 16:34:11 公開日:2023-04-17 |
# フォーム状文書画像からのキーバリューペア抽出に対する質問応答手法 A Question-Answering Approach to Key Value Pair Extraction from Form-like Document Images ( http://arxiv.org/abs/2304.07957v1 ) ライセンス: Link先を確認 | Kai Hu, Zhuoyuan Wu, Zhuoyao Zhong, Weihong Lin, Lei Sun, Qiang Huo | (参考訳) 本稿では,KVPFormerと呼ばれる,QAに基づくキー-値ペア抽出手法を提案する。
具体的には、kvpformerはまず、画像内のすべてのエンティティからキーエンティティをトランスフォーマエンコーダで識別し、次にこれらのキーエンティティを \textbf{questions} として、対応する \textbf{answers} (すなわち値エンティティ) を並列に予測するトランスフォーマデコーダに供給する。
さらに,より高精度な回答予測を実現するために,各質問に対する複数の回答候補を粗い段階で抽出し,その候補の中から最も可能性の高い回答候補を精細な段階で選択する粗い回答予測手法を提案する。
これにより、回答予測の学習難しさを効果的に低減し、予測精度を向上させることができる。
さらに,物体間の空間的相互作用をより良くモデル化するために,空間的整合性注意バイアスを導入している。
これらの新手法により,提案したOurs{} は FUNSD と XFUND のデータセットの最先端化を実現し,F1 のスコアの7.2 % と 13.2 % をそれぞれ上回った。 In this paper, we present a new question-answering (QA) based key-value pair extraction approach, called KVPFormer, to robustly extracting key-value relationships between entities from form-like document images. Specifically, KVPFormer first identifies key entities from all entities in an image with a Transformer encoder, then takes these key entities as \textbf{questions} and feeds them into a Transformer decoder to predict their corresponding \textbf{answers} (i.e., value entities) in parallel. To achieve higher answer prediction accuracy, we propose a coarse-to-fine answer prediction approach further, which first extracts multiple answer candidates for each identified question in the coarse stage and then selects the most likely one among these candidates in the fine stage. In this way, the learning difficulty of answer prediction can be effectively reduced so that the prediction accuracy can be improved. Moreover, we introduce a spatial compatibility attention bias into the self-attention/cross-attention mechanism for \Ours{} to better model the spatial interactions between entities. With these new techniques, our proposed \Ours{} achieves state-of-the-art results on FUNSD and XFUND datasets, outperforming the previous best-performing method by 7.2\% and 13.2\% in F1 score, respectively. | 翻訳日:2023-04-18 16:33:52 公開日:2023-04-17 |
# lewis-riesenfeld不変量理論に基づく駆動マルコフマスター方程式 The driven-Markovian master equation based on the Lewis-Riesenfeld invariants theory ( http://arxiv.org/abs/2304.07956v1 ) ライセンス: Link先を確認 | S. L. Wu, X. L. Huang, and X. X. Yi | (参考訳) 任意の駆動プロトコルで利用できるルイス=リースフェルド不変量理論に基づいて、駆動されたオープン量子系に対するマルコフのマスター方程式を導出する。ルイス=リースフェルド不変量の役割は、駆動されたマルコフのマスター方程式におけるリンドブラッド作用素が容易に決定できるような自由力学の伝搬子を拡張する際の時間順序障害を回避することである。
また、駆動された開量子系では、自然放出と熱励起はルイス=リースフェルト不変量の固有状態間の遷移を誘導するが、ハミルトニアン系は誘導しない。
一例として、熱貯水池に結合した駆動二段系に対する駆動マルコフマスター方程式を示す。
正確に解けるモデルと比較することにより、駆動マルコフマスター方程式の可用性が検証される。
一方、駆動マルコフマスター方程式の断熱限界と慣性限界も議論され、その結果、対応する極限において前と同じマルコフマスター方程式が得られる。 We derive a Markovian master equation for driven open quantum systems based on the Lewis-Riesenfeld invariants theory, which is available for arbitrary driving protocols.The role of the Lewis-Riesenfeld invariants is to help us bypass the time-ordering obstacle in expanding the propagator of the free dynamics, such that the Lindblad operators in our driven-Markovian master equation can be determined easily. We also illustrate that, for the driven open quantum systems, the spontaneous emission and the thermal excitation induce the transitions between eigenstates of the Lewis-Riesenfeld invariant, but not the system Hamiltonian's. As an example, we present the driven-Markovian master equation for a driven two-level system coupled to a heat reservoir. By comparing to the exactly solvable models, the availability of the driven-Markovian master equation is verified. Meanwhile, the adiabatic limit and inertial limit of the driven-Markovian master equation are also discussed, which result in the same Markovian master equations as those presented before in the corresponding limits. | 翻訳日:2023-04-18 16:33:25 公開日:2023-04-17 |
# 正・無ラベルデータによる異種領域適応 Heterogeneous Domain Adaptation with Positive and Unlabeled Data ( http://arxiv.org/abs/2304.07955v1 ) ライセンス: Link先を確認 | Junki Mori, Ryo Furukawa, Isamu Teranishi, Jun Sakuma | (参考訳) 不均質な非教師付きドメイン適応(HUDA)は、特徴空間がソースとターゲットドメインの間で異なる最も困難なドメイン適応設定であり、ターゲットドメインはラベルのないデータしか持たない。
既存のhudaメソッドは、ポジティブな例とネガティブな例の両方がソースドメインで利用可能であると仮定している。
本稿では,ソースドメインが正しか持たないhuda設定であるpu-hda(professional and unlabeled hetero domain adaptation)という,新たな挑戦的な設定について述べる。
pu-hdaは、ポジティブな例とラベルなしの例が異なるドメインからサンプルされる、pu learningの拡張と見なすこともできる。
既存のHUDAとPU学習法の単純な組み合わせは、ソースとターゲットドメイン間のラベル分布のギャップのため、PU-HDAでは効果がない。
この問題を解決するために,ラベルのない対象データから潜在的正のサンプルを予測し,特徴空間を同時に整列させて,ソースデータ全体と潜在的正の目標データとの分布ばらつきを低減する,新たな手法であるPADAを提案する。
PADAは、正の例を予測する分類器と、対象の特徴空間をソースのそれに変換する特徴変換器を学習するための、統一された対角訓練フレームワークによってこれを達成している。
具体的には、両者とも、おそらく肯定的な例がターゲットドメインかソースドメインかを決定する一般的な判別器を騙すように訓練されている。
PADAは,HUDAとPU学習の単純な組み合わせなど,いくつかの基本的手法よりも優れていることを示す。 Heterogeneous unsupervised domain adaptation (HUDA) is the most challenging domain adaptation setting where the feature space differs between source and target domains, and the target domain has only unlabeled data. Existing HUDA methods assume that both positive and negative examples are available in the source domain, which may not be satisfied in some real applications. This paper addresses a new challenging setting called positive and unlabeled heterogeneous domain adaptation (PU-HDA), a HUDA setting where the source domain only has positives. PU-HDA can also be viewed as an extension of PU learning where the positive and unlabeled examples are sampled from different domains. A naive combination of existing HUDA and PU learning methods is ineffective in PU-HDA due to the gap in label distribution between the source and target domains. To overcome this issue, we propose a novel method, positive-adversarial domain adaptation (PADA), which can predict likely positive examples from the unlabeled target data and simultaneously align the feature spaces to reduce the distribution divergence between the whole source data and the likely positive target data. PADA achieves this by a unified adversarial training framework for learning a classifier to predict positive examples and a feature transformer to transform the target feature space to that of the source. Specifically, they are both trained to fool a common discriminator that determines whether the likely positive examples are from the target or source domain. We experimentally show that PADA outperforms several baseline methods, such as the naive combination of HUDA and PU learning. | 翻訳日:2023-04-18 16:33:05 公開日:2023-04-17 |
# 非エルミート量子フェルミ加速器 Non-Hermitian Quantum Fermi Accelerator ( http://arxiv.org/abs/2304.07950v1 ) ライセンス: Link先を確認 | Andreas Fring, Takanobu Taira | (参考訳) 時間依存ディリクレ境界条件を持つ時間非依存非エルミートハミルトン系からなる量子フェルミ加速器モデルを正確に解く。
そのような系のヒルベルト空間は、まず時間に依存しないダイソン写像を構築し、その後に固定境界条件にユニタリマッピングするか、最初に固定境界条件にユニタリマッピングし、次に時間依存ダイソン写像を構築することによって、2つの同値な方法で定義される。
これにより、時間に依存しない計量と、移動境界を凍結する2つの時間依存ユニタリ写像から時間依存計量作用素を構築することができる。
時間依存エネルギースペクトルから,pt-regimeの平均エネルギーにおける振動挙動の既知の可能性を見いだし,自発的に壊れたpt-regimeでは,1回のエネルギー枯渇の新たな特徴を観察した。
また,pt破壊機構は移動境界によって修正され,時間依存ダイソンマップで固定されることを示した。 We exactly solve a quantum Fermi accelerator model consisting of a time-independent non-Hermitian Hamiltonian with time-dependent Dirichlet boundary conditions. A Hilbert space for such systems can be defined in two equivalent ways, either by first constructing a time-independent Dyson map and subsequently unitarily mapping to fixed boundary conditions or by first unitarily mapping to fixed boundary conditions followed by the construction of a time-dependent Dyson map. In turn this allows to construct time-dependent metric operators from a time-independent metric and two time-dependent unitary maps that freeze the moving boundaries. From the time-dependent energy spectrum, we find the known possibility of oscillatory behavior in the average energy in the PT-regime, whereas in the spontaneously broken PT-regime we observe the new feature of a one-time depletion of the energy. We show that the PT broken regime is mended with moving boundary, equivalently to mending it with a time-dependent Dyson map. | 翻訳日:2023-04-18 16:32:37 公開日:2023-04-17 |
# モデルミス種別に基づくベイズ最適実験設計のための計量 Metrics for Bayesian Optimal Experiment Design under Model Misspecification ( http://arxiv.org/abs/2304.07949v1 ) ライセンス: Link先を確認 | Tommie A. Catanach and Niladri Das | (参考訳) ベイズ決定理論実験設計への従来のアプローチは、特定のユーティリティ関数の期待値を最大化する設計を選択するために可能な実験を探索することを含む。
この期待は、収集されたデータを分析するために使用される統計モデルによって暗示されるすべての未知変数のジョイント分布を上回っている。
ユーティリティ関数は、共通のユーティリティ関数が情報ゲインである実験の目的を定義する。
本稿では、従来の予測情報ゲイン基準を超えて、モデル不一致に対する堅牢性を測定する期待情報ゲインと、実験がモデル不一致をどの程度検出できるかを定量化するための基準として期待識別情報を導入する。
このフレームワークの機能は、線形ばね質量ダンパシステムと、ベイズ最適実験設計をしながらモデルの不一致を考慮に入れるf-16モデルを含むシナリオに応用して紹介されている。 The conventional approach to Bayesian decision-theoretic experiment design involves searching over possible experiments to select a design that maximizes the expected value of a specified utility function. The expectation is over the joint distribution of all unknown variables implied by the statistical model that will be used to analyze the collected data. The utility function defines the objective of the experiment where a common utility function is the information gain. This article introduces an expanded framework for this process, where we go beyond the traditional Expected Information Gain criteria and introduce the Expected General Information Gain which measures robustness to the model discrepancy and Expected Discriminatory Information as a criterion to quantify how well an experiment can detect model discrepancy. The functionality of the framework is showcased through its application to a scenario involving a linearized spring mass damper system and an F-16 model where the model discrepancy is taken into account while doing Bayesian optimal experiment design. | 翻訳日:2023-04-18 16:32:19 公開日:2023-04-17 |
# 地理的分散データセンターの持続可能なAIGCワークロードスケジューリング:マルチエージェント強化学習アプローチ Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A Multi-Agent Reinforcement Learning Approach ( http://arxiv.org/abs/2304.07948v1 ) ライセンス: Link先を確認 | Siyue Zhang, Minrui Xu, Wei Yang Bryan Lim, and Dusit Niyato | (参考訳) 生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンター間のスケジューリングトレーニングジョブは、安価で低炭素エネルギーによるコンピューティング能力の使用を最適化する機会を公開し、ワークロードの不均衡の問題に対処する。
運用コストを低減しつつgpu利用を最大化するマルチ目的スケジューリングの課題に取り組むために,実生活のワークロードパターン,エネルギー価格,カーボンインテンシティを組み込んだクラウドシステムとのインタラクションを通じて,最適な協調スケジューリング戦略を学習するためのマルチエージェント強化学習とアクター-クリティック手法に基づくアルゴリズムを提案する。
他のアルゴリズムと比較して、提案手法は、GPU利用率の向上、エネルギーコストの低減、二酸化炭素排出量の削減に起因するシステム利用率を最大28.6%向上させる。 Recent breakthroughs in generative artificial intelligence have triggered a surge in demand for machine learning training, which poses significant cost burdens and environmental challenges due to its substantial energy consumption. Scheduling training jobs among geographically distributed cloud data centers unveils the opportunity to optimize the usage of computing capacity powered by inexpensive and low-carbon energy and address the issue of workload imbalance. To tackle the challenge of multi-objective scheduling, i.e., maximizing GPU utilization while reducing operational costs, we propose an algorithm based on multi-agent reinforcement learning and actor-critic methods to learn the optimal collaborative scheduling strategy through interacting with a cloud system built with real-life workload patterns, energy prices, and carbon intensities. Compared with other algorithms, our proposed method improves the system utility by up to 28.6% attributable to higher GPU utilization, lower energy cost, and less carbon emission. | 翻訳日:2023-04-18 16:32:04 公開日:2023-04-17 |
# GNNでリソースのランク付けを学ぶ Learning To Rank Resources with GNN ( http://arxiv.org/abs/2304.07946v1 ) ライセンス: Link先を確認 | Ulugbek Ergashev, Eduard C. Dragut, Weiyi Meng | (参考訳) インターネット上のコンテンツが成長を続けるにつれ、多くの新しい動的変化と異種データ源が絶えず出現する。
従来の検索エンジンは、インターネットの拡大と同じペースでクロールやインデックスを行うことはできない。
さらに、インターネット上のデータの大部分は、従来の検索エンジンではアクセスできない。
分散情報検索(dir)は、複数のシャード(リソース)を統合し、それらへの統一的なアクセスを提供するため、実現可能なソリューションである。
資源選択はDIRシステムの重要な構成要素である。
DIRの資源選択手法に関する文献が豊富にある。
既存のアプローチの鍵となる制限は、主に項ベースの統計機能を使用し、一般にリソースクエリとリソースリソースの関係をモデル化しないことである。
本稿では,資源クエリと資源リソースの関係をモデル化可能なグラフニューラルネットワーク(GNN)に基づく学習とランクのアプローチを提案する。
具体的には、事前学習言語モデル(PTLM)を用いて、クエリやリソースから意味情報を取得する。
そして,クエリ-リソース関係の構造情報を保存するための異種グラフを明示的に構築し,GNNを用いて構造情報を抽出する。
さらに、ヘテロジニアスグラフにはリソースリソース型エッジが強化され、ランキング精度がさらに向上する。
ベンチマークデータセットに関する広範な実験は,提案手法が資源選択に非常に有効であることを示す。
本手法は,様々なパフォーマンス指標において,最先端の6.4%から42%を上回っている。 As the content on the Internet continues to grow, many new dynamically changing and heterogeneous sources of data constantly emerge. A conventional search engine cannot crawl and index at the same pace as the expansion of the Internet. Moreover, a large portion of the data on the Internet is not accessible to traditional search engines. Distributed Information Retrieval (DIR) is a viable solution to this as it integrates multiple shards (resources) and provides a unified access to them. Resource selection is a key component of DIR systems. There is a rich body of literature on resource selection approaches for DIR. A key limitation of the existing approaches is that they primarily use term-based statistical features and do not generally model resource-query and resource-resource relationships. In this paper, we propose a graph neural network (GNN) based approach to learning-to-rank that is capable of modeling resource-query and resource-resource relationships. Specifically, we utilize a pre-trained language model (PTLM) to obtain semantic information from queries and resources. Then, we explicitly build a heterogeneous graph to preserve structural information of query-resource relationships and employ GNN to extract structural information. In addition, the heterogeneous graph is enriched with resource-resource type of edges to further enhance the ranking accuracy. Extensive experiments on benchmark datasets show that our proposed approach is highly effective in resource selection. Our method outperforms the state-of-the-art by 6.4% to 42% on various performance metrics. | 翻訳日:2023-04-18 16:31:46 公開日:2023-04-17 |
# 微分方程式問題に対するin-context operator learning In-Context Operator Learning for Differential Equation Problems ( http://arxiv.org/abs/2304.07993v1 ) ライセンス: Link先を確認 | Liu Yang, Siting Liu, Tingwei Meng, Stanley J. Osher | (参考訳) 本稿では,新しいニューラルネットワークベースの手法であるin-context differential equation encoder-decoder (indeed)を提案する。
既存の方法は、ニューラルネットワークを使用して特定の方程式解や特定の演算子を近似することに限定され、異なる方程式を持つ新しい問題に切り替える際には、再訓練を必要とする。
オペレータの学習者として1つのニューラルネットワークをトレーニングすることで、ニューラルネットワークの新たな問題に対する再トレーニング(微調整さえ)を取り除くだけでなく、演算子間で共有される共通性を活用することで、新たな演算子を学ぶ上で必要なデモはわずかである。
数値計算の結果,ODE と PDE の前方・逆問題を含む微分方程式の多角化問題に対する数発の演算子学習能力を示すとともに,未知の演算子であっても,学習能力をトレーニング分布を超える演算子に一般化できることが示唆された。 This paper introduces a new neural-network-based approach, namely IN-context Differential Equation Encoder-Decoder (INDEED), to simultaneously learn operators from data and apply it to new questions during the inference stage, without any weight update. Existing methods are limited to using a neural network to approximate a specific equation solution or a specific operator, requiring retraining when switching to a new problem with different equations. By training a single neural network as an operator learner, we can not only get rid of retraining (even fine-tuning) the neural network for new problems, but also leverage the commonalities shared across operators so that only a few demos are needed when learning a new operator. Our numerical results show the neural network's capability as a few-shot operator learner for a diversified type of differential equation problems, including forward and inverse problems of ODEs and PDEs, and also show that it can generalize its learning capability to operators beyond the training distribution, even to an unseen type of operator. | 翻訳日:2023-04-18 16:25:00 公開日:2023-04-17 |
# 小型視覚プロンプトを用いたワンショット・部分修正細胞画像分割 One-shot and Partially-Supervised Cell Image Segmentation Using Small Visual Prompt ( http://arxiv.org/abs/2304.07991v1 ) ライセンス: Link先を確認 | Sota Kato and Kazuhiro Hotta | (参考訳) 深層学習を用いた微視的細胞像のセマンティックセグメンテーションは重要な技術であるが、訓練には多数の画像と地上の真理ラベルが必要である。
上記の問題に対処するために、可能な限り少ないデータで効率的な学習フレームワークを検討するとともに、1つのトレーニングサンプルだけで学習できるワンショットセグメンテーションと、画像の一部にアノテーションを割り当てる部分教師付きセグメンテーションという2つのタイプの学習戦略を提案する。
さらに,近年の研究では,素早い学習にインスパイアされた小さなプロンプト画像を用いた新しいセグメンテーション手法を提案する。
提案手法は,セルイメージのみに基づく事前学習モデルを用いて,アテンション機構によってセグメント化される対象画像に対して,プロンプトペアの情報を教えることで,アノテーションコストの負担を低減しつつ,効率的な学習を可能にする。
3種類の顕微鏡画像データセットを用いた実験により,提案手法は従来の方法と比較してDSC(Dice score coefficient)を改善したことを確認した。 Semantic segmentation of microscopic cell images using deep learning is an important technique, however, it requires a large number of images and ground truth labels for training. To address the above problem, we consider an efficient learning framework with as little data as possible, and we propose two types of learning strategies: One-shot segmentation which can learn with only one training sample, and Partially-supervised segmentation which assigns annotations to only a part of images. Furthermore, we introduce novel segmentation methods using the small prompt images inspired by prompt learning in recent studies. Our proposed methods use a pre-trained model based on only cell images and teach the information of the prompt pairs to the target image to be segmented by the attention mechanism, which allows for efficient learning while reducing the burden of annotation costs. Through experiments conducted on three types of microscopic cell image datasets, we confirmed that the proposed method improved the Dice score coefficient (DSC) in comparison with the conventional methods. | 翻訳日:2023-04-18 16:24:40 公開日:2023-04-17 |
# 中国のオープンインストラクションジェネラリスト:予備リリース Chinese Open Instruction Generalist: A Preliminary Release ( http://arxiv.org/abs/2304.07987v1 ) ライセンス: Link先を確認 | Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wenhao Huang, Jie Fu | (参考訳) InstructGPT \cite{ouyang2022training} と ChatGPT [ https://chat.openai.com/ ] のリリースにより、研究者や一般の注目が集まっている。
英語指向の大規模言語モデル (\textbf{LLMs}) の顕著な進歩にもかかわらず, 英語をベースとした LLM が, 英語のタスクに対して, 十分に設計された指導チューニングと, チューニングに必要なコーパスを構築することができるかは, いまだ未定である。
このギャップを解消するために,4つのサブタスクの特徴に適応した様々な手法による中国語命令データセット作成の試みとして提案する。
我々は、品質を保証するために手作業でチェックされた約200万の中国語命令チューニングサンプルを収集した。
また,既存の英中国語指導コーパスを要約し,新たに構築した中国語指導コーパスの応用可能性について概説する。 Instruction tuning is widely recognized as a key technique for building generalist language models, which comes to the attention of researchers and the public with the release of InstructGPT \cite{ouyang2022training} and ChatGPT [ https://chat.openai.com/ ]. Despite impressive progress in English-oriented large-scale language models (\textbf{LLMs}), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and brief some potential applications of the newly constructed Chinese instruction corpora. | 翻訳日:2023-04-18 16:24:22 公開日:2023-04-17 |
# Snacks: 高速な大規模カーネルSVMソルバ Snacks: a fast large-scale kernel SVM solver ( http://arxiv.org/abs/2304.07983v1 ) ライセンス: Link先を確認 | Sofiane Tanji and Andrea Della Vecchia and Fran\c{c}ois Glineur and Silvia Villa | (参考訳) カーネルメソッドは非パラメトリック学習のための強力なフレームワークを提供する。
これらはカーネル関数に基づいており、リッジ回帰やサポートベクターマシンといった線形統計学習ツールを適用しながら、豊富な関数空間で学習することができる。
しかしながら、標準的なカーネルメソッドは、データポイント数において二次時間とメモリの複雑さに苦しむため、大規模学習に限定的な応用がある。
本稿では,カーネルサポートベクターマシンのための新しい大規模解法スナックを提案する。
具体的には、Snacks は Nystr\"om approximation of the kernel matrix and a accelerated variant of the stochastic subgradient method に依存する。
我々は、様々なベンチマークデータセットで他のsvmソルバと競合する詳細な経験的評価を通じて正式に実証する。 Kernel methods provide a powerful framework for non parametric learning. They are based on kernel functions and allow learning in a rich functional space while applying linear statistical learning tools, such as Ridge Regression or Support Vector Machines. However, standard kernel methods suffer from a quadratic time and memory complexity in the number of data points and thus have limited applications in large-scale learning. In this paper, we propose Snacks, a new large-scale solver for Kernel Support Vector Machines. Specifically, Snacks relies on a Nystr\"om approximation of the kernel matrix and an accelerated variant of the stochastic subgradient method. We demonstrate formally through a detailed empirical evaluation, that it competes with other SVM solvers on a variety of benchmark datasets. | 翻訳日:2023-04-18 16:24:01 公開日:2023-04-17 |
# ランダム化クライアント参加型非バイアスフェデレーション学習のためのインセンティブ機構設計 Incentive Mechanism Design for Unbiased Federated Learning with Randomized Client Participation ( http://arxiv.org/abs/2304.07981v1 ) ライセンス: Link先を確認 | Bing Luo, Yutong Feng, Shiqiang Wang, Jianwei Huang, Leandros Tassiulas | (参考訳) 合理的クライアントがサーバとグローバルモデルに同じ関心を持っていない場合、インセンティブメカニズムは連邦学習(FL)にとって不可欠である。
しかしながら、システムの不均一性と予算の制限のため、サーバがすべてのクライアントに対してすべてのトレーニングラウンド(フル参加と呼ばれる)に参加する動機を与えるのは現実的ではない。
既存のflインセンティブメカニズムは、通常、データ量やシステムリソースに基づいてクライアントの固定サブセットを刺激することによって設計される。
したがって、flはトレーニングプロセス全体を通して、このサブセットのクライアントのみを使用して実行されるため、データの多様性のためにバイアスモデルとなる。
本稿では,ランダム化されたクライアント参加を伴うflのゲーム理論的インセンティブ機構を提案する。サーバは,異なるクライアントが異なる参加レベル(確率)に参加することを動機づけるカスタマイズされた価格戦略を採用し,偏りのないハイパフォーマンスモデルを得る。
各クライアントは、最も優れた参加レベルを選択してサーバの金銭的インセンティブに反応し、その利益を、発生したローカルコストだけでなく、グローバルモデルに対する本質的な価値に基づいて最大化する。
モデル性能に対するクライアントの貢献を効果的に評価するために、クライアントの任意の参加レベルとその異種データがモデル性能に与える影響を解析的に予測する新しい収束境界を導出する。
非凸最適化問題を解くことにより,本分析の結果,サーバとクライアント間の双方向支払いの可能性が示唆された。
ハードウェアプロトタイプ上の実データセットを用いた実験の結果,サーバのモデル性能向上とクライアントの利益向上の機構の優位性が実証された。 Incentive mechanism is crucial for federated learning (FL) when rational clients do not have the same interests in the global model as the server. However, due to system heterogeneity and limited budget, it is generally impractical for the server to incentivize all clients to participate in all training rounds (known as full participation). The existing FL incentive mechanisms are typically designed by stimulating a fixed subset of clients based on their data quantity or system resources. Hence, FL is performed only using this subset of clients throughout the entire training process, leading to a biased model because of data heterogeneity. This paper proposes a game theoretic incentive mechanism for FL with randomized client participation, where the server adopts a customized pricing strategy that motivates different clients to join with different participation levels (probabilities) for obtaining an unbiased and high performance model. Each client responds to the server's monetary incentive by choosing its best participation level, to maximize its profit based on not only the incurred local cost but also its intrinsic value for the global model. To effectively evaluate clients' contribution to the model performance, we derive a new convergence bound which analytically predicts how clients' arbitrary participation levels and their heterogeneous data affect the model performance. By solving a non-convex optimization problem, our analysis reveals that the intrinsic value leads to the interesting possibility of bidirectional payment between the server and clients. Experimental results using real datasets on a hardware prototype demonstrate the superiority of our mechanism in achieving higher model performance for the server as well as higher profits for the clients. | 翻訳日:2023-04-18 16:23:48 公開日:2023-04-17 |
# RNN-Guard: 繰り返しニューラルネットワークに対するマルチフレーム攻撃に対する認証ロバスト性 RNN-Guard: Certified Robustness Against Multi-frame Attacks for Recurrent Neural Networks ( http://arxiv.org/abs/2304.07980v1 ) ライセンス: Link先を確認 | Yunruo Zhang, Tianyu Du, Shouling Ji, Peng Tang, and Shanqing Guo | (参考訳) リカレントニューラルネットワーク(recurrent neural networks, rnns)は広く使われているが、一フレーム攻撃や多フレーム攻撃などの敵の攻撃に対して脆弱である。
1フレーム攻撃に対する確実な堅牢性を提供するための認証された防御策はいくつか存在するが、多フレーム攻撃に対する防御は、その巨大な摂動空間のために難しい問題である。
本稿では,RNN-Guardと呼ばれるマルチフレーム攻撃に対する最初の認証防御法を提案する。
上記の課題に対処するため,マルチフレーム攻撃と一致する摂動空間を構築するために,摂動全体の戦略を採用する。
しかし、摂動オールフレーム戦略は線形緩和の精度問題を引き起こす。
この問題に対処するため,我々はinterzonoと呼ばれる新しい抽象ドメインを導入し,より厳密な緩和をデザインする。
我々は、interzonoがzonotopeよりも正確でありながら同時に複雑なことを証明している。
様々なデータセットやモデル構造に対する実験的な評価は、RNN-GuardがInterZonoで計算した精度がZonotopeの2.18倍であることを示している。
さらに、RNN-Guardを、RNNの堅牢性を直接強化する、マルチフレーム攻撃に対する最初の認定訓練方法として拡張する。
その結果、RNN-Guardで訓練されたモデルのマルチフレーム攻撃に対する信頼性は15.47から67.65ポイントと他の訓練方法よりも高いことがわかった。 It is well-known that recurrent neural networks (RNNs), although widely used, are vulnerable to adversarial attacks including one-frame attacks and multi-frame attacks. Though a few certified defenses exist to provide guaranteed robustness against one-frame attacks, we prove that defending against multi-frame attacks remains a challenging problem due to their enormous perturbation space. In this paper, we propose the first certified defense against multi-frame attacks for RNNs called RNN-Guard. To address the above challenge, we adopt the perturb-all-frame strategy to construct perturbation spaces consistent with those in multi-frame attacks. However, the perturb-all-frame strategy causes a precision issue in linear relaxations. To address this issue, we introduce a novel abstract domain called InterZono and design tighter relaxations. We prove that InterZono is more precise than Zonotope yet carries the same time complexity. Experimental evaluations across various datasets and model structures show that the certified robust accuracy calculated by RNN-Guard with InterZono is up to 2.18 times higher than that with Zonotope. In addition, we extend RNN-Guard as the first certified training method against multi-frame attacks to directly enhance RNNs' robustness. The results show that the certified robust accuracy of models trained with RNN-Guard against multi-frame attacks is 15.47 to 67.65 percentage points higher than those with other training methods. | 翻訳日:2023-04-18 16:23:20 公開日:2023-04-17 |
# NeRF-Loc:条件付きニューラルラジアンス場を用いた視覚的位置決め NeRF-Loc: Visual Localization with Conditional Neural Radiance Field ( http://arxiv.org/abs/2304.07979v1 ) ライセンス: Link先を確認 | Jianlin Liu, Qiang Nie, Yong Liu and Chengjie Wang | (参考訳) 暗黙の3次元記述子と変換器を用いた2次元画像との直接マッチングに基づく新しい視覚的再局在法を提案する。
条件付きニューラルネットワークラミアンスフィールド(nerf)をパイプライン内の3dシーン表現として選択し,連続的な3dディスクリプタ生成とニューラルネットワークレンダリングをサポートする。
特徴マッチングとシーン座標回帰を同一のフレームワークに統一することにより,2つのトレーニングステージにおいて,それぞれ一般化可能な知識とシーンの両方を学習する。
さらに,トレーニングフェーズとテストフェーズの間にドメインギャップが存在する場合のローカライズロバスト性を改善するために,3次元モデルとクエリイメージのスタイルを明示的に整合させる外観適応層を提案する。
実験により,複数のベンチマークにおいて,他の学習ベースアプローチよりも高い局所化精度が得られた。
コードは \url{https://github.com/jenningsl/nerf-loc} で入手できる。 We propose a novel visual re-localization method based on direct matching between the implicit 3D descriptors and the 2D image with transformer. A conditional neural radiance field(NeRF) is chosen as the 3D scene representation in our pipeline, which supports continuous 3D descriptors generation and neural rendering. By unifying the feature matching and the scene coordinate regression to the same framework, our model learns both generalizable knowledge and scene prior respectively during two training stages. Furthermore, to improve the localization robustness when domain gap exists between training and testing phases, we propose an appearance adaptation layer to explicitly align styles between the 3D model and the query image. Experiments show that our method achieves higher localization accuracy than other learning-based approaches on multiple benchmarks. Code is available at \url{https://github.com/JenningsL/nerf-loc}. | 翻訳日:2023-04-18 16:22:58 公開日:2023-04-17 |
# 擬似ラベルにおける列車試験ギャップのブリッジによる微妙な時間的行動局在の改善 Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels ( http://arxiv.org/abs/2304.07978v1 ) ライセンス: Link先を確認 | Jingqiu Zhou, Linjiang Huang, Liang Wang, Si Liu, Hongsheng Li | (参考訳) 利害行為の時間的境界を生じるような時間的行動ローカライゼーションターゲットの弱い監督のタスクは、アクションカテゴリも分類されるべきである。
効果的な解法としての擬似ラベル法が近年広く研究されている。
しかし、既存のメソッドはトレーニング中に擬似ラベルを生成し、異なるパイプラインや設定下でテスト中に予測を行い、トレーニングとテストの間にギャップが生じる。
本稿では,予測動作境界から高品質な擬似ラベルを生成することを提案する。
それでも、NMSのような既存の後処理は、情報損失を招き、高品質な動作境界を生成するには不十分である。
さらに重要なのは、予測されたアクションインスタンスが一般的に重複し、異なる信頼スコアを持つため、アクション境界を擬似ラベルに変換することが非常に難しいことです。
また、生成した擬似ラベルは、トレーニングの初期段階で変動し、不正確なものとなる。
自己修正を行うメカニズムがなければ、誤った予測を繰り返し強化する可能性がある。
これらの問題に取り組むために、より良い擬似ラベルを学ぶ効果的なパイプラインを考えました。
まず,アクションインスタンスの情報を保持し,高品質な動作境界を得るためのガウス加重融合モジュールを提案する。
第2に、動作インスタンスの信頼性スコアの制約の下で、擬似ラベル生成を最適化問題として定式化する。
最後に、自己補正機能を備えたモデルを実現するために、$\Delta$ pseudo labelsというアイデアを導入する。
本手法は,THUMOS14 と ActivityNet1.3 の2つのベンチマークにおいて既存の手法よりも優れた性能を示し,平均 mAP では THUMOS14 が 1.9 %,ActivityNet1.3 が 3.7 % となった。 The task of weakly supervised temporal action localization targets at generating temporal boundaries for actions of interest, meanwhile the action category should also be classified. Pseudo-label-based methods, which serve as an effective solution, have been widely studied recently. However, existing methods generate pseudo labels during training and make predictions during testing under different pipelines or settings, resulting in a gap between training and testing. In this paper, we propose to generate high-quality pseudo labels from the predicted action boundaries. Nevertheless, we note that existing post-processing, like NMS, would lead to information loss, which is insufficient to generate high-quality action boundaries. More importantly, transforming action boundaries into pseudo labels is quite challenging, since the predicted action instances are generally overlapped and have different confidence scores. Besides, the generated pseudo-labels can be fluctuating and inaccurate at the early stage of training. It might repeatedly strengthen the false predictions if there is no mechanism to conduct self-correction. To tackle these issues, we come up with an effective pipeline for learning better pseudo labels. Firstly, we propose a Gaussian weighted fusion module to preserve information of action instances and obtain high-quality action boundaries. Second, we formulate the pseudo-label generation as an optimization problem under the constraints in terms of the confidence scores of action instances. Finally, we introduce the idea of $\Delta$ pseudo labels, which enables the model with the ability of self-correction. Our method achieves superior performance to existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains of 1.9\% on THUMOS14 and 3.7\% on ActivityNet1.3 in terms of average mAP. | 翻訳日:2023-04-18 16:22:42 公開日:2023-04-17 |
# 周波数規則化:畳み込みニューラルネットワークの情報冗長性を制限する Frequency Regularization: Restricting Information Redundancy of Convolutional Neural Networks ( http://arxiv.org/abs/2304.07973v1 ) ライセンス: Link先を確認 | Chenqiu Zhao, Guanfang Dong, Shupei Zhang, Zijie Tan, Anup Basu | (参考訳) 畳み込みニューラルネットワークは多くのコンピュータビジョンタスクで印象的な結果を示している。
しかし,これらのネットワークのサイズが大きくなると,ネットワークパラメータ内の情報冗長性が懸念される。
本稿では、周波数領域におけるネットワークパラメータの非零要素を制限する周波数正規化を提案する。
提案手法はテンソルレベルで動作し、ほぼあらゆる種類のネットワークアーキテクチャに適用できる。
特に、パラメータのテンソルは周波数領域で維持され、zigzagがテンソル要素をゼロにすることで高周波成分を除去できる。
次に、逆離散コサイン変換(IDCT)を用いて、ネットワークトレーニング中の行列演算のための空間テンソルを再構成する。
画像の高周波成分は重要でないことが知られているため、ネットワークが提案された周波数正規化で訓練された場合、パラメータの大部分がゼロに設定できる。
LeNet,Alexnet,VGG,Resnet,UNet,GAN,VAEといった最先端ネットワークアーキテクチャに関する総合的な評価は,提案した周波数正規化の有効性を示す。
精度が2\%未満の条件では、0.4mのパラメータを持つlenet5は776float16(1100$\times$)で表され、34mのパラメータを持つunetは2936float16(20000$\times$)で表される。 Convolutional neural networks have demonstrated impressive results in many computer vision tasks. However, the increasing size of these networks raises concerns about the information redundancy within the network parameters. In this paper, we proposed the Frequency Regularization to restrict the non-zero elements of the network parameters in frequency domain. The proposed approach operates at the tensor level, and can be applied to almost any kind of network architectures. Specifically, the tensors of parameters are maintained in the frequency domain, where high frequency components can be eliminated by zigzag setting tensor elements to zero. Then, the inverse discrete cosine transform (IDCT) is used to reconstruct the spatial tensors for matrix operations during network training. Since high frequency components of images are known to be non-critical, a large proportion of the parameters can be set to zero when networks are trained with proposed frequency regularization. Comprehensive evaluations on various state-of-the-art network architectures, including LeNet, Alexnet, VGG, Resnet, UNet, GAN, and VAE, demonstrate the effectiveness of the proposed frequency regularization. Under the condition with tiny accuracy decrease (less than 2\%), a LeNet5 with 0.4M parameters can be represented by 776 float16 numbers(over 1100$\times$), a UNet with 34M parameters can be represented by 2936 float16 numbers (over 20000$\times$). | 翻訳日:2023-04-18 16:22:12 公開日:2023-04-17 |
# 大規模データセットsatirを用いた知識蒸留による熱赤外画像の「何か」の学習 Learning to "Segment Anything" in Thermal Infrared Images through Knowledge Distillation with a Large Scale Dataset SATIR ( http://arxiv.org/abs/2304.07969v1 ) ライセンス: Link先を確認 | Junzhang Chen and Xiangzhi Bai | (参考訳) Segment Anything Model(SAM)は、Meta AIが最近導入した、画像セグメンテーション以外のさまざまな分野にまたがる、プロンプト可能なセグメンテーションモデルである。
SAMはさまざまなフィールドに画像を正確に分割し、さまざまなマスクを生成することができる。
SAMのこの能力は、特定のフィールドに対する事前訓練モデルに活用できることを発見した。
そこで本研究では,SAMを用いて熱赤外画像分割作業の事前訓練を行うための擬似ラベルを生成するフレームワークを提案する。
提案フレームワークは,SOTAイメージネット事前学習モデルを超えて,特定のカテゴリのセグメンテーション結果の精度を効果的に向上させることができる。
我々のフレームワークはSAMのような大規模データで訓練されたモデルと協調して特殊分野の問題に対処するための新しいアプローチを提示している。
また,画素アノテーションラベル付き10万枚以上の画像を含む大規模熱赤外セグメンテーションデータセットを作成した。
このアプローチは、ラベルアノテーションが難しい特別な分野において、大きなモデルを扱うための効果的なソリューションを提供する。
私たちのコードはhttps://github.com/chenjzBUAA/SATIRで利用可能です。 The Segment Anything Model (SAM) is a promptable segmentation model recently introduced by Meta AI that has demonstrated its prowess across various fields beyond just image segmentation. SAM can accurately segment images across diverse fields, and generating various masks. We discovered that this ability of SAM can be leveraged to pretrain models for specific fields. Accordingly, we have proposed a framework that utilizes SAM to generate pseudo labels for pretraining thermal infrared image segmentation tasks. Our proposed framework can effectively improve the accuracy of segmentation results of specific categories beyond the SOTA ImageNet pretrained model. Our framework presents a novel approach to collaborate with models trained with large data like SAM to address problems in special fields. Also, we generated a large scale thermal infrared segmentation dataset used for pretaining, which contains over 100,000 images with pixel-annotation labels. This approach offers an effective solution for working with large models in special fields where label annotation is challenging. Our code is available at https://github.com/chenjzBUAA/SATIR | 翻訳日:2023-04-18 16:21:48 公開日:2023-04-17 |
# ertim@mc2: 多様な議論的ツイート検索 ERTIM@MC2: Diversified Argumentative Tweets Retrieval ( http://arxiv.org/abs/2304.08047v1 ) ライセンス: Link先を確認 | K\'evin Deturck (ERTIM), Parantapa Goswami, Damien Nouvel (ERTIM), Fr\'ed\'erique Segond (ERTIM) | (参考訳) 本稿では,タスク2におけるCLEF MC2 2018版への参加について述べる。
英語とフランス語のフェスティバルに関する最も議論の的かつ多様なつぶやきを、膨大な多言語コレクションから検出する。
我々は、それに含まれる議論の量を計算するつぶやきの議論性を測定する。
我々は、議論化合物を、意見表現とその事実と特定の構造化との支持の組み合わせと考える。
多様性に関しては、つぶやきによってカバーされる祭りの側面の量を考慮する。
最初のステップでは、元のデータセットをフィルタリングして、タスクの言語とトピック要件に適合させる。
そして、我々は言語記述子を計算して統合し、つぶやきのクレームとそれぞれの正当化を検知する。
最後のステップでは、ツイートをテキストの内容に応じてクラスタリングし、各クラスタから最も議論的な引数を選択することで、最も多様な引数を抽出する。
論文の結論として,記述子をさまざまな実行に組み合わせる方法を説明し,その結果について論じた。 In this paper, we present our participation to CLEF MC2 2018 edition for the task 2 Mining opinion argumentation. It consists in detecting the most argumentative and diverse Tweets about some festivals in English and French from a massive multilingual collection. We measure argumentativity of a Tweet computing the amount of argumentation compounds it contains. We consider argumentation compounds as a combination between opinion expression and its support with facts and a particular structuration. Regarding diversity, we consider the amount of festival aspects covered by Tweets. An initial step filters the original dataset to fit the language and topic requirements of the task. Then, we compute and integrate linguistic descriptors to detect claims and their respective justifications in Tweets. The final step extracts the most diverse arguments by clustering Tweets according to their textual content and selecting the most argumentative ones from each cluster. We conclude the paper describing the different ways we combined the descriptors among the different runs we submitted and discussing their results. | 翻訳日:2023-04-18 16:16:14 公開日:2023-04-17 |
# SU(1,1)置換コヒーレント状態、光子計数およびスクイーズ SU(1,1)-displaced coherent states, photon counting and squeezing ( http://arxiv.org/abs/2304.08031v1 ) ライセンス: Link先を確認 | Jean Pierre.-P. Gazeau, Mariano A. del Olmo | (参考訳) 我々はペレロモフ SU(1,1) を光の可能な量子状態としてコヒーレント状態に置き換える。
我々は、これらの状態の興味深い統計的側面を光子計数とスクイージングに関連して開示する。
非変位の場合、su(1,1) の離散的既約表現列のパラメータ k に対して逆比例する光検出器の効率について論じる。
転位の場合、k の項による状態のカウントとスクイーズ特性、および元の転位状態における光子数について検討する。
最後に,これらコヒーレント状態の族に基づく古典的放射場の量子化について検討する。
この手順は、標準的なコヒーレント状態に対してグラウバーが提案した方法でそのような状態を作成することができる変位演算子を与える。 We revisit the Perelomov SU(1,1) displaced coherent states states as possible quantum states of light. We disclose interesting statistical aspects of these states in relation with photon counting and squeezing. In the non-displaced case we discuss the efficiency of the photodetector as inversely proportional to the parameter k of the discrete series of unitary irreducible representations of SU(1,1). In the displaced case, we study the counting and squeezing properties of the states in terms of k and the number of photons in the original displaced state. We finally examine the quantization of a classical radiation field which is based on these families of coherent states. The procedure yields displacement operators which might allow to prepare such states in the way proposed by Glauber for the standard coherent states. | 翻訳日:2023-04-18 16:16:01 公開日:2023-04-17 |
# MMANet:不完全なマルチモーダル学習のためのマージン・アウェア蒸留とモダリティ・アウェア正規化 MMANet: Margin-aware Distillation and Modality-aware Regularization for Incomplete Multimodal Learning ( http://arxiv.org/abs/2304.08028v1 ) ライセンス: Link先を確認 | Shicai Wei, Yang Luo, Chunbo Luo | (参考訳) マルチモーダル学習は多くの場面で大きな可能性を示し、近年は関心を集めている。
しかし、モダリティデータの欠如という問題にしばしば遭遇し、実際には深刻なパフォーマンス劣化に悩まされる。
そこで本研究では,不完全なマルチモーダル学習を支援するMMANetというフレームワークを提案する。
推論に使用されるデプロイメントネットワーク、総合的なマルチモーダル情報をデプロイメントネットワークに転送する教師ネットワーク、弱いモダリティの組み合わせのバランスをとるためにデプロイメントネットワークを導く正規化ネットワークの3つのコンポーネントで構成されている。
具体的には,分類の不確実性に対するサンプルの寄与を重み付けして情報伝達を支援する新しいマージン対応蒸留(MAD)を提案する。
これにより、デプロイメントネットワークは、決定境界付近のサンプルに集中し、洗練されたクラス間マージンを取得することができる。
さらに,弱いモダリティの組み合わせをマイニングし,それらの予測損失を計算するためのモダリティ認識正規化(mar)アルゴリズムを設計した。
これにより、デプロイネットワークは弱いモダリティの組み合わせに対して適応的に表現能力を向上させることができる。
最後に、マルチモーダル分類とセグメンテーションタスクに関する広範な実験により、我々のMMANetは最先端技術よりも著しく優れていることを示した。
コードは、https://github.com/shicaiwei123/MMANetで入手できる。 Multimodal learning has shown great potentials in numerous scenes and attracts increasing interest recently. However, it often encounters the problem of missing modality data and thus suffers severe performance degradation in practice. To this end, we propose a general framework called MMANet to assist incomplete multimodal learning. It consists of three components: the deployment network used for inference, the teacher network transferring comprehensive multimodal information to the deployment network, and the regularization network guiding the deployment network to balance weak modality combinations. Specifically, we propose a novel margin-aware distillation (MAD) to assist the information transfer by weighing the sample contribution with the classification uncertainty. This encourages the deployment network to focus on the samples near decision boundaries and acquire the refined inter-class margin. Besides, we design a modality-aware regularization (MAR) algorithm to mine the weak modality combinations and guide the regularization network to calculate prediction loss for them. This forces the deployment network to improve its representation ability for the weak modality combinations adaptively. Finally, extensive experiments on multimodal classification and segmentation tasks demonstrate that our MMANet outperforms the state-of-the-art significantly. Code is available at: https://github.com/shicaiwei123/MMANet | 翻訳日:2023-04-18 16:15:49 公開日:2023-04-17 |
# DeePLT:スマートホームにおける認知者の軌道予測による個人化照明支援 DeePLT: Personalized Lighting Facilitates by Trajectory Prediction of Recognized Residents in the Smart Home ( http://arxiv.org/abs/2304.08027v1 ) ライセンス: Link先を確認 | Danial Safaei, Ali Sobhani, Ali Akbar Kiaei, Fatemeh Khorshidi, Mohammad Fakhredanesh, Cyrus Ahmady | (参考訳) 近年、住宅の様々な部分の知性は、現代の住宅において不可欠な特徴の1つとなっている。
これらの部品の1つは、各人の光をパーソナライズする知性照明システムである。
本稿では、軌道予測によって推定される、認識されたユーザの即時未来位置における照明をパーソナライズする機械学習に基づくインテリジェントシステムを提案する。
提案するシステムは, (i) 与えられた映像フレームの人物を検出・局所化するための人間検出, (ii) 検出された人物を識別するための顔認識, (iii) 映像フレームのシーケンス内の人物を追跡するための人間追跡, (iv) 逆強化学習を用いた環境におけるユーザの将来の位置を予測するための軌道予測,からなる。
提案手法は、仕様、顔画像、カスタム照明設定など、各人物にユニークなプロファイルを提供する。
このプロファイルは照明調整プロセスで使用される。
一定の照明を考慮した他の方法とは異なり,本システムは,ユーザの直接的介入なしに,色や光強度の観点でそれぞれの「好みの照明」を適用できる。
これにより、より高速で効率良く照明を調整できる。
また, 予測された軌道経路により, 所望の照明を適用でき, 家庭住民の快適で快適な環境が得られる。
実験結果では、入力時点から平均1.4秒で所望の光を照射し、人間の検出では22.1mAp、顔認識では95.12%、人間の追跡では93.3%、軌道予測では10.80 MinADE20, 18.55 MinFDE20, 15.8 MinADE5, 30.50 MinFDE5を照射した。 In recent years, the intelligence of various parts of the home has become one of the essential features of any modern home. One of these parts is the intelligence lighting system that personalizes the light for each person. This paper proposes an intelligent system based on machine learning that personalizes lighting in the instant future location of a recognized user, inferred by trajectory prediction. Our proposed system consists of the following modules: (I) human detection to detect and localize the person in each given video frame, (II) face recognition to identify the detected person, (III) human tracking to track the person in the sequence of video frames and (IV) trajectory prediction to forecast the future location of the user in the environment using Inverse Reinforcement Learning. The proposed method provides a unique profile for each person, including specifications, face images, and custom lighting settings. This profile is used in the lighting adjustment process. Unlike other methods that consider constant lighting for every person, our system can apply each 'person's desired lighting in terms of color and light intensity without direct user intervention. Therefore, the lighting is adjusted with higher speed and better efficiency. In addition, the predicted trajectory path makes the proposed system apply the desired lighting, creating more pleasant and comfortable conditions for the home residents. In the experimental results, the system applied the desired lighting in an average time of 1.4 seconds from the moment of entry, as well as a performance of 22.1mAp in human detection, 95.12% accuracy in face recognition, 93.3% MDP in human tracking, and 10.80 MinADE20, 18.55 MinFDE20, 15.8 MinADE5 and 30.50 MinFDE5 in trajectory prediction. | 翻訳日:2023-04-18 16:15:27 公開日:2023-04-17 |
# ビデオからオブジェクトをブートストラップするコモンフェイトとビジュアルグルーピング Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping ( http://arxiv.org/abs/2304.08025v1 ) ライセンス: Link先を確認 | Long Lian, Zhirong Wu, Stella X. Yu | (参考訳) ラベルのないビデオから物体のセグメンテーションを学習する。
人間は動く物体を何であるかを知らずに簡単に分割することができる。
共通の運命のゲシュタルトの法則、すなわち同じ速度で動くものは、動きのセグメンテーションに基づいて教師なしの物体発見に影響を与えている。
しかし、共通の運命はオブジェクトの信頼性を示す指標ではない: 明瞭で変形可能なオブジェクトの一部は同じ速度で動くことはないが、オブジェクトの影や反射は常にそれで動くが、その一部ではない。
我々の洞察は、画像の特徴を緩和された共通の運命から学習し、画像自体と統計的にグループ分けされた視覚的外観に基づいてそれらを洗練することで、オブジェクトをブートストラップすることである。
具体的には、まず、画像分割器を、一定のセグメントフローと小さなセグメントフローで近似するループで学習し、その後、より一貫性のある外観と統計的図形関連性のために精錬する。
resnetとconvolutional headのみを使用した教師なしビデオオブジェクトセグメンテーションでは,本モデルは,davis16/stv2/fbms59上で,それぞれ7/9/5%の絶対値で最先端を上回り,アイデアの有効性を実証する。
私たちのコードは公開されています。 We study learning object segmentation from unlabeled videos. Humans can easily segment moving objects without knowing what they are. The Gestalt law of common fate, i.e., what move at the same speed belong together, has inspired unsupervised object discovery based on motion segmentation. However, common fate is not a reliable indicator of objectness: Parts of an articulated / deformable object may not move at the same speed, whereas shadows / reflections of an object always move with it but are not part of it. Our insight is to bootstrap objectness by first learning image features from relaxed common fate and then refining them based on visual appearance grouping within the image itself and across images statistically. Specifically, we learn an image segmenter first in the loop of approximating optical flow with constant segment flow plus small within-segment residual flow, and then by refining it for more coherent appearance and statistical figure-ground relevance. On unsupervised video object segmentation, using only ResNet and convolutional heads, our model surpasses the state-of-the-art by absolute gains of 7/9/5% on DAVIS16 / STv2 / FBMS59 respectively, demonstrating the effectiveness of our ideas. Our code is publicly available. | 翻訳日:2023-04-18 16:14:56 公開日:2023-04-17 |
# 内視鏡映像におけるカメラポーズのロバスト推定法 Learning How To Robustly Estimate Camera Pose in Endoscopic Videos ( http://arxiv.org/abs/2304.08023v1 ) ライセンス: Link先を確認 | Michel Hayoz, Christopher Hahne, Mathias Gallardo, Daniel Candinas, Thomas Kurmann, Maximilian Allan, Raphael Sznitman | (参考訳) 目的: 明日の内視鏡手術における介入支援システムの技術スタックにおいて,手術現場の理解が重要な役割を担っている。
このために、内視鏡のポーズを追跡することは重要な要素であるが、照明条件、変形組織、臓器の呼吸運動のために依然として困難である。
方法: カメラポーズ推定のための2つの幾何学的損失を最小限に抑えるために, 深度と光流を推定するステレオ内視鏡の解法を提案する。
最も重要な点は,入力画像内容に応じて寄与度をバランスさせる2つの適応型ピクセル毎重みマッピングを導入することである。
そこで我々は,深層学習の表現力と新しい幾何学的最適化手法の頑健さを活用するために,深層宣言型ネットワークを訓練する。
我々は,公開の怖れデータセットに対する我々のアプローチを検証し,一般的に観察される外科的設定の広い範囲を含む,新たなvivoデータセットであるステレオミスを導入する。
結果: 本手法は, 組織変形や呼吸運動が観察できる難易度では, 平均的およびより重要なことに最先端法を上回っている。
提案する重みマッピングは,画像の曖昧な領域(変形組織など)における画素の寄与を弱めている。
結論: 内視鏡的手術シーンにおいて, カメラの姿勢を強く推定する手法の有効性を実証する。
本研究は,slamや3dリコンストラクションなどの関連課題の改善に有用であり,低侵襲手術における手術現場理解の促進に寄与する。 Purpose: Surgical scene understanding plays a critical role in the technology stack of tomorrow's intervention-assisting systems in endoscopic surgeries. For this, tracking the endoscope pose is a key component, but remains challenging due to illumination conditions, deforming tissues and the breathing motion of organs. Method: We propose a solution for stereo endoscopes that estimates depth and optical flow to minimize two geometric losses for camera pose estimation. Most importantly, we introduce two learned adaptive per-pixel weight mappings that balance contributions according to the input image content. To do so, we train a Deep Declarative Network to take advantage of the expressiveness of deep-learning and the robustness of a novel geometric-based optimization approach. We validate our approach on the publicly available SCARED dataset and introduce a new in-vivo dataset, StereoMIS, which includes a wider spectrum of typically observed surgical settings. Results: Our method outperforms state-of-the-art methods on average and more importantly, in difficult scenarios where tissue deformations and breathing motion are visible. We observed that our proposed weight mappings attenuate the contribution of pixels on ambiguous regions of the images, such as deforming tissues. Conclusion: We demonstrate the effectiveness of our solution to robustly estimate the camera pose in challenging endoscopic surgical scenes. Our contributions can be used to improve related tasks like simultaneous localization and mapping (SLAM) or 3D reconstruction, therefore advancing surgical scene understanding in minimally-invasive surgery. | 翻訳日:2023-04-18 16:14:30 公開日:2023-04-17 |
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習 Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v1 ) ライセンス: Link先を確認 | Taeho Kim Jong-Min Lee | (参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。
しかし、画像がオブジェクト中心でない場合、画像のセマンティクスはランダム作物やマルチクロップなどの幾何学的変換によって大きく変化する。
さらに、このモデルは位置情報の取得に苦労する可能性がある。
そこで,我々は4次元回転,ランダム作物,マルチクロップといった幾何学的変換に敏感な特徴を学習する幾何学的変換センシティブアーキテクチャを提案する。
本手法は,視界全体ではなく,重なり合う領域間の類似性を高めることにより,学生に繊細な特徴の学習を促す。
ターゲットの特徴マップに回転を適用します
さらに、長期依存関係をキャプチャするためにパッチ対応損失を使用します。
提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換不変表現を学習する他の方法と比較して,性能向上を示す。
画像分類、セマンティックセグメンテーション、検出、インスタンスセグメンテーションといったタスクにおいて、DINOのベースラインを上回り、6.1$Acc$、0.6$mIoU$、0.4$AP^b$、0.1$AP^m$の改善を行った。 Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to geometric transformations such as random crops and multi-crops. Furthermore, the model may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture that learns features sensitive to geometric transformation like four-fold rotation, random crop, and multi-crop. Our method encourages the student to learn sensitive features by increasing the similarity between overlapping regions not entire views. and applying rotations to the target feature map. Additionally, we use a patch correspondence loss to capture long-term dependencies. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-invariant representations. We surpass DINO baseline in tasks such as image classification, semantic segmentation, detection, and instance segmentation with improvements of 6.1 $Acc$, 0.6 $mIoU$, 0.4 $AP^b$, and 0.1 $AP^m$. | 翻訳日:2023-04-18 16:14:03 公開日:2023-04-17 |
# CLIP-Lung:テキスト知識による肺結節悪性度予測 CLIP-Lung: Textual Knowledge-Guided Lung Nodule Malignancy Prediction ( http://arxiv.org/abs/2304.08013v1 ) ライセンス: Link先を確認 | Yiming Lei, Zilong Li, Yan Shen, Junping Zhang, Hongming Shan | (参考訳) 高度なディープラーニング技術と効果的な手技によって肺結節悪性度予測が強化されている。
それにもかかわらず、現在の手法は主に1ホットのカテゴリラベルを用いてクロスエントロピー損失で訓練されており、より近い進行ラベルを持つ結節を区別することが困難である。
興味深いことに,放射線科医がアノテートした臨床テキスト情報は,難解なサンプルを識別するための識別的知識を提供する。
テキストアノテーションから一般化された視覚表現を学習するための比較言語画像事前学習(CLIP)モデルの能力に基づいて,肺結節悪性度予測のためのテキスト知識誘導フレームワークCLIP-Lungを提案する。
第一に、CLIP-Lungは推論のオーバーヘッドを伴わずに、クラスアノテーションと属性アノテーションを肺結節分類器のトレーニングに導入する。
第2に,学習可能なコンテキストプロンプトと特定の特徴マップ間の一貫した関係を確立するために,チャネルワイズ条件付きプロンプト(CCP)モジュールを設計した。
第3に、画像特徴とクラスと属性の特徴を対比学習、偽陽性の是正、潜在空間における偽陰性により一致させる。
LIDC-IDRIデータセットを用いた実験結果から,CLIP-Lungの分類性能とアテンションマップの解釈性の両方において優位性が示された。 Lung nodule malignancy prediction has been enhanced by advanced deep-learning techniques and effective tricks. Nevertheless, current methods are mainly trained with cross-entropy loss using one-hot categorical labels, which results in difficulty in distinguishing those nodules with closer progression labels. Interestingly, we observe that clinical text information annotated by radiologists provides us with discriminative knowledge to identify challenging samples. Drawing on the capability of the contrastive language-image pre-training (CLIP) model to learn generalized visual representations from text annotations, in this paper, we propose CLIP-Lung, a textual knowledge-guided framework for lung nodule malignancy prediction. First, CLIP-Lung introduces both class and attribute annotations into the training of the lung nodule classifier without any additional overheads in inference. Second, we designed a channel-wise conditional prompt (CCP) module to establish consistent relationships between learnable context prompts and specific feature maps. Third, we align image features with both class and attribute features via contrastive learning, rectifying false positives and false negatives in latent space. The experimental results on the benchmark LIDC-IDRI dataset have demonstrated the superiority of CLIP-Lung, both in classification performance and interpretability of attention maps. | 翻訳日:2023-04-18 16:13:42 公開日:2023-04-17 |
# みんなピカソになれる?
人間とAIの絵を描くための計算フレームワーク Everyone Can Be Picasso? A Computational Framework into the Myth of Human versus AI Painting ( http://arxiv.org/abs/2304.07999v1 ) ライセンス: Link先を確認 | Yilin Ye, Rong Huang, Kang Zhang, Wei Zeng | (参考訳) AI技術の最近の進歩、特にAIGC(AI-Generated Content)は、誰もが簡単なテキスト記述で簡単に美しい絵を作れるようにしている。
AI絵画の驚くべき品質から、人間とAI絵画の相違点がまだ残っているのか、そして人間のアーティストがAIに取って代わられるのかが疑問視されている。
これらの疑問に答えるために、人間の絵画とAI絵画の違いを調べるために、ニューラル潜在空間と美学の特徴を組み合わせた計算フレームワークを開発する。
第一に、人間とAIの絵画コレクションをカテゴリー的に比較すると、AIアートワークは、潜時空間と、ストロークやシャープネスのような美的特徴の双方における人間のアートワークと、色や構成といった他の美的特徴との分布的な違いを示す。
第2に、Picassoの個々のアーティスト分析により、AIと比較して新しいスタイルの進化における人間のアーティストの強さを示す。
本研究は,人間の絵画とAI絵画の相違点に関する具体的な証拠を提供するとともに,美学と人間アーティストの関与を考慮し,AIアートの改善を示唆するものである。 The recent advances of AI technology, particularly in AI-Generated Content (AIGC), have enabled everyone to easily generate beautiful paintings with simple text description. With the stunning quality of AI paintings, it is widely questioned whether there still exists difference between human and AI paintings and whether human artists will be replaced by AI. To answer these questions, we develop a computational framework combining neural latent space and aesthetics features with visual analytics to investigate the difference between human and AI paintings. First, with categorical comparison of human and AI painting collections, we find that AI artworks show distributional difference from human artworks in both latent space and some aesthetic features like strokes and sharpness, while in other aesthetic features like color and composition there is less difference. Second, with individual artist analysis of Picasso, we show human artists' strength in evolving new styles compared to AI. Our findings provide concrete evidence for the existing discrepancies between human and AI paintings and further suggest improvements of AI art with more consideration of aesthetics and human artists' involvement. | 翻訳日:2023-04-18 16:13:19 公開日:2023-04-17 |
# ゼロからヒーローへ:教示チューニングにおける記号的タスクのパワーを理解する From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction Tuning ( http://arxiv.org/abs/2304.07995v1 ) ライセンス: Link先を確認 | Qian Liu, Fan Zhou, Zhengbao Jiang, Longxu Dou, Min Lin | (参考訳) 命令付きタスクの微調整言語モデルは、目に見えないタスクへのゼロショットの一般化を促進する可能性を示している。
本稿では,シンボリックタスクを用いて命令チューニングを簡易かつ効果的に行う手法を提案する。
クラウドソーシングされたヒューマンタスクやモデル生成タスクと比較して、シンボリックタスクは膨大な量の生成が容易であり、理論的には高品質なトレーニングインスタンスの無限の供給を提供するため、ユニークな利点を示す。
シンボリックタスクの可能性を探るために、sql実行における代表的シンボリックタスクに関する広範なケーススタディを実施します。
さまざまなベンチマークでの実証的な結果は、sql実行の統合がゼロショットシナリオ、特にテーブル推論に大きな改善をもたらすことを検証している。
特に、我々の3Bモデルは、4つのベンチマークでゼロショットテーブルで175B GPT-3とChatGPTを上回ります。
さらに,BBH (27タスク) とMMLU (57タスク) の実験結果から,一般性を損なうことなく,記号的タスクによって言語モデルを拡張できることが明らかになった。
私たちの論文が触媒となり、インストラクションチューニングにシンボリックタスクを組み込む努力が高まることを願っています。 Fine-tuning language models on tasks with instructions has demonstrated potential in facilitating zero-shot generalization to unseen tasks. In this paper, we introduce a straightforward yet effective method for enhancing instruction tuning by employing symbolic tasks. Compared to crowdsourced human tasks or model-generated tasks, symbolic tasks present a unique advantage as they can be easily generated in vast quantities, theoretically providing an infinite supply of high-quality training instances. To explore the potential of symbolic tasks, we carry out an extensive case study on the representative symbolic task of SQL execution. Empirical results on various benchmarks validate that the integration of SQL execution leads to significant improvements in zero-shot scenarios, particularly in table reasoning. Notably, our 3B model surpasses both the 175B GPT-3 and ChatGPT in zero-shot table reasoning across four benchmarks. Furthermore, experimental results on BBH (27 tasks) and MMLU (57 tasks) reveal that language models can be enhanced through symbolic tasks without compromising their generality. We hope that our paper serves as a catalyst, inspiring increased efforts to incorporate symbolic tasks in instruction tuning. | 翻訳日:2023-04-18 16:12:59 公開日:2023-04-17 |
# 概念格子の自動説明 Automatic Textual Explanations of Concept Lattices ( http://arxiv.org/abs/2304.08093v1 ) ライセンス: Link先を確認 | Johannes Hirth and Viktoria Horn and Gerd Stumme and Tom Hanika | (参考訳) latticesとその順序図は、データに関する知識と洞察を伝える上で不可欠なツールです。
これは特に形式的概念分析を適用する場合に当てはまる。
しかし、そのような表現は、訓練されていないユーザや、格子が大きい場合の理解が難しい。
標準尺度を用いて格子のテキスト説明を自動生成することでこの問題に取り組む。
この方法は、標準スケールの特別な場合の格子における順序モチーフの一般概念に基づいている。
格子構造の大部分をカバーする少数の標準スケールを同定する計算の複雑さを示す。
これらに対して,任意のデータ領域におけるスケール発生に適用可能な,テキストによる説明テンプレートを提供する。
これらのテンプレートは人間とコンピュータの相互作用から導出され、格子の包括的なテキスト説明を可能にする。
我々は,56食(オブジェクト)と37食(属性)からなる中規模の形式的文脈であるspices plannerデータセットに対する我々のアプローチを実証する。
得られた 531 の形式的概念は、およそ 100 の標準スケールでカバーできる。 Lattices and their order diagrams are an essential tool for communicating knowledge and insights about data. This is in particular true when applying Formal Concept Analysis. Such representations, however, are difficult to comprehend by untrained users and in general in cases where lattices are large. We tackle this problem by automatically generating textual explanations for lattices using standard scales. Our method is based on the general notion of ordinal motifs in lattices for the special case of standard scales. We show the computational complexity of identifying a small number of standard scales that cover most of the lattice structure. For these, we provide textual explanation templates, which can be applied to any occurrence of a scale in any data domain. These templates are derived using principles from human-computer interaction and allow for a comprehensive textual explanation of lattices. We demonstrate our approach on the spices planner data set, which is a medium sized formal context comprised of fifty-six meals (objects) and thirty-seven spices (attributes). The resulting 531 formal concepts can be covered by means of about 100 standard scales. | 翻訳日:2023-04-18 16:06:53 公開日:2023-04-17 |
# instructuie:統一情報抽出のためのマルチタスク命令チューニング InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction ( http://arxiv.org/abs/2304.08085v1 ) ライセンス: Link先を確認 | Xiao Wang, Weikang Zhou, Can Zu, Han Xia, Tianze Chen, Yuansen Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, Jingsheng Yang, Siyuan Li, Chunsai Du | (参考訳) 大規模言語モデルは、インストラクティブプロンプトを読むことで、強力なマルチタスク機能を解放した。
しかし,近年の研究では,既存の大規模モデルでは情報抽出が難しいことが示されている。
例えば、gpt-3.5-turboはontonnotesデータセット上で18.22のf1スコアを達成している。
本稿では,様々な情報抽出タスクを統一的にモデル化し,タスク間の依存関係をキャプチャできる命令チューニングに基づく統一情報抽出フレームワークinstructuieを提案する。
提案手法を検証するために,専門家が記述したテキストとテキストの統一形式で32種類の情報抽出データセットのベンチマークであるIE INSTRUCTIONSを導入する。
実験の結果, 教師付き設定ではBertに匹敵する性能を示し, ゼロショット設定では最先端設定やgpt3.5よりも優れていた。 Large language models have unlocked strong multi-task capabilities from reading instructive prompts. However, recent studies have shown that existing large models still have difficulty with information extraction tasks. For example, gpt-3.5-turbo achieved an F1 score of 18.22 on the Ontonotes dataset, which is significantly lower than the state-of-the-art performance. In this paper, we propose InstructUIE, a unified information extraction framework based on instruction tuning, which can uniformly model various information extraction tasks and capture the inter-task dependency. To validate the proposed method, we introduce IE INSTRUCTIONS, a benchmark of 32 diverse information extraction datasets in a unified text-to-text format with expert-written instructions. Experimental results demonstrate that our method achieves comparable performance to Bert in supervised settings and significantly outperforms the state-of-the-art and gpt3.5 in zero-shot settings. | 翻訳日:2023-04-18 16:06:38 公開日:2023-04-17 |
# モーダルな質問応答のための因果認識型ビジュアルシーン発見 Causality-aware Visual Scene Discovery for Cross-Modal Question Reasoning ( http://arxiv.org/abs/2304.08083v1 ) ライセンス: Link先を確認 | Yang Liu, Guanbin Li, Liang Lin | (参考訳) 既存の視覚的疑問推論手法は、通常、固有の因果メカニズムを明示的に発見し、異種間事象の時間性と因果関係を共同でモデル化する必要がある複雑な事象レベルの理解を無視する。
本稿では,時間的因果構造を明示的に発見し,因果的介入による視覚的スプリアス相関を緩和するクロスモーダル問題推論(cmqr)という,イベントレベルのビジュアル質問推論フレームワークを提案する。
視覚的因果構造を明らかにするために,視覚因果関係発見(vcd)アーキテクチャを提案する。
言語意味論と空間-時間表現の細かな相互作用を調整するために,視覚と言語コンテンツの共起相互作用を構築する対話型視覚言語トランスフォーマ(ivlt)を構築した。
4つのデータセットに対する大規模な実験は、視覚因果構造を発見し、堅牢な質問推論を達成するためのCMQRの優位性を示している。 Existing visual question reasoning methods usually fail to explicitly discover the inherent causal mechanism and ignore the complex event-level understanding that requires jointly modeling cross-modal event temporality and causality. In this paper, we propose an event-level visual question reasoning framework named Cross-Modal Question Reasoning (CMQR), to explicitly discover temporal causal structure and mitigate visual spurious correlation by causal intervention. To explicitly discover visual causal structure, the Visual Causality Discovery (VCD) architecture is proposed to find question-critical scene temporally and disentangle the visual spurious correlations by attention-based front-door causal intervention module named Local-Global Causal Attention Module (LGCAM). To align the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build an Interactive Visual-Linguistic Transformer (IVLT) that builds the multi-modal co-occurrence interactions between visual and linguistic content. Extensive experiments on four datasets demonstrate the superiority of CMQR for discovering visual causal structures and achieving robust question reasoning. | 翻訳日:2023-04-18 16:06:22 公開日:2023-04-17 |
# きめ細かい顔の偽造検出とセグメンテーションのための協調的特徴学習 Collaborative Feature Learning for Fine-grained Facial Forgery Detection and Segmentation ( http://arxiv.org/abs/2304.08078v1 ) ライセンス: Link先を確認 | Weinan Guan, Wei Wang, Jing Dong, Bo Peng and Tieniu Tan | (参考訳) 悪意ある改ざんされた顔画像やビデオの検出は、デジタルフォレンスやコンピュータビジョンのコミュニティから注目を集めている。
操作検出における重要なトピックは、偽領域のローカライゼーションである。
偽造検出に関する以前の研究は主に顔全体に焦点を当てていた。
しかし,近年では,顔成分を編集する手法が開発されている。
これにより、偽造検出だけでなく、きめ細かなファルシフィケーション領域のセグメンテーションにも焦点をあてることができます。
本稿では,ファリシファイドコンポーネントの操作と分割を同時に検出するための協調的特徴学習手法を提案する。
協調的な方法では、検出とセグメンテーションは互いに効率的に促進することができる。
フォージェリー検出とセグメンテーションの研究を可能にするため,顔の全体と部分のフォージェリーからなる顔のフォージェリーデータセットを画素レベルの接地トラスで構築した。
実験結果は,偽造検出と操作領域分割の相互促進を正当化した。
提案手法の全体的な性能は,最先端検出やセグメンテーション手法よりも優れている。
可視化の結果,提案モデルでは常に顔領域のアーティファクトを捉えていることがわかった。 Detecting maliciously falsified facial images and videos has attracted extensive attention from digital-forensics and computer-vision communities. An important topic in manipulation detection is the localization of the fake regions. Previous work related to forgery detection mostly focuses on the entire faces. However, recent forgery methods have developed to edit important facial components while maintaining others unchanged. This drives us to not only focus on the forgery detection but also fine-grained falsified region segmentation. In this paper, we propose a collaborative feature learning approach to simultaneously detect manipulation and segment the falsified components. With the collaborative manner, detection and segmentation can boost each other efficiently. To enable our study of forgery detection and segmentation, we build a facial forgery dataset consisting of both entire and partial face forgeries with their pixel-level manipulation ground-truth. Experiment results have justified the mutual promotion between forgery detection and manipulated region segmentation. The overall performance of the proposed approach is better than the state-of-the-art detection or segmentation approaches. The visualization results have shown that our proposed model always captures the artifacts on facial regions, which is more reasonable. | 翻訳日:2023-04-18 16:05:59 公開日:2023-04-17 |
# 注意機構に基づく脳腫瘍の2段階mr画像分割法 Two-stage MR Image Segmentation Method for Brain Tumors based on Attention Mechanism ( http://arxiv.org/abs/2304.08072v1 ) ライセンス: Link先を確認 | Li Zhu, Jiawei Jiang, Lin Lu, Jin Li | (参考訳) マルチモーダルMRI(Multimodal magnetic resonance imaging)は、ヒト組織の異なるパターンを明らかにし、臨床診断に不可欠である。
しかしながら、コスト、ノイズ、手動ラベリングによって制限され、多様で信頼性の高いマルチモーダルmr画像を得ることは課題である。
同じ病変に対して、異なるMRI像は背景情報、粗い位置決め、微細構造に大きな違いがある。
よりよい生成・分節化性能を得るために,サイクル一貫性のある生成型逆ネットワーク(cyclegan)に基づく協調空間的注意生成逆ネットワーク(casp-gan)を提案する。
ジェネレータの性能は、コーディネート・アテンション(CA)モジュールと空間アテンション(SA)モジュールを導入することで最適化される。
2つのモジュールは、キャプチャされた位置情報をフル活用し、関心領域を正確に特定し、ジェネレータモデルネットワーク構造を拡張できる。
元の医用画像の構造情報と詳細な情報を抽出する能力は、所望の画像をより高品質に生成するのに役立つ。
元のサイクルガンには、トレーニング時間が長く、パラメータ量が大きすぎ、収束が難しいという問題が存在する。
この問題に対する対策として,Res Blockの代替となるCoordinate Attention(CA)モジュールを導入し,パラメータ数を削減し,上記の空間情報抽出ネットワークと連携して情報抽出能力を強化する。
さらにcasp-ganに基づいて,注意型生成的クロスモダリティセグメンテーション(agcms)法を提案する。
CASP-GANによって生成されたモダリティと実際のモダリティを脳腫瘍セグメンテーションのためのセグメンテーションネットワークに入力する。
実験の結果, CASP-GANはPSNR, SSMI, RMSEにおいてCycleGANや最先端手法よりも優れていた。 Multimodal magnetic resonance imaging (MRI) can reveal different patterns of human tissue and is crucial for clinical diagnosis. However, limited by cost, noise and manual labeling, obtaining diverse and reliable multimodal MR images remains a challenge. For the same lesion, different MRI manifestations have great differences in background information, coarse positioning and fine structure. In order to obtain better generation and segmentation performance, a coordination-spatial attention generation adversarial network (CASP-GAN) based on the cycle-consistent generative adversarial network (CycleGAN) is proposed. The performance of the generator is optimized by introducing the Coordinate Attention (CA) module and the Spatial Attention (SA) module. The two modules can make full use of the captured location information, accurately locating the interested region, and enhancing the generator model network structure. The ability to extract the structure information and the detailed information of the original medical image can help generate the desired image with higher quality. There exist some problems in the original CycleGAN that the training time is long, the parameter amount is too large, and it is difficult to converge. In response to this problem, we introduce the Coordinate Attention (CA) module to replace the Res Block to reduce the number of parameters, and cooperate with the spatial information extraction network above to strengthen the information extraction ability. On the basis of CASP-GAN, an attentional generative cross-modality segmentation (AGCMS) method is further proposed. This method inputs the modalities generated by CASP-GAN and the real modalities into the segmentation network for brain tumor segmentation. Experimental results show that CASP-GAN outperforms CycleGAN and some state-of-the-art methods in PSNR, SSMI and RMSE in most tasks. | 翻訳日:2023-04-18 16:05:29 公開日:2023-04-17 |
# DETRはリアルタイム物体検出でYOLOに勝る DETRs Beat YOLOs on Real-time Object Detection ( http://arxiv.org/abs/2304.08069v1 ) ライセンス: Link先を確認 | Wenyu Lv, Shangliang Xu, Yian Zhao, Guanzhong Wang, Jinman Wei, Cheng Cui, Yuning Du, Qingqing Dang, Yi Liu | (参考訳) 近年,end-to-end transformer-based detectors (detrs) が注目されている。
しかし, DETR の高計算コストの問題は効果的に解決されておらず,実用的利用を制限し,非最大抑圧 (NMS) などの後処理の利点を完全に活用することができない。
本稿では,現代のリアルタイム物体検出器におけるNMSの推論速度への影響を解析し,エンドツーエンドの速度ベンチマークを確立する。
NMSによる推論遅延を回避するため,我々の知る最初のリアルタイム・エンドツーエンド物体検出器であるリアルタイム検出TRansformer (RT-DETR)を提案する。
具体的には,大規模インタラクションとクロススケールフュージョンを分離してマルチスケール特徴を効率的に処理する効率的なハイブリッドエンコーダを設計し,オブジェクトクエリの初期化を改善するためにIoU対応クエリ選択を提案する。
また,提案する検出器は,異なるデコーダ層を用いて,再訓練を必要とせず柔軟に推定速度を調整できるため,実時間物体検出器の実用化が容易である。
RT-DETR-LはCOCO val2017で53.0%AP、T4 GPUで114FPS、RT-DETR-Xは54.8%APと74FPSを達成し、同じスケールのYOLO検出器をスピードと精度で上回っている。
さらに, RT-DETR-R50は53.1%のAPと108のFPSを達成し, DINO-Deformable-DETR-R50の精度は2.2%, FPSの約21倍に向上した。
ソースコードと事前訓練されたモデルはPaddleDetectionで利用できる。 Recently, end-to-end transformer-based detectors (DETRs) have achieved remarkable performance. However, the issue of the high computational cost of DETRs has not been effectively addressed, limiting their practical application and preventing them from fully exploiting the benefits of no post-processing, such as non-maximum suppression (NMS). In this paper, we first analyze the influence of NMS in modern real-time object detectors on inference speed, and establish an end-to-end speed benchmark. To avoid the inference delay caused by NMS, we propose a Real-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge. Specifically, we design an efficient hybrid encoder to efficiently process multi-scale features by decoupling the intra-scale interaction and cross-scale fusion, and propose IoU-aware query selection to improve the initialization of object queries. In addition, our proposed detector supports flexibly adjustment of the inference speed by using different decoder layers without the need for retraining, which facilitates the practical application of real-time object detectors. Our RT-DETR-L achieves 53.0% AP on COCO val2017 and 114 FPS on T4 GPU, while RT-DETR-X achieves 54.8% AP and 74 FPS, outperforming all YOLO detectors of the same scale in both speed and accuracy. Furthermore, our RT-DETR-R50 achieves 53.1% AP and 108 FPS, outperforming DINO-Deformable-DETR-R50 by 2.2% AP in accuracy and by about 21 times in FPS. Source code and pretrained models will be available at PaddleDetection. | 翻訳日:2023-04-18 16:04:35 公開日:2023-04-17 |
# 脳MRI白質高強度における教師なし異常検出のためのサイムズニューラルネットワーク潜時空間上の一級SVM One-Class SVM on siamese neural network latent space for Unsupervised Anomaly Detection on brain MRI White Matter Hyperintensities ( http://arxiv.org/abs/2304.08058v1 ) ライセンス: Link先を確認 | Nicolas Pinon (MYRIAD), Robin Trombetta (MYRIAD), Carole Lartizien (MYRIAD) | (参考訳) 異常検出は、ほとんど監督できない、病変が非常に小さい、または微妙なコントラストを持つ場合、神経イメージングにおいて難しい課題である。
パッチベース表現学習は,産業画像や医療画像に適用した場合に強力な表現能力を示し,異常検出手法を効果的に適用した。
本研究では,siameseパッチを用いたオートエンコーダにより構築された潜在空間に基づく教師なし異常検出(uad)法を提案し,マルチモダリティニューロイメージングにおいて病変検出タスクに適応した1クラスsvmトレーニングパラダイムを用いて異常検出を行う。
このモデルの性能を公開データベース上で評価し,wmh(white matter hyperintensities)チャレンジを行い,これまでに報告した2つの最先端手法と同等のパフォーマンスを示す。 Anomaly detection remains a challenging task in neuroimaging when little to no supervision is available and when lesions can be very small or with subtle contrast. Patch-based representation learning has shown powerful representation capacities when applied to industrial or medical imaging and outlier detection methods have been applied successfully to these images. In this work, we propose an unsupervised anomaly detection (UAD) method based on a latent space constructed by a siamese patch-based auto-encoder and perform the outlier detection with a One-Class SVM training paradigm tailored to the lesion detection task in multi-modality neuroimaging. We evaluate performances of this model on a public database, the White Matter Hyperintensities (WMH) challenge and show in par performance with the two best performing state-of-the-art methods reported so far. | 翻訳日:2023-04-18 16:04:03 公開日:2023-04-17 |
# DeepSim-Nets:ステレオ画像マッチングのためのディープ類似ネットワーク DeepSim-Nets: Deep Similarity Networks for Stereo Image Matching ( http://arxiv.org/abs/2304.08056v1 ) ライセンス: Link先を確認 | Mohamed Ali Chebbi, Ewelina Rupnik, Marc Pierrot-Deseilligny, Paul Lopes | (参考訳) 本稿では,3つのマルチスケール類似学習アーキテクチャ,DeepSimネットワークを提案する。
これらのモデルは、コントラスト損失とピクセルレベルのマッチングを学習し、考慮されたシーンの形状に依存しない。
我々は,エピポーラ対のすべての画素を一度に密にアロケートすることを学ぶことにより,ハイブリッドアプローチとエンドツーエンドアプローチの中間の基盤を確立する。
我々の特徴は大きな画像タイルで学習して表現し、シーンのより広いコンテキストを捉えます。
また, キュレーション試料の採掘により, 予測された類似性の全体的ロバスト性が向上し, 放射学的に均質な領域での性能が向上することを示した。
航空および衛星のデータセットで実験を行う。
DeepSim-Netsは、ベースラインハイブリッドアプローチよりも優れており、エンドツーエンドメソッドよりも、見えないシーンジオメトリをより一般化しています。
我々のフレキシブルアーキテクチャは、標準のマルチ解像度画像マッチングパイプラインに容易に適用できる。 We present three multi-scale similarity learning architectures, or DeepSim networks. These models learn pixel-level matching with a contrastive loss and are agnostic to the geometry of the considered scene. We establish a middle ground between hybrid and end-to-end approaches by learning to densely allocate all corresponding pixels of an epipolar pair at once. Our features are learnt on large image tiles to be expressive and capture the scene's wider context. We also demonstrate that curated sample mining can enhance the overall robustness of the predicted similarities and improve the performance on radiometrically homogeneous areas. We run experiments on aerial and satellite datasets. Our DeepSim-Nets outperform the baseline hybrid approaches and generalize better to unseen scene geometries than end-to-end methods. Our flexible architecture can be readily adopted in standard multi-resolution image matching pipelines. | 翻訳日:2023-04-18 16:03:46 公開日:2023-04-17 |
# Fed-MIWAE: 深部生成モデルによる不完全データのフェデレーション Fed-MIWAE: Federated Imputation of Incomplete Data via Deep Generative Models ( http://arxiv.org/abs/2304.08054v1 ) ライセンス: Link先を確認 | Irene Balelli (EPIONE, UCA), Aude Sportisse (MAASAI, UCA,3iA C\^ote d'Azur), Francesco Cremonesi (EPIONE, UCA), Pierre-Alexandre Mattei (MAASAI, UCA,3iA C\^ote d'Azur), Marco Lorenzi (EPIONE, UCA,3iA C\^ote d'Azur) | (参考訳) フェデレーション学習は、明示的なデータ交換を必要とせずに、複数の分散ローカルデータセット上の機械学習モデルのトレーニングを可能にする。
しかしながら、欠落したデータを扱う戦略を含むデータ前処理は、現実のフェデレートされた学習デプロイメントにおいて大きなボトルネックであり、通常はローカルで実行される。
それぞれの中心で局所的に観察されるサブポピュレーションは全体を表すものではないため、このアプローチはバイアスを受ける可能性がある。
この問題に対処するために,本論文ではまず,フェデレートモデルによるデータ標準化への一貫したアプローチを提案する。
さらに, 変分オートエンコーダをベースとした遅延変数モデルであるMIWAEのフェデレーションバージョンであるFed-MIWAEを提案する。
MIWAEは、古典的な連合集合体で容易に訓練できるという大きな利点がある。
さらに、mcar (missing completely at random) よりも難易度の高いデータ機構である mar (missing at random) データを扱うことができ、変数の欠如は観測されたデータに依存することができる。
本手法は,ADNIデータセットを用いた模擬フェデレーションシナリオから,マルチモーダル医療画像データと臨床成績を評価する。
我々は,Fed-MIWAEを,局所的あるいは中央集権的に行われる古典的計算手法と比較した。
fed-miwaeは、ローカルなデータ分散が非常に不均一である場合でも、最適な集中型メソッドに匹敵するインプテーション精度を実現する。
また、Fed-MIWAEの変動特性により、本手法は多重計算を行い、フェデレーションシナリオにおける不確実性の定量化を可能にするように設計されている。 Federated learning allows for the training of machine learning models on multiple decentralized local datasets without requiring explicit data exchange. However, data pre-processing, including strategies for handling missing data, remains a major bottleneck in real-world federated learning deployment, and is typically performed locally. This approach may be biased, since the subpopulations locally observed at each center may not be representative of the overall one. To address this issue, this paper first proposes a more consistent approach to data standardization through a federated model. Additionally, we propose Fed-MIWAE, a federated version of the state-of-the-art imputation method MIWAE, a deep latent variable model for missing data imputation based on variational autoencoders. MIWAE has the great advantage of being easily trainable with classical federated aggregators. Furthermore, it is able to deal with MAR (Missing At Random) data, a more challenging missing-data mechanism than MCAR (Missing Completely At Random), where the missingness of a variable can depend on the observed ones. We evaluate our method on multi-modal medical imaging data and clinical scores from a simulated federated scenario with the ADNI dataset. We compare Fed-MIWAE with respect to classical imputation methods, either performed locally or in a centralized fashion. Fed-MIWAE allows to achieve imputation accuracy comparable with the best centralized method, even when local data distributions are highly heterogeneous. In addition, thanks to the variational nature of Fed-MIWAE, our method is designed to perform multiple imputation, allowing for the quantification of the imputation uncertainty in the federated scenario. | 翻訳日:2023-04-18 16:03:31 公開日:2023-04-17 |
# 分散集約最適化の高速化 Accelerated Distributed Aggregative Optimization ( http://arxiv.org/abs/2304.08051v1 ) ライセンス: Link先を確認 | Jiaxu Liu, Song Chen, Shengze Cai, Chao Xu | (参考訳) 本稿では,各エージェントがローカル状態変数だけでなく,各エージェントからの状態変数の集約関数にも依存する独自のローカルコスト関数を持つネットワークにおける分散集約最適化問題について検討する。
最適化プロセスの高速化のために,重ボールとネステロフの高速化手法を分散凝集度追跡と組み合わせ,分散凝集度最適化問題の解法として DAGT-HB と DAGT-NES という2つの新しいアルゴリズムを提案する。
dagt-hb と dagt-nes のアルゴリズムは、対象関数が滑らかで強い凸であり、パラメータ(ステップサイズや運動量係数など)が一定の範囲で選択された場合、大域的な $\mathbf{r}-$linear 収束率で最適解に収束できることを解析する。
提案アルゴリズムの有効性と優位性を検証するため,最適配置問題に関する数値実験を行った。 In this paper, we investigate a distributed aggregative optimization problem in a network, where each agent has its own local cost function which depends not only on the local state variable but also on an aggregated function of state variables from all agents. To accelerate the optimization process, we combine heavy ball and Nesterov's accelerated methods with distributed aggregative gradient tracking, and propose two novel algorithms named DAGT-HB and DAGT-NES for solving the distributed aggregative optimization problem. We analyse that the DAGT-HB and DAGT-NES algorithms can converge to an optimal solution at a global $\mathbf{R}-$linear convergence rate when the objective function is smooth and strongly convex, and when the parameters (e.g., step size and momentum coefficients) are selected within certain ranges. A numerical experiment on the optimal placement problem is given to verify the effectiveness and superiority of our proposed algorithms. | 翻訳日:2023-04-18 16:03:02 公開日:2023-04-17 |
# 位相材料からの点ギャップ位相の普遍的プラットフォーム Universal platform of point-gap topological phases from topological materials ( http://arxiv.org/abs/2304.08110v1 ) ライセンス: Link先を確認 | Daichi Nakamura, Kazuya Inaka, Nobuyuki Okuma, Masatoshi Sato | (参考訳) 点ギャップ位相は非エルミート系に固有の例外現象の原因であるが、量子材料におけるそれらの実現はいまだ解明されていない。
ここでは、エルミートトポロジカル絶縁体と超伝導体から構築された点ギャップ位相の単純で普遍的なプラットフォームを提案する。
d-次元位相絶縁体と超伝導体の境界を散逸させることにより(d-1)次元の点ギャップ位相相を実現する。
この提案の重要な観察は、D次元トポロジカル絶縁体と超伝導体における境界モードに崩壊定数を加えることは、(d-1)次元ポイントギャップトポロジカル位相を境界に取り付けることと位相的に等価であるということである。
さらに、散逸的なギャップレスモードを点ギャップ位相数に関連付けるNielsen-Ninomiya定理の拡張版から提案をさらに確立する。
点ギャップ位相のバルク境界対応から、点ギャップ位相は例外的な境界状態または高次非エルミート皮膚効果を示す。 Whereas point-gap topological phases are responsible for exceptional phenomena intrinsic to non-Hermitian systems, their realization in quantum materials is still elusive. Here we propose a simple and universal platform of point-gap topological phases constructed from Hermitian topological insulators and superconductors. We show that (d-1)-dimensional point-gap topological phases are realized by making a boundary in d-dimensional topological insulators and superconductors dissipative. A crucial observation of the proposal is that adding a decay constant to boundary modes in d-dimensional topological insulators and superconductors is topologically equivalent to attaching a (d-1)-dimensional point-gap topological phase to the boundary. We furthermore establish the proposal from the extended version of the Nielsen-Ninomiya theorem, relating dissipative gapless modes to point-gap topological numbers. From the bulk-boundary correspondence of the point-gap topological phases, the resultant point-gap topological phases exhibit exceptional boundary states or in-gap higher-order non-Hermitian skin effects. | 翻訳日:2023-04-18 15:56:43 公開日:2023-04-17 |
# 大言語モデルに基づく中国語指導データのフルパラメータとloraに基づく微調整の比較検討 A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model ( http://arxiv.org/abs/2304.08109v1 ) ライセンス: Link先を確認 | Xianghui Sun, Yunjie Ji, Baochang Ma, Xiangang Li | (参考訳) 近年,自然言語処理の分野では,大規模言語モデルのインストラクションチューニングが重要な研究分野となっている。
リソースとコストの制限のため、いくつかの研究者は命令チューニングのためにloraのようなパラメータ効率の良いチューニング技術を採用し、フルパラメータの微調整と比較して奨励的な結果を得た。
本研究では,LLaMAをベースモデルとして,全パラメータ微調整法とLoRAに基づくチューニング法の比較を行った。
実験の結果,基礎モデルの選択,トレーニングデータセットスケール,学習可能なパラメータ量,モデルトレーニングコストがすべて重要な要因であることがわかった。
本稿の実験的な結論は、特に中国語の分野において、大規模言語モデルの学習にインスピレーションを与え、研究者がトレーニングコストとモデル性能のトレードオフ戦略をよりよいものにすることを願っている。
論文の結果の再現を容易にするために、データセット、モデル、コードがリリースされる。 Recently, the instruction-tuning of large language models is a crucial area of research in the field of natural language processing. Due to resource and cost limitations, several researchers have employed parameter-efficient tuning techniques, such as LoRA, for instruction tuning, and have obtained encouraging results In comparison to full-parameter fine-tuning, LoRA-based tuning demonstrates salient benefits in terms of training costs. In this study, we undertook experimental comparisons between full-parameter fine-tuning and LoRA-based tuning methods, utilizing LLaMA as the base model. The experimental results show that the selection of the foundational model, training dataset scale, learnable parameter quantity, and model training cost are all important factors. We hope that the experimental conclusions of this paper can provide inspiration for training large language models, especially in the field of Chinese, and help researchers find a better trade-off strategy between training cost and model performance. To facilitate the reproduction of the paper's results, the dataset, model and code will be released. | 翻訳日:2023-04-18 15:56:23 公開日:2023-04-17 |
# DETRに基づく層状衣服分割と微粒化属性認識 DETR-based Layered Clothing Segmentation and Fine-Grained Attribute Recognition ( http://arxiv.org/abs/2304.08107v1 ) ライセンス: Link先を確認 | Hao Tian, Yu Cao, P. Y. Mok | (参考訳) 衣服のセグメンテーションときめ細かい属性認識は、コンピュータビジョンとファッションの交差において困難なタスクであり、アンサンブルの服のインスタンス全体をセグメンテーションし、入力された人間の画像から衣服製品の詳細な属性を認識する。
近年、多くの新しいモデルが開発されているが、セグメンテーションの精度は、異なるスケールの衣料品やファッション製品の場合、満足のいくものではない。
本稿では,アンサンブル衣料品の細粒度特性を高精度に分割認識するための新しい検出トランス(detr)方式を提案する。
本モデルでは,異なるスケールの特徴を集約し,単一インスタンスの様々なスケール成分を判定し,それらをマージすることで,‘textbf{multi-layered attention module’を提案する。
fashionpediaデータセット上でモデルをトレーニングし,層状衣料セグメンテーションと細粒度属性認識のタスクにおいて,この手法がsotaモデルを上回ることを示す。 Clothing segmentation and fine-grained attribute recognition are challenging tasks at the crossing of computer vision and fashion, which segment the entire ensemble clothing instances as well as recognize detailed attributes of the clothing products from any input human images. Many new models have been developed for the tasks in recent years, nevertheless the segmentation accuracy is less than satisfactory in case of layered clothing or fashion products in different scales. In this paper, a new DEtection TRansformer (DETR) based method is proposed to segment and recognize fine-grained attributes of ensemble clothing instances with high accuracy. In this model, we propose a \textbf{multi-layered attention module} by aggregating features of different scales, determining the various scale components of a single instance, and merging them together. We train our model on the Fashionpedia dataset and demonstrate our method surpasses SOTA models in tasks of layered clothing segmentation and fine-grained attribute recognition. | 翻訳日:2023-04-18 15:56:06 公開日:2023-04-17 |
# 頭頸部癌における生存予測のためのTumour Graph Learning Towards Tumour Graph Learning for Survival Prediction in Head & Neck Cancer Patients ( http://arxiv.org/abs/2304.08106v1 ) ライセンス: Link先を確認 | Angel Victor Juanco Muller, Joao F. C. Mota, Keith A. Goatman and Corne Hoogendoorn | (参考訳) 2020年に世界で100万人近い新規患者が診断され、頭頸部がんは致命的かつ一般的な悪性腫瘍である。
複数の部位の病変と患者間の予後の変動により、そのようながんの意思決定と治療は困難である。
したがって、自動セグメンテーションと予後推定アプローチは、各患者が最も効果的な治療を受けるのに役立つ。
本稿では、任意の視野(FoV)PETおよびCT登録スキャン上でこれらの機能を実行するためのフレームワークを提案し、チーム \texttt{VokCow} としてHECKTOR 2022チャレンジのタスク1と2に接近する。
本手法は, 局所化, セグメンテーション, 生存予測の3段階からなる。
まず、任意のFoVのスキャンを頭頸部領域にトリミングし、U字型畳み込みニューラルネットワーク(CNN)を訓練して、興味のある領域を分割する。
そして、得られた領域を用いて、別のCNNを支持ベクトル機械分類器と組み合わせて腫瘍の意味的セグメンテーションを求め、タスク1におけるDiceスコアが0.57となる。
最後に、weibullaccelerated failure time modelとdeep learning methodのアンサンブルを用いてサバイバル予測にアプローチする。
患者の健康記録データに加えて,グラフ畳み込みによる腫瘍中心の画像パッチの処理グラフが予後予測を改善できるかどうかについて検討する。
テストセットでは0.64の一致指数が達成され、このタスクのチャレンジリーダーボードでは6位となった。 With nearly one million new cases diagnosed worldwide in 2020, head \& neck cancer is a deadly and common malignity. There are challenges to decision making and treatment of such cancer, due to lesions in multiple locations and outcome variability between patients. Therefore, automated segmentation and prognosis estimation approaches can help ensure each patient gets the most effective treatment. This paper presents a framework to perform these functions on arbitrary field of view (FoV) PET and CT registered scans, thus approaching tasks 1 and 2 of the HECKTOR 2022 challenge as team \texttt{VokCow}. The method consists of three stages: localization, segmentation and survival prediction. First, the scans with arbitrary FoV are cropped to the head and neck region and a u-shaped convolutional neural network (CNN) is trained to segment the region of interest. Then, using the obtained regions, another CNN is combined with a support vector machine classifier to obtain the semantic segmentation of the tumours, which results in an aggregated Dice score of 0.57 in task 1. Finally, survival prediction is approached with an ensemble of Weibull accelerated failure times model and deep learning methods. In addition to patient health record data, we explore whether processing graphs of image patches centred at the tumours via graph convolutions can improve the prognostic predictions. A concordance index of 0.64 was achieved in the test set, ranking 6th in the challenge leaderboard for this task. | 翻訳日:2023-04-18 15:55:47 公開日:2023-04-17 |
# Low-code LLM: LLM上のビジュアルプログラミング Low-code LLM: Visual Programming over LLMs ( http://arxiv.org/abs/2304.08103v1 ) ライセンス: Link先を確認 | Yuzhe Cai, Shaoguang Mao, Wenshan Wu, Zehua Wang, Yaobo Liang, Tao Ge, Chenfei Wu, Wang You, Ting Song, Yan Xia, Jonathan Tien, Nan Duan | (参考訳) 複雑なタスクにllmを効果的に利用することは困難であり、しばしば時間と制御不能な迅速なエンジニアリングプロセスを伴う。
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
6種類のシンプルなローコードビジュアルプログラミングインタラクションが組み込まれており、全てクリック、ドラッグ、テキスト編集によってサポートされ、より制御可能で安定したレスポンスを実現する。
グラフィカルなユーザインタフェースとの視覚的なインタラクションを通じて、ユーザーは簡単なプロンプトを書くことなく、自分のアイデアをワークフローに組み込むことができる。
提案するLow-code LLMフレームワークは、複雑なタスクのための構造化計画ワークフローを設計するプランニングLLMと、ユーザ確認ワークフローに従って応答を生成するExecuting LLMから構成される。
制御可能な生成結果,ユーザフレンドリなヒューマン-LLMインタラクション,広く適用可能なシナリオの3つのメリットを強調した。
4つの典型的なアプリケーションを用いてその利点を実証する。
このアプローチを導入することで、人間とLLMのギャップを埋め、複雑なタスクにLLMをより効果的かつ効率的に活用することを目指している。
私たちのシステムは、間もなくLowCodeLLMで公開されます。 Effectively utilizing LLMs for complex tasks is challenging, often involving a time-consuming and uncontrollable prompt engineering process. This paper introduces a novel human-LLM interaction framework, Low-code LLM. It incorporates six types of simple low-code visual programming interactions, all supported by clicking, dragging, or text editing, to achieve more controllable and stable responses. Through visual interaction with a graphical user interface, users can incorporate their ideas into the workflow without writing trivial prompts. The proposed Low-code LLM framework consists of a Planning LLM that designs a structured planning workflow for complex tasks, which can be correspondingly edited and confirmed by users through low-code visual programming operations, and an Executing LLM that generates responses following the user-confirmed workflow. We highlight three advantages of the low-code LLM: controllable generation results, user-friendly human-LLM interaction, and broadly applicable scenarios. We demonstrate its benefits using four typical applications. By introducing this approach, we aim to bridge the gap between humans and LLMs, enabling more effective and efficient utilization of LLMs for complex tasks. Our system will be soon publicly available at LowCodeLLM. | 翻訳日:2023-04-18 15:55:23 公開日:2023-04-17 |
# lla-flow:光フロー推定のためのコストボリュームに関する軽量局所集計 LLA-FLOW: A Lightweight Local Aggregation on Cost Volume for Optical Flow Estimation ( http://arxiv.org/abs/2304.08101v1 ) ライセンス: Link先を確認 | Jiawei Xu, Zongqing Lu, Qingmin Liao | (参考訳) テクスチャの欠如はしばしばマッチングの曖昧さを引き起こし、この問題に対処することは光学フロー推定タスクにおいて重要な課題である。
いくつかの方法はスタック化されたトランスフォーマーモジュールを挿入し、ネットワークが見積もりにコストボリュームのグローバル情報を使用することを可能にする。
しかし、グローバルな情報集約は、トレーニングと推論の間に深刻なメモリと時間コストを引き起こし、モデルデプロイメントを妨げます。
従来の地域制約からインスピレーションを得て,地域類似度集約(LSA)と地域類似度集約(SLSA)を設計する。
コストボリュームの集約は、機能マップに作用する軽量モジュールで実装される。
Sintelの最終パスの実験は、競争性能を維持しながら、我々のアプローチに必要なコストが低いことを示している。 Lack of texture often causes ambiguity in matching, and handling this issue is an important challenge in optical flow estimation tasks. Some methods insert stacked transformer modules that allow the network to use global information of cost volume for estimation. But the global information aggregation often incurs serious memory and time costs during training and inference, which hinders model deployment. We draw inspiration from the traditional local region constraint and design the local similarity aggregation (LSA) and the shifted local similarity aggregation (SLSA). The aggregation for cost volume is implemented with lightweight modules that act on the feature maps. Experiments on the final pass of Sintel show the lower cost required for our approach while maintaining competitive performance. | 翻訳日:2023-04-18 15:55:03 公開日:2023-04-17 |
# 変圧器型グラフニューラルネットワークによる衣装生成 Transformer-based Graph Neural Networks for Outfit Generation ( http://arxiv.org/abs/2304.08098v1 ) ライセンス: Link先を確認 | Federico Becattini, Federico Maria Teotini, Alberto Del Bimbo | (参考訳) 衣服を構成するために補完的な衣服を推奨することは、新しい関心のプロセスであるが、それはファッショントレンドと視覚美学の詳細な理解を含んでいる。
それまでの作品は、視覚的な魅力を採点し、服を順序付きシーケンスまたは対互換アイテムのコレクションとして表現することによる推薦に重点を置いてきた。
これは衣服間の関係の完全な使用を制限する。
我々は,コレクション内のアイテムのグラフベース表現を利用することで,服装推薦と生成のギャップを埋めることを試みる。
本研究は,既存の服のコレクションから始まった,新しい魅力ある服の発見によって,服の推薦と世代間の橋を築こうとするものである。
我々は,畳み込みグラフニューラルネットワークにおけるメッセージパッシングステップとして,多面的な自己注意を利用して,グラフ内の衣服アイテム間の関係をキャプチャするトランスフォーマーベースのアーキテクチャTGNNを提案する。
具体的には、種子、すなわち1つ以上の衣服から始め、以前選択された衣服と最も互換性のある衣服を反復的に選択して衣服生成を行う。
2つの異なるデータセットを用いて広範な実験を行い、シードされた衣装生成を行うモデルの能力と互換性評価タスクにおける技術結果の取得を実証した。 Suggesting complementary clothing items to compose an outfit is a process of emerging interest, yet it involves a fine understanding of fashion trends and visual aesthetics. Previous works have mainly focused on recommendation by scoring visual appeal and representing garments as ordered sequences or as collections of pairwise-compatible items. This limits the full usage of relations among clothes. We attempt to bridge the gap between outfit recommendation and generation by leveraging a graph-based representation of items in a collection. The work carried out in this paper, tries to build a bridge between outfit recommendation and generation, by discovering new appealing outfits starting from a collection of pre-existing ones. We propose a transformer-based architecture, named TGNN, which exploits multi-headed self attention to capture relations between clothing items in a graph as a message passing step in Convolutional Graph Neural Networks. Specifically, starting from a seed, i.e.~one or more garments, outfit generation is performed by iteratively choosing the garment that is most compatible with the previously chosen ones. Extensive experimentations are conducted with two different datasets, demonstrating the capability of the model to perform seeded outfit generation as well as obtaining state of the art results on compatibility estimation tasks. | 翻訳日:2023-04-18 15:54:52 公開日:2023-04-17 |
# T-pseudo-Hermitian Rashba Hamiltonianに付随する二直交スピノル : クリフォードアルゲブラCl3(R)と擬似超対称性の時間反転 Bi-orthogonal spinors associated to T -pseudo-Hermitian Rashba Hamiltonian : Time reversal in Clifford Algebra Cl3(R) and Pseudo-Supersymmetry ( http://arxiv.org/abs/2304.08097v1 ) ライセンス: Link先を確認 | Arindam Chakraborty | (参考訳) ラシュバ・ハミルトニアン(Rashba Hamiltonian)の非エルミート版は、ガリレオ不変フレームワークにおけるシュロディンガー方程式のレヴィ・ルブロンド型線型化から導かれる。
前記ハミルトニアンはフェルミオン時間反転の下で擬エルミートであり、その固有スピナーは双直交性を示す。
議論の全体はクリフォード代数的フレームワークにキャストされ、そのバイオロトゴナリティは時間反転作用素とクリフォードインダクションの観点で様々な理解がなされている。
クラマーズの退化定理の等価バージョンの可能性も検討され、現在の系に関連する超対称および擬超対称構造についても議論されている。 A non-Hermitian version of Rashba Hamiltonian has been introduced motivated from the Levy-leblond type linearisation of Schrodinger equation in a Galilean invariant frame-work. The said Hamiltonian is found to be pseudo-Hermitian under fermionic time-reversal and its eigen-spinors show bi-orthogonality. The whole discussion has been cast in a Clifford algebraic frame-work and the said biorthogonality has been variously understood in terms of time-reversal operator and Clifford involutions. The possibility of an equivalent version of Kramers' degeneracy theorem has been explored and the super-symmetric and pseudo-super-symmetric structures relating to the present system are also discussed. | 翻訳日:2023-04-18 15:54:30 公開日:2023-04-17 |
# 無線チャネルチャート作成:理論、実践、応用 Wireless Channel Charting: Theory, Practice, and Applications ( http://arxiv.org/abs/2304.08095v1 ) ライセンス: Link先を確認 | Paul Ferrand, Maxime Guillaud, Christoph Studer, Olav Tirkkonen | (参考訳) チャネルチャートは、無線システムにおけるチャネル状態情報(CSI)に対して、低次元空間において各モバイルユーザに対して擬似位置を関連付けることを目的として、ディメンタリティ低減を適用したフレームワークである。
Channel Chartingは、CSIデータセット全体を自己管理的に要約し、ユーザ位置と結びついたさまざまなアプリケーションを開く。
本稿では,チャネルチャートの理論的基盤を紹介するとともに,近年のアルゴリズム開発と実験結果について概説する。
さらに,ネットワークおよびユーザ関連アプリケーションへのチャネルチャートの具体的適用例について論じ,次世代無線ネットワークにおけるチャネルチャートの役割と今後の発展と課題について展望を提供する。 Channel charting is a recently proposed framework that applies dimensionality reduction to channel state information (CSI) in wireless systems with the goal of associating a pseudo-position to each mobile user in a low-dimensional space: the channel chart. Channel charting summarizes the entire CSI dataset in a self-supervised manner, which opens up a range of applications that are tied to user location. In this article, we introduce the theoretical underpinnings of channel charting and present an overview of recent algorithmic developments and experimental results obtained in the field. We furthermore discuss concrete application examples of channel charting to network- and user-related applications, and we provide a perspective on future developments and challenges as well as the role of channel charting in next-generation wireless networks. | 翻訳日:2023-04-18 15:54:15 公開日:2023-04-17 |
# 推薦システムにおける信頼と透明性 Trust and Transparency in Recommender Systems ( http://arxiv.org/abs/2304.08094v1 ) ライセンス: Link先を確認 | Clara Siepmann and Mohamed Amine Chatti | (参考訳) 信頼は、リコメンダーシステム(Recommender Systems, RS)の重要な要素として長年認識されてきた。
しかし、信頼について異なる視点とそれを評価する異なる方法がある。
さらに、信頼と透明性のつながりがしばしば想定されるが、必ずしもさらに調査されるわけではない。
本稿では,まず,ai と rs コミュニティにおける信頼の異なる理解と測定を行った。
次に,信頼と透明性,およびメンタルモデルとの関係をレビューし,説明,探索,展開(すなわち,探索と説明の組み合わせ)といったrsの透明性を達成するための異なる戦略を検討する。
我々はこれらの概念とそれらの関係を研究するためのさらなる研究の必要性を特定する。 Trust is long recognized to be an important factor in Recommender Systems (RS). However, there are different perspectives on trust and different ways to evaluate it. Moreover, a link between trust and transparency is often assumed but not always further investigated. In this paper we first go through different understandings and measurements of trust in the AI and RS community, such as demonstrated and perceived trust. We then review the relationsships between trust and transparency, as well as mental models, and investigate different strategies to achieve transparency in RS such as explanation, exploration and exploranation (i.e., a combination of exploration and explanation). We identify a need for further studies to explore these concepts as well as the relationships between them. | 翻訳日:2023-04-18 15:54:02 公開日:2023-04-17 |
# EU討論における自動音声認識による政治コーパス作成 Political corpus creation through automatic speech recognition on EU debates ( http://arxiv.org/abs/2304.08137v1 ) ライセンス: Link先を確認 | Hugo de Vos and Suzan Verberne | (参考訳) 本稿では、eu議会のlibe委員会の書き起こされたコーパスについて、合計で360万語を収録した。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
会議は英語で行われ、一部は非母語話者が話し、一部は通訳が話す。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
我々は、asrパイプラインの教師なしのドメイン適応に注目した。
変換器を用いたWav2vec2.0モデルを用いて,複数の音響モデル,言語モデル,ドメイン固有項の追加実験を行った。
その結果、ドメイン固有音響モデルとドメイン固有言語モデルにより、ASR出力が大幅に改善され、単語誤り率(WER)が28.22から17.95に減少した。
復号段階でのドメイン固有項の使用は、WERの観点からはASRの品質に肯定的な影響を与えなかった。
初期のトピックモデリングの結果,コーパスは下流分析作業に有用であることが示唆された。
得られたコーパスと分析パイプラインを今後の研究のためにリリースします。 In this paper, we present a transcribed corpus of the LIBE committee of the EU parliament, totalling 3.6 Million running words. The meetings of parliamentary committees of the EU are a potentially valuable source of information for political scientists but the data is not readily available because only disclosed as speech recordings together with limited metadata. The meetings are in English, partly spoken by non-native speakers, and partly spoken by interpreters. We investigated the most appropriate Automatic Speech Recognition (ASR) model to create an accurate text transcription of the audio recordings of the meetings in order to make their content available for research and analysis. We focused on the unsupervised domain adaptation of the ASR pipeline. Building on the transformer-based Wav2vec2.0 model, we experimented with multiple acoustic models, language models and the addition of domain-specific terms. We found that a domain-specific acoustic model and a domain-specific language model give substantial improvements to the ASR output, reducing the word error rate (WER) from 28.22 to 17.95. The use of domain-specific terms in the decoding stage did not have a positive effect on the quality of the ASR in terms of WER. Initial topic modelling results indicated that the corpus is useful for downstream analysis tasks. We release the resulting corpus and our analysis pipeline for future research. | 翻訳日:2023-04-18 15:47:21 公開日:2023-04-17 |
# 低次多項式による高密度部分グラフの検出 Detection of Dense Subhypergraphs by Low-Degree Polynomials ( http://arxiv.org/abs/2304.08135v1 ) ライセンス: Link先を確認 | Abhishek Dhawan, Cheng Mao, Alexander S. Wein | (参考訳) ランダムグラフにおける植込み高密度部分グラフの検出は、近年広く研究されている基本的な統計的および計算上の問題である。
我々は問題のハイパーグラフ版を研究している。
G^r(n,p)$ は$r$-ユニフォーム Erd\H{o}s-R\'enyi ハイパーグラフモデルで$n$頂点とエッジ密度 $p$ を表す。
我々は,$g^r(n^\gamma,n^{-\alpha})$部分超グラフを$g^r(n,n^{-\beta})$ハイパーグラフで検出し,$0< \alpha < \beta < r-1$ および $0 < \gamma < 1$ とする。
隣接テンソルの成分の次数-$n^{o(1)}$多項式の試験に焦点をあて、検出問題に対する易度と硬度の間のしきい値を決定する。
より正確には、$0 < \gamma < 1/2$の場合、閾値は$\alpha = \beta \gamma$、$1/2 \le \gamma < 1$の場合は$\alpha = \beta/2 + r(\gamma - 1/2)$である。
平均値の減少に基づく硬さが不明な微妙な対数密度構造を考えると,この結果はグラフの場合$r=2$で既に新しくなっている。
低次硬さの証明は、標準低次度度計算の条件付き変種に基づいている。 Detection of a planted dense subgraph in a random graph is a fundamental statistical and computational problem that has been extensively studied in recent years. We study a hypergraph version of the problem. Let $G^r(n,p)$ denote the $r$-uniform Erd\H{o}s-R\'enyi hypergraph model with $n$ vertices and edge density $p$. We consider detecting the presence of a planted $G^r(n^\gamma, n^{-\alpha})$ subhypergraph in a $G^r(n, n^{-\beta})$ hypergraph, where $0< \alpha < \beta < r-1$ and $0 < \gamma < 1$. Focusing on tests that are degree-$n^{o(1)}$ polynomials of the entries of the adjacency tensor, we determine the threshold between the easy and hard regimes for the detection problem. More precisely, for $0 < \gamma < 1/2$, the threshold is given by $\alpha = \beta \gamma$, and for $1/2 \le \gamma < 1$, the threshold is given by $\alpha = \beta/2 + r(\gamma - 1/2)$. Our results are already new in the graph case $r=2$, as we consider the subtle log-density regime where hardness based on average-case reductions is not known. Our proof of low-degree hardness is based on a conditional variant of the standard low-degree likelihood calculation. | 翻訳日:2023-04-18 15:47:01 公開日:2023-04-17 |
# 顔認証エッジケースに取り組む - 奥行き解析とヒューマンマシン融合アプローチ- Tackling Face Verification Edge Cases: In-Depth Analysis and Human-Machine Fusion Approach ( http://arxiv.org/abs/2304.08134v1 ) ライセンス: Link先を確認 | Martin Knoche and Gerhard Rigole | (参考訳) 現在、顔認識システムは複数のデータセットで人間のパフォーマンスを上回っている。
しかし、マシンが正しく分類できないエッジケースは依然として存在する。
本稿では,顔認証タスクにおける機械と操作者の組合せの効果について検討する。
まず、いくつかの最先端モデルのエッジケースに注目して、共通のデータセットの困難な設定を見つける。
次に,選択タスクの参加者60名を対象に,人間による調査を行い,詳細な分析を行った。
最後に、機械と人間の意思決定を組み合わせることで、様々なベンチマークデータセットにおける最先端の顔認証システムの性能をさらに向上できることを実証する。
コードとデータはgithubで公開されている。 Nowadays, face recognition systems surpass human performance on several datasets. However, there are still edge cases that the machine can't correctly classify. This paper investigates the effect of a combination of machine and human operators in the face verification task. First, we look closer at the edge cases for several state-of-the-art models to discover common datasets' challenging settings. Then, we conduct a study with 60 participants on these selected tasks with humans and provide an extensive analysis. Finally, we demonstrate that combining machine and human decisions can further improve the performance of state-of-the-art face verification systems on various benchmark datasets. Code and data are publicly available on GitHub. | 翻訳日:2023-04-18 15:46:31 公開日:2023-04-17 |
# Few-Shot Class-Incremental Learningに関する調査 A Survey on Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2304.08130v1 ) ライセンス: Link先を確認 | Songsong Tian, Lusi Li, Weijun Li, Hang Ran, Xin Ning, Prayag Tiwari | (参考訳) 大規模なディープラーニングモデルは印象的だが、リアルタイムデータが利用できないと苦労する。
FSCIL(Few-shot class-incremental Learning)は、ディープニューラルネットワークにおいて、これまで学んだことを忘れずに、ラベル付きサンプルから新しいタスクを学習する上で重要な課題となる。
このセットアップは、破滅的な忘れと過度な問題を引き起こし、モデルパフォーマンスに深刻な影響を与えます。
FSCILの研究は、データボリュームと取得時間に関するディープラーニングモデルの制限を克服し、機械学習モデルの実用性と適応性を向上させる。
本稿では FSCIL に関する総合的な調査を行う。
これまでの調査と異なり,2つの視点からfscilを導入することに着目し,30以上の理論研究と20以上の応用研究をレビューした。
理論的には,従来の機械学習手法,メタ学習に基づく手法,特徴量と特徴量に基づく手法,リプレイに基づく手法,動的ネットワーク構造に基づく手法の5つのサブカテゴリに分けた新しい分類手法を提案する。
また、FSCILのベンチマークデータセットに関する最近の理論的研究の評価を行った。
アプリケーションの観点からは、FSCILは、自然言語処理やグラフと同様に、画像分類、オブジェクト検出、画像分割など、コンピュータビジョンの様々な分野において、目覚ましい成果を達成している。
我々は重要な応用をまとめる。
最後に,応用,問題設定,理論開発など今後の研究の方向性を指摘する。
本稿では,FSCILの方法論,性能,アプリケーションの観点からの最近の進歩を包括的に分析する。 Large deep learning models are impressive, but they struggle when real-time data is not available. Few-shot class-incremental learning (FSCIL) poses a significant challenge for deep neural networks to learn new tasks from just a few labeled samples without forgetting the previously learned ones. This setup easily leads to catastrophic forgetting and overfitting problems, severely affecting model performance. Studying FSCIL helps overcome deep learning model limitations on data volume and acquisition time, while improving practicality and adaptability of machine learning models. This paper provides a comprehensive survey on FSCIL. Unlike previous surveys, we aim to synthesize few-shot learning and incremental learning, focusing on introducing FSCIL from two perspectives, while reviewing over 30 theoretical research studies and more than 20 applied research studies. From the theoretical perspective, we provide a novel categorization approach that divides the field into five subcategories, including traditional machine learning methods, meta-learning based methods, feature and feature space-based methods, replay-based methods, and dynamic network structure-based methods. We also evaluate the performance of recent theoretical research on benchmark datasets of FSCIL. From the application perspective, FSCIL has achieved impressive achievements in various fields of computer vision such as image classification, object detection, and image segmentation, as well as in natural language processing and graph. We summarize the important applications. Finally, we point out potential future research directions, including applications, problem setups, and theory development. Overall, this paper offers a comprehensive analysis of the latest advances in FSCIL from a methodological, performance, and application perspective. | 翻訳日:2023-04-18 15:46:22 公開日:2023-04-17 |
# ハイブリッド量子ロータデバイスの熱力学 Thermodynamics of hybrid quantum rotor devices ( http://arxiv.org/abs/2304.08122v1 ) ライセンス: Link先を確認 | Heather Leitch, Kenza Hammam, Gabriele De Chiara | (参考訳) 量子回転子と相互作用する2つの量子ビットと、異なる温度で2つの平衡貯留層に散逸的に結合したハイブリッド量子デバイスの熱力学について検討する。
局所的および大域的マスター方程式を用いてシステムの力学と定常状態をモデル化することにより、装置の機能を熱エンジン、冷蔵庫または加速器として識別する。
また, 熱整流器としての動作能力についても検討し, 整流係数と熱流の両面を同時に最適化する。
熱整流の類似性を示し, ロータの運動エネルギーへのエネルギー変換に関心を持っていることから, 外部負荷による作業抽出制御に用いる角運動量整流の概念を紹介する。 We investigate the thermodynamics of a a hybrid quantum device consisting of two qubits collectively interacting with a quantum rotor and coupled dissipatively to two equilibrium reservoirs at different temperatures. By modelling the dynamics and the steady state of the system using the local and global master equations, we identify the functioning of the device as either a thermal engine, refrigerator or accelerator. In addition, we also look into the device's capacity to operate as a heat rectifier, and optimise both the rectification coefficient and the heat flow simultaneously. Drawing an analogy to heat rectification and since we are interested in the conversion of energy into the rotor's kinetic energy, we introduce the concept of angular momentum rectification which may be employed for controlling work extraction through an external load. | 翻訳日:2023-04-18 15:45:54 公開日:2023-04-17 |
# das-n2n: クリーンデータなしの機械学習分散音響センシング(das)信号 DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data ( http://arxiv.org/abs/2304.08120v1 ) ライセンス: Link先を確認 | Sacha Lapins, Antony Butcher, J.-Michael Kendall, Thomas S. Hudson, Anna L. Stork, Maximilian J. Werner, Jemma Gunning and Alex M. Brisbourne | (参考訳) 本稿では,分散音響センシング(das)記録における強いランダムノイズを抑制するため,das-n2nと呼ばれる弱教師付き機械学習手法を提案する。
das-n2nはトレーニングのために手動で生成したラベル(すなわち、クリーンなイベント信号やノイズのセクションの予め決定された例)を必要とせず、ランダムなノイズ処理を分布平均、中央値、モードといった選択された要約統計にマッピングすることを目的としている。
これは、単一の光ケーブル内にホストされる2つのファイバーをスプライシング(結合)し、ランダムな観測ノイズの異なる独立な実現によって破損した同じ信号の2つのノイズのコピーを記録することで達成される。
深層学習モデルは、この2つのノイズの多いデータのみを使用してトレーニングされ、ほぼ完全に復号化されたコピーを生成する。
モデルがトレーニングされると、単一のファイバーからのノイズデータのみが必要になる。
南極のラトフォード氷流表面に配置されたDASアレイのデータセットを用いて,DAS-N2Nが不整合性ノイズを著しく抑制し,自然微小地震の信号-雑音比(SNR)を高めることを示した。
さらに、本手法は、従来のストップ/パスバンドフィルタリングルーチンや、個別DASチャネルをマスキングした自己教師付き学習手法よりも本質的に効率的かつ効果的であることを示す。
このタスクの好ましいモデルは軽量で、985チャンネル(約1kmのファイバ)で1000Hzのサンプリング周波数で記録された30秒分のデータを$<$1 sで処理する。
das記録のノイズレベルが高いため、das-n2nのような効率的なデータ駆動デノージング手法は、特にマイクロサイスミックモニタリングにおいて、時間クリティカルなdas地震検出に必須である。 This article presents a weakly supervised machine learning method, which we call DAS-N2N, for suppressing strong random noise in distributed acoustic sensing (DAS) recordings. DAS-N2N requires no manually produced labels (i.e., pre-determined examples of clean event signals or sections of noise) for training and aims to map random noise processes to a chosen summary statistic, such as the distribution mean, median or mode, whilst retaining the true underlying signal. This is achieved by splicing (joining together) two fibres hosted within a single optical cable, recording two noisy copies of the same underlying signal corrupted by different independent realizations of random observational noise. A deep learning model can then be trained using only these two noisy copies of the data to produce a near fully-denoised copy. Once the model is trained, only noisy data from a single fibre is required. Using a dataset from a DAS array deployed on the surface of the Rutford Ice Stream in Antarctica, we demonstrate that DAS-N2N greatly suppresses incoherent noise and enhances the signal-to-noise ratios (SNR) of natural microseismic icequake events. We further show that this approach is inherently more efficient and effective than standard stop/pass band filtering routines and a comparable self-supervised learning method based on masking individual DAS channels. Our preferred model for this task is lightweight, processing 30 seconds of data recorded at a sampling frequency of 1000 Hz over 985 channels (approx. 1 km of fiber) in $<$1 s. Due to the high noise levels in DAS recordings, efficient data-driven denoising methods, such as DAS-N2N, will prove essential to time-critical DAS earthquake detection, particularly in the case of microseismic monitoring. | 翻訳日:2023-04-18 15:45:41 公開日:2023-04-17 |
# オープンドメイン対話システム改善のためのマルチタスク学習に関する実証的研究 An Empirical Study of Multitask Learning to Improve Open Domain Dialogue Systems ( http://arxiv.org/abs/2304.08115v1 ) ライセンス: Link先を確認 | Mehrdad Farahani, Richard Johansson | (参考訳) オープンドメインの対話システムで応答を生成するために使われる自己回帰モデルは、長期的なコンテキストを考慮して対話の一貫性を維持するのに苦労することが多い。
オープンドメインダイアログ生成における従来の研究は、'emph{auxiliary tasks'の使用は、モデルがこれらの品質を改善することを奨励する帰納的バイアスをもたらすことを示した。
しかし、これまでのほとんどの研究はエンコーダのみまたはエンコーダ/デコーダモデルに焦点が当てられてきたが、emph{decoder-only} 自己回帰モデルでの補助タスクの使用は未検討である。
本稿では,PersonaChatとDailyDialogのデータセットを微調整した中小GPT-2モデルに4種類の補助タスクを付加する方法について述べる。
その結果,新しい補助タスクの導入により,実験モデルの評価は小さく,かつ一貫した改善が得られた。 Autoregressive models used to generate responses in open-domain dialogue systems often struggle to take long-term context into account and to maintain consistency over a dialogue. Previous research in open-domain dialogue generation has shown that the use of \emph{auxiliary tasks} can introduce inductive biases that encourage the model to improve these qualities. However, most previous research has focused on encoder-only or encoder/decoder models, while the use of auxiliary tasks in \emph{decoder-only} autoregressive models is under-explored. This paper describes an investigation where four different auxiliary tasks are added to small and medium-sized GPT-2 models fine-tuned on the PersonaChat and DailyDialog datasets. The results show that the introduction of the new auxiliary tasks leads to small but consistent improvement in evaluations of the investigated models. | 翻訳日:2023-04-18 15:45:06 公開日:2023-04-17 |
# ViPLO:視覚変換器を用いた擬似自己ループグラフによる人体インタラクション検出 ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection ( http://arxiv.org/abs/2304.08114v1 ) ライセンス: Link先を確認 | Jeeseung Park, Jin-Woo Park, Jong-Seok Lee | (参考訳) 人間と物体の関係をローカライズし、推論する人物体相互作用(HOI)検出は、シーン理解において重要な役割を果たす。
2段階のHOI検出器は、トレーニングと推論において高い効率の利点があるが、古いバックボーンネットワークと相互作用分類器における人間のHOI知覚過程に対する考慮の欠如により、1段階よりも性能が低い。
本稿では,視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
まず、重なり合う領域(MOA)モジュールを用いたマスキングと呼ばれるビジョントランスフォーマーのバックボーンに適した特徴抽出手法を提案する。
MOAモジュールは、注目機能において各パッチと所定の領域間の重なり合う領域を利用し、ビジョントランスフォーマーバックボーンを使用する際の量子化問題に対処する。
さらに,人間の関節の局所的な特徴により人間のノードのエンコードを更新する,ポーズ条件付き自己ループ構造を持つグラフを設計する。
これにより、分類者は特定の人間の関節に集中して、HOIの人間の知覚プロセスによって動機付けられた相互作用のタイプを効果的に特定することができる。
結果として、ViPLOは2つの公開ベンチマーク、特にHICO-DETデータセットで+2.07 mAPパフォーマンスゲインを得るという最先端の結果を得た。
ソースコードはhttps://github.com/Jeeseung-Park/ViPLOで入手できる。 Human-Object Interaction (HOI) detection, which localizes and infers relationships between human and objects, plays an important role in scene understanding. Although two-stage HOI detectors have advantages of high efficiency in training and inference, they suffer from lower performance than one-stage methods due to the old backbone networks and the lack of considerations for the HOI perception process of humans in the interaction classifiers. In this paper, we propose Vision Transformer based Pose-Conditioned Self-Loop Graph (ViPLO) to resolve these problems. First, we propose a novel feature extraction method suitable for the Vision Transformer backbone, called masking with overlapped area (MOA) module. The MOA module utilizes the overlapped area between each patch and the given region in the attention function, which addresses the quantization problem when using the Vision Transformer backbone. In addition, we design a graph with a pose-conditioned self-loop structure, which updates the human node encoding with local features of human joints. This allows the classifier to focus on specific human joints to effectively identify the type of interaction, which is motivated by the human perception process for HOI. As a result, ViPLO achieves the state-of-the-art results on two public benchmarks, especially obtaining a +2.07 mAP performance gain on the HICO-DET dataset. The source codes are available at https://github.com/Jeeseung-Park/ViPLO. | 翻訳日:2023-04-18 15:44:50 公開日:2023-04-17 |
# 補間回帰モデルの解析と二重降下現象 Analysis of Interpolating Regression Models and the Double Descent Phenomenon ( http://arxiv.org/abs/2304.08113v1 ) ライセンス: Link先を確認 | Tomas McKelvey | (参考訳) トレーニングデータのデータポイントよりも多くのパラメータを持つ回帰モデルは過度にパラメータ化され、トレーニングデータを補間する能力を持つ。
古典的バイアス分散トレードオフ式に基づいて、ノイズのあるトレーニングデータを補間するモデルは、一般化に乏しいと一般的に仮定される。
場合によっては、これは真実ではない。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
本稿では,機械学習の文献で最初に報告された二重降下現象を説明するための分析を行う。
古典的最小二乗問題に対する最小ノルム解から導かれる補間モデルに着目し,リッジ回帰を用いたモデルフィッティングについて簡単に論じる。
回帰行列の最小特異値の挙動をモデル次数関数としてテスト誤差のピーク位置と二重降下形状を説明する結果から導出する。 A regression model with more parameters than data points in the training data is overparametrized and has the capability to interpolate the training data. Based on the classical bias-variance tradeoff expressions, it is commonly assumed that models which interpolate noisy training data are poor to generalize. In some cases, this is not true. The best models obtained are overparametrized and the testing error exhibits the double descent behavior as the model order increases. In this contribution, we provide some analysis to explain the double descent phenomenon, first reported in the machine learning literature. We focus on interpolating models derived from the minimum norm solution to the classical least-squares problem and also briefly discuss model fitting using ridge regression. We derive a result based on the behavior of the smallest singular value of the regression matrix that explains the peak location and the double descent shape of the testing error as a function of model order. | 翻訳日:2023-04-18 15:44:26 公開日:2023-04-17 |
# マルチビューデータを活用した検出性能の向上:産業用ユースケース Leveraging Multi-view Data for Improved Detection Performance: An Industrial Use Case ( http://arxiv.org/abs/2304.08111v1 ) ライセンス: Link先を確認 | Faranak Shamsafar, Sunil Jaiswal, Benjamin Kelkel, Kireeti Bodduna, Klaus Illgner-Fehns | (参考訳) プリント回路基板(PCB)は電子機器の重要な構成要素であり、その品質が製造に不可欠である。
しかし、様々な企業が製造する様々な部品やPCBは、速度の要求に応じて生産ラインに適応することを困難にしている。
この課題に対処するために,高速かつ正確なソリューションを提供する多視点オブジェクト検出フレームワークを提案する。
本稿では,半自動地下構造データを用いた新しいマルチビューデータセットを提案する。
オブジェクト検出のためのPCBボードのラベル付けは、コンポーネントの密度が高く、オブジェクトのサイズが小さいため難しい作業であり、正確な識別とラベル付けが困難である。
マルチビューデータを用いた物体検出モデルのトレーニングにより,単視点画像に対する性能向上を実現する。
精度をさらに高めるために,異なる視点から結果を集約する多視点推論手法を開発した。
実験では, 0.5mmから27.0mmの成分を検出するため, mAPの15%の改善が示された。 Printed circuit boards (PCBs) are essential components of electronic devices, and ensuring their quality is crucial in their production. However, the vast variety of components and PCBs manufactured by different companies makes it challenging to adapt to production lines with speed demands. To address this challenge, we present a multi-view object detection framework that offers a fast and precise solution. We introduce a novel multi-view dataset with semi-automatic ground-truth data, which results in significant labeling resource savings. Labeling PCB boards for object detection is a challenging task due to the high density of components and the small size of the objects, which makes it difficult to identify and label them accurately. By training an object detector model with multi-view data, we achieve improved performance over single-view images. To further enhance the accuracy, we develop a multi-view inference method that aggregates results from different viewpoints. Our experiments demonstrate a 15% improvement in mAP for detecting components that range in size from 0.5 to 27.0 mm. | 翻訳日:2023-04-18 15:44:10 公開日:2023-04-17 |
# 単眼全方位トップビュー画像における人間のポーズ推定 Human Pose Estimation in Monocular Omnidirectional Top-View Images ( http://arxiv.org/abs/2304.08186v1 ) ライセンス: Link先を確認 | Jingrui Yu, Tobias Scheck, Roman Seidel, Yukti Adya, Dipankar Nandi, Gangolf Hirtz | (参考訳) 屋内監視のための畳み込みニューラルネットワーク(CNN)を用いたヒューマンポーズ推定(HPE)は、コンピュータビジョンにおける大きな課題の1つである。
視野ビューにおけるHPEとは対照的に、室内監視システムは180{\deg}の視野を持つ全方位カメラからなり、1室に1つのセンサーしか持たない人のポーズを検出することができる。
人間のポーズを認識するためには、キーポイントの検出が重要な上流ステップである。
本研究は,全方位画像におけるキーポイント検出タスクのためのCNNのトレーニングと評価のための新しいデータセットを提案する。
トレーニングデータセットTheODORE+は5万枚の画像で構成され、人間が屋内の環境をランダムに歩き回っている3Dレンダリングエンジンによって生成される。
動的に生成された3Dシーンでは、全方位カメラを同時に動かしてランダムに動き、合成RGB画像と2Dおよび3D地上真実を生成する。
評価のために、2つのシナリオと701フレーム、1シーンあたり最大8人までの実際のPoseFESデータセットをキャプチャして注釈付けした。
本研究では,MMPoseの2つのトップダウンモデルとTheODORE+のCenterNetの2つのボトムアップモデルを微調整または再訓練するための4つのトレーニングパラダイムを提案する。
定性的な評価に加えて、定量的な結果も報告します。
COCO事前トレーニングベースラインと比較して、特にPoseFESデータセットのトップビューシーンにおいて、大幅な改善を実現しています。
データセットはhttps://www.tu-chemnitz.de/etit/dst/forschung/comp_vision/datasets/index.php.enで確認できます。 Human pose estimation (HPE) with convolutional neural networks (CNNs) for indoor monitoring is one of the major challenges in computer vision. In contrast to HPE in perspective views, an indoor monitoring system can consist of an omnidirectional camera with a field of view of 180{\deg} to detect the pose of a person with only one sensor per room. To recognize human pose, the detection of keypoints is an essential upstream step. In our work we propose a new dataset for training and evaluation of CNNs for the task of keypoint detection in omnidirectional images. The training dataset, THEODORE+, consists of 50,000 images and is created by a 3D rendering engine, where humans are randomly walking through an indoor environment. In a dynamically created 3D scene, persons move randomly with simultaneously moving omnidirectional camera to generate synthetic RGB images and 2D and 3D ground truth. For evaluation purposes, the real-world PoseFES dataset with two scenarios and 701 frames with up to eight persons per scene was captured and annotated. We propose four training paradigms to finetune or re-train two top-down models in MMPose and two bottom-up models in CenterNet on THEODORE+. Beside a qualitative evaluation we report quantitative results. Compared to a COCO pretrained baseline, we achieve significant improvements especially for top-view scenes on the PoseFES dataset. Our datasets can be found at https://www.tu-chemnitz.de/etit/dst/forschung/comp_vision/datasets/index.php.en. | 翻訳日:2023-04-18 15:38:04 公開日:2023-04-17 |
# ファウショット知識グラフ補完のためのフローベースニューラルプロセスの正規化 Normalizing Flow-based Neural Process for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2304.08183v1 ) ライセンス: Link先を確認 | Linhao Luo, Yuan-Fang Li, Gholamreza Haffari, and Shirui Pan | (参考訳) 知識グラフ(KG)は、知識表現の構造化形式として、現実世界に広く応用されている。
近年,マイノリティグラフ補完(マイノリティグラフ補完,マイノリティグラフ補完,マイノリティグラフ補完,マイノリティグラフ補完,マイノリティグラフ補完,マイノリティグラフ補完)が実践者や研究者から注目を集めている。
しかし、既存のFKGC手法はメートル法学習やメタラーニングをベースとしており、しばしば分布外および過度な問題に悩まされる。
一方、予測の不確実性を推定する能力がないため、モデル予測は数ショットの環境では非常に信頼できない。
さらに、それらのほとんどは複雑な関係を処理できず、kgの経路情報を無視している。
本稿では,数ショット知識グラフ補完(NP-FKGC)のためのフローベースニューラルプロセスの正規化を提案する。
具体的には、正規化フローとニューラルプロセスを統合し、KG完了関数の複雑な分布をモデル化する。
これは、不確実性を推定しながら、数ショットの関係に関する事実を予測する新しい方法を提供する。
次に, 確率多様体デコーダを提案し, 神経過程を組み込んで, 複雑な関係を数ショット設定で処理する。
さらに性能を向上させるために,注意関係パスベースのグラフニューラルネットワークを導入し,kgsの経路情報をキャプチャする。
3つの公開データセットに関する広範な実験により、この手法が既存のfkgcメソッドを大幅に上回っており、最先端のパフォーマンスを実現していることが示された。
コードはhttps://github.com/RManLuo/NP-FKGC.gitで入手できる。 Knowledge graphs (KGs), as a structured form of knowledge representation, have been widely applied in the real world. Recently, few-shot knowledge graph completion (FKGC), which aims to predict missing facts for unseen relations with few-shot associated facts, has attracted increasing attention from practitioners and researchers. However, existing FKGC methods are based on metric learning or meta-learning, which often suffer from the out-of-distribution and overfitting problems. Meanwhile, they are incompetent at estimating uncertainties in predictions, which is critically important as model predictions could be very unreliable in few-shot settings. Furthermore, most of them cannot handle complex relations and ignore path information in KGs, which largely limits their performance. In this paper, we propose a normalizing flow-based neural process for few-shot knowledge graph completion (NP-FKGC). Specifically, we unify normalizing flows and neural processes to model a complex distribution of KG completion functions. This offers a novel way to predict facts for few-shot relations while estimating the uncertainty. Then, we propose a stochastic ManifoldE decoder to incorporate the neural process and handle complex relations in few-shot settings. To further improve performance, we introduce an attentive relation path-based graph neural network to capture path information in KGs. Extensive experiments on three public datasets demonstrate that our method significantly outperforms the existing FKGC methods and achieves state-of-the-art performance. Code is available at https://github.com/RManLuo/NP-FKGC.git. | 翻訳日:2023-04-18 15:37:41 公開日:2023-04-17 |
# 中国語LLaMAとAlpacaの効率的なテキスト符号化 Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca ( http://arxiv.org/abs/2304.08177v1 ) ライセンス: Link先を確認 | Yiming Cui, Ziqing Yang, Xin Yao | (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は自然言語処理の研究に革命をもたらし、人工知能(AGI)の可能性を実証している。
しかし、LLMの高価なトレーニングと展開は、透明でオープンな学術研究に挑戦する。
これらの問題に対処するため、このプロジェクトは中国語のLLaMAとAlpacaの大規模モデルをオープンソース化し、命令の微調整を強調する。
元のLLaMAの中国語語彙を拡張し、20万の中国語トークンを追加し、符号化効率を高め、基本的な意味理解を強化する。
中国語データを用いた二次事前学習と中国語命令データによる微調整を取り入れることで、モデルの理解と命令の実行を大幅に改善する。
我々のパイロット研究は、LLaMAとAlpacaモデルを他の言語に適応するための基礎となる。
リソースはGitHubを通じて公開されており、中国のNLPコミュニティなどにおけるオープンリサーチを促進する。
GitHubリポジトリ:https://github.com/ymcui/ Chinese-LLaMA-Alpaca Large Language Models (LLMs), such as ChatGPT and GPT-4, have revolutionized natural language processing research and demonstrated potential in Artificial General Intelligence (AGI). However, the expensive training and deployment of LLMs present challenges to transparent and open academic research. To address these issues, this project open-sources the Chinese LLaMA and Alpaca large models, emphasizing instruction fine-tuning. We expand the original LLaMA's Chinese vocabulary by adding 20K Chinese tokens, increasing encoding efficiency and enhancing basic semantic understanding. By incorporating secondary pre-training using Chinese data and fine-tuning with Chinese instruction data, we substantially improve the models' comprehension and execution of instructions. Our pilot study serves as a foundation for researchers adapting LLaMA and Alpaca models to other languages. Resources are made publicly available through GitHub, fostering open research in the Chinese NLP community and beyond. GitHub repository: https://github.com/ymcui/Chinese-LLaMA-Alpaca | 翻訳日:2023-04-18 15:37:14 公開日:2023-04-17 |
# ディープニューラルネットワークにおける一般化ミニバッチ勾配降下の点収束定理 Pointwise convergence theorem of generalized mini-batch gradient descent in deep neural network ( http://arxiv.org/abs/2304.08172v1 ) ライセンス: Link先を確認 | Tsuyoshi Yoneda | (参考訳) ディープニューラルネットワーク(DNN)の理論構造は徐々に解明されてきた。
今泉福水(2019)と鈴木(2019)は、DNNの学習能力は、対象関数が非滑らかな関数である場合、従来の理論よりも優れていることを示した。
しかし、著者が知る限り、これまでの多くの研究は、どの種類のDNNアーキテクチャが実際に(統計的議論なしに)勾配勾配の点収束を誘導するかを数学的に検討することは試みられず、この試みは実際的なDNNに近づいたようである。
本稿では,ターゲット関数を非スムースインジケータ関数に制限し,relu-dnnのミニバッチ勾配降下処理により点収束を誘導するディープニューラルネットワークを構築する。 The theoretical structure of deep neural network (DNN) has been clarified gradually. Imaizumi-Fukumizu (2019) and Suzuki (2019) clarified that the learning ability of DNN is superior to the previous theories when the target function is non-smooth functions. However, as far as the author is aware, none of the numerous works to date attempted to mathematically investigate what kind of DNN architectures really induce pointwise convergence of gradient descent (without any statistical argument), and this attempt seems to be closer to the practical DNNs. In this paper we restrict target functions to non-smooth indicator functions, and construct a deep neural network inducing pointwise convergence provided by mini-batch gradient descent process in ReLU-DNN. | 翻訳日:2023-04-18 15:36:57 公開日:2023-04-17 |
# 最適化と難読化のためのフロー保存型zx計算書き直し規則 Flow-preserving ZX-calculus rewrite rules for optimisation and obfuscation ( http://arxiv.org/abs/2304.08166v1 ) ライセンス: Link先を確認 | Tommy McElvanney and Miriam Backens | (参考訳) 測定ベースの量子計算(MBQC)の一方向モデルでは、計算はリソース状態の測定によって進行する。
いわゆるフロー条件は全体の計算が適切な意味で決定論的であることを保証するもので、パウリフローが最も一般的である。
測定パターンとして表現された計算は、リソース使用の最適化やその他の目的のために書き換えられる。
このような書き換えはフローの存在を保ち、新しいパターンが決定論的に実装可能であることを保証する必要がある。
この分野の既存の研究の大部分は、量子ビットの数を減らした書き換えに焦点を当てているが、ある種の最適化や難読化のためにキュービットの数を増やすことは有益である。
本研究では, 量子ビット数を増やし, パウリフローの存在を保ったZX-計算書換え規則を提案する。
これらの規則は、任意の測定パターンをXY面内の(一般またはパウリの)測定のみを含むパターンに変換するのに使うことができる。
また,測定角度を任意に変更可能な最初のフロー保存リライトルールを与え,staudacherらによる'neighbour unfusion'ルールがパウリフローの存在を保っていることを証明するために使用する。
これは、コストのかかるgflow-findingアルゴリズムを定期的に実行する必要をなくすことで、2キュービットゲート最適化のランタイムを削減できることを意味している。 In the one-way model of measurement-based quantum computation (MBQC), computation proceeds via measurements on a resource state. So-called flow conditions ensure that the overall computation is deterministic in a suitable sense, with Pauli flow being the most general of these. Computations, represented as measurement patterns, may be rewritten to optimise resource use and for other purposes. Such rewrites need to preserve the existence of flow to ensure the new pattern can still be implemented deterministically. The majority of existing work in this area has focused on rewrites that reduce the number of qubits, yet it can be beneficial to increase the number of qubits for certain kinds of optimisation, as well as for obfuscation. In this work, we introduce several ZX-calculus rewrite rules that increase the number of qubits and preserve the existence of Pauli flow. These rules can be used to transform any measurement pattern into a pattern containing only (general or Pauli) measurements within the XY-plane. We also give the first flow-preserving rewrite rule that allows measurement angles to be changed arbitrarily, and use this to prove that the `neighbour unfusion' rule of Staudacher et al. preserves the existence of Pauli flow. This implies it may be possible to reduce the runtime of their two-qubit-gate optimisation procedure by removing the need to regularly run the costly gflow-finding algorithm. | 翻訳日:2023-04-18 15:36:44 公開日:2023-04-17 |
# 多重量子発振子の同期のためのリー代数位相還元 Lie algebraic phase reduction for synchronization of multiple quantum oscillators ( http://arxiv.org/abs/2304.08164v1 ) ライセンス: Link先を確認 | Wataru Setoyama, Yoshihiko Hasegawa | (参考訳) 本研究では,複数の量子発振器の位相同期を位相還元法を用いて解析する。
先行研究 [arxiv:2208.12006] では、位相変数への量子極限サイクル振動のダイナミクスを減少させるリー代数位相減少を提案した。
さらに、連続測定のバックアクションが量子振動子間のクラスタリングを引き起こすことを報告した。
このバックアクションに偏らされずに複数の量子発振器の同期を解析するために、観測可能な全ての可観測物に対する連続測定のバックアクションを平均化するヘテロダイン検出方式を用いる。
我々は,2つの量子発振器間の同期が,ノイズ誘起同期の符号であり,位相空間内のクラスターの数がボソニックレベルの数によって制限されることを実証した。
平均場近似を適用し,大域的結合の存在下での量子振動子の同期解析を行う。
ヘテロダイン検出法において大域的結合の存在下で, 量子ファンデルポル振動子から雑音の倉本モデルを導出し, 一般化したオット・アントンセンアンザッツを適応させることができる。 In this study, we analyze the phase synchronization of multiple quantum oscillators using a phase reduction method. In the previous study [arXiv:2208.12006], we proposed a Lie-algebraic phase reduction that reduces the dynamics of quantum limit-cycle oscillation to the phase variable. Furthermore, we reported that the back-action of continuous measurement induces clustering among the quantum oscillators. To analyze synchronization of multiple quantum oscillators without being biased by this back-action, we employ the heterodyne detection scheme, which averages out the back-action of continuous measurement over all possible observables. We demonstrate that common Hermitian noise induces synchronization between two quantum oscillators, which is a signature of the noise-induced synchronization, and that the number of possible clusters in the phase space is restricted by the number of bosonic levels. By applying the mean-field approximation, we analyze synchronization of quantum oscillators in the presence of global coupling. We can derive the noisy Kuramoto model from quantum van der Pol oscillators and adapt a generalized Ott-Antonsen ansatz to it, in the presence of global coupling in the heterodyne detection scheme. | 翻訳日:2023-04-18 15:36:21 公開日:2023-04-17 |
# ニューラルネットワークを用いた心臓不整脈検出 Cardiac Arrhythmia Detection using Artificial Neural Network ( http://arxiv.org/abs/2304.08162v1 ) ライセンス: Link先を確認 | Prof Sangeetha R G, Kishore Anand K, Sreevatsan B and Vishal Kumar A | (参考訳) 本研究の主目的は、監視の質と装置全体の安全性を大幅に向上する携帯型心臓異常監視装置を開発することである。
このようなアプリケーションのための汎用的で低コストでウェアラブルなバッテリー駆動デバイスは十分な性能を得ることができないが、Artificial Neural Networkアルゴリズムの能力と組み合わせることで、高度な製造技術を用いて製造されたハイエンドなフレキシブルでウェアラブルな監視デバイスと同じくらいの能力を持つことが証明できる。
本稿では、純粋なリアルタイム組み込みシステムや、監視対象の読み出しをクラウドにアップロード可能なIoTデバイスとして実装された汎用低消費電力ウェアラブルデバイスにおいて、Leeenberg-Marquardt ANNアルゴリズムの有効性を評価する。 The prime purpose of this project is to develop a portable cardiac abnormality monitoring device which can drastically improvise the quality of the monitoring and the overall safety of the device. While a generic, low cost, wearable battery powered device for such applications may not yield sufficient performance, such devices combined with the capabilities of Artificial Neural Network algorithms can however, prove to be as competent as high end flexible and wearable monitoring devices fabricated using advanced manufacturing technologies. This paper evaluates the feasibility of the Levenberg-Marquardt ANN algorithm for use in any generic low power wearable devices implemented either as a pure real-time embedded system or as an IoT device capable of uploading the monitored readings to the cloud. | 翻訳日:2023-04-18 15:35:55 公開日:2023-04-17 |
# 時系列レコメンデーションのための注意混合 Attention Mixtures for Time-Aware Sequential Recommendation ( http://arxiv.org/abs/2304.08158v1 ) ライセンス: Link先を確認 | Viet-Anh Tran and Guillaume Salha-Galvan and Bruno Sguerra and Romain Hennequin | (参考訳) 変圧器は逐次レコメンデーションの強力な方法として登場した。
しかし、既存のアーキテクチャはしばしば、ユーザの好みと時間的コンテキストの間の複雑な依存関係を見落としている。
本稿では,この制限に対処する改良された Transformer シーケンシャルレコメンデータシステム MOJITO を紹介する。
MOJITOは、注意に基づく時間的コンテキストとアイテム埋め込み表現のガウス混合を利用して、シーケンシャルモデリングを行う。
このようなアプローチによって、過去のアクションや時間的コンテキストに応じて、ユーザの隣で推奨すべき項目を正確に予測することができる。
我々は,既存のトランスフォーマーを経験的に上回って,実世界のデータセット上で逐次レコメンデーションを行うことで,このアプローチの妥当性を実証する。 Transformers emerged as powerful methods for sequential recommendation. However, existing architectures often overlook the complex dependencies between user preferences and the temporal context. In this short paper, we introduce MOJITO, an improved Transformer sequential recommender system that addresses this limitation. MOJITO leverages Gaussian mixtures of attention-based temporal context and item embedding representations for sequential modeling. Such an approach permits to accurately predict which items should be recommended next to users depending on past actions and the temporal context. We demonstrate the relevance of our approach, by empirically outperforming existing Transformers for sequential recommendation on several real-world datasets. | 翻訳日:2023-04-18 15:35:42 公開日:2023-04-17 |
# 2モードエンタングルスクイズドコヒーレント状態の幾何位相 Geometric phase for two-mode entangled squeezed-coherent states ( http://arxiv.org/abs/2304.08157v1 ) ライセンス: Link先を確認 | Sanaz Mohammadi Almas, Ghader Najarbashi, Ali Tavana | (参考訳) 本稿では,二モードエンタングル・スクイーズドコヒーレント状態 (escss) の幾何学的位相 (gp) について一元的巡回進化の過程について検討する。
バランスの取れたESCSの第1モードまたは第2モードのスクイーズパラメータを増大させることで、GPは対応するモードのコヒーレンスパラメータの軸に沿って楕円状に圧縮する。
非平衡escの場合、gpはどちらのモードのスクイーズパラメータを増加させることで双曲的な方法で圧縮する。
より高い構成状態次元に一般化することにより、バランスとバランスの取れていないESCSのGPがコヒーレンスパラメータの特定の値に対して増加することが分かる。
これらの結果に基づき、干渉法を用いて、平衡escの物理的生成に関する理論的スキームを提案する。 In this paper, we study the geometric phase (GP) of two-mode entangled squeezed-coherent states (ESCSs), undergoing a unitary cyclic evolution. It is revealed that by increasing the squeezing parameter of the first or the second mode of a balanced ESCS, the GP compresses in an elliptical manner along the axis of the coherence parameter of the corresponding mode. While in the case of unbalanced ESCS, the GP compresses in a hyperbolic manner by increasing the squeezing parameters of either mode. By generalizing to higher constituting-state dimensions, it is found that the GPs of both balanced and unbalanced ESCSs, increase for a specific value of the coherence parameter. Based on these findings, using the interferometry approach, we suggest a theoretical scheme for the physical generation of the balanced ESCS. | 翻訳日:2023-04-18 15:35:31 公開日:2023-04-17 |
# 予測指向ベイズアクティブラーニング Prediction-Oriented Bayesian Active Learning ( http://arxiv.org/abs/2304.08151v1 ) ライセンス: Link先を確認 | Freddie Bickford Smith, Andreas Kirsch, Sebastian Farquhar, Yarin Gal, Adam Foster, Tom Rainforth | (参考訳) アクティブラーニングに対する情報理論的なアプローチは、伝統的にモデルパラメータに関する情報を最大化することに焦点を当ててきた。
これは予測性能の観点からは最適ではないことを強調する。
例えば、BALDは入力分布の概念を欠いているため、限られた関連性のデータを優先する傾向がある。
そこで我々は,パラメータではなく予測空間における情報ゲインを測定する獲得関数である予測情報ゲイン(epig)を提案する。
EPIGを使用することで、さまざまなデータセットやモデルにわたるBALDと比較して予測性能が向上し、魅力的なドロップイン置換が可能になることが分かりました。 Information-theoretic approaches to active learning have traditionally focused on maximising the information gathered about the model parameters, most commonly by optimising the BALD score. We highlight that this can be suboptimal from the perspective of predictive performance. For example, BALD lacks a notion of an input distribution and so is prone to prioritise data of limited relevance. To address this we propose the expected predictive information gain (EPIG), an acquisition function that measures information gain in the space of predictions rather than parameters. We find that using EPIG leads to stronger predictive performance compared with BALD across a range of datasets and models, and thus provides an appealing drop-in replacement. | 翻訳日:2023-04-18 15:35:17 公開日:2023-04-17 |
# RGBに基づく6-DoFオブジェクトポース推定における背景バイアスの解明 Uncovering the Background-Induced bias in RGB based 6-DoF Object Pose Estimation ( http://arxiv.org/abs/2304.08230v1 ) ライセンス: Link先を確認 | Elena Govi, Davide Sapienza, Carmelo Scribano, Tobia Poppi, Giorgia Franchini, Paola Ard\`on, Micaela Verucchi and Marko Bertogna | (参考訳) 近年,産業環境におけるデータ駆動手法の利用傾向が高まっている。
これらの方法はしばしば映像や部品を処理するため、画像の完全性は不可欠である。
例えば、画像からなるデータセットは、様々な理由で洗練されることがある。
ビデオや画像の操作が機械学習手法の有効性にどのように影響するかを理解することが重要になる。
ケーススタディは,6次元ポーズ推定コンテキストにおける技術状況を考慮したLinemodデータセットを正確に解析することを目的としている。
このデータセットはArUcoマーカーを伴って画像を提示するが、そのようなマーカーが現実世界のコンテキストでは利用できないことは明らかである。
本研究では,マーカーの存在がポーズ推定精度にどのように影響するか,また,このバイアスがデータ拡張や他の手法によって軽減されるかを分析する。
本研究の目的は、これらのマーカーの存在が、テストフェーズにおいて、使用するディープラーニング手法の有効性をどう修正するかを示すことである。
特に、サリエンシマップのツールを通じて、ニューラルネットワークの焦点がこれらのArUcoマーカーによって部分的にキャプチャされる様子を実演する。
最後に,linemodに幾何学的ツールを適用することで得られた新しいデータセットを提案し,仮説を実証し,バイアスを明らかにする。
本研究は,6DOFポーズ推定ネットワークにおけるバイアスの可能性を示し,マーカーを用いたトレーニングにおいて,バイアスを減らす方法を提案する。 In recent years, there has been a growing trend of using data-driven methods in industrial settings. These kinds of methods often process video images or parts, therefore the integrity of such images is crucial. Sometimes datasets, e.g. consisting of images, can be sophisticated for various reasons. It becomes critical to understand how the manipulation of video and images can impact the effectiveness of a machine learning method. Our case study aims precisely to analyze the Linemod dataset, considered the state of the art in 6D pose estimation context. That dataset presents images accompanied by ArUco markers; it is evident that such markers will not be available in real-world contexts. We analyze how the presence of the markers affects the pose estimation accuracy, and how this bias may be mitigated through data augmentation and other methods. Our work aims to show how the presence of these markers goes to modify, in the testing phase, the effectiveness of the deep learning method used. In particular, we will demonstrate, through the tool of saliency maps, how the focus of the neural network is captured in part by these ArUco markers. Finally, a new dataset, obtained by applying geometric tools to Linemod, will be proposed in order to demonstrate our hypothesis and uncovering the bias. Our results demonstrate the potential for bias in 6DOF pose estimation networks, and suggest methods for reducing this bias when training with markers. | 翻訳日:2023-04-18 15:28:11 公開日:2023-04-17 |
# 高分解能画像におけるパンオプティカルセグメンテーションのバッチ内監視 Intra-Batch Supervision for Panoptic Segmentation on High-Resolution Images ( http://arxiv.org/abs/2304.08222v1 ) ライセンス: Link先を確認 | Daan de Geus, Gijs Dubbelman | (参考訳) 統一パノプティックセグメンテーション法は、いくつかのデータセットで最先端の結果を達成する。
高分解能データセットでこれらの結果を達成するために、これらの方法は作物ベースのトレーニングを適用する。
この研究では、作物ベースの訓練は一般的に有利であるが、有害な副作用もあることがわかった。
具体的には、統一ネットワークが大きなオブジェクトインスタンスを区別する能力を制限するため、複数のインスタンス間で混乱する予測を行うことができる。
そこで本研究では,同一バッチから複数の画像を用いた追加の監視を導入することにより,ネットワークのインスタンス間判別能力を向上させるibs(intra-batch supervisor)を提案する。
ibsでは,混乱問題への対処に成功し,統一ネットワークの性能を一貫して向上させることができた。
高解像度のCityscapesとMapillary Vistasデータセットでは、モノのクラスにおけるPanoptic Qualityの最大2.5倍の改善を実現し、さらにピクセル精度とピクセル精度の両方で最大5.8倍の大幅な向上を実現し、混乱問題を捉えるためのより良い指標として特定します。 Unified panoptic segmentation methods are achieving state-of-the-art results on several datasets. To achieve these results on high-resolution datasets, these methods apply crop-based training. In this work, we find that, although crop-based training is advantageous in general, it also has a harmful side-effect. Specifically, it limits the ability of unified networks to discriminate between large object instances, causing them to make predictions that are confused between multiple instances. To solve this, we propose Intra-Batch Supervision (IBS), which improves a network's ability to discriminate between instances by introducing additional supervision using multiple images from the same batch. We show that, with our IBS, we successfully address the confusion problem and consistently improve the performance of unified networks. For the high-resolution Cityscapes and Mapillary Vistas datasets, we achieve improvements of up to +2.5 on the Panoptic Quality for thing classes, and even more considerable gains of up to +5.8 on both the pixel accuracy and pixel precision, which we identify as better metrics to capture the confusion problem. | 翻訳日:2023-04-18 15:27:52 公開日:2023-04-17 |
# 会話における感情認識のための文脈依存埋め込み発話表現 Context-Dependent Embedding Utterance Representations for Emotion Recognition in Conversations ( http://arxiv.org/abs/2304.08216v1 ) ライセンス: Link先を確認 | Patr\'icia Pereira, Helena Moniz, Isabel Dias and Joao Paulo Carvalho | (参考訳) 会話エージェントがますます一般的になるにつれて、会話における感情認識(erc)の重要性が高まっている。
感情を認識することは効果的なコミュニケーションの鍵であり、効果的で共感的な会話エージェントの開発において重要な要素である。
会話的文脈の知識と理解は、対話者の感情を特定する上で非常に有用である。
そこで我々は,会話における感情認識に,会話の文脈,すなわち以前の会話のターンに注意を払ってアプローチする。
会話的文脈をモデル化するための一般的なアプローチは、各発話の文脈に依存しない表現を生成し、それに続く文脈的モデリングを行うことである。
本稿では,事前学習されたトランスフォーマ言語モデルの文脈表現力を活用して,各発話の文脈依存埋め込み表現を提案する。
提案手法では,RoBERTaエンコーダに入力として分類される発話に付加される会話コンテキストをフィードし,簡単な分類モジュールを付加する。
また,導入した会話回転数がモデル性能に与える影響についても検討した。
The effectiveness of our approach is validated on the widely used open-domain DailyDialog dataset and on the task-oriented EmoWOZ dataset, for which we attain state-of-the-art results, surpassing ERC models also resorting to RoBERTa but with more complex classification modules, indicating that our context-dependent embedding utterance representation approach with a simple classification model can be more effective than context-independent utterance representation approaches with more complex classification modules. Emotion Recognition in Conversations (ERC) has been gaining increasing importance as conversational agents become more and more common. Recognizing emotions is key for effective communication, being a crucial component in the development of effective and empathetic conversational agents. Knowledge and understanding of the conversational context are extremely valuable for identifying the emotions of the interlocutor. We thus approach Emotion Recognition in Conversations leveraging the conversational context, i.e., taking into attention previous conversational turns. The usual approach to model the conversational context has been to produce context-independent representations of each utterance and subsequently perform contextual modeling of these. Here we propose context-dependent embedding representations of each utterance by leveraging the contextual representational power of pre-trained transformer language models. In our approach, we feed the conversational context appended to the utterance to be classified as input to the RoBERTa encoder, to which we append a simple classification module, thus discarding the need to deal with context after obtaining the embeddings since these constitute already an efficient representation of such context. We also investigate how the number of introduced conversational turns influences our model performance. The effectiveness of our approach is validated on the widely used open-domain DailyDialog dataset and on the task-oriented EmoWOZ dataset, for which we attain state-of-the-art results, surpassing ERC models also resorting to RoBERTa but with more complex classification modules, indicating that our context-dependent embedding utterance representation approach with a simple classification model can be more effective than context-independent utterance representation approaches with more complex classification modules. | 翻訳日:2023-04-18 15:27:33 公開日:2023-04-17 |
# tensorflow liteにおける動的再構成可能な可変精度スパースデンス行列加速 Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix Acceleration in Tensorflow Lite ( http://arxiv.org/abs/2304.08211v1 ) ライセンス: Link先を確認 | Jose Nunez-Yanez, Andres Otero, Eduardo de la Torre | (参考訳) 本稿では,FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して並列性と複雑性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
FADESはプログラマブルロジック(PL)にマッピングされ、異種SoCデバイスの処理システム(PS)上で動作するTensorFlow Lite推論エンジンに統合される。
アクセラレーションはテンソル演算の計算に使用され、動的再構成可能なアプローチはint8モードとフロートモードの精度の切り替えに使用できる。
この動的再構成により、リソース制約されたデバイスにより多くのコアをマッピングし、両方の演算精度を同時にサポートするのと比べて消費電力を削減できる。
提案するハードウェアと高密度行列のための高性能シストリックアーキテクチャを比較し,同一技術におけるdspブロックの半分と高密度モードの25%の性能を得た。
スパースモードでは,低空間レベルでも高密度モードよりも高い性能を示し,ソフトウェア最適化NEON RUYライブラリ上ではシングルコアが最大20倍の高速化を実現する。 In this paper, we present a dynamically reconfigurable hardware accelerator called FADES (Fused Architecture for DEnse and Sparse matrices). The FADES design offers multiple configuration options that trade off parallelism and complexity using a dataflow model to create four stages that read, compute, scale and write results. FADES is mapped to the programmable logic (PL) and integrated with the TensorFlow Lite inference engine running on the processing system (PS) of a heterogeneous SoC device. The accelerator is used to compute the tensor operations, while the dynamically reconfigurable approach can be used to switch precision between int8 and float modes. This dynamic reconfiguration enables better performance by allowing more cores to be mapped to the resource-constrained device and lower power consumption compared with supporting both arithmetic precisions simultaneously. We compare the proposed hardware with a high-performance systolic architecture for dense matrices obtaining 25% better performance in dense mode with half the DSP blocks in the same technology. In sparse mode, we show that the core can outperform dense mode even at low sparsity levels, and a single-core achieves up to 20x acceleration over the software-optimized NEON RUY library. | 翻訳日:2023-04-18 15:27:11 公開日:2023-04-17 |
# ATTACHデータセット:人間の行動理解のためのアノテーション付きアセンブリアクション ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action Understanding ( http://arxiv.org/abs/2304.08210v1 ) ライセンス: Link先を確認 | Dustin Aganian, Benedict Stephan, Markus Eisenbach, Corinna Stretz, and Horst-Michael Gross | (参考訳) コラボレーティブロボット(cobots)の出現に伴い、産業生産における人間とロボットのコラボレーションが注目されている。
cobotが自律的に、そしてアシスタントとして行動するためには、組み立て中の人間の行動を理解する必要がある。
このタスクのモデルを効果的にトレーニングするには、現実的な設定で適切なアセンブリアクションを含むデータセットが不可欠である。
そこで,本研究では,コボットの潜在的視点を表す95.2kアノテート細粒度動作を3台のカメラで監視した51.6時間のアセンブリを含むアタッチデータセットを提案する。
アセンブリコンテキストでは,作業者は両手と同時に異なる動作を行う傾向があるため,各手に対して個別に動作を指示する。
そのため、ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
作業領域の背景に関してより一般化するために、色と深度のイメージを記録するだけでなく、azure kinect body tracking sdkを使って作業者の3dスケルトンを推定しました。
最初のベースラインを作成するために,ビデオおよびスケルトンシーケンス入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
データセットはhttps://www.tu-ilmenau.de/neurob/data-sets-code/attach-datasetで利用可能である。 With the emergence of collaborative robots (cobots), human-robot collaboration in industrial manufacturing is coming into focus. For a cobot to act autonomously and as an assistant, it must understand human actions during assembly. To effectively train models for this task, a dataset containing suitable assembly actions in a realistic setting is crucial. For this purpose, we present the ATTACH dataset, which contains 51.6 hours of assembly with 95.2k annotated fine-grained actions monitored by three cameras, which represent potential viewpoints of a cobot. Since in an assembly context workers tend to perform different actions simultaneously with their two hands, we annotated the performed actions for each hand separately. Therefore, in the ATTACH dataset, more than 68% of annotations overlap with other annotations, which is many times more than in related datasets, typically featuring more simplistic assembly tasks. For better generalization with respect to the background of the working area, we did not only record color and depth images, but also used the Azure Kinect body tracking SDK for estimating 3D skeletons of the worker. To create a first baseline, we report the performance of state-of-the-art methods for action recognition as well as action detection on video and skeleton-sequence inputs. The dataset is available at https://www.tu-ilmenau.de/neurob/data-sets-code/attach-dataset . | 翻訳日:2023-04-18 15:26:51 公開日:2023-04-17 |
# VECO 2.0:多言語コントラスト学習による言語間モデル事前学習 VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning ( http://arxiv.org/abs/2304.08205v1 ) ライセンス: Link先を確認 | Zhen-Ru Zhang, Chuanqi Tan, Songfang Huang, Fei Huang | (参考訳) 近年の研究では、複数の言語に対する統一トランスフォーマーエンコーダをトレーニングすることで、言語間移動の可能性を示している。
マスク付き言語モデルの目的は他にも、既存の言語間事前学習は文レベルのコントラスト学習や、言語間アライメントの不十分さを補うために追加のクロスアテンションモジュールをプラグインとして活用している。
それにもかかわらず、二言語コーパスに存在する同義語ペアは、トークンレベルのタスクに対する文間の相互依存の確立よりも重要である。
本研究では,複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO~2.0を提案する。
具体的には、並列対の類似性を最大化し、非並列対を最小化するためにシーケンス対列アライメントが誘導される。
次に、トークン対剣アライメントを統合して、二言語例の他のアンペアトークンからシソーラス辞書で発掘された同義語トークン間のギャップを橋渡しする。
実験の結果,XTREMEベンチマークを用いた言語間モデルの事前学習の有効性が示された。 Recent studies have demonstrated the potential of cross-lingual transferability by training a unified Transformer encoder for multiple languages. In addition to involving the masked language model objective, existing cross-lingual pre-training works leverage sentence-level contrastive learning or plugs in extra cross-attention module to complement the insufficient capabilities of cross-lingual alignment. Nonetheless, synonym pairs residing in bilingual corpus are not exploited and aligned, which is more crucial than sentence interdependence establishment for token-level tasks. In this work, we propose a cross-lingual pre-trained model VECO~2.0 based on contrastive learning with multi-granularity alignments. Specifically, the sequence-to-sequence alignment is induced to maximize the similarity of the parallel pairs and minimize the non-parallel pairs. Then, token-to-token alignment is integrated to bridge the gap between synonymous tokens excavated via the thesaurus dictionary from the other unpaired tokens in a bilingual instance. Experiments show the effectiveness of the proposed strategy for cross-lingual model pre-training on the XTREME benchmark. | 翻訳日:2023-04-18 15:26:27 公開日:2023-04-17 |
# スケッチによる幾何認識表現の学習 Learning Geometry-aware Representations by Sketching ( http://arxiv.org/abs/2304.08204v1 ) ライセンス: Link先を確認 | Hyundo Lee, Inwoo Hwang, Hyunsung Go, Won-Seok Choi, Kibeom Kim, Byoung-Tak Zhang | (参考訳) 距離や形状といった幾何学的概念を理解することは、現実世界や多くの視覚的タスクを理解する上でも不可欠である。
このような情報をシーンの視覚表現に組み込むために,人間の行動にインスパイアされたスケッチによってシーンを表現する学習を提案する。
LBS(Learning by Sketching)と呼ばれる本手法では,スケッチデータセットを必要とせずに,シーンの幾何学的情報を単一の推論ステップに明示的に組み込むカラーストロークの集合に画像を変換することを学ぶ。
スケッチは、CLIPベースの知覚的損失がスケッチとイメージのセマンティックな類似性を維持するストロークから生成される。
任意のアフィン変換に対してスケッチが同値であることを示し、幾何学的情報を確実に保存する。
実験の結果,LBSは未ラベルCLEVRデータセットのオブジェクト属性分類,CLEVRとSTL-10データセット間のドメイン転送,下流の多様なタスクの性能を大幅に改善し,LBSがリッチな幾何学情報を提供することを確認した。 Understanding geometric concepts, such as distance and shape, is essential for understanding the real world and also for many vision tasks. To incorporate such information into a visual representation of a scene, we propose learning to represent the scene by sketching, inspired by human behavior. Our method, coined Learning by Sketching (LBS), learns to convert an image into a set of colored strokes that explicitly incorporate the geometric information of the scene in a single inference step without requiring a sketch dataset. A sketch is then generated from the strokes where CLIP-based perceptual loss maintains a semantic similarity between the sketch and the image. We show theoretically that sketching is equivariant with respect to arbitrary affine transformations and thus provably preserves geometric information. Experimental results show that LBS substantially improves the performance of object attribute classification on the unlabeled CLEVR dataset, domain transfer between CLEVR and STL-10 datasets, and for diverse downstream tasks, confirming that LBS provides rich geometric information. | 翻訳日:2023-04-18 15:26:10 公開日:2023-04-17 |
# トップビュー全方位イメージングへの深層学習の応用:調査 Applications of Deep Learning for Top-View Omnidirectional Imaging: A Survey ( http://arxiv.org/abs/2304.08193v1 ) ライセンス: Link先を確認 | Jingrui Yu, Ana Cecilia Perez Grassi, Gangolf Hirtz | (参考訳) 大きな視野の魚眼カメラは、下向きの高い位置に取り付けられた時に、最小限のカメラで広い領域を捉えることができる。
このトップビュー全方位設定は、従来の複数の視点カメラによるソリューションと比較して、デプロイメントの作業とコストを大幅に削減します。
近年,一方向設定を含む視覚関連タスクにディープラーニングが広く採用されている。
本調査では,全方位トップビューカメラと併用した深層学習の応用について検討し,利用可能なデータセット,人間と物体の検出,人物のポーズ推定,行動認識,その他の雑多な応用について検討した。 A large field-of-view fisheye camera allows for capturing a large area with minimal numbers of cameras when they are mounted on a high position facing downwards. This top-view omnidirectional setup greatly reduces the work and cost for deployment compared to traditional solutions with multiple perspective cameras. In recent years, deep learning has been widely employed for vision related tasks, including for such omnidirectional settings. In this survey, we look at the application of deep learning in combination with omnidirectional top-view cameras, including the available datasets, human and object detection, human pose estimation, activity recognition and other miscellaneous applications. | 翻訳日:2023-04-18 15:25:49 公開日:2023-04-17 |
# グラフ埋め込みによるスキル評価システム Graph Embedding Augmented Skill Rating System ( http://arxiv.org/abs/2304.08257v1 ) ライセンス: Link先を確認 | Jiasheng Wang | (参考訳) 本稿では,プレイヤーのゲームやイベントへの埋め込みを学習するためのフレームワークを提案する。
プレイヤーとその勝敗関係は、非方向重み付きグラフであるスキルギャップグラフとしてモデル化される。
プレイヤーの埋め込みはランダムなウォークベースのグラフ埋め込みメソッドを使ってグラフから学習され、プレイヤー間の相対的なスキルレベルを反映することができる。
埋め込みは、グラフ内の位相的関係を保ちながら、その後のタスクに便利に適用できる低次元ベクトル表現である。
本論文の後半では,プレイヤーのスキル評価におけるプレイヤー埋め込みの応用として,グラフィックエロ(GElo)を導入している。
GEloは古典的なElo格付けシステムの拡張である。
プレイヤーマッチング履歴に基づいてスキルギャップグラフを構築し、そこからプレイヤーの埋め込みを学ぶ。
その後、eloが算出した評価スコアはプレイヤーの活力やコサインの類似度に応じて調整される。
GEloはオフラインでも並列でも実行でき、既存のレーティングシステムでは邪魔にならない。
公開データセットの実験によると、GEloはバニラ・エロよりも選手のスキルレベルをより信頼性の高い評価をしている。
実験結果から,競技ゲームやイベントにおけるプレイヤー埋め込みの可能性が示唆された。 This paper presents a framework for learning player embeddings in competitive games and events. Players and their win-loss relationships are modeled as a skill gap graph, which is an undirected weighted graph. The player embeddings are learned from the graph using a random walk-based graph embedding method and can reflect the relative skill levels among players. Embeddings are low-dimensional vector representations that can be conveniently applied to subsequent tasks while still preserving the topological relationships in a graph. In the latter part of this paper, Graphical Elo (GElo) is introduced as an application of player embeddings when rating player skills. GElo is an extension of the classic Elo rating system. It constructs a skill gap graph based on player match histories and learns player embeddings from it. Afterward, the rating scores that were calculated by Elo are adjusted according to player activeness and cosine similarities among player embeddings. GElo can be executed offline and in parallel, and it is non-intrusive to existing rating systems. Experiments on public datasets show that GElo makes a more reliable evaluation of player skill levels than vanilla Elo. The experimental results suggest potential applications of player embeddings in competitive games and events. | 翻訳日:2023-04-18 15:19:58 公開日:2023-04-17 |
# 被覆移動操作タスクのベースプレースメント最適化 Base Placement Optimization for Coverage Mobile Manipulation Tasks ( http://arxiv.org/abs/2304.08246v1 ) ライセンス: Link先を確認 | Huiwen Zhang, Kai Mi, Zhijun Zhang | (参考訳) ベース配置最適化(bpo)はモバイル操作の基本的な機能であり、何十年も研究されてきた。
しかし、いくつかの理由でまだ非常に難しい。
第一に、人間と比較すると、現在のロボットは非常に柔軟であり、したがってベース配置の精度(BPs)が高い。
次に、bpとタスクの制約が互いに結合される。
最適BPはタスク制約に依存し、BPではタスク制約に影響を及ぼす。
もっと難しいのは、タスクの制約が柔軟で非決定論的であることです。
第三に、タスクを遂行する以外は、最適エネルギー消費や最小実行時間といった他のパフォーマンス指標も考慮する必要があるため、BPO問題はさらに複雑になる。
本稿では、タスク制約とBPを分離するために、ワークスペースのスケールライクディスク(SLD)表現を用いる。
SLD上での到達性と最適動作ポーズを評価するために、到達性マップ(RM)をオフラインで構築する。
本稿では,BPOを多目的最適化問題(MOOP)として定式化する。
その中でも, 時間最適目標をトラベルセールスマン問題(tsp)としてモデル化し, 実際の状況とより一致している。
進化法は MOOP を解くために用いられる。
さらに、解の有効性と最適性を確保するため、候補BP上で衝突検出を行い、特定のタスクに応じてBPOからの解をさらに微調整する。
最後に,実際のトイレの清掃作業を解決するために提案手法を用いた。
実験により、最適化されたBPはタスクのカバレッジと効率を大幅に改善できることが示された。 Base placement optimization (BPO) is a fundamental capability for mobile manipulation and has been researched for decades. However, it is still very challenging for some reasons. First, compared with humans, current robots are extremely inflexible, and therefore have higher requirements on the accuracy of base placements (BPs). Second, the BP and task constraints are coupled with each other. The optimal BP depends on the task constraints, and in BP will affect task constraints in turn. More tricky is that some task constraints are flexible and non-deterministic. Third, except for fulfilling tasks, some other performance metrics such as optimal energy consumption and minimal execution time need to be considered, which makes the BPO problem even more complicated. In this paper, a Scale-like disc (SLD) representation of the workspace is used to decouple task constraints and BPs. To evaluate reachability and return optimal working pose over SLDs, a reachability map (RM) is constructed offline. In order to optimize the objectives of coverage, manipulability, and time cost simultaneously, this paper formulates the BPO as a multi-objective optimization problem (MOOP). Among them, the time optimal objective is modeled as a traveling salesman problem (TSP), which is more in line with the actual situation. The evolutionary method is used to solve the MOOP. Besides, to ensure the validity and optimality of the solution, collision detection is performed on the candidate BPs, and solutions from BPO are further fine-tuned according to the specific given task. Finally, the proposed method is used to solve a real-world toilet coverage cleaning task. Experiments show that the optimized BPs can significantly improve the coverage and efficiency of the task. | 翻訳日:2023-04-18 15:18:44 公開日:2023-04-17 |
# MoDA: カジュアルビデオから変形可能な3Dオブジェクトをモデリング MoDA: Modeling Deformable 3D Objects from Casual Videos ( http://arxiv.org/abs/2304.08279v1 ) ライセンス: Link先を確認 | Chaoyue Song, Tianyi Chen, Yiwen Chen, Jiacheng Wei, Chuan Sheng Foo, Fayao Liu, Guosheng Lin | (参考訳) 本稿では,変形可能な3dオブジェクトをカジュアルビデオからモデル化する課題に着目する。
ニューラルラジアンス場(NeRF)の人気により、多くの研究が、観測空間と標準空間の間の3次元点変換を実現する変形モデルと標準のNeRFを用いて動的シーンに拡張している。
最近の研究は、標準-観測変換を達成するために線形ブレンドスキン(LBS)に依存している。
しかし、剛性変換行列の線形重み付き結合は剛性であることを保証するものではない。
実のところ、予期せぬ規模とせん断要因がしばしば現れる。
実際には、変形モデルとしてLBSを使用すると、常に曲げたりねじったりするための皮膚を折り畳むアーティファクトにつながる可能性がある。
この問題を解決するために,ニューラルデュアル四元系ブレンドスキン(NeuDBS)を提案し,スキンを折り畳むことなく剛性変換が可能な3次元点変形を実現する。
さらに、テクスチャレンダリングのためのテクスチャフィルタリング手法を導入し、ターゲット変形対象外におけるノイズ色の影響を効果的に最小化する。
実および合成データセットに関する広範囲な実験により,我々は最先端の手法よりも質的かつ定量的な性能で3dモデルを構築することができることを示した。 In this paper, we focus on the challenges of modeling deformable 3D objects from casual videos. With the popularity of neural radiance fields (NeRF), many works extend it to dynamic scenes with a canonical NeRF and a deformation model that achieves 3D point transformation between the observation space and the canonical space. Recent works rely on linear blend skinning (LBS) to achieve the canonical-observation transformation. However, the linearly weighted combination of rigid transformation matrices is not guaranteed to be rigid. As a matter of fact, unexpected scale and shear factors often appear. In practice, using LBS as the deformation model can always lead to skin-collapsing artifacts for bending or twisting motions. To solve this problem, we propose neural dual quaternion blend skinning (NeuDBS) to achieve 3D point deformation, which can perform rigid transformation without skin-collapsing artifacts. Besides, we introduce a texture filtering approach for texture rendering that effectively minimizes the impact of noisy colors outside target deformable objects. Extensive experiments on real and synthetic datasets show that our approach can reconstruct 3D models for humans and animals with better qualitative and quantitative performance than state-of-the-art methods. | 翻訳日:2023-04-18 15:10:22 公開日:2023-04-17 |
# トラクタブル回路モデルを用いた構成確率と因果推論 Compositional Probabilistic and Causal Inference using Tractable Circuit Models ( http://arxiv.org/abs/2304.08278v1 ) ライセンス: Link先を確認 | Benjie Wang and Marta Kwiatkowska | (参考訳) 確率回路 (probabilistic circuits, pcs) は、構造的性質に応じて効率的な推論ルーチンを許容する、扱いやすい確率的モデルのクラスである。
本稿では,従来提案されていた確率感性決定図などのクラスを一般化した,構造化分解可能なPCにおける(有理性)決定性の新規な定式化であるmd-vtreesを紹介する。
重要なこととして,mdvtrees がトラクタビリティ条件の導出や,基本確率演算の任意の構成として表現される高度な推論クエリの効率的なアルゴリズム,例えば辺化,乗算,逆数などを,健全かつ一般化可能な方法で導出する方法を示す。
特に,pcのバックドア調整などの因果推論クエリに対する最初のポリタイムアルゴリズムを導出する。
本フレームワークの実用的なインスタンス化として,md-vtreesを用いた新しいPCアーキテクチャMDNetを提案し,因果推論への応用を実証的に示す。 Probabilistic circuits (PCs) are a class of tractable probabilistic models, which admit efficient inference routines depending on their structural properties. In this paper, we introduce md-vtrees, a novel structural formulation of (marginal) determinism in structured decomposable PCs, which generalizes previously proposed classes such as probabilistic sentential decision diagrams. Crucially, we show how mdvtrees can be used to derive tractability conditions and efficient algorithms for advanced inference queries expressed as arbitrary compositions of basic probabilistic operations, such as marginalization, multiplication and reciprocals, in a sound and generalizable manner. In particular, we derive the first polytime algorithms for causal inference queries such as backdoor adjustment on PCs. As a practical instantiation of the framework, we propose MDNets, a novel PC architecture using md-vtrees, and empirically demonstrate their application to causal inference. | 翻訳日:2023-04-18 15:10:01 公開日:2023-04-17 |
# ケルディシュ場理論による測定とデコヒーレンス下における臨界系探索 Exploring critical systems under measurements and decoherence via Keldysh field theory ( http://arxiv.org/abs/2304.08277v1 ) ライセンス: Link先を確認 | Ruochen Ma | (参考訳) 我々は、量子臨界状態の長距離挙動に対する測定とデコヒーレンスの影響を調べるために、$n$-replica Keldysh場理論を用いる。
我々は、それらの時間スケールと対称性特性に基づいて異なる測定とデコヒーレンスを分類し、異なる物理およびレプリカ対称性を持つ$n$-replica Keldysh場理論で記述できることを実証する。
様々なシナリオに対する低エネルギー有効理論は、ケルディシュ形式論の対称性と基本整合性条件を用いて導出される。
この枠組みを1次元と2次元の両方における臨界イジングモデルの研究に適用する。
1次元において,(1)横スピン方向に沿った有限周期の計測では相関関数の漸近的スケーリングや絡み合いエントロピーは変化しないが,(2)縦スピン方向の計測は領域法則絡み合い位相をもたらすことを示した。
また,(3)有限時間を超えるデコヒーレンスノイズを臨界アシュキン・テラーモデルの特定の境界条件にマッピングでき,結果として生じる混合状態の絡み合い特性を決定できることを示した。
広範囲にわたる測定とデコヒーレンスについて、(4)大きなサブシステムのフォン・ノイマンのエントロピーは、イジング対称性の下で対称であるが(5)長手方向の計測とデコヒーレンスのための領域法に還元される、弱測定(デコヒーレンス)のための定常状態において(サブ)ドミナント対数スケーリングを示すことができることを実証する。
以上の結果から,ケルディッシュ形式は長波長物理学における測定とデコヒーレンスの効果を体系的に研究するための有用なツールであることが示された。 We employ an $n$-replica Keldysh field theory to investigate the effects of measurements and decoherence on long distance behaviors of quantum critical states. We classify different measurements and decoherence based on their timescales and symmetry properties, and demonstrate that they can be described by $n$-replica Keldysh field theories with distinct physical and replica symmetries. Low energy effective theories for various scenarios are then derived using the symmetry and fundamental consistency conditions of the Keldysh formalism. We apply this framework to study the critical Ising model in both one and two spatial dimensions. In one dimension, we demonstrate that (1) measurements over a finite period of time along the transverse spin direction do not modify the asymptotic scaling of correlation functions and entanglement entropy, whereas (2) measurements along the longitudinal spin direction lead to an area law entangled phase. We also show that (3) decoherence noises over a finite time can be mapped to specific boundary conditions of a critical Ashkin-Teller model, and the entanglement characteristics of the resulting mixed state can be determined. For measurements and decoherence over an extensive time, we demonstrate that (4) the von Neumann entanglement entropy of a large subsystem can exhibit a (sub-)dominant logarithmic scaling in the stationary state for weak measurement (decoherence) performed in a basis that is symmetric under the Ising symmetry, but (5) reduces to an area law for measurements and decoherence in the longitudinal direction. Our results demonstrate that the Keldysh formalism is a useful tool for systematically studying the effects of measurements and decoherence on long-wavelength physics. | 翻訳日:2023-04-18 15:09:40 公開日:2023-04-17 |
# 責任あるAIを実装する:倫理的側面の緊張とトレードオフ Implementing Responsible AI: Tensions and Trade-Offs Between Ethics Aspects ( http://arxiv.org/abs/2304.08275v1 ) ライセンス: Link先を確認 | Conrad Sanderson, David Douglas, Qinghua Lu | (参考訳) 責任あるAIに対する多くの倫理原則が、AI/MLシステムの誤用と悪用に関する懸念を和らげるために提案されている。
このような原則の基本的な側面は、プライバシー、正確性、公正性、堅牢性、説明可能性、透明性である。
しかし、これらの側面の間には潜在的な緊張関係があり、これらの原則に従おうとするAI/ML開発者には困難をもたらしている。
例えば、AI/MLシステムの精度を高めることで、その説明可能性を減らすことができる。
この作業では、原則を実践するための継続的な取り組みの一環として、10の顕著な緊張、トレードオフ、および基盤となる側面の間のその他の相互作用のカタログをまとめ、議論します。
主に双方向の対話に焦点を合わせ、さまざまな文献にまたがるサポートを描いています。
このカタログは、倫理原則の側面間の相互作用の認識を高めるとともに、AI/MLシステムのデザイナと開発者による十分に支持された判断を促進するのに役立つ。 Many sets of ethics principles for responsible AI have been proposed to allay concerns about misuse and abuse of AI/ML systems. The underlying aspects of such sets of principles include privacy, accuracy, fairness, robustness, explainability, and transparency. However, there are potential tensions between these aspects that pose difficulties for AI/ML developers seeking to follow these principles. For example, increasing the accuracy of an AI/ML system may reduce its explainability. As part of the ongoing effort to operationalise the principles into practice, in this work we compile and discuss a catalogue of 10 notable tensions, trade-offs and other interactions between the underlying aspects. We primarily focus on two-sided interactions, drawing on support spread across a diverse literature. This catalogue can be helpful in raising awareness of the possible interactions between aspects of ethics principles, as well as facilitating well-supported judgements by the designers and developers of AI/ML systems. | 翻訳日:2023-04-18 15:09:03 公開日:2023-04-17 |
# チームスポーツにおける予測選手の役割について About latent roles in forecasting players in team sports ( http://arxiv.org/abs/2304.08272v1 ) ライセンス: Link先を確認 | Luca Scofano, Alessio Sampieri, Giuseppe Re, Matteo Almanza, Alessandro Panconesi, Fabio Galasso | (参考訳) スポーツにおける選手の予測は、戦術的な優位性と、マルチエージェントインタラクションシステムへのそのような研究の適用性のため、人気が高まっている。
チームスポーツは、チームメイトと対戦相手の相互作用に影響を与える重要な社会的要素を含んでいる。
しかし、それでも十分に活用する必要がある。
本研究では、各参加者がそれぞれのアクションに特定の機能を持ち、ロールベースのインタラクションがプレイヤーの将来の動きを予測する上で重要であると仮定する。
RolForはロールベースのForecastingのための新しいエンドツーエンドモデルです。
RolForは、新しいモジュールであるOrdering Neural Networks(OrderNN)を使用して、プレイヤーの順番をパーミュレートし、各プレイヤーが潜在ロールに割り当てられるようにします。
潜在ロールはRoleGCNでモデル化される。
グラフ表現のおかげで、完全に学習可能な隣接行列が提供され、役割間の関係を捉え、その後プレイヤーの将来の軌跡を予測するのに使用される。
nbaバスケットボールの挑戦的なデータセットに関する広範な実験は、役割の重要性を裏付け、最適化可能なモデルを使ってモデリングするという私たちのゴールを正当化します。
オラクルが役割を提供する場合、提案されたRolForは現在の最先端と好意的に比較する(ADEとFDEのエラーで第1位、第2位)。
しかし、エンドツーエンドのRolForのトレーニングは、置換法の微分可能性の問題を引き起こし、実験的にレビューした。
最後に、この研究は、微分可能なランク付けを難しいオープン問題として残し、グラフベースの相互作用モデルと組み合わせることで大きな可能性を秘めている。
Project は https://www.pinlab.org/aboutlatentroles で利用可能である。 Forecasting players in sports has grown in popularity due to the potential for a tactical advantage and the applicability of such research to multi-agent interaction systems. Team sports contain a significant social component that influences interactions between teammates and opponents. However, it still needs to be fully exploited. In this work, we hypothesize that each participant has a specific function in each action and that role-based interaction is critical for predicting players' future moves. We create RolFor, a novel end-to-end model for Role-based Forecasting. RolFor uses a new module we developed called Ordering Neural Networks (OrderNN) to permute the order of the players such that each player is assigned to a latent role. The latent role is then modeled with a RoleGCN. Thanks to its graph representation, it provides a fully learnable adjacency matrix that captures the relationships between roles and is subsequently used to forecast the players' future trajectories. Extensive experiments on a challenging NBA basketball dataset back up the importance of roles and justify our goal of modeling them using optimizable models. When an oracle provides roles, the proposed RolFor compares favorably to the current state-of-the-art (it ranks first in terms of ADE and second in terms of FDE errors). However, training the end-to-end RolFor incurs the issues of differentiability of permutation methods, which we experimentally review. Finally, this work restates differentiable ranking as a difficult open problem and its great potential in conjunction with graph-based interaction models. Project is available at: https://www.pinlab.org/aboutlatentroles | 翻訳日:2023-04-18 15:08:47 公開日:2023-04-17 |
# Open World Weakly Supervised Object Localization Open-World Weakly-Supervised Object Localization ( http://arxiv.org/abs/2304.08271v1 ) ライセンス: Link先を確認 | Jinheng Xie and Zhaochuan Luo and Yuexiang Li and Haozhe Liu and Linlin Shen and Mike Zheng Shou | (参考訳) 弱い教師付きオブジェクトローカライゼーション(WSOL)では顕著な成功を収めているが、現在のフレームワークでは、オープンワールド設定で新しいカテゴリのオブジェクトを特定できない。
この問題に対処するため,我々はowsol(open-world weak-supervised object localization)と呼ばれる新しい弱教師付きオブジェクトローカライゼーションタスクを導入する。
トレーニング中、ラベル付きデータはすべて既知のカテゴリから得られ、ラベルなしデータには既知のカテゴリと新しいカテゴリの両方が存在する。
このようなデータを扱うために、ラベル付きデータとラベルなしデータの両方を用いたコントラスト表現協調学習のパラダイムを提案し、境界ボックスアノテーションを必要とせず、オブジェクトローカライゼーションのための完全なG-CAM(Generalized Class Activation Map)を生成する。
非ラベルデータにはクラスラベルがないため、フルトレーニングセット上でクラスタリングを行い、表現学習のための新しいセマンティックセントロイド駆動のコントラスト損失を設計する。
imagenet-1k と inatloc500 という2つのデータセットを再編成し,owsol の評価ベンチマークとして openimages150 を提案する。
大規模な実験により,提案手法は全ベースラインを大きなマージンで越えることができた。
この作業は、クローズセットのローカライゼーションをオープンワールド設定にシフトさせ、その後の作業の基盤となることができると考えています。
コードはhttps://github.com/ryylcc/OWSOLでリリースされる。 While remarkable success has been achieved in weakly-supervised object localization (WSOL), current frameworks are not capable of locating objects of novel categories in open-world settings. To address this issue, we are the first to introduce a new weakly-supervised object localization task called OWSOL (Open-World Weakly-Supervised Object Localization). During training, all labeled data comes from known categories and, both known and novel categories exist in the unlabeled data. To handle such data, we propose a novel paradigm of contrastive representation co-learning using both labeled and unlabeled data to generate a complete G-CAM (Generalized Class Activation Map) for object localization, without the requirement of bounding box annotation. As no class label is available for the unlabelled data, we conduct clustering over the full training set and design a novel multiple semantic centroids-driven contrastive loss for representation learning. We re-organize two widely used datasets, i.e., ImageNet-1K and iNatLoc500, and propose OpenImages150 to serve as evaluation benchmarks for OWSOL. Extensive experiments demonstrate that the proposed method can surpass all baselines by a large margin. We believe that this work can shift the close-set localization towards the open-world setting and serve as a foundation for subsequent works. Code will be released at https://github.com/ryylcc/OWSOL. | 翻訳日:2023-04-18 15:08:23 公開日:2023-04-17 |
# 強い系-バスカップリングを持つ量子熱力学:マッピングアプローチ Quantum thermodynamics with strong system-bath coupling: A mapping approach ( http://arxiv.org/abs/2304.08268v1 ) ライセンス: Link先を確認 | You-Yang Xu, Jiangbin Gong, Wu-Ming Liu | (参考訳) 通常、弱い系-基底結合(SBC)の仮定で定式化された量子熱力学量は、強いSBCを持つ物理的状況においてしばしば競合する。
本研究は、弱いSBCに基づく標準概念を用いて、強いSBCを持つ量子熱力学に取り組むための代替手法を提案する。
具体的には、強いSBCと弱いSBCの物理動機によるマッピングを通して、強いSBCを持つ熱力学の最初の法則に光を放つ仕事や熱を含む任意のSBCで熱力学量を特定することができることを示す。
Tasaki-Crooks関係やJarzynski等式のような量子ゆらぎ定理は、強いSBCの場合にも拡張可能であることが示されている。
我々の理論的結果は、実例でさらに説明される。 Quantum thermodynamic quantities, normally formulated with the assumption of weak system-bath coupling (SBC), can often be contested in physical circumstances with strong SBC. This work presents an alternative treatment that enables us to use standard concepts based on weak SBC to tackle with quantum thermodynamics with strong SBC. Specifically, via a physics-motivated mapping between strong and weak SBC, we show that it is possible to identify thermodynamic quantities with arbitrary SBC, including work and heat that shed light on the first law of thermodynamics with strong SBC. Quantum fluctuation theorems, such as the Tasaki-Crooks relation and the Jarzynski equality are also shown to be extendable to strong SBC cases. Our theoretical results are further illustrated with a working example. | 翻訳日:2023-04-18 15:07:54 公開日:2023-04-17 |
# クロスか待つか?
不特定交差点における歩行者の相互作用の予測 Cross or Wait? Predicting Pedestrian Interaction Outcomes at Unsignalized Crossings ( http://arxiv.org/abs/2304.08260v1 ) ライセンス: Link先を確認 | Chi Zhang (1), Amir Hossein Kalantari (2), Yue Yang (2), Zhongjun Ni (3), Gustav Markkula (2), Natasha Merat (2), Christian Berger (1) ((1) Department of Computer Science and Engineering, University of Gothenburg, Sweden. (2) Institute for Transport Studies, University of Leeds, Leeds LS2 9JT, UK. (3) Department of Science and Technology, Link\"oping University, Campus Norrk\"oping, Sweden.) | (参考訳) 自動車と対話する際の歩行者行動を予測することは、自動運転の分野で最も重要な課題である。
歩行者の横断行動は、到着までの時間、歩行者待ち時間、横断歩道の存在、歩行者と運転者の特性と性格特性など、様々な相互作用要因の影響を受けている。
しかし、これらの要因は相互作用の結果を予測するために十分に研究されていない。
本稿では,無信号交差点における車両との対話時の歩行者横断行動,横断開始時間(cit),横断継続時間(cd)などを予測するために,機械学習を用いて歩行者横断行動を予測する。
分散シミュレータデータは相互作用因子の予測と解析に利用される。
ロジスティック回帰ベースラインモデルと比較して,提案するニューラルネットワークモデルは予測精度を4.46%,f1スコアを3.23%向上させた。
また,citおよびcdの根平均二乗誤差(rmse)を線形回帰モデルと比較して21.56%,30.14%削減した。
さらに、相互作用因子の重要性を分析し、より少ない因子を用いたモデルの結果を提示する。
これは入力機能に制限のある異なるシナリオにおけるモデル選択の情報を提供する。 Predicting pedestrian behavior when interacting with vehicles is one of the most critical challenges in the field of automated driving. Pedestrian crossing behavior is influenced by various interaction factors, including time to arrival, pedestrian waiting time, the presence of zebra crossing, and the properties and personality traits of both pedestrians and drivers. However, these factors have not been fully explored for use in predicting interaction outcomes. In this paper, we use machine learning to predict pedestrian crossing behavior including pedestrian crossing decision, crossing initiation time (CIT), and crossing duration (CD) when interacting with vehicles at unsignalized crossings. Distributed simulator data are utilized for predicting and analyzing the interaction factors. Compared with the logistic regression baseline model, our proposed neural network model improves the prediction accuracy and F1 score by 4.46% and 3.23%, respectively. Our model also reduces the root mean squared error (RMSE) for CIT and CD by 21.56% and 30.14% compared with the linear regression model. Additionally, we have analyzed the importance of interaction factors, and present the results of models using fewer factors. This provides information for model selection in different scenarios with limited input features. | 翻訳日:2023-04-18 15:07:24 公開日:2023-04-17 |
# 一般偏光変換のためのストークスベクトル回転の量子推定 Quantum Estimation of the Stokes Vector Rotation for a General Polarimetric Transformation ( http://arxiv.org/abs/2304.08258v1 ) ライセンス: Link先を確認 | Ali Pedram, Lea Gassab, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 古典偏光度は古典光学において豊かで確立された分野であり、科学の異なる分野に多くの応用がある。
量子リソースを活用することへの関心が高まるにつれ、研究者たちは量子力学の枠組みで偏光を記述し、この枠組みの中で偏光論を構築するようになった。
本研究では,生体組織における偏光度測定に着想を得て,既知の回転軸を持つ回転角推定の極限を3つの量子チャネルからなる量子偏光度過程において研究する。
推定される回転角はプローブ状態のストークスベクトル上の遅延チャネルによって誘導される。
しかし、ダイテヌエーターと脱分極チャネルはプローブ状態に作用し、これは事実上ノイズ過程と考えることができる。
最後に、量子フィッシャー情報(qfi)を算出し、これらのノイズチャネルとその順序が回転角の推定誤差に及ぼす影響について検討する。 Classical polarimetry is a rich and well established discipline within classical optics with many applications in different branches of science. Ever-growing interest in utilizing quantum resources in order to make highly sensitive measurements, prompted the researchers to describe polarized light in a quantum mechanical framework and build a quantum theory of polarimetry within this framework. In this work, inspired by the polarimetric studies in biological tissues, we study the ultimate limit of rotation angle estimation with a known rotation axis in a quantum polarimetric process, which consists of three quantum channels. The rotation angle to be estimated is induced by the retarder channel on the Stokes vector of the probe state. However, the diattenuator and depolarizer channels act on the probe state, which effectively can be thought of as a noise process. Finally the quantum Fisher information (QFI) is calculated and the effect of these noise channels and their ordering is studied on the estimation error of the rotation angle. | 翻訳日:2023-04-18 15:07:08 公開日:2023-04-17 |
# SDVRF:マルチモーダル3次元物体検出のための低密度Voxel領域融合 SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object Detection ( http://arxiv.org/abs/2304.08304v1 ) ライセンス: Link先を確認 | Binglu Ren and Jianqin Yin | (参考訳) 自律運転の認識タスクでは,LiDAR点雲と画像データの相補的特徴から,マルチモーダル手法がトレンドとなっている。
しかし,従来の手法の性能は,通常点雲の間隔や,LiDARとカメラのミスアライメントに起因するノイズの問題によって制限される。
これら2つの問題を解決するために,各ボクセルの局所点雲を動的に投影することで得られるVoxel Region(VR)という概念を提案する。
そこで我々は,Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。
具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。
一方、サイズを固定したグリッドを投影する従来の方法とは異なり、動的領域を生成するという我々の戦略は、アライメントが良くなり、バックグラウンドノイズが多すぎることを避ける。
さらに,より文脈的な情報を抽出し,異なる大きさのオブジェクトの特徴を捉えるマルチスケール融合フレームワークを提案する。
KITTIデータセットを用いた実験により,提案手法は,特にペデストリアンやサイクリストなど小型のクラスにおいて,異なるベースラインの性能を向上させることが示された。 In the perception task of autonomous driving, multi-modal methods have become a trend due to the complementary characteristics of LiDAR point clouds and image data. However, the performance of previous methods is usually limited by the sparsity of the point cloud or the noise problem caused by the misalignment between LiDAR and the camera. To solve these two problems, we present a new concept, Voxel Region (VR), which is obtained by projecting the sparse local point clouds in each voxel dynamically. And we propose a novel fusion method, named Sparse-to-Dense Voxel Region Fusion (SDVRF). Specifically, more pixels of the image feature map inside the VR are gathered to supplement the voxel feature extracted from sparse points and achieve denser fusion. Meanwhile, different from prior methods, which project the size-fixed grids, our strategy of generating dynamic regions achieves better alignment and avoids introducing too much background noise. Furthermore, we propose a multi-scale fusion framework to extract more contextual information and capture the features of objects of different sizes. Experiments on the KITTI dataset show that our method improves the performance of different baselines, especially on classes of small size, including Pedestrian and Cyclist. | 翻訳日:2023-04-18 15:01:24 公開日:2023-04-17 |
# 暗黙のベイズ適応:協調輸送アプローチ Implicit Bayes Adaptation: A Collaborative Transport Approach ( http://arxiv.org/abs/2304.08298v1 ) ライセンス: Link先を確認 | Bo Jiang, Hamid Krim, Tianfu Wu, Derya Cansever | (参考訳) 最適輸送(OT)のパワーと柔軟性は、教師なしドメイン適応のような最近の機械学習の課題など、幅広い問題に及んでいる。
最適な計量によって二つの確率分布を定量的に関連付ける本質は、創造的に活用され、多くの現実世界のデータ課題の可能性を秘めている。
本研究の関連テーマとして,高次元ユークリッド空間に埋め込まれた非線型部分多様体に内在する各データの内在的(相対的)表現に,ドメイン適応ロバスト性が根付いていると仮定する。
2つの異なる表現間の測地距離をよりよく反映するために、l^2$ユークリッド計量を精錬することで幾何学的性質を説明する。
我々は、OT駆動適応のソースデータに、メートル法補正項と事前クラスタ構造を統合する。
これは暗黙のベイズ的フレームワークに準じるものであり、ドメイン適応に対するより堅牢で優れたパフォーマンスのアプローチで実現可能であることを示す。
検証目的の代替実験も含まれている。 The power and flexibility of Optimal Transport (OT) have pervaded a wide spectrum of problems, including recent Machine Learning challenges such as unsupervised domain adaptation. Its essence of quantitatively relating two probability distributions by some optimal metric, has been creatively exploited and shown to hold promise for many real-world data challenges. In a related theme in the present work, we posit that domain adaptation robustness is rooted in the intrinsic (latent) representations of the respective data, which are inherently lying in a non-linear submanifold embedded in a higher dimensional Euclidean space. We account for the geometric properties by refining the $l^2$ Euclidean metric to better reflect the geodesic distance between two distinct representations. We integrate a metric correction term as well as a prior cluster structure in the source data of the OT-driven adaptation. We show that this is tantamount to an implicit Bayesian framework, which we demonstrate to be viable for a more robust and better-performing approach to domain adaptation. Substantiating experiments are also included for validation purposes. | 翻訳日:2023-04-18 15:00:45 公開日:2023-04-17 |
# 加速フレームにおける2モード局所ガウス状態のモードミスマッチによる量子コヒーレンスの変化 Modes mismatch induced variation of quantum coherence for two-mode localized Gaussian states in accelerated frame ( http://arxiv.org/abs/2304.08296v1 ) ライセンス: Link先を確認 | Xiaolong Gong, Yue Fang, Tonghua Liu, Shuo Cao | (参考訳) 量子コヒーレンス(quantum coherence)は、量子状態の重ね合わせの基本概念であり、量子力学において重要な役割を果たす。
局所2モードガウス量子状態を持つ一様加速観測者がガウス量子コヒーレンスにどのように影響するかを示す。
量子コヒーレンスは加速が増加するにつれて減少するが、これは量子資源を破壊するunruh効果によるものである。
本質的には、量子コヒーレンスの変化は入力モードと出力モードのミスマッチによって引き起こされる。
2000のランダム生成状態を通じて、これらのミスマッチは加速度効果によって支配され、波形パラメータによって緩やかに影響を受けることを実証する。
さらに, スクイーズパラメータはコヒーレンス低減の抑制要因として機能したが, 高スクイーズでは無効となる傾向にあった。
さらに, スクイーズパラメータはコヒーレンス低減の抑制剤として作用するが, 高スクイーズ条件下では, スクイーズパラメータの効果が低下する傾向にある。 Quantum coherence is the basic concept of superposition of quantum states and plays an important role in quantum metrology. We show how a pair of uniformly accelerated observers with a local two-mode Gaussian quantum state affects the Gaussian quantum coherence. We find that the quantum coherence decreases with increasing acceleration, which is due to the Unruh effect that destroys the quantum resource. Essentially, the variation of quantum coherence is caused by the modes mismatch between the input and output mode. Through 2000 randomly generated states, we demonstrate that such mismatch is dominated by the acceleration effect and mildly affected by the waveform parameters. Moreover, the squeezing parameter acted as a suppressor of the reduced coherence, but it tended to be invalid in the high squeezing. In addition, the squeezing parameter can act as a suppressor of the reduced coherence, but the effect of the squeezing parameter tends to be ineffective under high squeezing conditions. | 翻訳日:2023-04-18 15:00:26 公開日:2023-04-17 |
# 対話型および説明可能な領域誘導ラジオロジーレポート生成 Interactive and Explainable Region-guided Radiology Report Generation ( http://arxiv.org/abs/2304.08295v1 ) ライセンス: Link先を確認 | Tim Tanida, Philip M\"uller, Georgios Kaissis, Daniel Rueckert | (参考訳) 放射線科レポートの自動生成は、レポート作成の時間を要する作業において放射線科医を支援する可能性を秘めている。
既存の方法は画像レベルの特徴から完全なレポートを生成し、画像内の解剖学的領域に明示的にフォーカスすることができない。
本稿では,解剖学的領域を検知し,個々の有意義な領域を記述して最終報告を形成する,単純かつ効果的な領域誘導レポート生成モデルを提案する。
従来の手法では人的介入の可能性がなく,説明可能性も限られていたが,本手法では新たな臨床応用事例を新たな対話機能により開放し,高い透明性と説明可能性を実現する。
総合的な実験により,従来の最先端モデルに匹敵するレポート生成手法の有効性が示され,そのインタラクティブ性が強調された。
コードとチェックポイントはhttps://github.com/ttanida/rgrg で公開されている。 The automatic generation of radiology reports has the potential to assist radiologists in the time-consuming task of report writing. Existing methods generate the full report from image-level features, failing to explicitly focus on anatomical regions in the image. We propose a simple yet effective region-guided report generation model that detects anatomical regions and then describes individual, salient regions to form the final report. While previous methods generate reports without the possibility of human intervention and with limited explainability, our method opens up novel clinical use cases through additional interactive capabilities and introduces a high degree of transparency and explainability. Comprehensive experiments demonstrate our method's effectiveness in report generation, outperforming previous state-of-the-art models, and highlight its interactive capabilities. The code and checkpoints are available at https://github.com/ttanida/rgrg . | 翻訳日:2023-04-18 15:00:08 公開日:2023-04-17 |
# 「土砂嵐」:考古学的ストーリーテリングによる手続き生成の研究 'That Darned Sandstorm': A Study of Procedural Generation through Archaeological Storytelling ( http://arxiv.org/abs/2304.08293v1 ) ライセンス: Link先を確認 | Florence Smith Nicholls and Michael Cook | (参考訳) 多くのドメイン、特にレベル設計に手続き的コンテンツ生成が適用されているが、生成したゲーム環境の物語的余裕は比較的過小評価されている。
本稿では, 再生考古学ゲームと呼ばれるゲームのレンズを通して, プレイヤーがゲーム世界の生成したコンテンツを考古学的に解釈するように促す効果について, 初めて検討する。
本研究では,ゲーム「Nothing Beside Remains」の参加者187名を対象に,質的,定量的なデータ収集を行った。
我々は,プレイヤーの解釈を早める意図的な試みと,ゲームのプレイヤー体験に対する障害の意図しない影響について予備的な分析を行う。 Procedural content generation has been applied to many domains, especially level design, but the narrative affordances of generated game environments are comparatively understudied. In this paper we present our first attempt to study these effects through the lens of what we call a generative archaeology game that prompts the player to archaeologically interpret the generated content of the game world. We report on a survey that gathered qualitative and quantitative data on the experiences of 187 participants playing the game Nothing Beside Remains. We provide some preliminary analysis of our intentional attempt to prompt player interpretation, and the unintentional effects of a glitch on the player experience of the game. | 翻訳日:2023-04-18 14:59:52 公開日:2023-04-17 |
# リフュージョン:ラテント空間拡散モデルによる大規模リアル画像復元の実現 Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Models ( http://arxiv.org/abs/2304.08291v1 ) ライセンス: Link先を確認 | Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund, Thomas B. Sch\"on | (参考訳) 本研究は,現実的な画像復元における拡散モデルの適用性の向上を目的としている。
具体的には,ネットワークアーキテクチャ,ノイズレベル,デノージングステップ,トレーニング画像サイズ,オプティマイザ/スケジューラなど,いくつかの面で拡散モデルを強化する。
これらのハイパーパラメータをチューニングすることで、歪みと知覚スコアの両方でより良いパフォーマンスが得られることを示す。
また, u-netベースの潜在拡散モデルを提案し, 低解像度の潜在空間で拡散を行い, 復号処理のための元の入力から高分解能情報を保存する。
画像圧縮のためにvae-ganを訓練した前回の潜在拡散モデルと比較して,提案するu-net圧縮戦略は著しく安定しており,逆最適化に頼らずに高精度な画像の復元が可能である。
これらの修正により、現実の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換などの様々な画像復元タスクに拡散モデルを適用することができる。
データセットを置き換え、ノイズネットワークをわずかに変化させることで、Refusionと呼ばれるモデルでは、大規模な画像(例えば、HRデハジングで6000 x 4000 x 3)を処理でき、上記の復元問題に対して良い結果が得られる。
我々のリフュージョンはNTIRE 2023 Image Shadow removal Challengeで最高の知覚性能を達成し、総合2位を獲得した。 This work aims to improve the applicability of diffusion models in realistic image restoration. Specifically, we enhance the diffusion model in several aspects such as network architecture, noise level, denoising steps, training image size, and optimizer/scheduler. We show that tuning these hyperparameters allows us to achieve better performance on both distortion and perceptual scores. We also propose a U-Net based latent diffusion model which performs diffusion in a low-resolution latent space while preserving high-resolution information from the original input for the decoding process. Compared to the previous latent-diffusion model which trains a VAE-GAN to compress the image, our proposed U-Net compression strategy is significantly more stable and can recover highly accurate images without relying on adversarial optimization. Importantly, these modifications allow us to apply diffusion models to various image restoration tasks, including real-world shadow removal, HR non-homogeneous dehazing, stereo super-resolution, and bokeh effect transformation. By simply replacing the datasets and slightly changing the noise network, our model, named Refusion, is able to deal with large-size images (e.g., 6000 x 4000 x 3 in HR dehazing) and produces good results on all the above restoration problems. Our Refusion achieves the best perceptual performance in the NTIRE 2023 Image Shadow Removal Challenge and wins 2nd place overall. | 翻訳日:2023-04-18 14:59:40 公開日:2023-04-17 |
# 信頼に基づくカテゴリー関係認識回帰による自己評価に向けて Toward Auto-evaluation with Confidence-based Category Relation-aware Regression ( http://arxiv.org/abs/2304.08288v1 ) ライセンス: Link先を確認 | Jiexin Wang, Jiahao Chen, Bing Su | (参考訳) 自動評価は、人間のアノテーションなしで任意のテストデータセット上でトレーニングされたモデルを自動的に評価することを目的としている。
既存の手法のほとんどは、データセットの表現としてモデルによって抽出された特徴のグローバル統計を利用する。
これは分類ヘッドの影響を無視し、モデルのカテゴリ別混乱情報を失う。
しかしながら、異なるカテゴリに割り当てられたインスタンスの比率とその信頼度スコアは、モデルが分類するのが困難であるカテゴリの数を反映している。
本稿では,信頼に基づくカテゴリ関係認識回帰(C^2R^2$)手法を提案する。
c^2r^2$ メタセット内のすべてのインスタンスを信頼度スコアに応じて異なるカテゴリに分割し、それらからグローバル表現を抽出する。
各カテゴリについて、$C^2R^2$は、他のカテゴリとの局所的な混乱関係を局所表現に符号化する。
全体的なパフォーマンスとカテゴリワイドパフォーマンスは、それぞれグローバルとローカルの表現から回帰している。
広範な実験により,本手法の有効性が示された。 Auto-evaluation aims to automatically evaluate a trained model on any test dataset without human annotations. Most existing methods utilize global statistics of features extracted by the model as the representation of a dataset. This ignores the influence of the classification head and loses category-wise confusion information of the model. However, ratios of instances assigned to different categories together with their confidence scores reflect how many instances in which categories are difficult for the model to classify, which contain significant indicators for both overall and category-wise performances. In this paper, we propose a Confidence-based Category Relation-aware Regression ($C^2R^2$) method. $C^2R^2$ divides all instances in a meta-set into different categories according to their confidence scores and extracts the global representation from them. For each category, $C^2R^2$ encodes its local confusion relations to other categories into a local representation. The overall and category-wise performances are regressed from global and local representations, respectively. Extensive experiments show the effectiveness of our method. | 翻訳日:2023-04-18 14:59:16 公開日:2023-04-17 |
# シングルスキャン光コヒーレンストモグラフィーのための深層学習に基づく血管抽出 Deep-Learning-based Vascularture Extraction for Single-Scan Optical Coherence Tomography Angiography ( http://arxiv.org/abs/2304.08282v1 ) ライセンス: Link先を確認 | Jinpeng Liao, Tianyu Zhang, Yilong Zhang, Chunhui Li, Zhihong Huang | (参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、周囲の静的生体組織から赤血球シグナルを抽出することによりOCTの機能を拡張する非侵襲的な画像モダリティである。
OCTAは皮膚微小血管の分析に有用なツールとして登場し、より正確な診断と治療のモニタリングを可能にしている。
speckle variance (sv)-およびeigen-decomposition (ed)-octaのような既存のオクタード抽出アルゴリズムは、同じ位置においてより多くの繰り返し (nr) oct スキャンを実装し、高品質の血管造影画像を生成する。
しかし、より高いNRは、より長いデータ取得時間を必要とし、予測不可能なモーションアーティファクトをもたらす。
本研究では1回のOCTスキャンのみを用いてOCTA画像を生成する血管抽出パイプラインを提案する。
このパイプラインは、画像パッチ間の空間関係をよりよく学習するために畳み込み投影を利用するvet(vasculature extraction transformer)に基づいている。
SV-OCTA (PSNR: 17.809) とED-OCTA (PSNR: 18.049) による4回のOCTスキャンによるOCTA画像と比較すると、VETによって抽出されたOCTA画像は、必要なデータ取得時間を ~8秒から ~2秒に短縮しつつ、中程度の品質 (PSNR: 17.515) と高い画像コントラストを示す。
視覚観察に基づいて,提案するvetは,スキャンが難しい領域でネックデータと面オクタデータを使用する場合,svおよびedアルゴリズムよりも優れている。
本研究は、VETが高速1回OCTスキャンから血管画像の抽出能力を有しており、患者の正確な診断を容易にすることを示唆している。 Optical coherence tomography angiography (OCTA) is a non-invasive imaging modality that extends the functionality of OCT by extracting moving red blood cell signals from surrounding static biological tissues. OCTA has emerged as a valuable tool for analyzing skin microvasculature, enabling more accurate diagnosis and treatment monitoring. Most existing OCTA extraction algorithms, such as speckle variance (SV)- and eigen-decomposition (ED)-OCTA, implement a larger number of repeated (NR) OCT scans at the same position to produce high-quality angiography images. However, a higher NR requires a longer data acquisition time, leading to more unpredictable motion artifacts. In this study, we propose a vasculature extraction pipeline that uses only one-repeated OCT scan to generate OCTA images. The pipeline is based on the proposed Vasculature Extraction Transformer (VET), which leverages convolutional projection to better learn the spatial relationships between image patches. In comparison to OCTA images obtained via the SV-OCTA (PSNR: 17.809) and ED-OCTA (PSNR: 18.049) using four-repeated OCT scans, OCTA images extracted by VET exhibit moderate quality (PSNR: 17.515) and higher image contrast while reducing the required data acquisition time from ~8 s to ~2 s. Based on visual observations, the proposed VET outperforms SV and ED algorithms when using neck and face OCTA data in areas that are challenging to scan. This study represents that the VET has the capacity to extract vascularture images from a fast one-repeated OCT scan, facilitating accurate diagnosis for patients. | 翻訳日:2023-04-18 14:59:02 公開日:2023-04-17 |
# 自動走行のための強化学習に基づく行動計画とサンプリングに基づく行動計画の統合 Integration of Reinforcement Learning Based Behavior Planning With Sampling Based Motion Planning for Automated Driving ( http://arxiv.org/abs/2304.08280v1 ) ライセンス: Link先を確認 | Marvin Klimke, Benjamin V\"olz, Michael Buchholz | (参考訳) 強化学習は自動運転の計画手法開発において高い研究関心を集めている。
これまでのほとんどの作業では、直接制御コマンドを出力し、アルゴリズムを実際の車両にデプロイすることは滅多にない、エンドツーエンドの計画タスクが検討されている。
本研究では,訓練された深層強化学習政策を高レベル行動計画に活用する手法を提案する。
抽象的な客観的インタフェースを投入することにより、確立された動き計画アルゴリズムを活用でき、滑らかで導出可能な軌道を導出する。
現状の環境モデルを考えると,将来的な交通状況を予測するために,シミュレータを組み込んで利用することを提案する。
混合交通における自動運転車の挙動は、学習したポリシーに照会することによって決定される。
我々の知る限りでは、この研究は、この方法でディープ強化学習を適用した最初のものであり、最先端のベンチマークが欠けている。
そこで本研究では,学習方針を通して,理想主義的な単発計画と循環的再計画を比較することにより,提案手法を検証する。
実地試験車両を用いた実験では,シミュレーションを深層強化学習に基づく計画手法の現実的ギャップに縮小する手法の可能性を示した。
さらなるシミュレーション分析により、より複雑なマルチエージェント操作は、サイクリング再計画アプローチを用いて管理できることが判明した。 Reinforcement learning has received high research interest for developing planning approaches in automated driving. Most prior works consider the end-to-end planning task that yields direct control commands and rarely deploy their algorithm to real vehicles. In this work, we propose a method to employ a trained deep reinforcement learning policy for dedicated high-level behavior planning. By populating an abstract objective interface, established motion planning algorithms can be leveraged, which derive smooth and drivable trajectories. Given the current environment model, we propose to use a built-in simulator to predict the traffic scene for a given horizon into the future. The behavior of automated vehicles in mixed traffic is determined by querying the learned policy. To the best of our knowledge, this work is the first to apply deep reinforcement learning in this manner, and as such lacks a state-of-the-art benchmark. Thus, we validate the proposed approach by comparing an idealistic single-shot plan with cyclic replanning through the learned policy. Experiments with a real testing vehicle on proving grounds demonstrate the potential of our approach to shrink the simulation to real world gap of deep reinforcement learning based planning approaches. Additional simulative analyses reveal that more complex multi-agent maneuvers can be managed by employing the cycling replanning approach. | 翻訳日:2023-04-18 14:58:23 公開日:2023-04-17 |
# LED: ダイアログからのライフイベント抽出のためのデータセット LED: A Dataset for Life Event Extraction from Dialogs ( http://arxiv.org/abs/2304.08327v1 ) ライセンス: Link先を確認 | Yi-Pei Chen, An-Zi Yen, Hen-Hsen Huang, Hideki Nakayama, Hsin-Hsi Chen | (参考訳) ライフログは、パーソナライズされたレコメンデーションやメモリアシストなど、幅広い用途で注目を集めている。
個人生活イベントの収集と抽出の課題が浮上している。
人は会話を通じて人生を他人と共有することが多い。
しかし,会話からライフイベントを抽出することは稀である。
本稿では,会話データに詳細なライフイベントアノテーションを含むデータセットであるlife event dialogを提案する。
さらに,新しい対話型ライフイベント抽出タスクを開始し,そのタスクを公開イベント抽出や,マイクロブログなどの他のソースからのライフイベント抽出と区別する。
本稿では,対話型ライフイベント抽出タスクであるOpenIE,リレーション抽出,イベント抽出の3つのフレームワークについて検討する。
3つのベースラインの包括的な実証分析が確立された。
その結果,現在のイベント抽出モデルは日常会話からのライフイベントの抽出に苦慮していることが示唆された。
提案するライフイベントダイアログデータセットとieフレームワークの詳細な分析により、会話からのライフイベント抽出に関する今後の研究が促進される。 Lifelogging has gained more attention due to its wide applications, such as personalized recommendations or memory assistance. The issues of collecting and extracting personal life events have emerged. People often share their life experiences with others through conversations. However, extracting life events from conversations is rarely explored. In this paper, we present Life Event Dialog, a dataset containing fine-grained life event annotations on conversational data. In addition, we initiate a novel conversational life event extraction task and differentiate the task from the public event extraction or the life event extraction from other sources like microblogs. We explore three information extraction (IE) frameworks to address the conversational life event extraction task: OpenIE, relation extraction, and event extraction. A comprehensive empirical analysis of the three baselines is established. The results suggest that the current event extraction model still struggles with extracting life events from human daily conversations. Our proposed life event dialog dataset and in-depth analysis of IE frameworks will facilitate future research on life event extraction from conversations. | 翻訳日:2023-04-18 14:52:17 公開日:2023-04-17 |
# 変分エンコーダデコーダネットワークによる逆問題に対するゴール指向不確実性定量化 Goal-oriented Uncertainty Quantification for Inverse Problems via Variational Encoder-Decoder Networks ( http://arxiv.org/abs/2304.08324v1 ) ライセンス: Link先を確認 | Babak Maboudi Afkham, Julianne Chung, Matthias Chung | (参考訳) 本稿では,可変エンコーダデコーダ(ved)ネットワークを用いた逆問題に対する目標指向の不確実性定量化手法を提案する。
標準的な逆問題とは対照的に、これらのアプローチは、解そのものではなく、逆問題の解の関数であるある量の興味(QoI)を推定することを目的としている。
さらに, qoi に関連する不確実性指標の計算にも興味を持ち, 予測演算子と後方探索手法を組み込んだ逆問題に対してベイズ法を適用した。
これは特に、非線形、おそらくは未知の演算子と非標準事前仮定において困難である。
大規模逆問題に対するデータ駆動アプローチを記述するために,最近の機械学習,すなわちvedネットワークの進歩を利用する。
これにより、QoIに対するリアルタイムなゴール指向の不確実性定量化が可能になる。
提案手法の利点の1つは、ネットワークをトレーニングし、観測からQoIへのマッピングを近似することで、倒立問題の解決を避けることである。
もう一つの大きな利点は、潜在空間の確率分布を活用することにより、QoIに対する不確実量化を可能にすることである。
これにより、QoIサンプルを効率的に生成し、複雑な、あるいは未知のフォワードモデルや予測演算子を回避できる。
医用トモグラフィーと非線形油圧トモグラフィーの数値結果から,アプローチの可能性と適用範囲が示唆された。 In this work, we describe a new approach that uses variational encoder-decoder (VED) networks for efficient goal-oriented uncertainty quantification for inverse problems. Contrary to standard inverse problems, these approaches are \emph{goal-oriented} in that the goal is to estimate some quantities of interest (QoI) that are functions of the solution of an inverse problem, rather than the solution itself. Moreover, we are interested in computing uncertainty metrics associated with the QoI, thus utilizing a Bayesian approach for inverse problems that incorporates the prediction operator and techniques for exploring the posterior. This may be particularly challenging, especially for nonlinear, possibly unknown, operators and nonstandard prior assumptions. We harness recent advances in machine learning, i.e., VED networks, to describe a data-driven approach to large-scale inverse problems. This enables a real-time goal-oriented uncertainty quantification for the QoI. One of the advantages of our approach is that we avoid the need to solve challenging inversion problems by training a network to approximate the mapping from observations to QoI. Another main benefit is that we enable uncertainty quantification for the QoI by leveraging probability distributions in the latent space. This allows us to efficiently generate QoI samples and circumvent complicated or even unknown forward models and prediction operators. Numerical results from medical tomography reconstruction and nonlinear hydraulic tomography demonstrate the potential and broad applicability of the approach. | 翻訳日:2023-04-18 14:52:02 公開日:2023-04-17 |
# Decentralized LearningがDecentralizePyで簡単に Decentralized Learning Made Easy with DecentralizePy ( http://arxiv.org/abs/2304.08322v1 ) ライセンス: Link先を確認 | Akash Dhasade, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma, Milos Vujasinovic | (参考訳) 分散学習(DL)は、スケーラビリティ、プライバシ、フォールトトレランスの面でその潜在的な利点で有名になった。
中央サーバーなしで調整し、機械学習(ML)トレーニングの本質的に反復的なプロセスで数百万のパラメータを交換する多くのノードで構成されています。
さらに、これらのノードは複雑で潜在的に動的トポロジで接続される。
このようなネットワークの複雑なダイナミクスを評価するのは容易ではない。
研究者は、しばしば、並列性、データ転送、ネットワーク遅延、壁時計時間など、拡張性がなく、実用的で重要な振る舞いを捉えられない環境をシミュレートする。
本稿では、任意のトポロジにおける大規模学習ネットワークのエミュレーションを可能にする分散型MLの分散フレームワークであるDecentralizePyを提案する。
我々は,1000ノード以上の動的ネットワークを含む複数のトポロジ上に,スパーシフィケーションやセキュアアグリゲーションなどの手法を展開することにより,分散化の能力を実証する。 Decentralized learning (DL) has gained prominence for its potential benefits in terms of scalability, privacy, and fault tolerance. It consists of many nodes that coordinate without a central server and exchange millions of parameters in the inherently iterative process of machine learning (ML) training. In addition, these nodes are connected in complex and potentially dynamic topologies. Assessing the intricate dynamics of such networks is clearly not an easy task. Often in literature, researchers resort to simulated environments that do not scale and fail to capture practical and crucial behaviors, including the ones associated to parallelism, data transfer, network delays, and wall-clock time. In this paper, we propose DecentralizePy, a distributed framework for decentralized ML, which allows for the emulation of large-scale learning networks in arbitrary topologies. We demonstrate the capabilities of DecentralizePy by deploying techniques such as sparsification and secure aggregation on top of several topologies, including dynamic networks with more than one thousand nodes. | 翻訳日:2023-04-18 14:51:38 公開日:2023-04-17 |
# 教師なしドリフト検出の計算性能を考慮したベンチマーク Computational Performance Aware Benchmarking of Unsupervised Concept Drift Detection ( http://arxiv.org/abs/2304.08319v1 ) ライセンス: Link先を確認 | Elias Werner, Nishant Kumar, Sunna Torge, Matthias Lieber, Arunima Raj, Stefan Gumhold, Wolfgang E. Nagel | (参考訳) 多くのaiシステムでは、システムの信頼性を確保するために概念ドリフト検出が不可欠である。
これらのシステムは多くの場合、大量のデータを扱うか、リアルタイムで反応する必要がある。
したがって、ドリフト検出器は総合的な性能評価で計算要求や制約を満たす必要がある。
しかし、これまでのドリフト検出器の開発は、例えば精度などの検出品質に焦点を当てているが、実行時間などの計算性能は重視していない。
先行研究は,計算性能を二次目的としてのみ考慮し,その評価のベンチマークを持たないことを示す。
そこで本研究では,様々なaiシステムにおいて,検出精度と計算性能の両方を考慮したドリフト検出のための新しいベンチマークスイートを提案する。
本研究では,ラベル付きデータの可用性に制限されず,広く適用可能な非監視ドリフト検出器に焦点をあてる。
我々のベンチマークスイートは、構成可能な合成および実世界のデータストリームをサポートします。
さらに、機械学習モデルの出力をシミュレートし、異なるドリフト検出器間のパフォーマンス評価を統一する手段を提供する。
これにより、関連する研究で提案されたドリフト検出器の公平かつ包括的な比較が可能になる。
私たちのベンチマークスイートは、既存のフレームワークであるMassive Online Analysis (MOA)に統合されています。
ベンチマークスイートの能力を評価するため、2つの代表的な教師なしドリフト検出器を統合する。
本研究は, 検出品質と計算性能の両面において, 教師なしドリフト検出器のベースラインを実現することを可能にする。 For many AI systems, concept drift detection is crucial to ensure the systems reliability. These systems often have to deal with large amounts of data or react in real time. Thus, drift detectors must meet computational requirements or constraints with a comprehensive performance evaluation. However, so far, the focus of developing drift detectors is on detection quality, e.g.~accuracy, but not on computational performance, such as running time. We show that the previous works consider computational performance only as a secondary objective and do not have a benchmark for such evaluation. Hence, we propose a novel benchmark suite for drift detectors that accounts both detection quality and computational performance to ensure a detector's applicability in various AI systems. In this work, we focus on unsupervised drift detectors that are not restricted to the availability of labeled data and thus being widely applicable. Our benchmark suite supports configurable synthetic and real world data streams. Moreover, it provides means for simulating a machine learning model's output to unify the performance evaluation across different drift detectors. This allows a fair and comprehensive comparison of drift detectors proposed in related work. Our benchmark suite is integrated in the existing framework, Massive Online Analysis (MOA). To evaluate our benchmark suite's capability, we integrate two representative unsupervised drift detectors. Our work enables the scientific community to achieve a baseline for unsupervised drift detectors with respect to both detection quality and computational performance. | 翻訳日:2023-04-18 14:51:11 公開日:2023-04-17 |
# 地震騒音とGPSデータによる沈み込み帯断層のすべり Subduction zone fault slip from seismic noise and GPS data ( http://arxiv.org/abs/2304.08316v1 ) ライセンス: Link先を確認 | Jos\'e Augusto Proen\c{c}a Maia Devienne | (参考訳) 地球科学において、人間の生活に実際の影響があるとして広く研究されている現象の類型は、テクトニクス断層である。
これらの地すべりは、緩やかな変位(緩やかなすべり)の地震イベントから通常の地震まで、異なる形で現れる。
バンクーバー島(CA)近くのカスカディアで連続的な緩やかなすべり現象が発見された。
このゆっくりとしたすべり現象は、北アメリカプレートが沈み込むフアン・デ・フカプレートの上を南西に潜るテクトニックな動きと関係している。
この領域は1700年代から活動していないが、緩やかなすべり運動によって周期的に積み込まれている地震発生性破壊帯の下方に位置する。
この事実には多少の注意が必要であるが、地震の引き金となる要因として、緩やかなすべり現象はすでに文献で報告されている。
それでも、遅いすべり現象を記述する物理モデルはいまだ不完全であり、運動と関連する震動の詳細な知識を制限している。
原文(投稿日:2019/09/19)へのリンク 論文では、ランダムフォレスト機械学習アルゴリズムを用いて連続地震データからgps変位測定を予測できるモデルを構築することを目的として、著者らがslow slipイベントの現在のモデルの制限に対処するために採用した戦略について論じた。
この調査は,地震動データの統計的特徴が断層変位率の指紋であるという事実で継続されている。
そのため、地震データからGPSデータを予測することで、GPS測定は断層すべり物理を調査するためのプロキシとなり、また、この緩やかなすべり現象と、実験室で研究できる震動とを関連付けることができる。
本報告の目的は,著者らが採用した方法論を露呈し,その結果を可能な限りコヒーレントに再現することである。 In Geosciences a class of phenomena that is widely studied given its real impact on human life are the tectonic faults slip. These landslides have different ways to manifest, ranging from aseismic events of slow displacement (slow slips) to ordinary earthquakes. An example of continuous slow slip event was identified in Cascadia, near the island of Vancouver (CA). This slow slip event is associated with a tectonic movements, when the overriding North America plate lurches southwesterly over the subducting Juan de Fuca plate. This region is located down-dip the seismogenic rupture zone, which has not been activated since 1700s but has been cyclically loaded by the slow slip movement. This fact requires some attention, since slow slip events have already been reported in literature as possible triggering factors for earthquakes. Nonetheless, the physical models to describe the slow slip events are still incomplete, which restricts the detailed knowledge of the movements and the associated tremor. In the original paper, the strategy adopted by the authors to address the limitation of the current models for the slow slip events was to use Random Forest machine learning algorithm to construct a model capable to predict GPS displacement measurement from the continuous seismic data. This investigation is sustained in the fact that the statistical features of the seismic data are a fingerprint of the fault displacement rate. Therefore, predicting GPS data from seismic data can make GPS measurements a proxy for investigating the fault slip physics and, additionally, correlate this slow slip events with associated tremors that can be studied in laboratory. The purpose of this report is to expose the methodology adopted by the authors and try to reproduce their results as coherent as possible with the original work. | 翻訳日:2023-04-18 14:50:38 公開日:2023-04-17 |
# Thorny Roses氏:自然言語処理における両用ジレンマの調査 Thorny Roses: Investigating the Dual Use Dilemma in Natural Language Processing ( http://arxiv.org/abs/2304.08315v1 ) ライセンス: Link先を確認 | Lucie-Aim\'ee Kaffee, Arnav Arora, Zeerak Talat, Isabelle Augenstein | (参考訳) 技術と科学的成果物の意図的かつ有害な再利用である二重利用は、自然言語処理(nlp)の文脈ではまだ明確に定義されていない問題である。
しかし、NLP技術は発展を続け、社会に広まりつつあるため、内部の作業はますます不透明になっている。
したがって、二重利用の懸念とそれらを制限する潜在的な方法を理解することは、研究開発の潜在的な害を最小化するために重要である。
本稿では,NLP研究者と実践者を対象に,課題の深さと展望を把握し,既存のサポートの評価を行う。
調査の結果に基づき,NLPコミュニティのニーズに合わせた二重利用の定義を提供する。
この調査によると、大多数の研究者が研究の二重利用を心配しているが、その対策は限られている。
調査結果を踏まえ,NLPにおける二重利用を緩和する現在の状況と潜在的手段について考察し,既存の会議倫理枠組み,例えばACL倫理チェックリストに統合可能なチェックリストを提案する。 Dual use, the intentional, harmful reuse of technology and scientific artefacts, is a problem yet to be well-defined within the context of Natural Language Processing (NLP). However, as NLP technologies continue to advance and become increasingly widespread in society, their inner workings have become increasingly opaque. Therefore, understanding dual use concerns and potential ways of limiting them is critical to minimising the potential harms of research and development. In this paper, we conduct a survey of NLP researchers and practitioners to understand the depth and their perspective of the problem as well as to assess existing available support. Based on the results of our survey, we offer a definition of dual use that is tailored to the needs of the NLP community. The survey revealed that a majority of researchers are concerned about the potential dual use of their research but only take limited action toward it. In light of the survey results, we discuss the current state and potential means for mitigating dual use in NLP and propose a checklist that can be integrated into existing conference ethics-frameworks, e.g., the ACL ethics checklist. | 翻訳日:2023-04-18 14:49:51 公開日:2023-04-17 |
# ボソニックNaRb分子のマイクロ波遮蔽 Microwave shielding of bosonic NaRb molecules ( http://arxiv.org/abs/2304.08312v1 ) ライセンス: Link先を確認 | Junyu Lin, Guanghua Chen, Mucan Jin, Zhaopeng Shi, Fulin Deng, Wenxian Zhang, Goulven Qu\'em\'ener, Tao Shi, Su Yi, Dajun Wang | (参考訳) 近年では、極低温の極性分子の合成と操作が著しく進歩している。
しかし、化学反応によらず2体の損失は、多くの将来の探査のハードルとなっている。
ここでは,非反応性ボソニック$^{23}$Na$^{87}$Rb分子の回転遷移に着色した円形偏光マイクロ波による損失抑制について検討する。
最小2体損失率係数を3\times10^{-12}~\rm{cm^3/s}$に下げた2桁の損失を2桁に抑える。
一方、弾性衝突速度係数は10^{-9}~\rm{cm^3/s}$レベルに増加する。
その結果,1.7(2)の効率で$^{23}$Na$^{87}$Rbの蒸発冷却が可能となり,位相空間密度が10倍になった。
さらなる改良により、この技術は超低温極性分子のボース・アインシュタイン凝縮物を作るという大きな期待を抱いている。 Recent years have witnessed tremendous progresses in creating and manipulating ground-state ultracold polar molecules. However, the two-body loss regardless of the chemical reactivities is still a hurdle for many future explorations. Here, we investigate the loss suppression of non-reactive bosonic $^{23}$Na$^{87}$Rb molecules with a circular polarized microwave blue-detuned to the rotational transition. We achieve suppression of the loss by two orders of magnitude with the lowest two-body loss rate coefficient reduced to $3\times10^{-12}~\rm{cm^3/s}$. Meanwhile, the elastic collision rate coefficient is increased to the $10^{-9}~\rm{cm^3/s}$ level. The large good-to-bad collision ratio has allowed us to carry out evaporative cooling of $^{23}$Na$^{87}$Rb with an efficiency of 1.7(2), increasing the phase-space density by a factor of 10. With further improvements, this technique holds great promises for creating a Bose-Einstein condensate of ultracold polar molecules. | 翻訳日:2023-04-18 14:49:32 公開日:2023-04-17 |
# treec:メタヒューリスティックアルゴリズムを用いた解釈可能なエネルギー管理システムの生成法 TreeC: a method to generate interpretable energy management systems using a metaheuristic algorithm ( http://arxiv.org/abs/2304.08310v1 ) ライセンス: Link先を確認 | Julian Ruddick, Luis Ramirez Camargo, Muhammad Andy Putratama, Maarten Messagie, Thierry Coosemans | (参考訳) エネルギー管理システム(EMS)は、ルールベース制御(RBC)とモデル予測制御(MPC)に基づいて古典的に実装されている。
最近の研究は、新しい将来的なアプローチとして強化学習(RL)を研究している。
本稿では,メタヒューリスティックアルゴリズム共分散行列適応進化戦略(cma-es)を用いて決定木としてモデル化した解釈可能なemsを生成する機械学習手法treecを提案する。
本手法は, RBC と MPC のアプローチとは対照的に, 歴史的データに基づいて EMS の決定戦略を学習する。
EMSの決定戦略は決定木としてモデル化されており、主にブラックボックスモデル(例えばニューラルネットワーク)を使用するRLとは対照的に解釈可能である。
treec法をrbc法,mpc法,rl法と比較し,(1)電気グリッド法,(2)家庭用暖房法について検討した。
以上の結果から,ツリーCはいずれの場合も完全予測のMPCよりも密接な性能を示し,電力グリッドケースではRLに類似し,家庭暖房ケースではRLに優れていた。
treecは、完全に解釈可能なエネルギー管理システムに対する機械学習の高性能な応用を示す。 Energy management systems (EMS) have classically been implemented based on rule-based control (RBC) and model predictive control (MPC) methods. Recent research are investigating reinforcement learning (RL) as a new promising approach. This paper introduces TreeC, a machine learning method that uses the metaheuristic algorithm covariance matrix adaptation evolution strategy (CMA-ES) to generate an interpretable EMS modeled as a decision tree. This method learns the decision strategy of the EMS based on historical data contrary to RBC and MPC approaches that are typically considered as non adaptive solutions. The decision strategy of the EMS is modeled as a decision tree and is thus interpretable contrary to RL which mainly uses black-box models (e.g. neural networks). The TreeC method is compared to RBC, MPC and RL strategies in two study cases taken from literature: (1) an electric grid case and (2) a household heating case. The results show that TreeC obtains close performances than MPC with perfect forecast in both cases and obtains similar performances to RL in the electrical grid case and outperforms RL in the household heating case. TreeC demonstrates a performant application of machine learning for energy management systems that is also fully interpretable. | 翻訳日:2023-04-18 14:49:18 公開日:2023-04-17 |
# ベイズ最適化における線形ラプラスの約束と落とし穴 Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization ( http://arxiv.org/abs/2304.08309v1 ) ライセンス: Link先を確認 | Agustinus Kristiadi, Alexander Immer, Runa Eschenhagen, Vincent Fortuin | (参考訳) 線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
理論上は、ニューラルネットワークの最大ポストリリリ予測関数と経験的神経接核によって引き起こされる共分散関数によって与えられる平均関数と後続のガウス過程と見なすことができるので、説得力がある。
しかしながら、画像分類などの大規模タスクにおいてその有効性は研究されているが、ガウス過程 -- 単純な平均関数とラジアル基底関数のようなカーネル -- がデファクトサロゲートモデルであるベイズ最適化のような逐次決定問題では研究されていない。
本研究では,ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
しかし, 探索空間が非有界である場合にも, LLAに潜在的な問題が発生する可能性がある。 The linearized-Laplace approximation (LLA) has been shown to be effective and efficient in constructing Bayesian neural networks. It is theoretically compelling since it can be seen as a Gaussian process posterior with the mean function given by the neural network's maximum-a-posteriori predictive function and the covariance function induced by the empirical neural tangent kernel. However, while its efficacy has been studied in large-scale tasks like image classification, it has not been studied in sequential decision-making problems like Bayesian optimization where Gaussian processes -- with simple mean functions and kernels such as the radial basis function -- are the de-facto surrogate models. In this work, we study the usefulness of the LLA in Bayesian optimization and highlight its strong performance and flexibility. However, we also present some pitfalls that might arise and a potential problem with the LLA when the search space is unbounded. | 翻訳日:2023-04-18 14:48:57 公開日:2023-04-17 |
# 被検体特異的微調整U-netを用いた7 T MRIにおける脳内B0野の動的・運動関連変化の予測 Predicting dynamic, motion-related changes in B0 field in the brain at a 7 T MRI using a subject-specific fine-tuned U-net ( http://arxiv.org/abs/2304.08307v1 ) ライセンス: Link先を確認 | Stanislav Motyka, Paul Weiser, Beata Bachrata, Lukas Hingerl, Bernhard Strasser, Gilbert Hangel, Eva Niess, Dario Goranovic, Fabian Niess, Maxim Zaitsev, Simon Daniel Robinson, Georg Langs, Siegfried Trattnig, Wolfgang Bogner | (参考訳) 磁気共鳴検査中の被写体の動きは避けられず、画像アーティファクトだけでなく、高品質データの前提条件である主磁場(b0)の均一性を低下させる。
したがって、患者運動によって引き起こされるB0の変化の特徴は、B0の不均一性に起因したMRアプリケーションにとって重要である。
本研究では,脳内におけるこのような変化を頭部位置の変化から予測し,振り返りやリアルタイムの修正を促進する深層学習に基づく手法を提案する。
3d u-netはin vivo brain 7t mriデータで訓練された。
入力は、初期位置のB0マップと解剖画像と、異なる頭部位置の解剖画像(初期解剖画像に剛体変換を適用することにより得られる)から構成された。
出力は新しいヘッド位置のB0マップで構成された。
さらに,対象者の頭部位置を限定的に測定することで,各被験者のネットワーク重量を微調整し,これらのデータを用いてU-netを訓練した。
提案手法は,空間分解能の制限と望ましくないシーケンス修正の必要性に苦しむインターリーブナビゲータによる動的b0フィールドマッピングと比較した。
定性的および定量的に比較した結果,インターリーブナビゲータ等価法と提案法で同等の性能を示した。
したがって、剛体運動からb0マップを予測することは可能であり、外部追跡ハードウェアと組み合わせることで、ナビゲータを使わずに磁気共鳴取得の質を向上させることができると結論づける。 Subject movement during the magnetic resonance examination is inevitable and causes not only image artefacts but also deteriorates the homogeneity of the main magnetic field (B0), which is a prerequisite for high quality data. Thus, characterization of changes to B0, e.g. induced by patient movement, is important for MR applications that are prone to B0 inhomogeneities. We propose a deep learning based method to predict such changes within the brain from the change of the head position to facilitate retrospective or even real-time correction. A 3D U-net was trained on in vivo brain 7T MRI data. The input consisted of B0 maps and anatomical images at an initial position, and anatomical images at a different head position (obtained by applying a rigid-body transformation on the initial anatomical image). The output consisted of B0 maps at the new head positions. We further fine-tuned the network weights to each subject by measuring a limited number of head positions of the given subject, and trained the U-net with these data. Our approach was compared to established dynamic B0 field mapping via interleaved navigators, which suffer from limited spatial resolution and the need for undesirable sequence modifications. Qualitative and quantitative comparison showed similar performance between an interleaved navigator-equivalent method and proposed method. We therefore conclude that it is feasible to predict B0 maps from rigid subject movement and, when combined with external tracking hardware, this information could be used to improve the quality of magnetic resonance acquisitions without the use of navigators. | 翻訳日:2023-04-18 14:48:41 公開日:2023-04-17 |
# 連結グラフ符号に対するZX-Calculusアプローチ A ZX-Calculus Approach to Concatenated Graph Codes ( http://arxiv.org/abs/2304.08363v1 ) ライセンス: Link先を確認 | Zipeng Wu, Song Cheng, Bei Zeng | (参考訳) 量子誤り訂正符号(QECC)は、量子コンピューティングと量子通信システムの信頼性を確保するために不可欠である。
QECCの中では、スタビライザー符号、特にグラフ符号は、その固有の性質と潜在的な応用のためにかなりの注目を集めている。
複数の量子コードの層を結合した結合符号は、比較的低いリソースオーバーヘッドで高いレベルのエラー補正を実現するための強力な技術を提供する。
本稿では,ZX-calculusの強力なグラフィカル言語を用いて,グラフコードの連結について検討する。
本稿では,この符号化マップとzx-diagramsの対応関係を確立し,[j. math. phys. 52, 022201] で示されるように,pauli x ベースの符号化マップと図形演算 "generalized local complementation" (glc) との等価性の簡単な証明を提供する。
解析の結果,同一内部コードのエンコーディングキュービットが直接接続されていない場合のみ,帰結したコードをグラフコードとして残すことが判明した。
直接接続された場合、連結されたコードをグラフコードに変換するためにクリフォード演算を追加し、[J. Math. Phys. 52, 022201] で結果を一般化する。
さらに,連結グラフ符号を連結グラフ符号とするホログラフィック符号の検討を含む,異なるベースで連結グラフ符号を探索する。
量子誤差補正の分野を前進させるZX計算の可能性を示す。 Quantum Error-Correcting Codes (QECCs) are vital for ensuring the reliability of quantum computing and quantum communication systems. Among QECCs, stabilizer codes, particularly graph codes, have attracted considerable attention due to their unique properties and potential applications. Concatenated codes, whichcombine multiple layers of quantum codes, offer a powerful technique for achieving high levels of error correction with a relatively low resource overhead. In this paper, we examine the concatenation of graph codes using the powerful and versatile graphical language of ZX-calculus. We establish a correspondence between the encoding map and ZX-diagrams, and provide a simple proof of the equivalence between encoding maps in the Pauli X basis and the graphic operation "generalized local complementation" (GLC) as previously demonstrated in [J. Math. Phys. 52, 022201]. Our analysis reveals that the resulting concatenated code remains a graph code only when the encoding qubits of the same inner code are not directly connected. When they are directly connected, additional Clifford operations are necessary to transform the concatenated code into a graphcode, thus generalizing the results in [J. Math. Phys. 52, 022201]. We further explore concatenated graph codesin different bases, including the examination of holographic codes as concatenated graph codes. Our findings showcase the potential of ZX-calculus in advancing the field of quantum error correction. | 翻訳日:2023-04-18 14:42:25 公開日:2023-04-17 |
# 人気AIベンチマークにおけるエネルギー効率の検討 Energy Efficiency Considerations for Popular AI Benchmarks ( http://arxiv.org/abs/2304.08359v1 ) ライセンス: Link先を確認 | Raphael Fischer and Matthias Jakobs and Katharina Morik | (参考訳) 人工知能の進歩は、よりリソースを意識し持続的になる必要がある。
これは、高い予測性能のために高速実行時間を犠牲にするなど、エネルギー効率のトレードオフの明確な評価と報告を必要とする。
効率を調査するための最初の手法が提案されているが、一般的な手法やデータセットに対する包括的結果を欠いている。
本研究では,一般的なAIベンチマークに対する経験的洞察を提供することによって,この情報ギャップを埋めようとしている。
我々の発見は、異なるデータセットがそれぞれがそれぞれの効率のランドスケープを持っていることの証拠であり、メソッドが多かれ少なかれ効率的に動作できることを示しています。 Advances in artificial intelligence need to become more resource-aware and sustainable. This requires clear assessment and reporting of energy efficiency trade-offs, like sacrificing fast running time for higher predictive performance. While first methods for investigating efficiency have been proposed, we still lack comprehensive results for popular methods and data sets. In this work, we attempt to fill this information gap by providing empiric insights for popular AI benchmarks, with a total of 100 experiments. Our findings are evidence of how different data sets all have their own efficiency landscape, and show that methods can be more or less likely to act efficiently. | 翻訳日:2023-04-18 14:42:01 公開日:2023-04-17 |
# 基礎モデルによるツール学習 Tool Learning with Foundation Models ( http://arxiv.org/abs/2304.08354v1 ) ライセンス: Link先を確認 | Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding, Ganqu Cui, Zheni Zeng, Yufei Huang, Chaojun Xiao, Chi Han, Yi Ren Fung, Yusheng Su, Huadong Wang, Cheng Qian, Runchu Tian, Kunlun Zhu, Shihao Liang, Xingyu Shen, Bokai Xu, Zhen Zhang, Yining Ye, Bowen Li, Ziwei Tang, Jing Yi, Yuzhang Zhu, Zhenning Dai, Lan Yan, Xin Cong, Yaxi Lu, Weilin Zhao, Yuxiang Huang, Junxi Yan, Xu Han, Xian Sun, Dahai Li, Jason Phang, Cheng Yang, Tongshuang Wu, Heng Ji, Zhiyuan Liu, Maosong Sun | (参考訳) 人間は、ツールを作成、利用し、物理的な制限を克服し、新たなフロンティアを探索できる特別な能力を持っている。
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
このパラダイム(つまり、ツール学習と基礎モデル)は、高度な精度、効率、そして問題解決の自動化を達成するために、特殊ツールと基礎モデルの強みを組み合わせる。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解がまだ欠けている。
そこで本稿では,ツール学習の体系的な研究について述べる。
まず,その認知的起源,基礎モデルのパラダイムシフト,ツールやモデルの補完的役割など,ツール学習の背景を紹介する。
そして、ツール指向学習とツール指向学習に、既存のツール学習研究を再結合する。
ユーザインストラクションを理解することから、モデルが複雑なタスクを複数のサブタスクに分解することを学び、推論を通じて計画を動的に調整し、適切なツールを選択することで各サブタスクを効果的に克服する。
また、ツール利用能力向上のためのモデルのトレーニング方法や、ツール学習の一般化の促進についても論じる。
先行研究におけるシステマティック・ツール・ラーニングの評価の欠如を考慮し,17の代表的なツールについて実験を行い,現在の基礎モデルが巧みに活用できる可能性を示す。
最後に、ツール学習のさらなる調査を必要とするいくつかのオープンな問題について論じる。
全体として、この論文は、ツールと基礎モデルの統合に関する将来の研究を刺激することを期待している。 Humans possess an extraordinary ability to create and utilize tools, allowing them to overcome physical limitations and explore new frontiers. With the advent of foundation models, AI systems have the potential to be equally adept in tool use as humans. This paradigm, i.e., tool learning with foundation models, combines the strengths of specialized tools and foundation models to achieve enhanced accuracy, efficiency, and automation in problem-solving. Despite its immense potential, there is still a lack of a comprehensive understanding of key challenges, opportunities, and future endeavors in this field. To this end, we present a systematic investigation of tool learning in this paper. We first introduce the background of tool learning, including its cognitive origins, the paradigm shift of foundation models, and the complementary roles of tools and models. Then we recapitulate existing tool learning research into tool-augmented and tool-oriented learning. We formulate a general tool learning framework: starting from understanding the user instruction, models should learn to decompose a complex task into several subtasks, dynamically adjust their plan through reasoning, and effectively conquer each sub-task by selecting appropriate tools. We also discuss how to train models for improved tool-use capabilities and facilitate the generalization in tool learning. Considering the lack of a systematic tool learning evaluation in prior works, we experiment with 17 representative tools and show the potential of current foundation models in skillfully utilizing tools. Finally, we discuss several open problems that require further investigation for tool learning. Overall, we hope this paper could inspire future research in integrating tools with foundation models. | 翻訳日:2023-04-18 14:41:52 公開日:2023-04-17 |
# シンボル記述を読むのによいデータセットは何でしょう? What Makes a Good Dataset for Symbol Description Reading? ( http://arxiv.org/abs/2304.08352v1 ) ライセンス: Link先を確認 | Karol Lynch and Joern Ploennigs and Bradley Eck | (参考訳) 文書の重要なアイデアの簡潔な表現としての数学的公式の使用は一般的な実践である。
これらの公式を正しく解釈することは、数学的記号を識別し、それらの記述を抽出することによって、文書理解において重要なタスクである。
本稿では,数学的識別子記述読解(MIDR)タスクに次のような貢献をする。
(i)758ドルの注釈付き識別子発生を伴うMFQuAD(Math Formula Question Answering Dataset)を導入する。
(ii)MIDRタスクにおける名詞句ランキング手法の新しいバリエーションについて述べる。
(iii) sota名詞句ランキングアプローチの実験結果と,そのアプローチの新たなバリエーションについて報告し,問題点の見識と性能基準を提供する。
(iv)MIDRタスクに効果的なデータセットを作成する機能に関する位置を提供する。 The usage of mathematical formulas as concise representations of a document's key ideas is common practice. Correctly interpreting these formulas, by identifying mathematical symbols and extracting their descriptions, is an important task in document understanding. This paper makes the following contributions to the mathematical identifier description reading (MIDR) task: (i) introduces the Math Formula Question Answering Dataset (MFQuAD) with $7508$ annotated identifier occurrences; (ii) describes novel variations of the noun phrase ranking approach for the MIDR task; (iii) reports experimental results for the SOTA noun phrase ranking approach and our novel variations of the approach, providing problem insights and a performance baseline; (iv) provides a position on the features that make an effective dataset for the MIDR task. | 翻訳日:2023-04-18 14:41:26 公開日:2023-04-17 |
# 連続時間量子調和振動子状態工学 Continuous-time quantum harmonic oscillator state engineering ( http://arxiv.org/abs/2304.08351v1 ) ライセンス: Link先を確認 | E. Garc\'ia Herrera and F. Torres-Leal and B. M. Rodr\'iguez-Lara | (参考訳) 捕捉されたイオンと中性原子の質量運動の中心は、周波数と駆動強度を高精度に制御できる時間依存型量子調和振動子による近似に適している。
連続微分可能な時間依存パラメータを持つこれらの系の時間発展を、リー代数的アプローチを用いて、その基礎となる対称性、回転、変位、スクイージングによって与えられる3つの基本操作の観点から示す。
ダイナミクスの因子化によって、状態工学のためのプロトコルの直感的な構築が可能になる。例えば、変位やスクイージングの生成や削除、それらの組み合わせ、スクイージングの最適化、あるいはより複雑なプロトコルは、振動子パラメータの変化の遅くて高速な速度で動作します。 The center of mass motion of trapped ions and neutral atoms is suitable for approximation by a time-dependent driven quantum harmonic oscillator whose frequency and driving strength may be controlled with high precision. We show the time evolution for these systems with continuous differentiable time-dependent parameters in terms of the three basic operations provided by its underlying symmetry, rotation, displacement, and squeezing, using a Lie algebraic approach. Our factorization of the dynamics allows for the intuitive construction of protocols for state engineering, for example, creating and removing displacement and squeezing, as well as their combinations, optimizing squeezing, or more complex protocols that work for slow and fast rates of change in the oscillator parameters. | 翻訳日:2023-04-18 14:41:17 公開日:2023-04-17 |
# 深い説明可能な関係強化学習:ニューロシンボリックアプローチ Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic Approach ( http://arxiv.org/abs/2304.08349v1 ) ライセンス: Link先を確認 | Rishi Hazra and Luc De Raedt | (参考訳) 深層強化学習(DRL)の成功にもかかわらず、学習方針は解釈できない。
さらに、drlはシンボリックリレーショナル表現を利用していないため、その環境の構造の変化(オブジェクト数の増加など)に対処するのが困難である。
一方、リレーショナル強化学習は、再利用可能な政策を学ぶためのシンボリックプランニングからリレーショナル表現を継承する。
しかし、これまでのところ、ディープニューラルネットワークのパワーをスケールアップして活用することはできない。
本稿では,ニューラル世界とシンボリック世界の両方を最大限に活用するフレームワークであるDeep Explainable Relational Reinforcement Learning (DERRL)を提案する。
ニューロシンボリックアプローチを利用することで、DERRLはリレーショナル表現とシンボリックプランニングからの制約を深層学習と組み合わせ、解釈可能なポリシーを抽出する。
これらのポリシーは、各決定(または行動)がどのように到達されるかを説明する論理規則の形式である。
いくつかの実験を通じて、Countdown Game、Blocks World、Gridworld、Trafficといった設定において、DERRLが学んだポリシーが異なる構成や状況に適用できることを示し、それによって環境修正が一般化される。 Despite numerous successes in Deep Reinforcement Learning (DRL), the learned policies are not interpretable. Moreover, since DRL does not exploit symbolic relational representations, it has difficulties in coping with structural changes in its environment (such as increasing the number of objects). Relational Reinforcement Learning, on the other hand, inherits the relational representations from symbolic planning to learn reusable policies. However, it has so far been unable to scale up and exploit the power of deep neural networks. We propose Deep Explainable Relational Reinforcement Learning (DERRL), a framework that exploits the best of both -- neural and symbolic worlds. By resorting to a neuro-symbolic approach, DERRL combines relational representations and constraints from symbolic planning with deep learning to extract interpretable policies. These policies are in the form of logical rules that explain how each decision (or action) is arrived at. Through several experiments, in setups like the Countdown Game, Blocks World, Gridworld, and Traffic, we show that the policies learned by DERRL can be applied to different configurations and contexts, hence generalizing to environmental modifications. | 翻訳日:2023-04-18 14:41:02 公開日:2023-04-17 |
# VALOR:ビジョン・オーディ・ランゲージ・オムニ知覚事前学習モデルとデータセット VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset ( http://arxiv.org/abs/2304.08345v1 ) ライセンス: Link先を確認 | Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang, Jing Liu | (参考訳) 本稿では,マルチモーダル理解と生成のための視覚聴覚言語全知覚前訓練モデル(valor)を提案する。
広く研究されている視覚言語事前学習モデルとは異なり、valorは視覚、音声、言語の関係をエンドツーエンドでモデリングしている。
単一のモダリティ表現のための3つの別個のエンコーダと、マルチモーダル条件テキスト生成のためのデコーダを含んでいる。
MGA(Multimodal Grouping Alignment)やMGC(Multimodal Grouping Captioning)など,VALORモデルを事前訓練するための2つのプレテキストタスクを設計する。
MGAは視覚、言語、音声を同じ共通空間に投影し、視覚言語、オーディオ言語、オーディオ視覚言語を同時に構築する。
MGCは、視覚、音声、またはその両方でテキストトークンを生成する方法を学ぶ。
視覚聴覚言語前学習研究を促進するために,valor-1mという,人間の注釈付音声視覚キャプションを含む1mの音声映像を含む大規模高品質な3モーダリティデータセットを構築した。
広範な実験により、ヴァロールは強いマルチモーダル相関を学び、様々な下流タスク(例えば、検索、キャプション、質問応答)に一般化し、異なる入力モダリティ(例えば、視覚言語、音声言語、音声視覚言語)を持つことが示された。
VALORは、一連の公開モダリティベンチマークで最先端のパフォーマンスを達成する。
コードとデータはプロジェクトページhttps://casia-iva-group.github.io/projects/valorで入手できる。 In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining model (VALOR) for multi-modal understanding and generation. Different from widely-studied vision-language pretraining models, VALOR jointly models relationships of vision, audio and language in an end-to-end manner. It contains three separate encoders for single modality representations, and a decoder for multimodal conditional text generation. We design two pretext tasks to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio to the same common space, building vision-language, audio-language and audiovisual-language alignment simultaneously. MGC learns how to generate text tokens in conditions of vision, audio or their both. To promote vision-audio-language pretraining research, we construct a large-scale high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable videos with human annotated audiovisual captions. Extensive experiments show that VALOR can learn strong multimodal correlations and be generalized to various downstream tasks (e.g., retrieval, captioning and question answering), with different input modalities (e.g., vision-language, audio-language and audiovisual-language). VALOR achieves new state-of-the-art performances on series of public cross-modality benchmarks. Code and data are available at project page https://casia-iva-group.github.io/projects/VALOR. | 翻訳日:2023-04-18 14:40:39 公開日:2023-04-17 |
# NF-ULA:画像逆問題に先立って正規化フローを持つランジェヴィン・モンテカルロ NF-ULA: Langevin Monte Carlo with Normalizing Flow Prior for Imaging Inverse Problems ( http://arxiv.org/abs/2304.08342v1 ) ライセンス: Link先を確認 | Ziruo Cai, Junqi Tang, Subhadip Mukherjee, Jinglai Li, Carola Bibiane Sch\"onlieb, Xiaoqun Zhang | (参考訳) 逆問題の解法は、ベイズ的手法が問題の確率論的記述を与え、解の不確かさを定量化する能力を与えるため、古典的な方法の強力な代替手段である。
一方、データベースモデルの表現能力の向上により、データ駆動手法による逆問題の解決も成功している。
本研究では,ベイズ推定におけるLangevinに基づくサンプリングアルゴリズムのクラスにデータベースモデルを組み込もうとする。
NF-ULA (Unadjusted Langevin algorithm by Normalizing Flows) は,フローの正規化を前もって学習するアルゴリズムである。
特に,本アルゴリズムでは,逆問題やフォワード演算子とは独立に,事前学習した正規化フローのみを必要とする。
ベイズ解の適切性とnf-ulaアルゴリズムの非漸近収束性を調べることで理論的解析を行う。
提案したNF-ULAアルゴリズムの有効性は,画像の劣化,画像の塗布,X線CT(リミテッドアングル)再構成など,様々な画像問題で実証されている。 Bayesian methods for solving inverse problems are a powerful alternative to classical methods since the Bayesian approach gives a probabilistic description of the problems and offers the ability to quantify the uncertainty in the solution. Meanwhile, solving inverse problems by data-driven techniques also proves to be successful, due to the increasing representation ability of data-based models. In this work, we try to incorporate the data-based models into a class of Langevin-based sampling algorithms in Bayesian inference. Loosely speaking, we introduce NF-ULA (Unadjusted Langevin algorithms by Normalizing Flows), which involves learning a normalizing flow as the prior. In particular, our algorithm only requires a pre-trained normalizing flow, which is independent of the considered inverse problem and the forward operator. We perform theoretical analysis by investigating the well-posedness of the Bayesian solution and the non-asymptotic convergence of the NF-ULA algorithm. The efficacy of the proposed NF-ULA algorithm is demonstrated in various imaging problems, including image deblurring, image inpainting, and limited-angle X-ray computed tomography (CT) reconstruction. | 翻訳日:2023-04-18 14:40:12 公開日:2023-04-17 |
# ナチュラルハザード研究におけるソーシャルメディアと自然言語処理(NLP)の利用 Use of social media and Natural Language Processing (NLP) in natural hazard research ( http://arxiv.org/abs/2304.08341v1 ) ライセンス: Link先を確認 | Jos\'e Augusto Proen\c{c}a Maia Devienne | (参考訳) Twitterは、短い公開メッセージ(つぶやき)を送るためのマイクロブログサービスで、最近科学界で注目を集めている。
Sasaki et al. (2010) と Earle et al. (2011) の著作で、著者らはTwitter上でのリアルタイムインタラクションを、ユーザーのつぶやきに基づく自然災害(地震、台風など)を検出するために探求した。
このようなアプリケーションに固有の課題は自然言語処理(NLP)であり、これは基本的に数(ベクトルとテンソル)の単語を(数学的・計算的に)予測と分類を行うために変換するものである。
近年,テキスト処理のための高度な計算ツールが開発されている。
本稿では、機械学習アプリケーションのためのエンドツーエンドのオープンソースプラタフォームであるTensorFlowを用いて、NLP機械学習を実装し、テキストのみを含むファイルに基づいて偶数処理と分類を行う。 Twitter is a microblogging service for sending short, public text messages (tweets) that has recently received more attention in scientific comunity. In the works of Sasaki et al. (2010) and Earle et al., (2011) the authors explored the real-time interaction on Twitter for detecting natural hazards (e.g., earthquakes, typhoons) baed on users' tweets. An inherent challenge for such an application is the natural language processing (NLP), which basically consists in converting the words in number (vectors and tensors) in order to (mathematically/ computationally) make predictions and classifications. Recently advanced computational tools have been made available for dealing with text computationally. In this report we implement a NLP machine learning with TensorFlow, an end-to-end open source plataform for machine learning applications, to process and classify evenct based on files containing only text. | 翻訳日:2023-04-18 14:39:49 公開日:2023-04-17 |
# 畳み込みニューラルネットワークによる地震検出 Convolutional neural network for earthquake detection ( http://arxiv.org/abs/2304.08328v1 ) ライセンス: Link先を確認 | Jos\'e Augusto Proen\c{c}a Maia Devienne | (参考訳) 近年の地下での天然資源の利用と関連する廃棄物の注入により、アメリカ合衆国中部で多くの小規模で中程度の地震が発生している。
この地震活動の増加は、地震データ記録の指数的な成長をもたらし、この大量のノイズデータの中で地震を確実に検出する効率的なアルゴリズムの必要性をもたらした。
現在の地震検出法は中規模・大規模の地震を検知するために設計されており、地震騒音によって遮られる低マグニチュード地震の多くを見逃してしまう傾向がある。
Perolなど。
著者らは、地震記録から地震発生を検出・発見するための畳み込みニューラルネットワーク(convnetquake)を提案した。
本報告は,地震記録からの事象(地震対騒音)の分類のための畳み込みニューラルネットワークの実装である,著者の提案した方法論の一部を再現することを目的としている。 The recent exploitation of natural resources and associated waste water injection in the subsurface have induced many small and moderate earthquakes in the tectonically quiet Central United States. This increase in seismic activity has produced an exponential growth of seismic data recording, which brings the necessity for efficient algorithms to reliably detect earthquakes among this large amount of noisy data. Most current earthquake detection methods are designed for moderate and large events and, consequently, they tend to miss many of the low-magnitude earthquake that are masked by the seismic noise. Perol et. al (2018) has focused on the problem of earthquake detection by using a deep-learning approach: the authors proposed a convolutional neural network (ConvNetQuake) to detect and locate earthquake events from seismic records. This reports aims at reproducing part of the methodology proposed by the author, which is the implementation of a convolutional neural network for classification of events (i.e., earthquake vs. noise) from seismic records. | 翻訳日:2023-04-18 14:39:33 公開日:2023-04-17 |
# コントラスト的特徴再構成を用いたプログレッシブ・プロンプト学習 Progressive Visual Prompt Learning with Contrastive Feature Re-formation ( http://arxiv.org/abs/2304.08386v1 ) ライセンス: Link先を確認 | Chen Xu, Haocheng Shen, Fengyuan Shi, Boheng Chen, Yixuan Liao, Xiaoxin Chen and Limin Wang | (参考訳) プロンプト学習は、下流タスクに視覚言語(V-L)モデルを適用するための微調整の代替として設計されている。
以前の作品は主にテキストプロンプトに焦点を当て、視覚的プロンプトはV-Lモデルに限られていた。
既存の視覚プロンプト法は中途半端なパフォーマンスまたは不安定なトレーニングプロセスに耐えており、視覚プロンプト学習の難しさを示している。
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
さらに重要なことは、当社のProVPが画像の埋め込みを深層に効果的に伝播し、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることです。
一般化の劣化を軽減するため,修正されたCLIP視覚特徴分布から引き起こされる視覚特徴の重大なずれを防止するために,新たなコントラスト的特徴再構成を提案する。
両者を組み合わせることで,11個の画像ベンチマークデータセットで提案手法(provp-ref)を評価し,マイトショット設定とベースツーノベル設定の両方で7/11の最先端結果を得る。
私たちの知る限りでは、v-lモデルの視覚的プロンプトが、下流タスクの以前のプロンプトベースメソッドよりも優れたパフォーマンスを示す最初の例です。
一方、私たちのProVP-Refは適応し、一般化する最善の能力を示しています。 Prompt learning has been designed as an alternative to fine-tuning for adapting Vision-language (V-L) models to the downstream tasks. Previous works mainly focus on text prompt while visual prompt works are limited for V-L models. The existing visual prompt methods endure either mediocre performance or unstable training process, indicating the difficulty of visual prompt learning. In this paper, we propose a new Progressive Visual Prompt (ProVP) structure to strengthen the interactions among prompts of different layers. More importantly, our ProVP could effectively propagate the image embeddings to deep layers and behave partially similar to an instance adaptive prompt method. To alleviate generalization deterioration, we further propose a new contrastive feature re-formation, which prevents the serious deviation of the prompted visual feature from the fixed CLIP visual feature distribution. Combining both, our method (ProVP-Ref) is evaluated on 11 image benchmark datasets and achieves 7/11 state-of-theart results on both few-shot and base-to-novel settings. To the best of our knowledge, we are the first to demonstrate the superior performance of visual prompts in V-L models to previous prompt-based methods in downstream tasks. Meanwhile, it implies that our ProVP-Ref shows the best capability to adapt and to generalize. | 翻訳日:2023-04-18 14:32:16 公開日:2023-04-17 |
# スコア機能を有する教師なし画像 Unsupervised Image Denoising with Score Function ( http://arxiv.org/abs/2304.08384v1 ) ライセンス: Link先を確認 | Yutong Xie, Mingze Yuan, Bin Dong and Quanzheng Li | (参考訳) 性能に優れる場合もあるが、単一の画像の雑音化のための教師なし学習法は通常、応用に制約がある。
本稿では,より汎用的で複雑な雑音モデルに適用可能な新しい手法を提案する。
対数確率の勾配であるスコア関数の特性を利用することで、復調のための解法システムを定義する。
ノイズ画像のスコア関数が推定されると、解法システムを介して分別結果が得られる。
本手法は、乗法と加法雑音の混合と構造相関の混合など、複数のノイズモデルに適用できる。
実験結果から,本手法はノイズモデルが単純で,他の手法が適用できない場合や性能が悪い場合にも優れた性能を示すことがわかった。 Though achieving excellent performance in some cases, current unsupervised learning methods for single image denoising usually have constraints in applications. In this paper, we propose a new approach which is more general and applicable to complicated noise models. Utilizing the property of score function, the gradient of logarithmic probability, we define a solving system for denoising. Once the score function of noisy images has been estimated, the denoised result can be obtained through the solving system. Our approach can be applied to multiple noise models, such as the mixture of multiplicative and additive noise combined with structured correlation. Experimental results show that our method is comparable when the noise model is simple, and has good performance in complicated cases where other methods are not applicable or perform poorly. | 翻訳日:2023-04-18 14:31:52 公開日:2023-04-17 |
# MELT:長期使用者の相互促進とシークエンシャルレコメンデーション項目 MELT: Mutual Enhancement of Long-Tailed User and Item for Sequential Recommendation ( http://arxiv.org/abs/2304.08382v1 ) ライセンス: Link先を確認 | Kibum Kim, Dongmin Hyun, Sukwon Yun, Chanyoung Park | (参考訳) 長い尾の問題は、ユーザとアイテムの両方の観点から問題が存在するSRS(Sequential Recommender Systems)における長年の課題である。
多くの既存の研究はsrsのロングテール問題に対処するが、それらはユーザーまたはアイテムの視点のみに焦点を当てている。
しかし、長い目を持つユーザとアイテムの問題は同時に存在し、どちらか一方のみを考慮すれば、他方のサブ最適性能につながることが判明した。
本稿では,長大なユーザとアイテムの相互拡張(Mutual Enhancement of Long-Tailed user and item,MELT)と呼ばれる,SRSのための新しいフレームワークを提案する。
MELTは、それぞれ長い尾を持つユーザとアイテムに責任を負う両側のブランチで構成され、各ブランチは相互に強化するように訓練され、カリキュラムベースのトレーニングによって効果的に訓練される。
MELTはモデルに依存しないため、既存のSRSモデルとシームレスに統合できる。
8つのデータセットに対する大規模な実験は、既存の手法では達成されていないヘッドユーザーやアイテムのパフォーマンスを犠牲にすることなく、ユーザとアイテムの両方の観点から長い尾の問題を緩和する利点を示している。
私たちの知る限りでは、MELTはSRSの長い尾のユーザーとアイテムの問題を共同で緩和する最初の作品です。 The long-tailed problem is a long-standing challenge in Sequential Recommender Systems (SRS) in which the problem exists in terms of both users and items. While many existing studies address the long-tailed problem in SRS, they only focus on either the user or item perspective. However, we discover that the long-tailed user and item problems exist at the same time, and considering only either one of them leads to sub-optimal performance of the other one. In this paper, we propose a novel framework for SRS, called Mutual Enhancement of Long-Tailed user and item (MELT), that jointly alleviates the long-tailed problem in the perspectives of both users and items. MELT consists of bilateral branches each of which is responsible for long-tailed users and items, respectively, and the branches are trained to mutually enhance each other, which is trained effectively by a curriculum learning-based training. MELT is model-agnostic in that it can be seamlessly integrated with existing SRS models. Extensive experiments on eight datasets demonstrate the benefit of alleviating the long-tailed problems in terms of both users and items even without sacrificing the performance of head users and items, which has not been achieved by existing methods. To the best of our knowledge, MELT is the first work that jointly alleviates the long-tailed user and item problems in SRS. | 翻訳日:2023-04-18 14:31:41 公開日:2023-04-17 |
# ゼロ和列と隠れ部分群 Zero sum subsequences and hidden subgroups ( http://arxiv.org/abs/2304.08376v1 ) ライセンス: Link先を確認 | Muhammad Imran and Gabor Ivanyos | (参考訳) そこで我々は,nilpotent groupにおける隠れ部分群問題の解法を提案する。
主なアイデアは、隠れた部分群を中心級数のメンバーによって商群内のその像に反復変換し、最終的に元の群の可換商の像に変換し、アーベル隠れ部分群アルゴリズムを用いてこの像を決定することである。
この画像を知ることで、隠れた部分群が完全群でない限り、適切な部分群に降下することができる。
この変換は有限素体上のベクトルの十分大きな列のゼロ和列を見つけることに依存する。
フィールドのサイズが一定である場合に、後者の問題に対する新しい決定論的多項式時間アルゴリズムを提案する。
この結果は、定数 nilpotency クラスを持ち、その位数が素因数のみを持つnilpotent群における隠れ部分群問題に対する多項式時間完全量子アルゴリズムである。 We propose a method for solving the hidden subgroup problem in nilpotent groups. The main idea is iteratively transforming the hidden subgroup to its images in the quotient groups by the members of a central series, eventually to its image in the commutative quotient of the original group; and then using an abelian hidden subgroup algorithm to determine this image. Knowing this image allows one to descend to a proper subgroup unless the hidden subgroup is the full group. The transformation relies on finding zero sum subsequences of sufficiently large sequences of vectors over finite prime fields. We present a new deterministic polynomial time algorithm for the latter problem in the case when the size of the field is constant. The consequence is a polynomial time exact quantum algorithm for the hidden subgroup problem in nilpotent groups having constant nilpotency class and whose order only have prime factors also bounded by a constant. | 翻訳日:2023-04-18 14:31:18 公開日:2023-04-17 |
# 製造組立問題へのQ-Learningアルゴリズムの適用に関する研究 A study on a Q-Learning algorithm application to a manufacturing assembly problem ( http://arxiv.org/abs/2304.08375v1 ) ライセンス: Link先を確認 | Miguel Neves, Miguel Vieira, Pedro Neto | (参考訳) 機械学習アルゴリズムの開発は、意思決定問題のモデリングの複雑さの増大に対処するために関連づけられている。
強化学習(Reinforcement learning)は、従来のトレーニングデータの必要性の低減、すなわちシステムが実際の操作と時間とともに学習するため、大きな可能性を持つ方法論である。
本研究は, 対象物の組立問題に対する強化学習アルゴリズムの実装に焦点をあて, 組立プロセス時間の最適化における提案手法の有効性を明らかにすることを目的とする。
環境との連続的な相互作用からq値行列(qテーブル)の学習を考慮し、アセンブリシーケンスソリューションを提案するモデルフリーなq学習アルゴリズムを適用する。
本実装では,Q-Learning\textscのパラメータと報酬の影響を評価して,強化学習エージェントの性能を向上させるために,複雑さの増大を伴う3つのシナリオを探索する。
最適化アプローチは98.3%の時間で最適なアセンブリシーケンスを学習することで非常に有望な結果を得た。 The development of machine learning algorithms has been gathering relevance to address the increasing modelling complexity of manufacturing decision-making problems. Reinforcement learning is a methodology with great potential due to the reduced need for previous training data, i.e., the system learns along time with actual operation. This study focuses on the implementation of a reinforcement learning algorithm in an assembly problem of a given object, aiming to identify the effectiveness of the proposed approach in the optimisation of the assembly process time. A model-free Q-Learning algorithm is applied, considering the learning of a matrix of Q-values (Q-table) from the successive interactions with the environment to suggest an assembly sequence solution. This implementation explores three scenarios with increasing complexity so that the impact of the Q-Learning\textsc's parameters and rewards is assessed to improve the reinforcement learning agent performance. The optimisation approach achieved very promising results by learning the optimal assembly sequence 98.3% of the times. | 翻訳日:2023-04-18 14:31:01 公開日:2023-04-17 |
# 非エルミタン量子センサの基本感度限界 Fundamental Sensitivity Limits for non-Hermitian Quantum Sensors ( http://arxiv.org/abs/2304.08374v1 ) ライセンス: Link先を確認 | Wenkui Ding, Xiaoguang Wang, Shu Chen | (参考訳) 拡張量子システムを用いて実装された非エルミート系を考えると、量子情報の観点から非エルミートセンサの感度の基本的な限界を決定する。
非エルミート型センサは、パラメータに関する量子情報のばらつきのため、感度性能においてエルミート型センサ(パラメータと直接結合する)を上回らないことが証明される。
フル量子システムを用いて実装された2つの具体的な非エルミートセンシング提案を精査することにより、これらのセンサの感度が我々の予測と一致していることを示す。
この理論は、非エルミート量子センサの基本的な限界を理解するための包括的かつモデルに依存しない枠組みを提供し、非エルミート物理学と量子メソロジーの間の橋渡しを構築する。 Considering non-Hermitian systems implemented by utilizing enlarged quantum systems, we determine the fundamental limits for the sensitivity of non-Hermitian sensors from the perspective of quantum information. We prove that non-Hermitian sensors do not outperform their Hermitian counterparts (directly couples to the parameter) in the performance of sensitivity, due to the invariance of the quantum information about the parameter. By scrutinizing two concrete non-Hermitian sensing proposals, which are implemented using full quantum systems, we demonstrate that the sensitivity of these sensors is in agreement with our predictions. Our theory offers a comprehensive and model-independent framework for understanding the fundamental limits of non-Hermitian quantum sensors and builds the bridge over the gap between non-Hermitian physics and quantum metrology. | 翻訳日:2023-04-18 14:30:44 公開日:2023-04-17 |
# Word2Vec と BERT ワード埋め込みの比較による新商品開発(NPD) New Product Development (NPD) through Social Media-based Analysis by Comparing Word2Vec and BERT Word Embeddings ( http://arxiv.org/abs/2304.08369v1 ) ライセンス: Link先を確認 | Princessa Cintaqia and Matheus Inoue | (参考訳) 本研究では,新しい製品開発(NPD)プロセスを支援するために,ツイートの感情分類と意見分類を行う新しい手法を提案する。
Word2Vec と BERT という2つの単語埋め込み技術は、感情分析と限られたデータによる意見検出において最も優れたアプローチを特定するために、古典的な機械学習アルゴリズムとディープラーニングアルゴリズムの入力として評価された。
その結果,BERT単語の埋め込みと平衡ランダムフォレストが組み合わされた場合,感情分析と意見検出の両面で最も正確な単一モデルが得られた。
さらに,同感のつぶやきをワードグラフで分析し,改善の可能性を強調し,今後の製品開発へのフィードバックを提供する。 This study introduces novel methods for sentiment and opinion classification of tweets to support the New Product Development (NPD) process. Two popular word embedding techniques, Word2Vec and BERT, were evaluated as inputs for classic Machine Learning and Deep Learning algorithms to identify the best-performing approach in sentiment analysis and opinion detection with limited data. The results revealed that BERT word embeddings combined with Balanced Random Forest yielded the most accurate single model for both sentiment analysis and opinion detection on a use case. Additionally, the paper provides feedback for future product development performing word graph analysis of the tweets with same sentiment to highlight potential areas of improvement. | 翻訳日:2023-04-18 14:30:29 公開日:2023-04-17 |
# 自閉症検出のためのヒューマンジェスチャと歩行分析 Human Gesture and Gait Analysis for Autism Detection ( http://arxiv.org/abs/2304.08368v1 ) ライセンス: Link先を確認 | Sania Zahan, Zulqarnain Gilani, Ghulam Mubashar Hassan and Ajmal Mian | (参考訳) 自閉症の診断は, 病態の多様さと早期発見の解離性に起因した大きな課題である。
非定型的な歩行とジェスチャーパターンは自閉症の主要な行動特性であり、診断に重要な洞察を与える。
さらに、これらのデータはインタラクティブな方法で効率的に収集することができ、ポジティブな結果を最適化するための早期介入が容易になる。
既存の研究は主に、顔と視線の特徴と自閉症との関連性に焦点を当てている。
しかし、自閉症に特有の微妙な変化や特徴を明らかにする動きやジェスチャーパターンの研究はごくわずかである。
そこで本研究では,自閉症児の身振りと歩行行動の分析を行い,自閉症診断観察スケジュールスコアを後退させることで,その重症度を定量化する。
提案するアーキテクチャは,(1)不規則なジェスチャパターンを表わす効果的な特徴表現と,(2)データモダリティを明示的に使わずに,多様な視点から自閉症との関係を包括的に理解するための二流共学習フレームワークである。
実験の結果, ジェスチャー映像と歩行動作映像を用いた自閉症解析の有効性が示された。 Autism diagnosis presents a major challenge due to the vast heterogeneity of the condition and the elusive nature of early detection. Atypical gait and gesture patterns are dominant behavioral characteristics of autism and can provide crucial insights for diagnosis. Furthermore, these data can be collected efficiently in a non-intrusive way, facilitating early intervention to optimize positive outcomes. Existing research mainly focuses on associating facial and eye-gaze features with autism. However, very few studies have investigated movement and gesture patterns which can reveal subtle variations and characteristics that are specific to autism. To address this gap, we present an analysis of gesture and gait activity in videos to identify children with autism and quantify the severity of their condition by regressing autism diagnostic observation schedule scores. Our proposed architecture addresses two key factors: (1) an effective feature representation to manifest irregular gesture patterns and (2) a two-stream co-learning framework to enable a comprehensive understanding of its relation to autism from diverse perspectives without explicitly using additional data modality. Experimental results demonstrate the efficacy of utilizing gesture and gait-activity videos for autism analysis. | 翻訳日:2023-04-18 14:30:17 公開日:2023-04-17 |
# なぜAIはデータワーカーのパナセアではないのか?
データストーリーテリングにおける人間とaiのコラボレーションに関するインタビュー研究 Why is AI not a Panacea for Data Workers? An Interview Study on Human-AI Collaboration in Data Storytelling ( http://arxiv.org/abs/2304.08366v1 ) ライセンス: Link先を確認 | Haotian Li, Yun Wang, Q. Vera Liao, Huamin Qu | (参考訳) データストーリーテリングは、チームのコラボレーションとパブリックコミュニケーションを促進するため、データワーカーの日常業務において重要な役割を果たす。
しかし、魅力的なデータストーリーを作るために、データワーカーはストーリーの概要やスタイリングなど、さまざまなタスクに多大な努力を払っています。
近年,先進的な人工知能(AI)によるデータストーリーテリングを支援する研究が増えている。
しかし、既存の研究は、データストーリーテリングのワークフローにおける個々のタスクに焦点を当てており、AIとの共同作業に対する人間の好みの完全なイメージを明らかにしていない。
実世界のニーズをよりよく理解するために、業界と学界の18人のデータワーカーにインタビューして、AIとのコラボレーションの場所と方法を聞いた。
驚いたことに、参加者はAIとのコラボレーションに興奮を見せたが、彼らの多くは反感を表明し、曖昧な理由を指摘した。
彼らの反応に基づいて、我々はまず、実践的なデータストーリーテリングワークフローとAIの望ましい役割におけるステージとタスクを特徴づける。
そして、異なるタスクにおける望ましいコラボレーションパターンを識別する。
次に、インタビュー参加者がaiとコラボレーションしたい理由としない理由を要約する。
最後に、人間とAIのコラボレーティブなデータストーリーテリングが将来の研究に光を当てることを提案します。 Data storytelling plays an important role in data workers' daily jobs since it boosts team collaboration and public communication. However, to make an appealing data story, data workers spend tremendous efforts on various tasks, including outlining and styling the story. Recently, a growing research trend has been exploring how to assist data storytelling with advanced artificial intelligence (AI). However, existing studies may focus on individual tasks in the workflow of data storytelling and do not reveal a complete picture of humans' preference for collaborating with AI. To better understand real-world needs, we interviewed eighteen data workers from both industry and academia to learn where and how they would like to collaborate with AI. Surprisingly, though the participants showed excitement about collaborating with AI, many of them also expressed reluctance and pointed out nuanced reasons. Based on their responses, we first characterize stages and tasks in the practical data storytelling workflows and the desired roles of AI. Then the preferred collaboration patterns in different tasks are identified. Next, we summarize the interviewees' reasons why and why not they would like to collaborate with AI. Finally, we provide suggestions for human-AI collaborative data storytelling to hopefully shed light on future related research. | 翻訳日:2023-04-18 14:29:56 公開日:2023-04-17 |
# ROI-Exchange 法を用いた選択的シャッフル位置埋め込みを用いた変形性膝関節症早期発見 Transformer with Selective Shuffled Position Embedding using ROI-Exchange Strategy for Early Detection of Knee Osteoarthritis ( http://arxiv.org/abs/2304.08364v1 ) ライセンス: Link先を確認 | Zhe Wang and Aladine Chetouani and Rachid Jennane | (参考訳) Knee osteoArthritis (KOA) は高齢者の運動能力低下を引き起こす筋骨格障害である。
医療分野における十分なデータ不足は、ラベル付けのコストが高いため、学習モデルのトレーニングにおいて常に課題となる。
現在、ディープニューラルネットワークトレーニングは、モデルの一般化能力を改善し、過度な適合を避けるために、データ拡張に強く依存している。
しかし、回転やガンマ補正などの既存のデータ拡張操作は、データ自体に基づいて設計されており、データの多様性を実質的に増やさない。
本稿では,sspe(selective shuffled position embedded)を用いた視覚トランスフォーマティブ(vit)モデルと,koa(kl-0 vs kl-2)の早期検出のためのデータ拡張手法として,異なる入力シーケンスを得るroi交換戦略に基づく新しい手法を提案する。
具体的には、ROIと非ROIパッチの埋め込み位置をそれぞれ修正し、シャッフルしました。
そして、入力画像に対して、トレーニングセットから他の画像をランダムに選択してROIパッチを交換し、異なる入力シーケンスを得る。
最後に、最適化重み付き異なる損失関数を用いてハイブリッド損失関数を導出した。
実験の結果,提案手法はモデルの分類性能を著しく向上できるため,有効なデータ拡張手法であることがわかった。 Knee OsteoArthritis (KOA) is a prevalent musculoskeletal disorder that causes decreased mobility in seniors. The lack of sufficient data in the medical field is always a challenge for training a learning model due to the high cost of labelling. At present, deep neural network training strongly depends on data augmentation to improve the model's generalization capability and avoid over-fitting. However, existing data augmentation operations, such as rotation, gamma correction, etc., are designed based on the data itself, which does not substantially increase the data diversity. In this paper, we proposed a novel approach based on the Vision Transformer (ViT) model with Selective Shuffled Position Embedding (SSPE) and a ROI-exchange strategy to obtain different input sequences as a method of data augmentation for early detection of KOA (KL-0 vs KL-2). More specifically, we fixed and shuffled the position embedding of ROI and non-ROI patches, respectively. Then, for the input image, we randomly selected other images from the training set to exchange their ROI patches and thus obtained different input sequences. Finally, a hybrid loss function was derived using different loss functions with optimized weights. Experimental results show that our proposed approach is a valid method of data augmentation as it can significantly improve the model's classification performance. | 翻訳日:2023-04-18 14:29:36 公開日:2023-04-17 |
# LocalMaxCut上の古典的および量子的1ラウンドアルゴリズムの比較 Comparing a classical and quantum one round algorithm on LocalMaxCut ( http://arxiv.org/abs/2304.08420v1 ) ライセンス: Link先を確認 | Charlie Carlson, Zackary Jorquera, Alexandra Kolla, Steven Kordonowy | (参考訳) 量子局所アルゴリズムの性能を、よく確立された組合せ最適化問題LocalMaxCut上で、類似の古典的アルゴリズムと比較する。
量子最適化近似アルゴリズム (qaoa) と呼ばれる、farhi, goldstone, gutmannn [1] によって最初に発見された一般的な量子アルゴリズムは、次数-3グラフ上の比較可能な局所的手法よりも計算上優れていることが示されている。
これらの結果は、最先端の量子ハードウェアに関連する小さな量子計算であっても、比較可能な単純な古典計算よりも大きな利点があることを示唆している。 We compare the performance of a quantum local algorithm to a similar classical counterpart on a well-established combinatorial optimization problem LocalMaxCut. We show that a popular quantum algorithm first discovered by Farhi, Goldstone, and Gutmannn [1] called the quantum optimization approximation algorithm (QAOA) has a computational advantage over comparable local classical techniques on degree-3 graphs. These results hint that even small-scale quantum computation, which is relevant to the current state-of the art quantum hardware, could have significant advantages over comparably simple classical computation. | 翻訳日:2023-04-18 14:24:10 公開日:2023-04-17 |
# Evil from inside: ハードウェアトロイの木馬によるマシンラーニングバックドア Evil from Within: Machine Learning Backdoors through Hardware Trojans ( http://arxiv.org/abs/2304.08411v1 ) ライセンス: Link先を確認 | Alexander Warnecke, Julian Speith, Jan-Niklas M\"oller, Konrad Rieck, Christof Paar | (参考訳) バックドアは、自動運転車のようなセキュリティクリティカルなシステムの完全性を損なう可能性があるため、機械学習に深刻な脅威をもたらす。
この脅威に対処するために異なる防御策が提案されているが、それらはすべて、推論中に学習モデルを実行するハードウェアが信頼されているという仮定に依存している。
本稿では、この仮定に挑戦し、機械学習のための共通のハードウェアアクセラレータ内に存在するバックドア攻撃を導入する。
アクセルの外では、学習モデルもソフトウェアも操作されないため、現在の防御は失敗する。
まず、ハードウェアアクセラレータ上のメモリが極めて制限されているため、元のモデルから可能な限り逸脱し、いくつかのモデルパラメータのみを置き換えることで活性化される最小のバックドアの概念を導入する。
第2に、バックドアでプロビジョニングでき、特定のターゲットモデルを処理する場合にのみ置換を行う構成可能なハードウェアトロイの木馬を開発する。
市販の機械学習アクセラレータであるxilinx vitis ai dpuにハードウェアトロイの木馬を組み込むことにより,攻撃の実用性を示す。
トラヒックサイン認識システムのための最小限のバックドアでトロイの木馬を構成する。
バックドアは30(0.069%)のモデルパラメータに置き換わるが、入力がバックドアトリガを含むと認識を確実に操作する。
我々の攻撃はアクセルのハードウェア回路を0.24%拡張し、実行時のオーバーヘッドを生じさせないため、検出は不可能である。
現在のハードウェアの複雑で高度に分散された製造プロセスを考えると、当社の作業は、現在のセキュリティメカニズムに到達できないマシンラーニングにおける新たな脅威と、完全に信頼された環境でのみ製造されるハードウェアの要求を指し示しています。 Backdoors pose a serious threat to machine learning, as they can compromise the integrity of security-critical systems, such as self-driving cars. While different defenses have been proposed to address this threat, they all rely on the assumption that the hardware on which the learning models are executed during inference is trusted. In this paper, we challenge this assumption and introduce a backdoor attack that completely resides within a common hardware accelerator for machine learning. Outside of the accelerator, neither the learning model nor the software is manipulated, so that current defenses fail. To make this attack practical, we overcome two challenges: First, as memory on a hardware accelerator is severely limited, we introduce the concept of a minimal backdoor that deviates as little as possible from the original model and is activated by replacing a few model parameters only. Second, we develop a configurable hardware trojan that can be provisioned with the backdoor and performs a replacement only when the specific target model is processed. We demonstrate the practical feasibility of our attack by implanting our hardware trojan into the Xilinx Vitis AI DPU, a commercial machine-learning accelerator. We configure the trojan with a minimal backdoor for a traffic-sign recognition system. The backdoor replaces only 30 (0.069%) model parameters, yet it reliably manipulates the recognition once the input contains a backdoor trigger. Our attack expands the hardware circuit of the accelerator by 0.24% and induces no run-time overhead, rendering a detection hardly possible. Given the complex and highly distributed manufacturing process of current hardware, our work points to a new threat in machine learning that is inaccessible to current security mechanisms and calls for hardware to be manufactured only in fully trusted environments. | 翻訳日:2023-04-18 14:23:59 公開日:2023-04-17 |
# ovtrack: オープンボキャブラリーマルチオブジェクトトラッキング OVTrack: Open-Vocabulary Multiple Object Tracking ( http://arxiv.org/abs/2304.08408v1 ) ライセンス: Link先を確認 | Siyuan Li, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan, Fisher Yu | (参考訳) シーン内の動的オブジェクトを認識し、ローカライズし、追跡する能力は、自動運転やロボットシステムなど、多くの現実世界のアプリケーションに基本である。
しかし、従来の多重オブジェクト追跡(MOT)ベンチマークは、現実世界で遭遇する可能性のあるオブジェクトの多さをほとんど表さないいくつかのオブジェクトカテゴリにのみ依存している。
これにより、現在のMOTメソッドは、定義済みのオブジェクトカテゴリの小さなセットに限られる。
本稿では,新しいタスクであるオープンボキャブラリー・モット(open-vocabulary mot)に取り組み,事前定義されたトレーニングカテゴリを超えてトラッキングを評価することで,この制限に対処する。
さらに,任意のオブジェクトクラスを追跡可能なオープン語彙トラッカーであるOVTrackを開発した。
その設計は、第一に、知識蒸留による分類と連想の両方に視覚言語モデルを活用すること、第二に、拡散確率モデルから頑健な外観特徴学習のためのデータ幻覚戦略である。
その結果、非常にデータ効率のよいオープンボキャブラリトラッカーが、大規模な大語彙のTAOベンチマークに新たな最先端を設定でき、静的イメージのみにトレーニングされている。
プロジェクトページ: https://www.vis.xyz/pub/ovtrack/ The ability to recognize, localize and track dynamic objects in a scene is fundamental to many real-world applications, such as self-driving and robotic systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only on a few object categories that hardly represent the multitude of possible objects that are encountered in the real world. This leaves contemporary MOT methods limited to a small set of pre-defined object categories. In this paper, we address this limitation by tackling a novel task, open-vocabulary MOT, that aims to evaluate tracking beyond pre-defined training categories. We further develop OVTrack, an open-vocabulary tracker that is capable of tracking arbitrary object classes. Its design is based on two key ingredients: First, leveraging vision-language models for both classification and association via knowledge distillation; second, a data hallucination strategy for robust appearance feature learning from denoising diffusion probabilistic models. The result is an extremely data-efficient open-vocabulary tracker that sets a new state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while being trained solely on static images. Project page: https://www.vis.xyz/pub/ovtrack/ | 翻訳日:2023-04-18 14:23:29 公開日:2023-04-17 |
# 量子チャネル空間における伝送距離 Transmission distance in the space of quantum channels ( http://arxiv.org/abs/2304.08403v1 ) ライセンス: Link先を確認 | Diego G. Bussandri, Pedro W. Lamberti and Karol \.Zyczkowski | (参考訳) 密度作用素の空間における真の距離を形成する量子jensen-shannon発散の平方根を用いて、量子写像間の識別可能性測度を得る2つの方法を分析する。
発生手段は、量子チャネルとエントロピーチャネルのばらつきの間の伝送距離である。
我々は,それらの数学的性質を調査し,物理的意味について考察する。
さらに、エントロピーチャネルの分岐の連鎖則を定め、量子チャネルと逆境界の判別の分野における潜在的な応用と関連する結果であるアモータイズ崩壊を示唆する。
最後に,与えられた2つのパウリチャネルの識別性を解析し,デコヒーレンス下でのハミルトニアンダイナミクスの研究を行った。 We analyze two ways to obtain distinguishability measures between quantum maps by employing the square root of the quantum Jensen-Shannon divergence, which forms a true distance in the space of density operators. The arising measures are the transmission distance between quantum channels and the entropic channel divergence. We investigate their mathematical properties and discuss their physical meaning. Additionally, we establish a chain rule for the entropic channel divergence, which implies the amortization collapse, a relevant result with potential applications in the field of discrimination of quantum channels and converse bounds. Finally, we analyze the distinguishability between two given Pauli channels and study exemplary Hamiltonian dynamics under decoherence. | 翻訳日:2023-04-18 14:23:09 公開日:2023-04-17 |
# 中性原子ビットの高忠実度制御と絡み合いのためのレーザーシステム Laser Systems for High Fidelity Control and Entanglement of Neutral Atomic Qubits ( http://arxiv.org/abs/2304.08402v1 ) ライセンス: Link先を確認 | C.J. Picken, I. Despard, A. Kelly, J.D. Pritchard, J.R.P. Bain, N. Hempler, G.T. Maker and G.P.A Malcolm | (参考訳) 本稿では,スケーラブルな中性原子量子コンピューティングに特化したm2乗レーザーにより最近開発された新しいフォトニクスおよびエレクトロニクスパッケージ,スケーラブルな量子ビット数のための高出力1064nmシステム,高忠実度シングル量子ビット制御のための位相ロックシステム,高忠実度rydberg演算のためのロバストキャビティロックシステムを提案する。
我々は、基底状態ラマンの現在の状態と競合するコヒーレンス時間とキャビティフィルタリングなしのグラウンド・ライドバーグ遷移を両立させ、中性原子量子コンピューティングのための優れたプラットフォームを提供する。
これらのシステムは、7つの原子対にまたがって絡み合ったベル状態を生成してベンチマークされ、そこでは2量子ビットのCZ$ゲートでF_C\ge0.93(3)$のピーク生密度を計測する。 We present new photonics and electronics packages recently developed by M Squared Lasers specifically tailored for scalable neutral atom quantum computing; a high power 1064 nm system for scalable qubit number, a phase locked system for high fidelity single qubit control, and robust cavity locked systems for high fidelity Rydberg operations. We attain driven coherence times competitive with current state-of-the-art for both ground state Raman and ground-Rydberg transitions without cavity filtering, providing an excellent platform for neutral atom quantum computing. These systems are benchmarked by creating entangled Bell states across 7 atom pairs, where we measure a peak raw fidelity of $F\ge0.88(2)$ and a peak SPAM corrected of $F_C\ge0.93(3)$ via a two-qubit $CZ$ gate. | 翻訳日:2023-04-18 14:22:58 公開日:2023-04-17 |
# コントラスト学習に基づくマルチモーダルショートビデオラグ検出システム Multimodal Short Video Rumor Detection System Based on Contrastive Learning ( http://arxiv.org/abs/2304.08401v1 ) ライセンス: Link先を確認 | Yuxing Yang, Junhao Zhao, Siyi Wang, Xiangyu Min, Pengchao Wang, and Haizhou Wang | (参考訳) 短いビデオプラットフォームがニュース共有の重要なチャンネルの1つとなり、中国の主要ショートビデオプラットフォームは次第にフェイクニュースの新たな育種地となっている。
しかし,ショートビデオに含まれる情報や特徴の多さや,ビデオ間の特徴の真剣な均質化や類似性から,短いビデオの噂を区別するのは容易ではない。
短いビデオ噂の拡散を緩和するため,我々は,マルチモーダル特徴融合の構築と,各アルゴリズムの長所と短所を考慮した外部知識の導入により,短いビデオ噂の検出を決定した。
検出の考え方は,(1)データセットの作成:複数の特徴を持つ短いビデオデータセットを構築すること,(2)マルチモーダルな噂検出モデル:まず,ビデオ特徴を抽出するためにTSN (Temporal Segment Networks) ビデオ符号化モデルを使用し,次に,OCR (Optical Character Recognition) とASR (Automatic Character Recognition) を用いて映像特徴を抽出する。
認識)とASR(自動音声認識)が融合してテキストを抽出し,BERTモデルを用いてテキスト特徴とビデオ特徴を融合する。(3) 最後に,コントラスト学習を用いて,まず外部知識をクロールし,ベクトルデータベースを用いて外部知識の導入と分類出力の最終構造を実現する。
我々の研究プロセスは、常に実践的なニーズに向けられており、関連する知識は、短いビデオ噂の識別や社会的意見制御など、多くの実践シナリオにおいて重要な役割を果たす。 With short video platforms becoming one of the important channels for news sharing, major short video platforms in China have gradually become new breeding grounds for fake news. However, it is not easy to distinguish short video rumors due to the great amount of information and features contained in short videos, as well as the serious homogenization and similarity of features among videos. In order to mitigate the spread of short video rumors, our group decides to detect short video rumors by constructing multimodal feature fusion and introducing external knowledge after considering the advantages and disadvantages of each algorithm. The ideas of detection are as follows: (1) dataset creation: to build a short video dataset with multiple features; (2) multimodal rumor detection model: firstly, we use TSN (Temporal Segment Networks) video coding model to extract video features; then, we use OCR (Optical Character Recognition) and ASR (Automatic Character Recognition) to extract video features. Recognition) and ASR (Automatic Speech Recognition) fusion to extract text, and then use the BERT model to fuse text features with video features (3) Finally, use contrast learning to achieve distinction: first crawl external knowledge, then use the vector database to achieve the introduction of external knowledge and the final structure of the classification output. Our research process is always oriented to practical needs, and the related knowledge results will play an important role in many practical scenarios such as short video rumor identification and social opinion control. | 翻訳日:2023-04-18 14:22:36 公開日:2023-04-17 |
# atheena: ハードウェア初期のネットワーク自動化のためのツールフロー ATHEENA: A Toolflow for Hardware Early-Exit Network Automation ( http://arxiv.org/abs/2304.08400v1 ) ライセンス: Link先を確認 | Benjamin Biggs, Christos-Savvas Bouganis, George A. Constantinides | (参考訳) Deep Neural Networksの精度、スループット、効率性の改善に対する継続的なニーズは、FPGAのカスタムアーキテクチャを最大限に活用する多くの方法を生み出している。
これには手作りのネットワークの作成や、外部ネットワークパラメータを減らすために量子化とプルーニングの利用が含まれる。
しかし, 静的解の可能性が既に十分に活用されていることから, 個々のデータサンプルの難易度の変化に焦点を移し, 効率を向上し, 分類の平均計算量を削減することを提案する。
入力依存の計算により、信頼しきい値に達した場合、ネットワークは実行時にタスクを早期に終了させることができる。
初期のネットワークアーキテクチャは、このような振る舞いをソフトウェアに実装する手段として、ますます人気を高めています。
A Toolflow for Hardware Early-Exit Network Automation (ATHEENA)は、これらのネットワークから早期に抜け出すサンプルの確率を利用して、ネットワークの異なる部分に割り当てられたリソースをスケールする自動FPGAツールフローである。
このツールフローはfpgaconvnetのデータフローモデルを使用し、アーリーエクイットネットワークをサポートするように拡張され、生成したストリーミングアーキテクチャハードウェアを最適化するための設計スペース探索が、精度を維持しながらスループット/還元領域を増加させることを目的としている。
3つの異なるネットワークの実験結果は、初期出口のない最適化されたベースラインネットワーク実装と比較してスループットが2.00\times$から2.78\times$に向上したことを示している。
さらに、ツールフローは同じベースラインにマッチするスループットを、ベースラインに必要なリソースの4,6\%のコストで達成することができる。 The continued need for improvements in accuracy, throughput, and efficiency of Deep Neural Networks has resulted in a multitude of methods that make the most of custom architectures on FPGAs. These include the creation of hand-crafted networks and the use of quantization and pruning to reduce extraneous network parameters. However, with the potential of static solutions already well exploited, we propose to shift the focus to using the varying difficulty of individual data samples to further improve efficiency and reduce average compute for classification. Input-dependent computation allows for the network to make runtime decisions to finish a task early if the result meets a confidence threshold. Early-Exit network architectures have become an increasingly popular way to implement such behaviour in software. We create: A Toolflow for Hardware Early-Exit Network Automation (ATHEENA), an automated FPGA toolflow that leverages the probability of samples exiting early from such networks to scale the resources allocated to different sections of the network. The toolflow uses the data-flow model of fpgaConvNet, extended to support Early-Exit networks as well as Design Space Exploration to optimize the generated streaming architecture hardware with the goal of increasing throughput/reducing area while maintaining accuracy. Experimental results on three different networks demonstrate a throughput increase of $2.00\times$ to $2.78\times$ compared to an optimized baseline network implementation with no early exits. Additionally, the toolflow can achieve a throughput matching the same baseline with as low as $46\%$ of the resources the baseline requires. | 翻訳日:2023-04-18 14:22:07 公開日:2023-04-17 |
# 元の単純さを復元する:溶接木問題に対する簡潔で決定論的量子アルゴリズム Recover the original simplicity: concise and deterministic quantum algorithm for the welded tree problem ( http://arxiv.org/abs/2304.08395v1 ) ライセンス: Link先を確認 | Guanzhong Li and Jingquan Luo and Lvzhou Li | (参考訳) tthe welded tree problem(溶接された木の問題)は、与えられた入口から開始される$\theta(2^n)$の頂点を持つ溶接された木の出口を見つけるためのブラックボックス問題である。
元の量子アルゴリズムは連続時間量子ウォーク(CTQW)に基づいており、最近では多次元量子ウォークフレームワークが提案されるまで、離散時間量子ウォーク(DTQW)に基づく効率的なアルゴリズムが存在するかどうかは明らかになっていない(Jeffery and Zur, STOC'2023)。
本稿では,自然に定義された量子ウォーク演算子を所定の時間$t \in o(n \log n)$で反復し,その終了名を$\omega(\frac{1}{n})$確率で求める,最も単純な量子ウォークに基づく比較的簡潔なアルゴリズムを提案する。
このアルゴリズムは、さらにエラーフリーで、$o(n^{1.5} \log n)$クエリの複雑さで推進することができる。
この数値シミュレーションは、アルゴリズムの実際の複雑性が$o(n^{4/3})$であることを示している。
この結果の意義は以下の通りである。
(i)本アルゴリズムは,多次元前のDTQWフレームワークが古典的アルゴリズムよりも2次スピードアップで達成できるステレオタイプを変化させるだけでなく,量子ウォークの最も単純なフレームワークのパワーを再表現する(Jeffery and Zur, STOC'2023)。
(ii) 提案アルゴリズムは理論上はエラーフリーにすることができるが, 既存の手法では不可能である。
したがって、これは誤りのない(実演)量子とランダム化されたクエリの複雑度の間の指数関数的分離の数少ない例の1つであり、量子力学は本質的に確率的であり、それゆえ問題に対する指数的スピードアップを伴う決定論的量子アルゴリズムは問題外である、という人々の考えを変えるかもしれない。 TThe welded tree problem is a black-box problem to find the exit of the welded tree with $\Theta(2^n)$ vertices starting from the given entrance, for which there are quantum algorithms with exponential speedups over the best classical algorithm. The original quantum algorithm is based on continuous time quantum walks (CTQW), and it has never been clear whether there are efficient algorithms based on discrete time quantum walks (DTQW) until recently the multidimensional quantum walk framework was proposed (Jeffery and Zur, STOC'2023). In this paper, we propose a rather concise algorithm based purely on the simplest coined quantum walks, which is simply to iterate the naturally defined coined quantum walk operator for a predetermined time $T \in O(n \log n)$ and then measure to obtain the exit name with $\Omega(\frac{1}{n})$ probability. The algorithm can be further promoted to be error-free and with $O(n^{1.5} \log n)$ query complexity. The numerical simulation strongly implies that the actual complexity of our algorithm is $O(n^{4/3})$. The significance of our results may be seen as follows. (i) Our algorithm is rather concise compared with the one in (Jeffery and Zur, STOC'2023), which not only changes the stereotype that the exiting DTQW frameworks before the multidimensional one can achieve at most a quadratic speedup over the best classical algorithm, but also re-displays the power of the simplest framework of quantum walks. (ii) Our algorithm can be made error-free theoretically, whereas all the existing methods cannot. Thus, it is one of the few examples of an exponential separation between the error-free (exact) quantum and the randomized query complexities, which perhaps also change people's idea that quantum mechanics is inherently probabilistic and thus deterministic quantum algorithms with exponential speedups for the problem are out of the question. | 翻訳日:2023-04-18 14:21:40 公開日:2023-04-17 |
# 熱時空、その1:自由相対論的ボーム力学 Thermal Spacetime, Part I: Free Relativistic Bohmian Mechanics ( http://arxiv.org/abs/2304.08392v1 ) ライセンス: Link先を確認 | Gerald Kaiser | (参考訳) クライン・ゴルドン方程式の正エネルギー解は、将来のチューブ上の正則関数のヒルベルト空間を形成する。
この領域は、関連する古典粒子の延長位相空間として解釈され、余剰次元は時間であり、関連する正準アンサンブルの逆平衡温度に関連する新しい変数である。
これは「隠れた変数」が単に位相空間における粒子の古典的な経路であるような相対論的ボヘミア力学と強い結びつきを与える。
相互作用は、パートIIの主題である「正則ゲージ理論」を通して含めることができる。 Positive-energy solutions of the Klein-Gordon equation form a Hilbert space of holomorphic functions on the future tube. This domain is interpreted as an extended phase space for the associated classical particle, the extra dimensions being the time and a new variable related to the inverse equilibrium temperature in an associated canonical ensemble. This gives a compelling connection with relativistic Bohmian mechanics, where the "hidden variables" are simply the classical paths of the particle in phase space. Interactions may be included through "holomorphic gauge theory," which will be the subject of Part II. | 翻訳日:2023-04-18 14:21:03 公開日:2023-04-17 |
# 非凸非凸min-max最適化のための一階超解法 Beyond first-order methods for non-convex non-concave min-max optimization ( http://arxiv.org/abs/2304.08389v1 ) ライセンス: Link先を確認 | Abhijeet Vyas and Brian Bullins | (参考訳) 本稿では,従来の一階法を超越した非凸最小値問題について検討する。
最近の作品 (adil et al., 2022, lin and jordan, 2022b) で確立された厳密な理解に触発されて,モノトーンやミントニー条件を超えて達成可能な改善を示す一連の高階法を開発した。
具体的には、min-max 設定における作用素ノルム最小化のための離散時間 $p^{th}$-order 法の使用について、diakonikolas 等の弱ミント変分不等式条件下で $o(1/\epsilon^\frac{2}{p})$ を達成するために $o(1//\epsilon^\frac{2}{p}) を成立させる新しい理解を提供する。
[2021].
さらに,離散時間設定に適合するレートと並行して連続時間解析を行い,実験結果から,一階法に対するアプローチの実用的メリットを浮き彫りにする。 We propose a study of structured non-convex non-concave min-max problems which goes beyond standard first-order approaches. Inspired by the tight understanding established in recent works [Adil et al., 2022, Lin and Jordan, 2022b], we develop a suite of higher-order methods which show the improvements attainable beyond the monotone and Minty condition settings. Specifically, we provide a new understanding of the use of discrete-time $p^{th}$-order methods for operator norm minimization in the min-max setting, establishing an $O(1/\epsilon^\frac{2}{p})$ rate to achieve $\epsilon$-approximate stationarity, under the weakened Minty variational inequality condition of Diakonikolas et al. [2021]. We further present a continuous-time analysis alongside rates which match those for the discrete-time setting, and our empirical results highlight the practical benefits of our approach over first-order methods. | 翻訳日:2023-04-18 14:20:54 公開日:2023-04-17 |
# ZrTe$_5$におけるコヒーレントフォノン励起キャリヤのアブ初期シミュレーション Ab-initio Simulations of Coherent Phonon-Induced Pumping of Carriers in ZrTe$_5$ ( http://arxiv.org/abs/2304.08449v1 ) ライセンス: Link先を確認 | Tao Jiang, Peter P. Orth, Liang Luo, Lin-Lin Wang, Feng Zhang, Cai-Zhuang Wang, Jin Zhao, Kai-Ming Ho, Jigang Wang, and Yong-Xin Yao | (参考訳) レーザー駆動コヒーレントフォノンは変調ひずみ場として作用し、量子物質の断熱基底状態トポロジーを変化させることができる。
位相絶縁体zrte$_5$の電子キャリアに対する強いテラヘルツ電界の効果をシミュレーションするために時間依存第一原理と有効モデル計算を用いる。
等価な$A_\text{1g}$ Ramanモード変調は, フォノンエネルギーが平衡バンドギャップよりも約1桁小さいにもかかわらず, キャリアをバンドギャップを越えて効果的にポンプできることを示す。
ブリュアンゾーン中心の狭い領域において,Bloch電子のLandau-Zener-St\"uckelbergトンネルによって生じるこの効果の顕微鏡的メカニズムを明らかにする。
量子力学シミュレーションの結果はZrTe$_5$の最近のポンププローブ実験と低温での良好な一致を示した。 Laser-driven coherent phonons can act as modulated strain fields and modify the adiabatic ground state topology of quantum materials. We use time-dependent first-principles and effective model calculations to simulate the effect of a strong terahertz electric field on electronic carriers in the topological insulator ZrTe$_5$. We show that a coherent $A_\text{1g}$ Raman mode modulation can effectively pump carriers across the band gap, even though the phonon energy is about an order of magnitude smaller than the equilibrium band gap. We reveal the microscopic mechanism of this effect which occurs via Landau-Zener-St\"uckelberg tunneling of Bloch electrons in a narrow region in the Brillouin zone center where the transient energy gap closes when the system switches from strong to weak topological insulator. The quantum dynamics simulation results are in excellent agreement with recent pump-probe experiments in ZrTe$_5$ at low temperature. | 翻訳日:2023-04-18 14:14:07 公開日:2023-04-17 |
# ImpressionGPT: ChatGPTによる放射線学レポート要約のための反復最適化フレームワーク ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT ( http://arxiv.org/abs/2304.08448v1 ) ライセンス: Link先を確認 | Chong Ma, Zihao Wu, Jiaqi Wang, Shaochen Xu, Yaonai Wei, Zhengliang Liu, Lei Guo, Xiaoyan Cai, Shu Zhang, Tuo Zhang, Dajiang Zhu, Dinggang Shen, Tianming Liu, Xiang Li | (参考訳) 放射線医学レポートの「インプレッション」セクションは、放射線科医と他の医師とのコミュニケーションの重要な基盤であり、一般的には「発見」セクションに基づいた放射線科医によって書かれる。
しかし、多くの印象書を書くことは、放射線科医にとって面倒で誤りやすい。
近年の研究では、事前訓練と微調整のための大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られているが、そのようなモデルは大量の医療用テキストデータを必要とし、一般化性能が劣ることが多い。
ChatGPTのような大規模言語モデル(LLM)は強力な一般化能力と性能を示してきたが、放射線学のような特定の領域における性能は未検討であり、潜在的に制限されている。
そこで本研究では,ドメイン固有の個別化データを用いて動的コンテキストを構築することで,llmの文脈内学習能力を活用するインプレッションgptを提案する。
この動的プロンプトアプローチにより、モデルが既存のデータから意味的に類似した例から文脈知識を学習することができる。
さらに,生成された印象結果の自動評価を行い,それに対応する命令プロンプトを構成する反復最適化アルゴリズムを設計し,さらに最適化する。
提案したImpressionGPTモデルは,MIMIC-CXRおよびOpenIデータセット上で,追加のトレーニングデータやLLMの微調整を必要とせずに,最先端のパフォーマンスを実現する。
本研究は,LLMをローカライズするためのパラダイムとして,汎用LLMと各種ドメインの言語処理ニーズとのギャップを埋める,様々なアプリケーションシナリオに適用可能な手法を提案する。 The 'Impression' section of a radiology report is a critical basis for communication between radiologists and other physicians, and it is typically written by radiologists based on the 'Findings' section. However, writing numerous impressions can be laborious and error-prone for radiologists. Although recent studies have achieved promising results in automatic impression generation using large-scale medical text data for pre-training and fine-tuning pre-trained language models, such models often require substantial amounts of medical text data and have poor generalization performance. While large language models (LLMs) like ChatGPT have shown strong generalization capabilities and performance, their performance in specific domains, such as radiology, remains under-investigated and potentially limited. To address this limitation, we propose ImpressionGPT, which leverages the in-context learning capability of LLMs by constructing dynamic contexts using domain-specific, individualized data. This dynamic prompt approach enables the model to learn contextual knowledge from semantically similar examples from existing data. Additionally, we design an iterative optimization algorithm that performs automatic evaluation on the generated impression results and composes the corresponding instruction prompts to further optimize the model. The proposed ImpressionGPT model achieves state-of-the-art performance on both MIMIC-CXR and OpenI datasets without requiring additional training data or fine-tuning the LLMs. This work presents a paradigm for localizing LLMs that can be applied in a wide range of similar application scenarios, bridging the gap between general-purpose LLMs and the specific language processing needs of various domains. | 翻訳日:2023-04-18 14:13:47 公開日:2023-04-17 |
# RadarFormer:軽量かつ高精度なリアルタイムレーダ物体検出モデル RadarFormer: Lightweight and Accurate Real-Time Radar Object Detection Model ( http://arxiv.org/abs/2304.08447v1 ) ライセンス: Link先を確認 | Yahia Dalbah, Jean Lahoud, Hisham Cholakkal | (参考訳) 自動運転車向けに開発された知覚システムの性能は、ここ数年で大幅に改善されている。
この改善は、自律運転における物体の検出と認識の作業を容易にするために、LiDARセンサーとポイントクラウドデータの利用の増加に関連している。
しかし、LiDARとカメラシステムは、ほこりや雨のような好ましくない状況で使用すると劣化する性能を示す。
一方レーダーは比較的長い波長で動作するため、これらの条件下ではより堅牢な測定が可能となる。
それにもかかわらず、レーダー中心のデータセットは、レーダー知覚のためのディープラーニング技術の開発にはあまり関心を示さない。
本研究では,レーダの周波数データが検出フレームワークへの唯一の入力であるレーダ物体検出問題について考察する。
さらに,ディープラーニングモデルにおけるレーダのみのデータ利用の課題について検討する。
本稿では,視覚深層学習における最先端技術を活用したトランスフォーマーモデルRadarFormerを提案する。
また,本モデルではチャネルチャープ時間マージモジュールを導入し,精度を損なうことなく,モデルのサイズと複雑さを10倍以上削減する。
CRUWレーダデータセットの総合実験により,提案手法の利点が示された。
radarformerは、推論中に2倍速くなり、モデルのパラメータの10分の1しか必要とせず、最先端のメソッドに対して好適に動作します。
この論文に関連するコードはhttps://github.com/YahiDar/RadarFormer.comで公開されている。 The performance of perception systems developed for autonomous driving vehicles has seen significant improvements over the last few years. This improvement was associated with the increasing use of LiDAR sensors and point cloud data to facilitate the task of object detection and recognition in autonomous driving. However, LiDAR and camera systems show deteriorating performances when used in unfavorable conditions like dusty and rainy weather. Radars on the other hand operate on relatively longer wavelengths which allows for much more robust measurements in these conditions. Despite that, radar-centric data sets do not get a lot of attention in the development of deep learning techniques for radar perception. In this work, we consider the radar object detection problem, in which the radar frequency data is the only input into the detection framework. We further investigate the challenges of using radar-only data in deep learning models. We propose a transformers-based model, named RadarFormer, that utilizes state-of-the-art developments in vision deep learning. Our model also introduces a channel-chirp-time merging module that reduces the size and complexity of our models by more than 10 times without compromising accuracy. Comprehensive experiments on the CRUW radar dataset demonstrate the advantages of the proposed method. Our RadarFormer performs favorably against the state-of-the-art methods while being 2x faster during inference and requiring only one-tenth of their model parameters. The code associated with this paper is available at https://github.com/YahiDar/RadarFormer. | 翻訳日:2023-04-18 14:13:18 公開日:2023-04-17 |
# SCANet: 均一な画像デハージングのための自己パッチセミキュラーアテンションネットワーク SCANet: Self-Paced Semi-Curricular Attention Network for Non-Homogeneous Image Dehazing ( http://arxiv.org/abs/2304.08444v1 ) ライセンス: Link先を確認 | Yu Guo, Yuan Gao, Ryan Wen Liu, Yuxu Lu, Jingxiang Qu, Shengfeng He, Wenqi Ren | (参考訳) 不均質なヘイズの存在は、シーンのぼやけ、色歪、低コントラスト、その他の不明瞭なテクスチャの詳細が劣化する可能性がある。
既存の均質脱ハージング法は、強靭な方法でヘイズの不均一分布を扱うのに苦労する。
非均質デハジングの重要な課題は、非一様分布の特徴を効果的に抽出し、ハイザイ領域の詳細を高品質で再構成することである。
本稿では,不均質な画像デハジングのための,haze-occluded領域の強化に焦点をあてた,新しい自己ペーシング型セミカーキュラーアテンションネットワークであるscanetを提案する。
本手法は,アテンションジェネレータネットワークとシーン再構築ネットワークから構成される。
画像の輝度差を利用して注意マップを制限し,学習初期のあいまいさを軽減すべく,自己ペースセミキュララー学習戦略を導入する。
大規模な定量的および定性的な実験により、SCANetは多くの最先端の手法よりも優れています。
コードはhttps://github.com/gy65896/SCANetで公開されている。 The presence of non-homogeneous haze can cause scene blurring, color distortion, low contrast, and other degradations that obscure texture details. Existing homogeneous dehazing methods struggle to handle the non-uniform distribution of haze in a robust manner. The crucial challenge of non-homogeneous dehazing is to effectively extract the non-uniform distribution features and reconstruct the details of hazy areas with high quality. In this paper, we propose a novel self-paced semi-curricular attention network, called SCANet, for non-homogeneous image dehazing that focuses on enhancing haze-occluded regions. Our approach consists of an attention generator network and a scene reconstruction network. We use the luminance differences of images to restrict the attention map and introduce a self-paced semi-curricular learning strategy to reduce learning ambiguity in the early stages of training. Extensive quantitative and qualitative experiments demonstrate that our SCANet outperforms many state-of-the-art methods. The code is publicly available at https://github.com/gy65896/SCANet. | 翻訳日:2023-04-18 14:12:57 公開日:2023-04-17 |
# データ効率の良い言語モデルのためのMiniPileチャレンジ The MiniPile Challenge for Data-Efficient Language Models ( http://arxiv.org/abs/2304.08442v1 ) ライセンス: Link先を確認 | Jean Kaddour | (参考訳) トレーニング前のテキストコーパスの多様性は、さまざまな下流タスクにまたがる一般化機能を備えた言語モデルを備えている。
しかしながら、このような多様なデータセットは学術予算には大きすぎることが多いため、トランスフォーマーアーキテクチャ、トレーニング手順、オプティマイザなどに関するほとんどの研究は、より小さく均質なデータセットで行われている。
そこで本研究では,100万以上の文書を含む多種多様なテキストコーパス上で言語モデルを事前学習するミニピルチャレンジを提案する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
MiniPileをキュレートするには、(1)Pileの全ドキュメントに対する埋め込みを推測し、(2)$k$-meansを使って埋め込みスペースをクラスタ化し、(3)低品質クラスタをフィルタリングする。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルの事前トレーニングに使用し、GLUEとSNIベンチマークで2.6$x/$745$xでトレーニングされた当初のチェックポイントと比較して、パフォーマンス低下はわずか1.9\%$/$2.5\%である。
MiniPileはhttps://huggingface.co/datasets/JeanKaddour/minipile.comから入手できる。 The ever-growing diversity of pre-training text corpora has equipped language models with generalization capabilities across various downstream tasks. However, such diverse datasets are often too large for academic budgets; hence, most research on Transformer architectures, training procedures, optimizers, etc. gets conducted on smaller, homogeneous datasets. To this end, we present The MiniPile Challenge, where one pre-trains a language model on a diverse text corpus containing at most 1M documents. MiniPile is a 6GB subset of the deduplicated 825GB The Pile corpus. To curate MiniPile, we perform a simple, three-step data filtering process: we (1) infer embeddings for all documents of the Pile, (2) cluster the embedding space using $k$-means, and (3) filter out low-quality clusters. To verify MiniPile's suitability for language model pre-training, we use it to pre-train a BERT and T5 model, yielding a performance drop of only $1.9\%$/$2.5\%$ on the GLUE and SNI benchmarks compared to the original pre-trained checkpoints trained on $2.6$x/$745$x the amount of data. MiniPile is available at https://huggingface.co/datasets/JeanKaddour/minipile. | 翻訳日:2023-04-18 14:12:38 公開日:2023-04-17 |
# Morph-SSL:OCTからのAMD進行予測のための縦型モーフィングによるセルフスーパービジョン Morph-SSL: Self-Supervision with Longitudinal Morphing to Predict AMD Progression from OCT ( http://arxiv.org/abs/2304.08439v1 ) ライセンス: Link先を確認 | Arunava Chakravarty, Taha Emre, Oliver Leingang, Sophie Riedl, Julia Mai, Hendrik P. N. Scholl, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, and Hrvoje Bogunovi\'c | (参考訳) 信頼性の高いバイオマーカーの欠如は、中年期から新生血管関連黄斑変性(iAMD, nAMD)への転換を予測している。
我々は,現在のOCTスキャンからiAMDからnAMDへの眼球変換のリスクを予測するために,Deep Learning(DL)モデルを開発した。
眼科医はAMD進行をモニターするために大量の経時的CTスキャンを作製するが、手動で管理DLにラベル付けできるサブセットはごくわずかである。
この問題に対処するため、長手データのための新しい自己教師付き学習法であるMorph-SSLを提案する。
OCTスキャンは、異なる訪問先から、前の訪問先から次の訪問先までのスキャンを変形させる。
デコーダはモーフィングの変換を予測し、線形補間により訪問間の中間走査を生成するスムーズな特徴多様体を確保する。
次に、Morph-SSLトレーニングされた特徴は、シグモダル関数で変換する時間の累積確率分布をモデル化するために教師付き方法で訓練された分類器に入力される。
Morph-SSLは、399の目(3570回の訪問)の無ラベルスキャンで訓練された。
分類器は343個の眼から2418個のスキャンで5倍のクロスバリデーションで評価した。
Morph-SSL の機能は、次の6ヶ月で nAMD への変換を予測するために 0.766 の AUC を達成した。
nAMD発症後のリスクの自動予測は、タイムリーな治療と個別化されたAMD管理を可能にする。 The lack of reliable biomarkers makes predicting the conversion from intermediate to neovascular age-related macular degeneration (iAMD, nAMD) a challenging task. We develop a Deep Learning (DL) model to predict the future risk of conversion of an eye from iAMD to nAMD from its current OCT scan. Although eye clinics generate vast amounts of longitudinal OCT scans to monitor AMD progression, only a small subset can be manually labeled for supervised DL. To address this issue, we propose Morph-SSL, a novel Self-supervised Learning (SSL) method for longitudinal data. It uses pairs of unlabelled OCT scans from different visits and involves morphing the scan from the previous visit to the next. The Decoder predicts the transformation for morphing and ensures a smooth feature manifold that can generate intermediate scans between visits through linear interpolation. Next, the Morph-SSL trained features are input to a Classifier which is trained in a supervised manner to model the cumulative probability distribution of the time to conversion with a sigmoidal function. Morph-SSL was trained on unlabelled scans of 399 eyes (3570 visits). The Classifier was evaluated with a five-fold cross-validation on 2418 scans from 343 eyes with clinical labels of the conversion date. The Morph-SSL features achieved an AUC of 0.766 in predicting the conversion to nAMD within the next 6 months, outperforming the same network when trained end-to-end from scratch or pre-trained with popular SSL methods. Automated prediction of the future risk of nAMD onset can enable timely treatment and individualized AMD management. | 翻訳日:2023-04-18 14:12:11 公開日:2023-04-17 |
# CAViaR: コンテキスト対応のビデオレコメンデーション CAViaR: Context Aware Video Recommendations ( http://arxiv.org/abs/2304.08435v1 ) ライセンス: Link先を確認 | Khushhall Chandra Mahajan, Aditya Palnitkar, Ameya Raul, Brad Schumitsch | (参考訳) 多くのレコメンデーションシステムは、アイテムを個別にスコア付けするポイントワイズモデルに依存している。
しかし、ビデオのスコアを生成するポイントワイズモデルは、クエリで推奨される他のビデオについて説明できない。
このため、多様性は、ユーザーの好みを捉えることができないヒューリスティックなルールの適用や、多様性とアイテムの関連性の観点からバランスのとれたトレードオフによって導入されなければならない。
本稿では,個々の項目に対するユーザのエンゲージメントに対する低多様性の影響をモデル化することにより,多様性と関連性の両方を考慮し,項目のスコアを調整できる新しい手法を提案する。
提案手法は,既存の大規模レコメンデーションシステムに簡単にプラグインできるように設計され,レコメンデーションスタックの最小限の変更を導入している。
本モデルでは,本モデルと比較して,正規化クロスエントロピー損失に基づくオフラインメトリクスの大幅な改善が見られた。
当社のアプローチでは、トップラインエンゲージメントの1.7%が大幅に増加し、A/Bテストで1.5%が増加し、Facebook Watchのライブトラフィックが増加し、プロダクトのデイリーアクティブユーザ数が数百万に増加したことも示しています。 Many recommendation systems rely on point-wise models, which score items individually. However, point-wise models generating scores for a video are unable to account for other videos being recommended in a query. Due to this, diversity has to be introduced through the application of heuristic-based rules, which are not able to capture user preferences, or make balanced trade-offs in terms of diversity and item relevance. In this paper, we propose a novel method which introduces diversity by modeling the impact of low diversity on user's engagement on individual items, thus being able to account for both diversity and relevance to adjust item scores. The proposed method is designed to be easily pluggable into existing large-scale recommender systems, while introducing minimal changes in the recommendations stack. Our models show significant improvements in offline metrics based on the normalized cross entropy loss compared to production point-wise models. Our approach also shows a substantial increase of 1.7% in topline engagements coupled with a 1.5% increase in daily active users in an A/B test with live traffic on Facebook Watch, which translates into an increase of millions in the number of daily active users for the product. | 翻訳日:2023-04-18 14:11:41 公開日:2023-04-17 |
# 仮想指揮者は独自の音楽オーケストラの解釈を作ることができるのか? Can a virtual conductor create its own interpretation of a music orchestra? ( http://arxiv.org/abs/2304.08434v1 ) ライセンス: Link先を確認 | Marc-Philipp Funk and Nassim Chloe Eghtebas | (参考訳) コンピュータがあなたのために仕事をするようになると、時間とともにますます一般的になっています。
しかし、人間が創造者であるエンタテインメントの分野では、テクノロジーに過大な影響を与えることを避けたい。
一方、インスピレーションは依然として重要であり、既知の音楽作品の感情的な解釈を生成できる仮想指揮者を開発した。
これは、特定の解釈と楽器に関連づけられた感情を決定するために、一定数の人々を調査して行われた。
機械学習の結果、この指揮者は彼の目標を達成することができた。
従来の仮想導体の研究とは異なり、この新しい導体は導体の役割を代替する道具であると考えられている。
結果として、研究時間を合理化し、新しいアイデアを刺激する技術的視点を提供するので、新しい解釈から始めるのがより簡単になります。
この技術を人間の創造性を補うものとして利用することで、より豊かでよりニュアンス的な音楽作品の解釈を創造することができる。 Having a computer do the work for you has become more and more common over time. But in the entertainment area, where a human is a creator, we want to avoid having too much influence on technology. On the other hand, inspiration is still important; we developed a virtual conductor that can generate an emotionally associated interpretation of known music work. This was done by surveying a set number of people to determine, which emotions were associated with a specific interpretation and instruments. As a result of machine learning this conductor was then able to achieve his goal. Unlike earlier studies of virtual conductors, which would replace the role of a human conductor, this new one is supposed to be an assisting tool for conductors. As a result, starting on a new interpretation will be easier because it streamlines research time and provides a technical perspective that can inspire new ideas. By using this technology as a supplement to human creativity, we can create richer, more nuanced interpretations of musical works. | 翻訳日:2023-04-18 14:11:20 公開日:2023-04-17 |
# prak:チェコ語のための自動音声アライメントツール Prak: An automatic phonetic alignment tool for Czech ( http://arxiv.org/abs/2304.08431v1 ) ライセンス: Link先を確認 | V\'aclav Han\v{z}l, Adl\'eta Han\v{z}lov\'a | (参考訳) 電話のアイデンティティと時間境界に音声をラベル付けすることは、音声研究の労働集約的な部分である。
この作業を簡略化するために、チェコ語のテキストから電話シーケンスを生成し、音声で時間調整する無料のオープンソースツールを作成しました。
アーキテクチャの複雑さが低いため、設計は音声学の学生に近づきやすい。
56kの重みを持つ音響モデルReLU NNは、小さなCommonVoiceデータに基づいてPyTorchを用いて訓練された。
アライメントと変種選択デコーダはpythonとマトリックスライブラリで実装されている。
チェコ語発音生成器は、可能であれば言語論理をキャプチャする単純なルールベースのブロックで構成され、転写アプローチの詳細の変更を可能にする。
これまでのツールと比較すると、データ準備の効率が向上し、Praat GUIやコマンドラインでMac、Linux、Windowsで使用でき、スロットル停止検出を含む正しい発音の選択肢をほとんど達成し、アルゴリズムによってチェコの同化ロジックのほとんどをキャプチャし、実践的かつ実用的である。 Labeling speech down to the identity and time boundaries of phones is a labor-intensive part of phonetic research. To simplify this work, we created a free open-source tool generating phone sequences from Czech text and time-aligning them with audio. Low architecture complexity makes the design approachable for students of phonetics. Acoustic model ReLU NN with 56k weights was trained using PyTorch on small CommonVoice data. Alignment and variant selection decoder is implemented in Python with matrix library. A Czech pronunciation generator is composed of simple rule-based blocks capturing the logic of the language where possible, allowing modification of transcription approach details. Compared to tools used until now, data preparation efficiency improved, the tool is usable on Mac, Linux and Windows in Praat GUI or command line, achieves mostly correct pronunciation variant choice including glottal stop detection, algorithmically captures most of Czech assimilation logic and is both didactic and practical. | 翻訳日:2023-04-18 14:11:04 公開日:2023-04-17 |
# TiDEによる長期予測:時系列Dense Encoder Long-term Forecasting with TiDE: Time-series Dense Encoder ( http://arxiv.org/abs/2304.08424v1 ) ライセンス: Link先を確認 | Abhimanyu Das, Weihao Kong, Andrew Leach, Rajat Sen and Rose Yu | (参考訳) 最近の研究で、単純な線形モデルは、長期の時系列予測においてトランスフォーマーベースのアプローチより優れていることが示されている。
そこで我々は,線形モデルの単純さと高速さを享受しつつ,共変量や非線形依存性を扱える時系列予測のためのマルチレイヤパーセプトロン(MLP)ベースのエンコーダ・デコーダモデルであるTiDEを提案する。
理論的には、このモデルの最も単純な線形類似物は、いくつかの仮定の下で線形力学系(lds)の最適誤差率に近いことを証明できる。
実験により,提案手法は,最も優れたTransformerベースモデルよりも5~10倍高速でありながら,一般的な時系列予測ベンチマークにおいて,先行手法に適合あるいは優れることを示す。 Recent work has shown that simple linear models can outperform several Transformer based approaches in long term time-series forecasting. Motivated by this, we propose a Multi-layer Perceptron (MLP) based encoder-decoder model, Time-series Dense Encoder (TiDE), for long-term time-series forecasting that enjoys the simplicity and speed of linear models while also being able to handle covariates and non-linear dependencies. Theoretically, we prove that the simplest linear analogue of our model can achieve near optimal error rate for linear dynamical systems (LDS) under some assumptions. Empirically, we show that our method can match or outperform prior approaches on popular long-term time-series forecasting benchmarks while being 5-10x faster than the best Transformer based model. | 翻訳日:2023-04-18 14:10:46 公開日:2023-04-17 |
# 視覚言語モデルにおけるロバスト・プロンプトに向けて Towards Robust Prompts on Vision-Language Models ( http://arxiv.org/abs/2304.08479v1 ) ライセンス: Link先を確認 | Jindong Gu, Ahmad Beirami, Xuezhi Wang, Alex Beutel, Philip Torr, Yao Qin | (参考訳) 文脈内およびプロンプトベース学習が可能な視覚言語モデル(VLM)の出現により、分散シフトに頑健に一般化し、プロンプトのサポートセット外の新しいクラスで使用できるプロンプト的アプローチをどのように設計できるだろうか?
本稿ではまず,ベースクラスのロバスト性(プロンプトのサポートセットに含まれるクラス)と新規クラスのロバスト性という,vlm上の分散シフトに対する2つのタイプのロバスト性を定義する。
次に,既存のインコンテキスト学習とプロンプト学習のロバスト性について検討し,基礎クラスのテスト画像ではプロンプト学習がロバストに機能するのに対し,新規クラスの画像では一般化しないことを示す。
本研究では,複数の画像特徴をプロンプトに統合することでロバストなプロンプト学習を提案する。
6つのベンチマークで定義されたロバスト性を調査し,提案手法の有効性を示すため,包括的な実験を行った。 With the advent of vision-language models (VLMs) that can perform in-context and prompt-based learning, how can we design prompting approaches that robustly generalize to distribution shift and can be used on novel classes outside the support set of the prompts? In this work, we first define two types of robustness to distribution shift on VLMs, namely, robustness on base classes (the classes included in the support set of prompts) and robustness on novel classes. Then, we study the robustness of existing in-context learning and prompt learning approaches, where we find that prompt learning performs robustly on test images from base classes, while it does not generalize well on images from novel classes. We propose robust prompt learning by integrating multiple-scale image features into the prompt, which improves both types of robustness. Comprehensive experiments are conducted to study the defined robustness on six benchmarks and show the effectiveness of our proposal. | 翻訳日:2023-04-18 14:05:26 公開日:2023-04-17 |
# テキスト・ビデオの高効率生成のための時間シフトによる潜時拡散 Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation ( http://arxiv.org/abs/2304.08477v1 ) ライセンス: Link先を確認 | Jie An, Songyang Zhang, Harry Yang, Sonal Gupta, Jia-Bin Huang, Jiebo Luo, Xi Yin | (参考訳) オートエンコーダとu-net拡散モデルを組み合わせた,事前学習されたテキスト対画像生成モデルに基づく,効率的なテキスト対ビデオ生成手法であるlatent-shiftを提案する。
潜時空間でビデオ拡散モデルを学ぶことはピクセル空間よりもはるかに効率的である。
後者は、最初に低解像度のビデオを生成し、次いでフレーム補間と超高解像度のモデルが続き、パイプライン全体は非常に複雑で計算コストがかかる。
U-Netを画像生成からビデオ生成に拡張するために、以前の作業では、1Dの時間的畳み込みや時間的注意層などの追加モジュールを提案する。
対照的に,映像生成と同様に空間的u-netを活用できるパラメータフリーな時間シフトモジュールを提案する。
特徴写像チャネルの2つの部分を時間次元に沿って前後にシフトすることでこれを実現できる。
これにより、現在のフレームのシフトした特徴は、前とその後のフレームから特徴を受け取り、追加パラメータなしで動きの学習を可能にする。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
さらに、Latent-Shiftは、T2V生成のために微調整されているにもかかわらず、画像を生成することができる。 We propose Latent-Shift -- an efficient text-to-video generation method based on a pretrained text-to-image generation model that consists of an autoencoder and a U-Net diffusion model. Learning a video diffusion model in the latent space is much more efficient than in the pixel space. The latter is often limited to first generating a low-resolution video followed by a sequence of frame interpolation and super-resolution models, which makes the entire pipeline very complex and computationally expensive. To extend a U-Net from image generation to video generation, prior work proposes to add additional modules like 1D temporal convolution and/or temporal attention layers. In contrast, we propose a parameter-free temporal shift module that can leverage the spatial U-Net as is for video generation. We achieve this by shifting two portions of the feature map channels forward and backward along the temporal dimension. The shifted features of the current frame thus receive the features from the previous and the subsequent frames, enabling motion learning without additional parameters. We show that Latent-Shift achieves comparable or better results while being significantly more efficient. Moreover, Latent-Shift can generate images despite being finetuned for T2V generation. | 翻訳日:2023-04-18 14:05:07 公開日:2023-04-17 |
# ゲートモンにおける電圧活性化パラメトリックエンタングリングゲート Voltage Activated Parametric Entangling Gates on Gatemons ( http://arxiv.org/abs/2304.08469v1 ) ライセンス: Link先を確認 | Yinqi Chen, Konstantin N. Nesterov, Hugh Churchill, Javad Shabani, Vladimir E. Manucharyan, Maxim G. Vavilov | (参考訳) ジョゼフソンエネルギーの交流電圧変調による超伝導-半導体ハイブリッド量子ビット上の絡み合いゲートの生成について述べる。
数値シミュレーションにより, パラメトリック共鳴を用いて実装した75ns長の2量子ゲート (cz, $i$swap, $\sqrt{i\mathrm{swap}}$) において, ユニタリ誤差が10^{-5}$以下であることが証明された。
我々は、条件付きZZ位相を解析し、CZゲートがさらなる位相補正ステップを必要とせず、SWAP型ゲートにおけるZZ位相誤差はパルスパラメータを選択することで補償可能であることを示す。
デコヒーレンスを考えると、99.9%の忠実度しきい値を達成するために、キュービット緩和時間は$70\mu\mathrm{s}$を超える必要があると推定する。 We describe the generation of entangling gates on superconductor-semiconductor hybrid qubits by ac voltage modulation of the Josephson energy. Our numerical simulations demonstrate that the unitary error can be below $10^{-5}$ in a variety of 75-ns-long two-qubit gates (CZ, $i$SWAP, and $\sqrt{i\mathrm{SWAP}}$) implemented using parametric resonance. We analyze the conditional ZZ phase and demonstrate that the CZ gate needs no further phase correction steps, while the ZZ phase error in SWAP-type gates can be compensated by choosing pulse parameters. With decoherence considered, we estimate that qubit relaxation time needs to exceed $70\mu\mathrm{s}$ to achieve the 99.9% fidelity threshold. | 翻訳日:2023-04-18 14:04:45 公開日:2023-04-17 |
# gistトークンでプロンプトを圧縮する学習 Learning to Compress Prompts with Gist Tokens ( http://arxiv.org/abs/2304.08467v1 ) ライセンス: Link先を確認 | Jesse Mu, Xiang Lisa Li, Noah Goodman | (参考訳) 現在、プロンプティングは言語モデル(LM)のマルチタスク機能を利用する主要な方法であるが、入力コンテキストウィンドウ内の貴重な空間をプロンプティングし、同じプロンプトを再エンコードするのは計算的に非効率的である。
微粒化および蒸留法は、LMをプロンプトせずに特殊化することができるが、各タスクのモデルを再訓練する必要がある。
このトレードオフを完全に回避するために,lm を訓練してプロンプトをより小さな "gist" トークンに圧縮し,計算効率を高めるために再利用する gisting を提案する。
ギストモデルは、即時圧縮を促進する制限されたアテンションマスクを介して命令の微調整の一部として容易に訓練することができる。
decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの26倍の圧縮が可能で、最大40%のFLOPs削減、4.2%のウォールタイムスピードアップ、ストレージの節約、出力品質の最小化を実現している。 Prompting is now the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and re-encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of "gist" tokens which can be reused for compute efficiency. Gist models can be easily trained as part of instruction finetuning via a restricted attention mask that encourages prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, storage savings, and minimal loss in output quality. | 翻訳日:2023-04-18 14:04:28 公開日:2023-04-17 |
# 拡散モデルからの合成データによる画像ネット分類の改善 Synthetic Data from Diffusion Models Improves ImageNet Classification ( http://arxiv.org/abs/2304.08466v1 ) ライセンス: Link先を確認 | Shekoofeh Azizi, Simon Kornblith, Chitwan Saharia, Mohammad Norouzi, David J. Fleet | (参考訳) 深層生成モデルはますます強力になり、テキストプロンプトが与えられた多種多様な高忠実な写真リアルなサンプルを生成している。
彼らは、自然画像のモデルを生成的データ拡張に利用し、差別的な課題を改善するのに役立ったか?
本研究では,soma fid (1.76 at 256x256 resolution) とインセプションスコア (239 at 256x256) を持つクラス条件モデルを作成するために,大規模テキストから画像への拡散モデルを微調整できることを示す。
このモデルはまた、分類精度スコアの新しいSOTA(256x256生成サンプルの64.96、1024x1024サンプルの69.24)も得られる。
ImageNetトレーニングセットを結果モデルのサンプルで拡張すると、強力なResNetとVision Transformerベースラインよりも、ImageNetの分類精度が大幅に向上する。 Deep generative models are becoming increasingly powerful, now generating diverse high fidelity photo-realistic samples given text prompts. Have they reached the point where models of natural images can be used for generative data augmentation, helping to improve challenging discriminative tasks? We show that large-scale text-to image diffusion models can be fine-tuned to produce class conditional models with SOTA FID (1.76 at 256x256 resolution) and Inception Score (239 at 256x256). The model also yields a new SOTA in Classification Accuracy Scores (64.96 for 256x256 generative samples, improving to 69.24 for 1024x1024 samples). Augmenting the ImageNet training set with samples from the resulting models yields significant improvements in ImageNet classification accuracy over strong ResNet and Vision Transformer baselines. | 翻訳日:2023-04-18 14:04:04 公開日:2023-04-17 |
# masactrl: 一貫した画像合成と編集のためのチューニングフリーな相互アテンション制御 MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing ( http://arxiv.org/abs/2304.08465v1 ) ライセンス: Link先を確認 | Mingdeng Cao, Xintao Wang, Zhongang Qi, Ying Shan, Xiaohu Qie, Yinqiang Zheng | (参考訳) 大規模なテキスト対画像生成やテキストコンディション画像編集の成功にもかかわらず、既存の手法は一貫性のある生成と編集結果を生成するのに苦労している。
例えば、ジェネレーションアプローチは、通常同じオブジェクト/キャラクタの複数のイメージを合成できないが、ビューやポーズが異なる。
一方、既存の編集方法は、全体的なテクスチャとアイデンティティを維持しながら、効果的な複雑な非剛性編集を達成できないか、あるいは画像特有の外観を捉えるのに時間を要する。
本稿では,一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要なMathCtrlを開発する。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
さらに,前景と背景の問合せの混乱を緩和するため,クロスアテンションマップから容易にマスクを抽出できるマスクガイドによる相互アテンション戦略を提案する。
広範な実験により、masctrlは一貫性のある画像生成と複雑な非剛体的な実画像編集の両方において印象的な結果をもたらすことが示されている。 Despite the success in large-scale text-to-image generation and text-conditioned image editing, existing methods still struggle to produce consistent generation and editing results. For example, generation approaches usually fail to synthesize multiple images of the same objects/characters but with different views or poses. Meanwhile, existing editing methods either fail to achieve effective complex non-rigid editing while maintaining the overall textures and identity, or require time-consuming fine-tuning to capture the image-specific appearance. In this paper, we develop MasaCtrl, a tuning-free method to achieve consistent image generation and complex non-rigid image editing simultaneously. Specifically, MasaCtrl converts existing self-attention in diffusion models into mutual self-attention, so that it can query correlated local contents and textures from source images for consistency. To further alleviate the query confusion between foreground and background, we propose a mask-guided mutual self-attention strategy, where the mask can be easily extracted from the cross-attention maps. Extensive experiments show that the proposed MasaCtrl can produce impressive results in both consistent image generation and complex non-rigid real image editing. | 翻訳日:2023-04-18 14:03:46 公開日:2023-04-17 |
# ワイドベースラインステレオペアから新しいビューをレンダリングする学習 Learning to Render Novel Views from Wide-Baseline Stereo Pairs ( http://arxiv.org/abs/2304.08463v1 ) ライセンス: Link先を確認 | Yilun Du, Cameron Smith, Ayush Tewari, Vincent Sitzmann | (参考訳) 単一広線ステレオ画像対のみに与えられる新しいビュー合成法を提案する。
この困難な状況下では、3Dシーンポイントは1回だけ定期的に観察され、シーン形状と外観を事前に再現する必要がある。
我々は,不正確な3次元形状の復元と,大規模トレーニングへのスケーリングを妨げる微分可能レンダリングのコストの高騰により,スパース観測からの新規なビュー合成は失敗に終わることを見出した。
本稿では,マルチビュートランスフォーマーエンコーダを定式化し,効率的な画像空間エピポーララインサンプリング方式を提案することで,これらの欠点を解決するための一歩を踏み出した。
本研究は,室内および屋外シーンの大規模実世界データセット上での手法のトレーニングを可能にする。
本手法はレンダリング時間を短縮しつつ,より強力なマルチビュー幾何を学習できることを実証する。
2つの実世界のデータセットにまたがるホールドアウトテストシーンの広範な比較を行い,スパース画像からの新規ビュー合成の先行研究を著しく上回り,マルチビュー一貫性のある新規ビュー合成を実現する。 We introduce a method for novel view synthesis given only a single wide-baseline stereo image pair. In this challenging regime, 3D scene points are regularly observed only once, requiring prior-based reconstruction of scene geometry and appearance. We find that existing approaches to novel view synthesis from sparse observations fail due to recovering incorrect 3D geometry and due to the high cost of differentiable rendering that precludes their scaling to large-scale training. We take a step towards resolving these shortcomings by formulating a multi-view transformer encoder, proposing an efficient, image-space epipolar line sampling scheme to assemble image features for a target ray, and a lightweight cross-attention-based renderer. Our contributions enable training of our method on a large-scale real-world dataset of indoor and outdoor scenes. We demonstrate that our method learns powerful multi-view geometry priors while reducing the rendering time. We conduct extensive comparisons on held-out test scenes across two real-world datasets, significantly outperforming prior work on novel view synthesis from sparse image observations and achieving multi-view-consistent novel view synthesis. | 翻訳日:2023-04-18 14:03:23 公開日:2023-04-17 |
# LongForm:コーパス抽出による長文生成のための命令チューニング最適化 LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction ( http://arxiv.org/abs/2304.08460v1 ) ライセンス: Link先を確認 | Abdullatif K\"oksal, Timo Schick, Anna Korhonen, Hinrich Sch\"utze | (参考訳) インストラクションチューニングにより、言語モデルはより効果的に一般化し、ユーザの意図に従うことができる。
しかし、命令データを取得することは費用がかかり難い。
以前の作業では、高価なヒューマンアノテーション、アライメント問題のあるクラウドソースデータセット、llmによる騒がしい例生成などの手法が採用されている。
本稿では、英語コーパスの例を拡張命令で活用して作成するLongFormデータセットを紹介する。
我々は,C4 や Wikipedia などの既存のコーパスから多種多様な人文文書を選択し,所与の文書に対して LLM を用いて命令を生成する。
このアプローチは、より安価でクリーンな命令チューニングデータセットを提供し、長いテキスト生成に適している。
我々は、データセット上にT5、OPT、LLaMAモデルを微調整し、小さなLongFormモデルでさえテキスト生成に優れた一般化能力を持っていることを示す。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といった様々なタスクを指導することなく、10倍の言語モデルより優れています。
さらに、LongFormモデルは、FLAN-T5やAlpacaのような事前の命令調整モデルよりも大きなマージンで優れている。
最後に,本モデルは多言語命令を効果的に追従し,回答することができる。
データとモデルを公開しています。 https://github.com/akoksal/longform.com/。 Instruction tuning enables language models to generalize more effectively and better follow user intent. However, obtaining instruction data can be costly and challenging. Prior works employ methods such as expensive human annotation, crowd-sourced datasets with alignment issues, or generating noisy examples via LLMs. We introduce the LongForm dataset, which is created by leveraging English corpus examples with augmented instructions. We select a diverse set of human-written documents from existing corpora such as C4 and Wikipedia and generate instructions for the given documents via LLMs. This approach provides a cheaper and cleaner instruction-tuning dataset and one suitable for long text generation. We finetune T5, OPT, and LLaMA models on our dataset and show that even smaller LongForm models have good generalization capabilities for text generation. Our models outperform 10x larger language models without instruction tuning on various tasks such as story/recipe generation and long-form question answering. Moreover, LongForm models outperform prior instruction-tuned models such as FLAN-T5 and Alpaca by a large margin. Finally, our models can effectively follow and answer multilingual instructions; we demonstrate this for news generation. We publicly release our data and models: https://github.com/akoksal/LongForm. | 翻訳日:2023-04-18 14:03:02 公開日:2023-04-17 |
# モジュラリニアライズメントによる自己回帰的nlpタスクの改善 Improving Autoregressive NLP Tasks via Modular Linearized Attention ( http://arxiv.org/abs/2304.08453v1 ) ライセンス: Link先を確認 | Victor Agostinelli, Lizhong Chen | (参考訳) 様々な自然言語処理(NLP)タスクは、エッジや他のリソース制約のある環境における究極の応用に基づいて、効率的で小さなモデルを必要とする。
先行研究はこれらのモデルのサイズを縮小したが、特に自己回帰的なタスクでは、かなりのパフォーマンスへの影響を伴わない計算効率の向上は困難である。
本稿では,cosFormer \cite{zhen2022cosformer} を含む複数の効率的な注意機構を組み合わせることで,予測品質を最大化するとともに,顕著な高速化を実現する。
本手法は,音声からテキストへのニューラルマシン翻訳(S2T NMT),音声からテキストへの同時翻訳(SimulST),自動回帰テキスト・トゥ・スペクトログラムなどの自己回帰NLPタスクにおいて,TTSの効率向上と,トレーニングおよび推論中のNMTとSimulSTの競合性能を示す。 Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency without considerable performance impacts remains difficult, especially for autoregressive tasks. This paper proposes \textit{modular linearized attention (MLA)}, which combines multiple efficient attention mechanisms, including cosFormer \cite{zhen2022cosformer}, to maximize inference quality while achieving notable speedups. We validate this approach on several autoregressive NLP tasks, including speech-to-text neural machine translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and autoregressive text-to-spectrogram, noting efficiency gains on TTS and competitive performance for NMT and SimulST during training and inference. | 翻訳日:2023-04-18 14:02:39 公開日:2023-04-17 |
# トークンドロップアウトとコンテキストリファインメントを用いた効率的なビデオアクション検出 Efficient Video Action Detection with Token Dropout and Context Refinement ( http://arxiv.org/abs/2304.08451v1 ) ライセンス: Link先を確認 | Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang | (参考訳) 大規模ビデオトークンを用いたストリーミングビデオクリップは、視覚トランスフォーマー(vits)の効率的な認識、特に正確なアクタ識別のために十分な時空間表現を必要とするビデオアクション検出を阻害する。
本研究では,バニラ ViT に基づく効率的な映像行動検出(EVAD)のためのエンドツーエンドフレームワークを提案する。
私たちのEVADは、ビデオアクション検出のための2つの特別な設計で構成されています。
まず,鍵フレーム中心の観点から時空間トークンのドロップアウトを提案する。
ビデオクリップでは、キーフレームからすべてのトークンを保持し、他のフレームからのアクター動作に関連するトークンを保持し、残りのトークンをこのクリップにドロップアウトします。
第2に,アクタの識別性を改善するために,残りのトークンを活用することで,シーンコンテキストを洗練する。
我々の行動検出器の関心領域(roi)は時間領域に拡張される。
キャプチャされた時空間アクター識別表現は、アテンション機構を備えたデコーダのシーンコンテキストを介して洗練される。
これらの2つの設計は、EVADを精度を維持しながら効率よくし、3つのベンチマークデータセット(AVA、UCF101-24、JHMDB)で検証します。
バニラ ViT のバックボーンと比較して,EVAD は全体の GFLOP を 43% 削減し,性能劣化のないリアルタイム推論速度を40% 改善した。
さらに,同様の計算コストでも,高分解能入力による1.0 mapの性能向上が期待できる。
コードはhttps://github.com/MCG-NJU/EVADで入手できる。 Streaming video clips with large-scale video tokens impede vision transformers (ViTs) for efficient recognition, especially in video action detection where sufficient spatiotemporal representations are required for precise actor identification. In this work, we propose an end-to-end framework for efficient video action detection (EVAD) based on vanilla ViTs. Our EVAD consists of two specialized designs for video action detection. First, we propose a spatiotemporal token dropout from a keyframe-centric perspective. In a video clip, we maintain all tokens from its keyframe, preserve tokens relevant to actor motions from other frames, and drop out the remaining tokens in this clip. Second, we refine scene context by leveraging remaining tokens for better recognizing actor identities. The region of interest (RoI) in our action detector is expanded into temporal domain. The captured spatiotemporal actor identity representations are refined via scene context in a decoder with the attention mechanism. These two designs make our EVAD efficient while maintaining accuracy, which is validated on three benchmark datasets (i.e., AVA, UCF101-24, JHMDB). Compared to the vanilla ViT backbone, our EVAD reduces the overall GFLOPs by 43% and improves real-time inference speed by 40% with no performance degradation. Moreover, even at similar computational costs, our EVAD can improve the performance by 1.0 mAP with higher resolution inputs. Code is available at https://github.com/MCG-NJU/EVAD. | 翻訳日:2023-04-18 14:02:07 公開日:2023-04-17 |
# ストラップ:ポイントを監督する構造化オブジェクトアフォーアンスセグメンテーション STRAP: Structured Object Affordance Segmentation with Point Supervision ( http://arxiv.org/abs/2304.08492v1 ) ライセンス: Link先を確認 | Leiyao Cui, Xiaoxue Chen, Hao Zhao, Guyue Zhou, Yixin Zhu | (参考訳) アノテーションの大幅な節約により、多くの2dおよび3dシーン理解問題に対してポイント監督が有効であることが証明されている。
この成功は主に構造化された出力空間によるもので、空間親和性が高いサンプルは同じラベルを共有する傾向がある。
この精神を共有することで、位置監督による余剰セグメンテーションを研究し、探索されていない二重親和性と空間親和性とラベル親和性を継承する。
ラベル親和性により、割当セグメンテーションをマルチラベル予測問題として言及する: プレートは保持可能かつ保持可能である。
空間的親和性によって、類似の視覚特徴を持つ近接画素が同じ点アノテーションを共有するべきであるという普遍的な先行項を参照する。
ラベル親和性に対処するため,新しいドメイン(ラベル共起)のラベルを効果的にデジタイズすることで,ラベル関係を高める高密度な予測ネットワークを考案した。
空間親和性に対処するために,グローバルパッチインタラクションと正規化損失にTransformerのバックボーンを利用する。
実験では,本手法をCAD120データセット上でベンチマークし,従来の手法に比べて大きな性能向上を示した。 With significant annotation savings, point supervision has been proven effective for numerous 2D and 3D scene understanding problems. This success is primarily attributed to the structured output space; i.e., samples with high spatial affinity tend to share the same labels. Sharing this spirit, we study affordance segmentation with point supervision, wherein the setting inherits an unexplored dual affinity-spatial affinity and label affinity. By label affinity, we refer to affordance segmentation as a multi-label prediction problem: A plate can be both holdable and containable. By spatial affinity, we refer to a universal prior that nearby pixels with similar visual features should share the same point annotation. To tackle label affinity, we devise a dense prediction network that enhances label relations by effectively densifying labels in a new domain (i.e., label co-occurrence). To address spatial affinity, we exploit a Transformer backbone for global patch interaction and a regularization loss. In experiments, we benchmark our method on the challenging CAD120 dataset, showing significant performance gains over prior methods. | 翻訳日:2023-04-18 13:55:29 公開日:2023-04-17 |
# 形状認識ゼロショットセマンティックセマンティックセグメンテーション Delving into Shape-aware Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2304.08491v1 ) ライセンス: Link先を確認 | Xinyu Liu, Beiwen Tian, Zhen Wang, Rui Wang, Kehua Sheng, Bo Zhang, Hao Zhao, Guyue Zhou | (参考訳) 大規模視覚言語事前学習の印象的な進歩のおかげで、最近の認識モデルでは、任意のオブジェクトをゼロショットとオープンセットで、驚くほど高い精度で分類することができる。
しかし、この密集した予測タスクには正確な意味理解だけでなく、ファインシェイプ・デライン化が必要であり、既存のビジョン言語モデルは画像レベルの言語記述で訓練されているため、この成功をセマンティックセグメンテーションに翻訳するのは簡単ではない。
このギャップを埋めるために,本研究では, ゼロショットセマンティックセマンティックセグメンテーションを追求する。
画像分割文学における古典的なスペクトル法に触発されて,自己教師付き画素単位の特徴を持つラプラシアン行列の固有ベクトルを活用し,形状認識を促進する。
このシンプルで効果的な手法は、目に見えるクラスのマスクを全く利用しないが、トレーニング中に地面の真実と予測エッジを整列する最先端の形状認識定式化よりも優れていることを示す。
さまざまなバックボーンを使用して、さまざまなデータセットで達成されたパフォーマンス向上についても検討し、いくつかの興味深い、決定的な見解を示しました。
最後に,本手法はパスカルとココの両方においてゼロショットセマンティクスセグメンテーションのための新しい最先端性能をかなりマージンで設定する。
コードとモデルはhttps://github.com/Liuxinyv/SAZSでアクセスできる。 Thanks to the impressive progress of large-scale vision-language pretraining, recent recognition models can classify arbitrary objects in a zero-shot and open-set manner, with a surprisingly high accuracy. However, translating this success to semantic segmentation is not trivial, because this dense prediction task requires not only accurate semantic understanding but also fine shape delineation and existing vision-language models are trained with image-level language descriptions. To bridge this gap, we pursue \textbf{shape-aware} zero-shot semantic segmentation in this study. Inspired by classical spectral methods in the image segmentation literature, we propose to leverage the eigen vectors of Laplacian matrices constructed with self-supervised pixel-wise features to promote shape-awareness. Despite that this simple and effective technique does not make use of the masks of seen classes at all, we demonstrate that it out-performs a state-of-the-art shape-aware formulation that aligns ground truth and predicted edges during training. We also delve into the performance gains achieved on different datasets using different backbones and draw several interesting and conclusive observations: the benefits of promoting shape-awareness highly relates to mask compactness and language embedding locality. Finally, our method sets new state-of-the-art performance for zero-shot semantic segmentation on both Pascal and COCO, with significant margins. Code and models will be accessed at https://github.com/Liuxinyv/SAZS. | 翻訳日:2023-04-18 13:55:06 公開日:2023-04-17 |
# フォリーアナロジによる映像からの音声の条件付き生成 Conditional Generation of Audio from Video via Foley Analogies ( http://arxiv.org/abs/2304.08490v1 ) ライセンス: Link先を確認 | Yuexi Du, Ziyang Chen, Justin Salamon, Bryan Russell and Andrew Owens | (参考訳) デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されているため、シーンの真の音とは全く異なるかもしれない。
映像のサウンドトラック作成の難しさに触発されて,その真のサウンドとは違っているものの,画面上で発生する動作と一致しているのに対して,条件付きフォリーの問題を提案する。
この問題に対処するための貢献は以下の通りである。
まず,同じ音源映像内の別の時間からサンプリングされた条件付き音声・映像クリップを用いて,入力映像の音響予測をモデルで訓練するプリテキストタスクを提案する。
第2に、ユーザが提供したビデオの“サウンド”を指定した例から、サイレントな入力ビデオのためのサウンドトラックを生成するモデルを提案する。
人体実験と自動評価の結果から,提案モデルが映像から音声を生成するのに成功し,提供されたサンプルの内容に応じて出力が変化することを示す。
プロジェクトサイト: https://xypb.github.io/condfoleygen/ The sound effects that designers add to videos are designed to convey a particular artistic effect and, thus, may be quite different from a scene's true sound. Inspired by the challenges of creating a soundtrack for a video that differs from its true sound, but that nonetheless matches the actions occurring on screen, we propose the problem of conditional Foley. We present the following contributions to address this problem. First, we propose a pretext task for training our model to predict sound for an input video clip using a conditional audio-visual clip sampled from another time within the same source video. Second, we propose a model for generating a soundtrack for a silent input video, given a user-supplied example that specifies what the video should "sound like". We show through human studies and automated evaluation metrics that our model successfully generates sound from video, while varying its output according to the content of a supplied example. Project site: https://xypb.github.io/CondFoleyGen/ | 翻訳日:2023-04-18 13:54:40 公開日:2023-04-17 |
# ロボットのVersatile Representationとしてのヒューマンビデオの進歩 Affordances from Human Videos as a Versatile Representation for Robotics ( http://arxiv.org/abs/2304.08488v1 ) ライセンス: Link先を確認 | Shikhar Bahl, Russell Mendonca, Lili Chen, Unnat Jain, Deepak Pathak | (参考訳) 人間を観察することで理解し、対話を学べるロボットを作ることは、いくつかの視覚問題を引き起こした。
しかし、いくつかの静的データセットで成功した結果にもかかわらず、現在のモデルがロボットにどのように直接適用できるかは不明だ。
本稿では,人間のインタラクションの映像を環境中心の方法で活用することで,このギャップを埋めることを目的とする。
人間の行動のインターネットビデオを利用することで、人間の行動の場所と場所を推定する視覚的アベイランスモデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
我々は,オフライン模倣学習,探索,目標条件学習,および強化学習のための行動パラメータ化を含む4つのロボット学習パラダイムと,アフォーマンスモデルをシームレスに統合する方法を示す。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
結果、視覚化、ビデオ、https://robo-affordances.github.io/ Building a robot that can understand and learn to interact by watching humans has inspired several vision problems. However, despite some successful results on static datasets, it remains unclear how current models can be used on a robot directly. In this paper, we aim to bridge this gap by leveraging videos of human interactions in an environment centric manner. Utilizing internet videos of human behavior, we train a visual affordance model that estimates where and how in the scene a human is likely to interact. The structure of these behavioral affordances directly enables the robot to perform many complex tasks. We show how to seamlessly integrate our affordance model with four robot learning paradigms including offline imitation learning, exploration, goal-conditioned learning, and action parameterization for reinforcement learning. We show the efficacy of our approach, which we call VRB, across 4 real world environments, over 10 different tasks, and 2 robotic platforms operating in the wild. Results, visualizations and videos at https://robo-affordances.github.io/ | 翻訳日:2023-04-18 13:54:24 公開日:2023-04-17 |
# オンライン政策適応のためのハイパーデシジョン変圧器 Hyper-Decision Transformer for Efficient Online Policy Adaptation ( http://arxiv.org/abs/2304.08487v1 ) ライセンス: Link先を確認 | Mengdi Xu, Yuchen Lu, Yikang Shen, Shun Zhang, Ding Zhao, Chuang Gan | (参考訳) 決定変換器(DT)はオフラインの強化学習環境において強い性能を示したが、目立たない新しいタスクに迅速に適応することは依然として困難である。
この課題に対処するために,データとパラメータ効率の両面で,少数のデモから新しいタスクを一般化するHyper-Decision Transformer (HDT) という新しいフレームワークを提案する。
このような目的を達成するために,パラメータをハイパーネットワークで初期化する適応モジュールによるベースDTの拡張を提案する。
目に見えないタスクに遭遇すると、ハイパーネットワークはいくつかのデモを入力として受け取り、適応モジュールを初期化する。
この初期化により、HDTは適応モジュールを微調整するだけで、新しいタスクに効率的に適応できる。
オブジェクト操作タスクにおけるHDTの一般化機能を検証する。
1つの専門家によるデモンストレーションと、DTパラメータの0.5%のみ微調整を行うことで、HDTはDTモデル全体を微調整するよりも、目に見えないタスクに迅速に適応できることがわかった。
最後に、専門家のアクションが利用できない、より困難な状況について検討し、HDTがタスク成功率の点で最先端のベースラインをはるかに上回ることを示す。 Decision Transformers (DT) have demonstrated strong performances in offline reinforcement learning settings, but quickly adapting to unseen novel tasks remains challenging. To address this challenge, we propose a new framework, called Hyper-Decision Transformer (HDT), that can generalize to novel tasks from a handful of demonstrations in a data- and parameter-efficient manner. To achieve such a goal, we propose to augment the base DT with an adaptation module, whose parameters are initialized by a hyper-network. When encountering unseen tasks, the hyper-network takes a handful of demonstrations as inputs and initializes the adaptation module accordingly. This initialization enables HDT to efficiently adapt to novel tasks by only fine-tuning the adaptation module. We validate HDT's generalization capability on object manipulation tasks. We find that with a single expert demonstration and fine-tuning only 0.5% of DT parameters, HDT adapts faster to unseen tasks than fine-tuning the whole DT model. Finally, we explore a more challenging setting where expert actions are not available, and we show that HDT outperforms state-of-the-art baselines in terms of task success rates by a large margin. | 翻訳日:2023-04-18 13:54:05 公開日:2023-04-17 |
# BenchMD:医療画像とセンサのモダリティ非依存学習ベンチマーク BenchMD: A Benchmark for Modality-Agnostic Learning on Medical Images and Sensors ( http://arxiv.org/abs/2304.08486v1 ) ライセンス: Link先を確認 | Kathryn Wantlin, Chenwei Wu, Shih-Cheng Huang, Oishi Banerjee, Farah Dadabhoy, Veeral Vipin Mehta, Ryan Wonhee Han, Fang Cao, Raja R. Narayan, Errol Colak, Adewole Adamson, Laura Heacock, Geoffrey H. Tison, Alex Tamkin, Pranav Rajpurkar | (参考訳) 医療データは、aiアルゴリズムにとって厄介な課題である:それは多くの異なるモダリティに存在し、頻繁な分散シフトを経験し、サンプルやラベルの不足に苦しむ。
トランスフォーマーや自己教師付き学習を含む最近の進歩は、これらの多様な条件に柔軟に適用可能な、より普遍的なアプローチを約束している。
この方向の進捗を計測し、推進するために、アーキテクチャやトレーニング技術(例えば、自己教師付き学習、ImageNet事前学習)を含むモダリティ非依存の手法が、様々な臨床関連医療タスクでどのように機能するかをテストするベンチマークであるBenchMDを提案する。
BenchMDは、1Dセンサーデータ、2Dイメージ、3Dボリュームスキャンを含む7つの医療モードのための19の公開データセットを組み合わせている。
このベンチマークは、プリトレーニングの使用をインセンティブとする少数の設定を含む、さまざまなデータセットサイズにわたるメソッドを評価することによって、実世界のデータ制約を反映しています。
最後に,医療用aiモデルの性能を頻繁に低下させる自然に発生する分布変化を表現し,各病院で収集した分散データの性能をトレーニングデータより評価する。
その結果, モダリティに依存しない手法が全てのモダリティに対して高い性能を達成できないことが示され, ベンチマークに十分な改善の余地が残されている。
コードはhttps://github.com/rajpurkarlab/benchmdでリリースされる。 Medical data poses a daunting challenge for AI algorithms: it exists in many different modalities, experiences frequent distribution shifts, and suffers from a scarcity of examples and labels. Recent advances, including transformers and self-supervised learning, promise a more universal approach that can be applied flexibly across these diverse conditions. To measure and drive progress in this direction, we present BenchMD: a benchmark that tests how modality-agnostic methods, including architectures and training techniques (e.g. self-supervised learning, ImageNet pretraining), perform on a diverse array of clinically-relevant medical tasks. BenchMD combines 19 publicly available datasets for 7 medical modalities, including 1D sensor data, 2D images, and 3D volumetric scans. Our benchmark reflects real-world data constraints by evaluating methods across a range of dataset sizes, including challenging few-shot settings that incentivize the use of pretraining. Finally, we evaluate performance on out-of-distribution data collected at different hospitals than the training data, representing naturally-occurring distribution shifts that frequently degrade the performance of medical AI models. Our baseline results demonstrate that no modality-agnostic technique achieves strong performance across all modalities, leaving ample room for improvement on the benchmark. Code is released at https://github.com/rajpurkarlab/BenchMD . | 翻訳日:2023-04-18 13:53:45 公開日:2023-04-17 |
# 視覚インストラクションチューニング Visual Instruction Tuning ( http://arxiv.org/abs/2304.08485v1 ) ライセンス: Link先を確認 | Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee | (参考訳) 機械による命令追従データを用いた大規模言語モデル(LLM)のチューニングは、新しいタスクにおけるゼロショット機能を改善したが、マルチモーダル分野においては、そのアイデアは研究されていない。
本稿では,言語のみの GPT-4 を用いたマルチモーダル言語画像追跡データ生成の試みについて述べる。
By instruction tuning on such generated data, we introduce LLaVA: Large Language and Vision Assistant, an end-to-end trained large multimodal model that connects a vision encoder and LLM for general-purpose visual and language understanding.Our early experiments show that LLaVA demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 85.1% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset.
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
我々は,GPT-4生成したビジュアルインストラクションチューニングデータ,モデルとコードベースを一般公開する。 Instruction tuning large language models (LLMs) using machine-generated instruction-following data has improved zero-shot capabilities on new tasks, but the idea is less explored in the multimodal field. In this paper, we present the first attempt to use language-only GPT-4 to generate multimodal language-image instruction-following data. By instruction tuning on such generated data, we introduce LLaVA: Large Language and Vision Assistant, an end-to-end trained large multimodal model that connects a vision encoder and LLM for general-purpose visual and language understanding.Our early experiments show that LLaVA demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 85.1% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. When fine-tuned on Science QA, the synergy of LLaVA and GPT-4 achieves a new state-of-the-art accuracy of 92.53%. We make GPT-4 generated visual instruction tuning data, our model and code base publicly available. | 翻訳日:2023-04-18 13:53:18 公開日:2023-04-17 |
# Text2Performer: テキスト駆動型ヒューマンビデオ生成 Text2Performer: Text-Driven Human Video Generation ( http://arxiv.org/abs/2304.08483v1 ) ライセンス: Link先を確認 | Yuming Jiang, Shuai Yang, Tong Liang Koh, Wayne Wu, Chen Change Loy, Ziwei Liu | (参考訳) テキスト駆動コンテンツ作成は、創造性に革命をもたらす変革的な技術へと進化した。
本稿では,対象の演奏者の表情や動きを記述したテキストから映像列を合成する,テキスト駆動型映像生成の課題について検討する。
一般的なテキスト駆動ビデオ生成と比較して、人間中心のビデオ生成は複雑な動きをしながら合成された人間の外観を維持する必要がある。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
Text2Performerには2つの新しいデザインがある。
1)人間の表現と分解
2)拡散型モーションサンプリング装置
まず,vqvae潜伏空間を人間の外観に分解し,人間の映像の性質を生かして,教師なしの姿勢表現を行う。
このようにして、生成したフレームに沿って外観が良好に維持される。
次に,ポーズ埋め込みの列をサンプリングする連続型vqディフューザを提案する。
離散空間で動作する既存のvqベースの手法とは異なり、連続vq-diffuserはより優れた動きモデリングのために連続的なポーズ埋め込みを直接出力する。
最後に、ポーズ埋め込みを時空間的に隠蔽し、時間的コヒーレンスを高めるために、動き認識型マスキング戦略を設計する。
さらに,テキスト駆動型ビデオ生成の作業を容易にするために,手作業で注釈付きアクションラベルとテキスト記述を付与したファッションテキスト2ビデオデータセットを寄贈する。
大規模な実験により、Text2Performerは、さまざまな外観と柔軟な動きを持つ高品質な人間ビデオ(最大512x256解像度)を生成する。 Text-driven content creation has evolved to be a transformative technique that revolutionizes creativity. Here we study the task of text-driven human video generation, where a video sequence is synthesized from texts describing the appearance and motions of a target performer. Compared to general text-driven video generation, human-centric video generation requires maintaining the appearance of synthesized human while performing complex motions. In this work, we present Text2Performer to generate vivid human videos with articulated motions from texts. Text2Performer has two novel designs: 1) decomposed human representation and 2) diffusion-based motion sampler. First, we decompose the VQVAE latent space into human appearance and pose representation in an unsupervised manner by utilizing the nature of human videos. In this way, the appearance is well maintained along the generated frames. Then, we propose continuous VQ-diffuser to sample a sequence of pose embeddings. Unlike existing VQ-based methods that operate in the discrete space, continuous VQ-diffuser directly outputs the continuous pose embeddings for better motion modeling. Finally, motion-aware masking strategy is designed to mask the pose embeddings spatial-temporally to enhance the temporal coherence. Moreover, to facilitate the task of text-driven human video generation, we contribute a Fashion-Text2Video dataset with manually annotated action labels and text descriptions. Extensive experiments demonstrate that Text2Performer generates high-quality human videos (up to 512x256 resolution) with diverse appearances and flexible motions. | 翻訳日:2023-04-18 13:53:04 公開日:2023-04-17 |
# 自律運転のためのニューラルマップ Neural Map Prior for Autonomous Driving ( http://arxiv.org/abs/2304.08481v1 ) ライセンス: Link先を確認 | Xuan Xiong, Yicheng Liu, Tianyuan Yuan, Yue Wang, Yilun Wang, Hang Zhao | (参考訳) high-definition(hd)セマンティックマップは、都市環境を走行する自動運転車にとって不可欠である。
従来のオフラインhdマップは、労働集約的な手動アノテーションプロセスによって作成され、費用がかかり、タイムリーな更新ができない。
近年,オンラインセンサ観測に基づいて局所地図を推定する手法が提案されているが,本手法はセンサ認識範囲に制約されており,閉塞に敏感である。
本研究では,グローバルマップの自動更新を容易にし,局所的地図推論性能を向上させる,グローバルマップのニューラル表現であるneural map prior (nmp)を提案する。
従来の強写像を局所写像推論に組み込むために,我々は,現在の特徴と先行特徴との相関関係を動的に捉えるクロスアテンションを用いる。
グローバルなニューラルマップを前もって更新するために、学習ベースのフュージョンモジュールを使用して、以前のトラバースの機能を融合するネットワークをガイドします。
この設計により、ネットワークはシーケンシャルなオンライン地図予測の前にグローバルニューラルマップをキャプチャできる。
nuScenesデータセットを用いた実験結果から,本フレームワークは各種のマップセグメンテーションおよび検出アーキテクチャと高度に互換性があり,悪天候下やより長い地平線上でも地図予測性能を著しく向上することが示された。
私たちの知る限りでは、これはグローバルマップを事前に構築する最初の学習ベースのシステムです。 High-definition (HD) semantic maps are crucial for autonomous vehicles navigating urban environments. Traditional offline HD maps, created through labor-intensive manual annotation processes, are both costly and incapable of accommodating timely updates. Recently, researchers have proposed inferring local maps based on online sensor observations; however, this approach is constrained by the sensor perception range and is susceptible to occlusions. In this work, we propose Neural Map Prior (NMP), a neural representation of global maps that facilitates automatic global map updates and improves local map inference performance. To incorporate the strong map prior into local map inference, we employ cross-attention that dynamically captures correlations between current features and prior features. For updating the global neural map prior, we use a learning-based fusion module to guide the network in fusing features from previous traversals. This design allows the network to capture a global neural map prior during sequential online map predictions. Experimental results on the nuScenes dataset demonstrate that our framework is highly compatible with various map segmentation and detection architectures and considerably strengthens map prediction performance, even under adverse weather conditions and across longer horizons. To the best of our knowledge, this represents the first learning-based system for constructing a global map prior. | 翻訳日:2023-04-18 13:52:37 公開日:2023-04-17 |
# DisCo-CLIP: メモリ効率の良いCLIPトレーニングのための分散コントラスト損失 DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training ( http://arxiv.org/abs/2304.08480v1 ) ライセンス: Link先を確認 | Yihao Chen, Xianbiao Qi, Jianan Wang, Lei Zhang | (参考訳) 本稿では,分散メモリ効率のCLIP学習手法であるDisCo-CLIPを提案する。
提案手法では,コントラスト損失と勾配計算を,GPU内勾配を計算する部分とGPU間勾配を計算する部分に分解する。
我々の分解では、GPU内勾配のみを現在のGPUで計算し、GPU間勾配はすべてのGPUで繰り返し計算される代わりに、他のGPUからall_reduceを介して収集する。
このようにして、対比損失計算のGPUメモリ消費を$\bigO(B^2)$から$\bigO(\frac{B^2}{N})$に削減できる。
このような分散解は、計算精度を犠牲にすることなく、元の非分散トラスト損失計算と数学的に等価である。
大規模なCLIPトレーニングには特に効果的である。
例えば、DisCo-CLIPは、8または64のA100 40GB GPUを使用したバッチサイズ32Kまたは196KのViT-B/32モデルの対照的なトレーニングを可能にする。
コードはhttps://github.com/IDEA-Research/DisCo-CLIPで公開される。 We propose DisCo-CLIP, a distributed memory-efficient CLIP training approach, to reduce the memory consumption of contrastive loss when training contrastive learning models. Our approach decomposes the contrastive loss and its gradient computation into two parts, one to calculate the intra-GPU gradients and the other to compute the inter-GPU gradients. According to our decomposition, only the intra-GPU gradients are computed on the current GPU, while the inter-GPU gradients are collected via all_reduce from other GPUs instead of being repeatedly computed on every GPU. In this way, we can reduce the GPU memory consumption of contrastive loss computation from $\bigO(B^2)$ to $\bigO(\frac{B^2}{N})$, where $B$ and $N$ are the batch size and the number of GPUs used for training. Such a distributed solution is mathematically equivalent to the original non-distributed contrastive loss computation, without sacrificing any computation accuracy. It is particularly efficient for large-batch CLIP training. For instance, DisCo-CLIP can enable contrastive training of a ViT-B/32 model with a batch size of 32K or 196K using 8 or 64 A100 40GB GPUs, compared with the original CLIP solution which requires 128 A100 40GB GPUs to train a ViT-B/32 model with a batch size of 32K. The code will be released at https://github.com/IDEA-Research/DisCo-CLIP | 翻訳日:2023-04-18 13:52:14 公開日:2023-04-17 |
# 新規スパース正規化剤 A Novel Sparse Regularizer ( http://arxiv.org/abs/2301.07285v4 ) ライセンス: Link先を確認 | Hovig Tigran Bayandorian | (参考訳) l_{0}$, $l_{1}$, $l_{2}$-norm正規化のような$l_{p}$-norm正規化スキームと、重量減衰やグループラッソのような$l_{p}$-norm正規化テクニックは、互いに分離して考慮されるモデル重みに依存する量を計算する。
本稿では,$L_{p}$-normに基づいていない新しい正規化器について述べる。
L_{p}$-norm-based regularizationとは対照的に、この正規化器は重み行列内の重みの空間配置に関係している。
この正規化子は損失関数の加法語であり、微分可能で単純で高速で計算しやすく、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。
経験的に、この方法は与えられた精度のレベルでゼロでないモデルパラメータの数を約1桁改善する。 $L_{p}$-norm regularization schemes such as $L_{0}$, $L_{1}$, and $L_{2}$-norm regularization and $L_{p}$-norm-based regularization techniques such as weight decay and group LASSO compute a quantity which depends on model weights considered in isolation from one another. This paper describes a novel regularizer which is not based on an $L_{p}$-norm. In contrast with $L_{p}$-norm-based regularization, this regularizer is concerned with the spatial arrangement of weights within a weight matrix. This regularizer is an additive term for the loss function and is differentiable, simple and fast to compute, scale-invariant, requires a trivial amount of additional memory, and can easily be parallelized. Empirically this method yields approximately a one order-of-magnitude improvement in the number of nonzero model parameters at a given level of accuracy. | 翻訳日:2023-04-18 11:50:10 公開日:2023-04-17 |
# 自己教師付き学習と空中およびジェダイライダーを用いた視覚トランスフォーマーを用いたサブメートル分解能キャノピー高さマップ Sub-meter resolution canopy height maps using self-supervised learning and a vision transformer trained on Aerial and GEDI Lidar ( http://arxiv.org/abs/2304.07213v2 ) ライセンス: Link先を確認 | Jamie Tolan, Hung-I Yang, Ben Nosarzewski, Guillaume Couairon, Huy Vo, John Brandt, Justine Spore, Sayantan Majumdar, Daniel Haziza, Janaki Vamaraju, Theo Moutakanni, Piotr Bojanowski, Tracy Johns, Brian White, Tobias Tiecke, Camille Couprie | (参考訳) 植生構造マッピングは、地球規模の炭素循環を理解し、気候適応と緩和に対する自然に基づくアプローチを監視するために重要である。
これらのデータの繰り返し測定は、森林の森林破壊や劣化の観察、自然林の再生、アグロフォレストリーのような持続可能な農業の実践を可能にする。
樹冠の高さと樹冠突出部を高空間分解能で評価することは,特に農林システムにおいて,森林構造が空間的に不均一であることから,炭素フラックスのモニタリングや森林利用の評価にも重要である。
非常に高解像度の衛星画像(地上サンプル距離が1メートル未満)は、非常に大規模なモニタリングを可能にしながら、木レベルで情報を抽出することができる。
本稿では,複数の国別管轄区域で同時に作成される最初の高解像度天蓋の高さマップについて述べる。
具体的には、カリフォルニア州と s\~{a}o paolo のために、以前のセンチネル/gediベースのキャノピー高さのグローバルマップの10メートル (10m) の解像度を大幅に改善したキャノピー高さマップを作成する。
地図は、2017年から2020年にかけてマクサー画像の自己監督モデルから抽出された特徴に視覚変換器を適用して作成され、空中ライダーやGEDI観測に対して訓練されている。
提案したマップを,他のリモートセンシングマップやフィールド収集データと比較することにより,セットアサイド検証ライダーデータを用いて評価し,セットアサイド検証領域3.0mで平均平均平均絶対誤差(MAE)を生成する。 Vegetation structure mapping is critical for understanding the global carbon cycle and monitoring nature-based approaches to climate adaptation and mitigation. Repeat measurements of these data allow for the observation of deforestation or degradation of existing forests, natural forest regeneration, and the implementation of sustainable agricultural practices like agroforestry. Assessments of tree canopy height and crown projected area at a high spatial resolution are also important for monitoring carbon fluxes and assessing tree-based land uses, since forest structures can be highly spatially heterogeneous, especially in agroforestry systems. Very high resolution satellite imagery (less than one meter (1m) ground sample distance) makes it possible to extract information at the tree level while allowing monitoring at a very large scale. This paper presents the first high-resolution canopy height map concurrently produced for multiple sub-national jurisdictions. Specifically, we produce canopy height maps for the states of California and S\~{a}o Paolo, at sub-meter resolution, a significant improvement over the ten meter (10m) resolution of previous Sentinel / GEDI based worldwide maps of canopy height. The maps are generated by applying a vision transformer to features extracted from a self-supervised model in Maxar imagery from 2017 to 2020, and are trained against aerial lidar and GEDI observations. We evaluate the proposed maps with set-aside validation lidar data as well as by comparing with other remotely sensed maps and field-collected data, and find our model produces an average Mean Absolute Error (MAE) within set-aside validation areas of 3.0 meters. | 翻訳日:2023-04-18 11:41:02 公開日:2023-04-17 |
# 画素とパッチレベルを考慮した統一hdrイメージング法 A Unified HDR Imaging Method with Pixel and Patch Level ( http://arxiv.org/abs/2304.06943v2 ) ライセンス: Link先を確認 | Qingsen Yan, Weiye Chen, Song Zhang, Yu Zhu, Jinqiu Sun, Yanning Zhang | (参考訳) 低ダイナミックレンジ(LDR)画像を高ダイナミックレンジ(HDR)に異なる露出でマッピングすることは、物体の動きやカメラのジッティングによって引き起こされるゴーストによる動的シーンにおいて、非自明で困難なままである。
ディープニューラルネットワーク(DNN)の成功により、ゴーストを緩和するためにいくつかのDNNベースの手法が提案されている。
HDR画像を生成するために,HyHDRNetと呼ばれるハイブリッドHDRデゴーストネットワークを提案し,参照画像と非参照画像の複雑な関係を学習する。
提案したHyHDRNetはコンテンツアライメントサブネットワークとTransformerベースのフュージョンサブネットワークで構成されている。
具体的には、ソースからのゴーストを効果的に回避するために、コンテンツアライメントサブネットワークはパッチアグリゲーションとゴーストアテンションを使用して、他の非参照画像からの類似したコンテンツをパッチレベルに統合し、望ましくないコンポーネントをピクセルレベルに抑制する。
パッチレベルと画素レベルの相互ガイダンスを実現するために,gatingモジュールを利用して,ゴースト領域と飽和領域の両方で有用な情報を十分に交換する。
さらに、高品質なHDR画像を得るために、TransformerベースのフュージョンサブネットワークはResidual Deformable Transformer Block (RDTB)を用いて異なる露出領域の情報を適応的にマージする。
提案手法は,広く使用されている4つのhdr画像デガホストデータセットについて検討した。
実験により、HyHDRNetは最先端の手法よりも定量的かつ質的に優れており、統一されたテクスチャと色で魅力的なHDR可視化を実現している。 Mapping Low Dynamic Range (LDR) images with different exposures to High Dynamic Range (HDR) remains nontrivial and challenging on dynamic scenes due to ghosting caused by object motion or camera jitting. With the success of Deep Neural Networks (DNNs), several DNNs-based methods have been proposed to alleviate ghosting, they cannot generate approving results when motion and saturation occur. To generate visually pleasing HDR images in various cases, we propose a hybrid HDR deghosting network, called HyHDRNet, to learn the complicated relationship between reference and non-reference images. The proposed HyHDRNet consists of a content alignment subnetwork and a Transformer-based fusion subnetwork. Specifically, to effectively avoid ghosting from the source, the content alignment subnetwork uses patch aggregation and ghost attention to integrate similar content from other non-reference images with patch level and suppress undesired components with pixel level. To achieve mutual guidance between patch-level and pixel-level, we leverage a gating module to sufficiently swap useful information both in ghosted and saturated regions. Furthermore, to obtain a high-quality HDR image, the Transformer-based fusion subnetwork uses a Residual Deformable Transformer Block (RDTB) to adaptively merge information for different exposed regions. We examined the proposed method on four widely used public HDR image deghosting datasets. Experiments demonstrate that HyHDRNet outperforms state-of-the-art methods both quantitatively and qualitatively, achieving appealing HDR visualization with unified textures and colors. | 翻訳日:2023-04-18 11:40:32 公開日:2023-04-17 |
# L1BSR: センチネル2L1B画像の超解像のための爆発型検出器オーバーラップ L1BSR: Exploiting Detector Overlap for Self-Supervised Single-Image Super-Resolution of Sentinel-2 L1B Imagery ( http://arxiv.org/abs/2304.06871v2 ) ライセンス: Link先を確認 | Ngoc Long Nguyen, J\'er\'emy Anger, Axel Davy, Pablo Arias, Gabriele Facciolo | (参考訳) 高解像度衛星画像は、多くの地球観測アプリケーションにとって重要な要素である。
sentinel-2のような衛星は、エイリアスやバンドミスなどの超解像アルゴリズムに好適な特徴を持っている。
残念なことに、高解像度(HR)基底真理の欠如は、このタスクへのディープラーニング手法の適用を制限する。
本研究では,sentinel-2 l1b 10m帯の1画像超解像とバンドアライメントのための深層学習に基づくl1bsrを提案する。
この方法は、隣接するCMOS検出器によって生成されたL1B画像の重なり合う領域を利用することで、実際のL1Bデータを直接自己監督することで訓練される。
自己教師付き損失は、スーパー解決された出力画像にすべてのバンドを正しく整列させるように設計されている。
これは、異なるスペクトル帯域の画像間の光の流れを計算する新しいクロススペクトル登録ネットワーク(CSR)によって実現される。
csrネットワークはまた、アンカー-コンシスタンシー損失を用いて自己スーパービジョンで訓練されています。
本稿では,合成および実L1Bデータに対する提案手法の性能を実証し,教師付き手法に匹敵する結果が得られることを示す。 High-resolution satellite imagery is a key element for many Earth monitoring applications. Satellites such as Sentinel-2 feature characteristics that are favorable for super-resolution algorithms such as aliasing and band-misalignment. Unfortunately the lack of reliable high-resolution (HR) ground truth limits the application of deep learning methods to this task. In this work we propose L1BSR, a deep learning-based method for single-image super-resolution and band alignment of Sentinel-2 L1B 10m bands. The method is trained with self-supervision directly on real L1B data by leveraging overlapping areas in L1B images produced by adjacent CMOS detectors, thus not requiring HR ground truth. Our self-supervised loss is designed to enforce the super-resolved output image to have all the bands correctly aligned. This is achieved via a novel cross-spectral registration network (CSR) which computes an optical flow between images of different spectral bands. The CSR network is also trained with self-supervision using an Anchor-Consistency loss, which we also introduce in this work. We demonstrate the performance of the proposed approach on synthetic and real L1B data, where we show that it obtains comparable results to supervised methods. | 翻訳日:2023-04-18 11:40:01 公開日:2023-04-17 |
# Vax-Culture:Twitterでワクチンの談話を学ぶためのデータセット Vax-Culture: A Dataset for Studying Vaccine Discourse on Twitter ( http://arxiv.org/abs/2304.06858v2 ) ライセンス: Link先を確認 | Mohammad Reza Zarei, Michael Christensen, Sarah Everts and Majid Komeili | (参考訳) 新型コロナウイルス感染症(COVID-19)の感染拡大に伴い、ワクチン中毒は公衆衛生当局にとって大きな課題となっている。
このため、多くの研究者がワクチンキャンペーンの根本原因を特定し、ソーシャルメディアプラットフォーム上での抗ワクチンの誤情報の増加がこの問題の重要な要素であることを発見した。
われわれはTwitterを誤解を招くコンテンツ源として探求し、ワクチンの誤情報を広める動機となる文化的・政治的信念の重複を抽出した。
そのために、私たちはワクチン関連のツイートのデータセットを収集し、コミュニケーションとジャーナリズムのバックグラウンドを持つアノテータチームの助けを借りて注釈付けしました。
最終的には、これが反ワクチンの信念を持つ個人にリーチするための効果的な公衆衛生コミュニケーション戦略につながることを願っている。
さらに、この情報は、ワクチンの誤情報を自動検出し、悪影響に対処する機械学習モデルの開発に役立つ。
本稿では,ワクチン・ヘシタンシースタンス,ツイート中の誤情報の表示,各ツイートに対する批判とサポート,各ツイートのコミュニケーションメッセージなど,多種多様なアノテーションを伴って,6373個のワクチン関連ツイートからなる,新しいtwitter covid-19データセットであるvax-cultureを提案する。
さらに,4つの分類と1つのシーケンス生成タスクを含む5つの基本タスクを定義し,それらに対する最近のトランスフォーマーモデルの結果を報告する。
データセットとコードはhttps://github.com/mrzarei5/vax-cultureで公開されている。 Vaccine hesitancy continues to be a main challenge for public health officials during the COVID-19 pandemic. As this hesitancy undermines vaccine campaigns, many researchers have sought to identify its root causes, finding that the increasing volume of anti-vaccine misinformation on social media platforms is a key element of this problem. We explored Twitter as a source of misleading content with the goal of extracting overlapping cultural and political beliefs that motivate the spread of vaccine misinformation. To do this, we have collected a data set of vaccine-related Tweets and annotated them with the help of a team of annotators with a background in communications and journalism. Ultimately we hope this can lead to effective and targeted public health communication strategies for reaching individuals with anti-vaccine beliefs. Moreover, this information helps with developing Machine Learning models to automatically detect vaccine misinformation posts and combat their negative impacts. In this paper, we present Vax-Culture, a novel Twitter COVID-19 dataset consisting of 6373 vaccine-related tweets accompanied by an extensive set of human-provided annotations including vaccine-hesitancy stance, indication of any misinformation in tweets, the entities criticized and supported in each tweet and the communicated message of each tweet. Moreover, we define five baseline tasks including four classification and one sequence generation tasks, and report the results of a set of recent transformer-based models for them. The dataset and code are publicly available at https://github.com/mrzarei5/Vax-Culture. | 翻訳日:2023-04-18 11:39:40 公開日:2023-04-17 |
# 低レベル・高レベル意味ラベルを用いたリモートセンシングのための標高データに基づく対比法 A Contrastive Method Based on Elevation Data for Remote Sensing with Scarce and High Level Semantic Labels ( http://arxiv.org/abs/2304.06857v2 ) ライセンス: Link先を確認 | Omar A. Casta\~no-Idarraga, Raul Ramos-Poll\'an, Freddie Kalaitzis | (参考訳) 本研究は,地球観測のダウンストリームタスクに適用されるモデルを事前学習するための教師なし・教師なしのハイブリッド学習手法を提案する。
先行学習モデルとプレテキストタスクとの対比的アプローチを組み合わせることで,全世界で一般的に利用可能な空間的に粗い標高マップを予測できる。
背景にある直感は、多くのリモートセンシングタスクの高度と目標の間には概してある程度の相関関係があり、モデルが有用な表現を事前に学習できるということである。
コロンビア北東部のデータセットを用いて,多くの可能性のあるサブクラス(農地と他地のピクセルレベル分類)と,前者から派生したイメージバイナリ分類タスクを収集するラベルを用いたセグメンテーション下流タスクの性能を評価する。
どちらの場合も、39Kのラベル付き画像でモデルを事前訓練し、80のラベル付き画像でダウンストリームタスクを微調整し、2944のラベル付き画像でテストします。
提案手法である glcnet+elevation for segmentation と simclr+elevation for classification は精度とマクロ平均値 f1 の面では、上位のタスクでターゲットに関連付けられた追加情報を含むことによってパフォーマンスが向上するという考えを支持している。 This work proposes a hybrid unsupervised/supervised learning method to pretrain models applied in earth observation downstream tasks where only a handful of labels denoting very general semantic concepts are available. We combine a contrastive approach to pretrain models with a pretext task to predict spatially coarse elevation maps which are commonly available worldwide. The intuition behind is that there is generally some correlation between the elevation and targets in many remote sensing tasks, allowing the model to pre-learn useful representations. We assess the performance of our approach on a segmentation downstream task on labels gathering many possible subclasses (pixel level classification of farmlands vs. other) and an image binary classification task derived from the former, on a dataset on the north-east of Colombia. On both cases we pretrain our models with 39K unlabeled images, fine tune the downstream task only with 80 labeled images and test it with 2944 labeled images. Our experiments show that our methods, GLCNet+Elevation for segmentation and SimCLR+Elevation for classification, outperform their counterparts without the elevation pretext task in terms of accuracy and macro-average F1, which supports the notion that including additional information correlated to targets in downstream tasks can lead to improved performance. | 翻訳日:2023-04-18 11:39:15 公開日:2023-04-17 |
# あなたはここにいる!
1枚の画像から2次元地図上の位置と向きを見つける -flatlandia localization problem と dataset You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset ( http://arxiv.org/abs/2304.06373v3 ) ライセンス: Link先を確認 | Matteo Toso, Matteo Taiana, Stuart James and Alessio Del Bue | (参考訳) そこで本稿では,2つのタスクからなる物体検出から画像の可視化問題であるflatlandiaを提案する。
一 粗い地図の定位:被写体の集合を観察する単一の画像を、被写体ランドマークの2次元地図に配置すること。
二 微粒な3DoF局所化:2次元地図内の画像の緯度、経度及び方位を推定すること。
これらの新しいタスクのソリューションは、一般的なオブジェクトのGPSロケーション(サーベイやクラウドソースによる)にアノテートされたオープンアーバンマップを広範囲に活用する。
このようなマップは、通常の大規模3Dモデルよりもストレージフレンドリーで、視覚的なローカライゼーションによく使われる。
既存のデータセットは、提案された問題に適さないため、複数の都市で3DoFの視覚的ローカライゼーション用に設計され、5つのヨーロッパの都市からのクラウドソースデータに基づいているFlatlandiaデータセットを提供する。
flatlandiaデータセットを使用して,提案するタスクの複雑性を検証する。 We introduce Flatlandia, a novel problem for visual localization of an image from object detections composed of two specific tasks: i) Coarse Map Localization: localizing a single image observing a set of objects in respect to a 2D map of object landmarks; ii) Fine-grained 3DoF Localization: estimating latitude, longitude, and orientation of the image within a 2D map. Solutions for these new tasks exploit the wide availability of open urban maps annotated with GPS locations of common objects (\eg via surveying or crowd-sourced). Such maps are also more storage-friendly than standard large-scale 3D models often used in visual localization while additionally being privacy-preserving. As existing datasets are unsuited for the proposed problem, we provide the Flatlandia dataset, designed for 3DoF visual localization in multiple urban settings and based on crowd-sourced data from five European cities. We use the Flatlandia dataset to validate the complexity of the proposed tasks. | 翻訳日:2023-04-18 11:38:11 公開日:2023-04-17 |
# 軽量YOLO7-tinyに基づく高速車両検出アルゴリズム Fast vehicle detection algorithm based on lightweight YOLO7-tiny ( http://arxiv.org/abs/2304.06002v3 ) ライセンス: Link先を確認 | Bo Li, YiHua Chen, Hao Xu and Fei Zhong | (参考訳) 車両の迅速かつ正確な検出は、インテリジェント輸送システムにおいて重要な役割を果たす。
現在の車両検出アルゴリズムは、高い計算複雑性、低い検出率、モバイルデバイスでの限られた実行可能性の課題に遭遇する。
本稿では, YOLOv7-tiny (You Only Look Once Version 7) に基づく軽量車両検出アルゴリズムGhost-YOLOv7を提案する。
The width of model is scaled to 0.5 and the standard convolution of the backbone network is replaced with Ghost convolution to achieve a lighter network and improve the detection speed; then a self-designed Ghost bi-directional feature pyramid network (Ghost-BiFPN) is embedded into the neck network to enhance feature extraction capability of the algorithm and enriches semantic information; and a Ghost Decouoled Head (GDH) is employed for accurate prediction of vehicle location and species; finally, a coordinate attention mechanism is introduced into the output layer to suppress environmental interference.
また、wiou損失関数を用いて検出精度をさらに向上させる。
PASCAL VOCデータセットのアブレーション実験の結果、Ghost-YOLOv7はオリジナルのYOLOv7-tinyモデルより優れていることが示された。
計算の29.8%の削減、パラメータ数の37.3%の削減、モデル重量の35.1%の削減、平均平均精度(mAP)の1.1%の高速化、検出速度は元のアルゴリズムと比較して27FPSである。
また、ghost-yolov7はkittiおよびbit-vehicleデータセットでも比較され、このアルゴリズムが全体的な性能を示している。 The swift and precise detection of vehicles plays a significant role in intelligent transportation systems. Current vehicle detection algorithms encounter challenges of high computational complexity, low detection rate, and limited feasibility on mobile devices. To address these issues, this paper proposes a lightweight vehicle detection algorithm based on YOLOv7-tiny (You Only Look Once version seven) called Ghost-YOLOv7. The width of model is scaled to 0.5 and the standard convolution of the backbone network is replaced with Ghost convolution to achieve a lighter network and improve the detection speed; then a self-designed Ghost bi-directional feature pyramid network (Ghost-BiFPN) is embedded into the neck network to enhance feature extraction capability of the algorithm and enriches semantic information; and a Ghost Decouoled Head (GDH) is employed for accurate prediction of vehicle location and species; finally, a coordinate attention mechanism is introduced into the output layer to suppress environmental interference. The WIoU loss function is employed to further enhance the detection accuracy. Ablation experiments results on the PASCAL VOC dataset demonstrate that Ghost-YOLOv7 outperforms the original YOLOv7-tiny model. It achieving a 29.8% reduction in computation, 37.3% reduction in the number of parameters, 35.1% reduction in model weights, 1.1% higher mean average precision (mAP), the detection speed is higher 27FPS compared with the original algorithm. Ghost-YOLOv7 was also compared on KITTI and BIT-vehicle datasets as well, and the results show that this algorithm has the overall best performance. | 翻訳日:2023-04-18 11:37:55 公開日:2023-04-17 |
# コンテクスト対応変圧器を用いた高ダイナミックレンジイメージング High Dynamic Range Imaging with Context-aware Transformer ( http://arxiv.org/abs/2304.04416v3 ) ライセンス: Link先を確認 | Fangfang Zhou, Dan Zhang and Zhenming Fu | (参考訳) 高ダイナミックレンジ(HDR)画像としてLDR画像を合成する際のゴーストの導入を避けることが課題である。
畳み込みニューラルネットワーク(CNN)は、一般的にHDRゴースト除去に有効であるが、大きな動きや過飽和/下降がある場合、LDR画像に対処することは困難である。
CNNとTransformerを組み合わせた既存のデュアルブランチ方式では、非参照画像から情報の一部を省略する一方、CNNベースのブランチによって抽出された特徴は、劣化と過飽和/過飽和領域の回復に寄与する小さな受容野でカーネルサイズに結合する。
本稿では,グローバル特徴と局所特徴を同時に抽出する,ゴーストフリーhdr(hdt-hdr)画像生成のための階層的二重変換手法を提案する。
まず、空間的注意機構を備えたcnnベースの頭部を用いて、全てのldr画像から特徴を抽出する。
第2に、LDR機能は階層デュアルトランス(HDT)に配信される。
各Dual Transformer(DT)では、グローバルな特徴をウィンドウベースのTransformerによって抽出し、局所的な詳細を変形可能なCNNを用いてチャネルアテンション機構を用いて抽出する。
そして、HDT出力の次元マッピングによりゴーストフリーHDR画像を得る。
既存のHDRゴースト除去法において,HDT-HDRは最先端の性能を発揮することを示した。 Avoiding the introduction of ghosts when synthesising LDR images as high dynamic range (HDR) images is a challenging task. Convolutional neural networks (CNNs) are effective for HDR ghost removal in general, but are challenging to deal with the LDR images if there are large movements or oversaturation/undersaturation. Existing dual-branch methods combining CNN and Transformer omit part of the information from non-reference images, while the features extracted by the CNN-based branch are bound to the kernel size with small receptive field, which are detrimental to the deblurring and the recovery of oversaturated/undersaturated regions. In this paper, we propose a novel hierarchical dual Transformer method for ghost-free HDR (HDT-HDR) images generation, which extracts global features and local features simultaneously. First, we use a CNN-based head with spatial attention mechanisms to extract features from all the LDR images. Second, the LDR features are delivered to the Hierarchical Dual Transformer (HDT). In each Dual Transformer (DT), the global features are extracted by the window-based Transformer, while the local details are extracted using the channel attention mechanism with deformable CNNs. Finally, the ghost free HDR image is obtained by dimensional mapping on the HDT output. Abundant experiments demonstrate that our HDT-HDR achieves the state-of-the-art performance among existing HDR ghost removal methods. | 翻訳日:2023-04-18 11:37:28 公開日:2023-04-17 |
# アルツハイマー病に対するEvidence-empowered Transfer Learning Evidence-empowered Transfer Learning for Alzheimer's Disease ( http://arxiv.org/abs/2303.01105v4 ) ライセンス: Link先を確認 | Kai Tzu-iunn Ong, Hana Kim, Minjin Kim, Jinseong Jang, Beomseok Sohn, Yoon Seong Choi, Dosik Hwang, Seong Jae Hwang, Jinyoung Yeo | (参考訳) 転送学習は、アルツハイマー病(AD)の分野でのデータ不足を緩和するために広く利用されている。
従来の転写学習は、自然画像分類のようなAD非関連タスクで訓練された再利用モデルに依存している。
しかし、非医療的源と対象の医療領域の相違により、しばしば負の移動を引き起こす。
そこで我々はAD診断にエビデンスを応用した転写学習を提案する。
従来の手法とは違って,付加的なMRIデータを必要としないAD関連補助タスク,すなわち形態変化予測を利用する。
この補助課題において、診断モデルはMRIスキャンにおける形態的特徴から明らかかつ伝達可能な知識を学習する。
実験の結果,モデルキャパシティによらず検出性能の向上に有効であるだけでなく,データ効率と信頼性も向上した。 Transfer learning has been widely utilized to mitigate the data scarcity problem in the field of Alzheimer's disease (AD). Conventional transfer learning relies on re-using models trained on AD-irrelevant tasks such as natural image classification. However, it often leads to negative transfer due to the discrepancy between the non-medical source and target medical domains. To address this, we present evidence-empowered transfer learning for AD diagnosis. Unlike conventional approaches, we leverage an AD-relevant auxiliary task, namely morphological change prediction, without requiring additional MRI data. In this auxiliary task, the diagnosis model learns the evidential and transferable knowledge from morphological features in MRI scans. Experimental results demonstrate that our framework is not only effective in improving detection performance regardless of model capacity, but also more data-efficient and faithful. | 翻訳日:2023-04-18 11:37:04 公開日:2023-04-17 |