このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230416となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 自動車安全管理システム Vehicle Safety Management System ( http://arxiv.org/abs/2304.14497v1 ) ライセンス: Link先を確認 | Chanthini Bhaskar, Bharath Manoj Nair, Dev Mehta | (参考訳) 乗っ取りは、道路上の他の車両の位置と距離に関する正確な情報を必要とする運転における重要な操作である。
本研究は,1回だけ見る(yolo)物体検出アルゴリズムとステレオビジョン技術を組み合わせて,運転者の前にある車両を正確に識別し,その距離を推定するリアルタイムオーバワ支援システムを提案する。
システムはドライバーの後ろの車両にカラーライトで信号を送り、安全な走行距離を知らせる。
距離解析にはステレオビジョン,オブジェクト識別にはYOLO(You Only Look Once)が用いられている。
その結果、車種とカメラモジュールと車両間の距離を精度良く4.107%の誤差で提供する効果が示された。
当社のシステムは事故のリスクを低減し,特に高規格道路や幹線道路におけるオーバーオーキングの安全性を向上させる可能性を秘めている。 Overtaking is a critical maneuver in driving that requires accurate information about the location and distance of other vehicles on the road. This study suggests a real-time overtaking assistance system that uses a combination of the You Only Look Once (YOLO) object detection algorithm and stereo vision techniques to accurately identify and locate vehicles in front of the driver, and estimate their distance. The system then signals the vehicles behind the driver using colored lights to inform them of the safe overtaking distance. The proposed system has been implemented using Stereo vision for distance analysis and You Only Look Once (YOLO) for object identification. The results demonstrate its effectiveness in providing vehicle type and the distance between the camera module and the vehicle accurately with an approximate error of 4.107%. Our system has the potential to reduce the risk of accidents and improve the safety of overtaking maneuvers, especially on busy highways and roads. | 翻訳日:2023-05-07 16:22:26 公開日:2023-04-16 |
# Anderson Acceleration を用いた学習半量子分割ネットワークによる電気インピーダンストモグラフィの再構築 Enhancing Electrical Impedance Tomography reconstruction using Learned Half-Quadratic Splitting Networks with Anderson Acceleration ( http://arxiv.org/abs/2304.14491v1 ) ライセンス: Link先を確認 | Guixian Xu and Huihui Wang and Qingping Zhou | (参考訳) 電気インピーダンストモグラフィ(EIT)は医療診断、産業検査、環境モニタリングに広く応用されている。
画像システムの物理原理とデータ駆動型ディープラーニングネットワークの利点を組み合わせることで、物理埋め込み型ディープアンローリングネットワークは近年、計算画像の有望なソリューションとして浮上している。
しかし, eit画像再構成の固有非線形特性と不適切特性は, 精度と安定性の観点から既存の手法に課題を呈している。
そこで本研究では,学習に基づくeitイメージングに物理を組み込むためのhqsnet(learning half-quadratic split)アルゴリズムを提案する。
次に、AA-HQSNetと表記されるHQSNetアルゴリズムにアンダーソン加速度(AA)を適用する。
AAは固定点反復アルゴリズムの収束を加速するための広く使われている手法であり、数値最適化と機械学習に大きな関心を寄せている。
しかし,この手法はこれまで,逆問題コミュニティではほとんど注目されていない。
AAを採用することで、標準的なHQSNetと比較してコンバージェンスレートが向上すると同時に、再構築時のアーティファクトも回避される。
最後に、AAモジュールがHQSNetを強化し、最先端の手法に比べて堅牢で正確で、はるかに優れた再構築を実現することを示すために、厳密な数値および視覚実験を行う。
HQSNetを強化するアンダーソン加速方式は汎用的であり,様々な物理埋め込み深層学習法の性能向上に応用できる。 Electrical Impedance Tomography (EIT) is widely applied in medical diagnosis, industrial inspection, and environmental monitoring. Combining the physical principles of the imaging system with the advantages of data-driven deep learning networks, physics-embedded deep unrolling networks have recently emerged as a promising solution in computational imaging. However, the inherent nonlinear and ill-posed properties of EIT image reconstruction still present challenges to existing methods in terms of accuracy and stability. To tackle this challenge, we propose the learned half-quadratic splitting (HQSNet) algorithm for incorporating physics into learning-based EIT imaging. We then apply Anderson acceleration (AA) to the HQSNet algorithm, denoted as AA-HQSNet, which can be interpreted as AA applied to the Gauss-Newton step and the learned proximal gradient descent step of the HQSNet, respectively. AA is a widely-used technique for accelerating the convergence of fixed-point iterative algorithms and has gained significant interest in numerical optimization and machine learning. However, the technique has received little attention in the inverse problems community thus far. Employing AA enhances the convergence rate compared to the standard HQSNet while simultaneously avoiding artifacts in the reconstructions. Lastly, we conduct rigorous numerical and visual experiments to show that the AA module strengthens the HQSNet, leading to robust, accurate, and considerably superior reconstructions compared to state-of-the-art methods. Our Anderson acceleration scheme to enhance HQSNet is generic and can be applied to improve the performance of various physics-embedded deep learning methods. | 翻訳日:2023-05-07 16:21:08 公開日:2023-04-16 |
# H2CGL:衝突予測のための循環ネットワークのモデリングダイナミクス H2CGL: Modeling Dynamics of Citation Network for Impact Prediction ( http://arxiv.org/abs/2305.01572v1 ) ライセンス: Link先を確認 | Guoxiu He, Zhikai Xue, Zhuoren Jiang, Yangyang Kang, Star Zhao, Wei Lu | (参考訳) 紙の潜在的な影響は、何個の引用を受け取るかによって定量化されることが多い。
しかし、最も一般的に使われているモデルは、新しく出版された論文の影響を過小評価し、引用ネットワークのこのダイナミクスをグラフにカプセル化できないことがある。
本研究では,対象論文の階層的および異質なグラフを年次視点で構築する。
構築されたグラフは、対象論文の科学的文脈情報の年次ダイナミクスを記録することができる。
そこで,新しいグラフニューラルネットワークである階層的および不均質なコントラストグラフ学習モデル(h2cgl)を提案する。
h2cglは、各年度の異種情報を別々に集約し、高引用された論文と参照、引用、対象論文の関係を優先する。
その後、重み付きジンを使って、長年にわたって不均一な部分グラフ間のダイナミクスをキャプチャする。
さらに、コントラスト学習を活用して、グラフ表現を潜在的引用により敏感にする。
特に、大きな引用ギャップを有する対象紙の共引用または共引用用紙を硬い負の試料とし、低引用用紙をランダムに落として正のサンプルを生成することができる。
2つの学術データセットに関する広範な実験の結果は、提案されているh2cglが、以前の論文と新しい論文の両方のベースラインアプローチを大きく上回っていることを示している。
さらなる分析は、提案されたモジュールの重要性を強調している。
私たちのコードと設定はGithub(https://github.com/ECNU-Text-Computing/H2CGL)で公開されています。 The potential impact of a paper is often quantified by how many citations it will receive. However, most commonly used models may underestimate the influence of newly published papers over time, and fail to encapsulate this dynamics of citation network into the graph. In this study, we construct hierarchical and heterogeneous graphs for target papers with an annual perspective. The constructed graphs can record the annual dynamics of target papers' scientific context information. Then, a novel graph neural network, Hierarchical and Heterogeneous Contrastive Graph Learning Model (H2CGL), is proposed to incorporate heterogeneity and dynamics of the citation network. H2CGL separately aggregates the heterogeneous information for each year and prioritizes the highly-cited papers and relationships among references, citations, and the target paper. It then employs a weighted GIN to capture dynamics between heterogeneous subgraphs over years. Moreover, it leverages contrastive learning to make the graph representations more sensitive to potential citations. Particularly, co-cited or co-citing papers of the target paper with large citation gap are taken as hard negative samples, while randomly dropping low-cited papers could generate positive samples. Extensive experimental results on two scholarly datasets demonstrate that the proposed H2CGL significantly outperforms a series of baseline approaches for both previously and freshly published papers. Additional analyses highlight the significance of the proposed modules. Our codes and settings have been released on Github (https://github.com/ECNU-Text-Computing/H2CGL) | 翻訳日:2023-05-07 15:53:14 公開日:2023-04-16 |
# 風力エネルギーにおけるデジタルツイン : 新興技術と産業インフォームド・フューチャー Digital Twins in Wind Energy: Emerging Technologies and Industry-Informed Future Directions ( http://arxiv.org/abs/2304.11405v1 ) ライセンス: Link先を確認 | Florian Stadtman, Adil Rasheeda, Trond Kvamsdal, Kjetil Andr\'e Johannessen, Omer San, Konstanze K\"olle, John Olav Gi{\ae}ver Tande, Idar Barstad, Alexis Benhamou, Thomas Brathaug, Tore Christiansen, Anouk-Letizia Firle, Alexander Fjeldly, Lars Fr{\o}yd, Alexander Gleim, Alexander H{\o}iberget, Catherine Meissner, Guttorm Nyg{\aa}rd, J{\o}rgen Olsen, H{\aa}vard Paulshus, Tore Rasmussen, Elling Rishoff, John Olav Skog{\aa}s | (参考訳) 本稿では,デジタルツイン技術とその能力レベルを包括的に概観するとともに,風力エネルギー産業におけるツイン技術の応用について述べる。
デジタル双生児の定義と能力レベルを0-5; 0-standalone, 1-descriptive, 2-diagnostic, 3-predictive, 4-prescriptive, 5-autonomousから統合する。
そして、産業的な見地から、風力エネルギー分野における技術と研究ニーズの現況を特定する。
本稿は、研究機関の観点から特定課題へのアプローチを提案し、技術受容を促進するために多様な利害関係者に一連の勧告を提供する。
この論文の貢献は、現在の知識の状態の合成と、産業の観点からの今後の研究ニーズと課題の同定であり、最終的には、デジタルツインの分野における将来の研究開発とその風力エネルギー産業への応用のロードマップを提供するものである。 This article presents a comprehensive overview of the digital twin technology and its capability levels, with a specific focus on its applications in the wind energy industry. It consolidates the definitions of digital twin and its capability levels on a scale from 0-5; 0-standalone, 1-descriptive, 2-diagnostic, 3-predictive, 4-prescriptive, 5-autonomous. It then, from an industrial perspective, identifies the current state of the art and research needs in the wind energy sector. The article proposes approaches to the identified challenges from the perspective of research institutes and offers a set of recommendations for diverse stakeholders to facilitate the acceptance of the technology. The contribution of this article lies in its synthesis of the current state of knowledge and its identification of future research needs and challenges from an industry perspective, ultimately providing a roadmap for future research and development in the field of digital twin and its applications in the wind energy industry. | 翻訳日:2023-04-30 07:48:10 公開日:2023-04-16 |
# コンピュータサイエンスカリキュラムの学習・評価ツールとしてのChatGPTの利用を探る : 機会と課題 Exploring the Use of ChatGPT as a Tool for Learning and Assessment in Undergraduate Computer Science Curriculum: Opportunities and Challenges ( http://arxiv.org/abs/2304.11214v1 ) ライセンス: Link先を確認 | Basit Qureshi | (参考訳) 人工知能の学術分野における教育と学習への応用は、コンピューティング教育への関心の高まりの主題である。
AIベースのツールであるChatGPTは、学生の関与の向上、協力、アクセシビリティ、可用性など、さまざまなメリットを提供する。
本稿では,学部生のコンピュータサイエンスカリキュラムにおける学習・評価ツールとしてのchatgptの利用,特に基本プログラミングコースの指導・学習にともなう展望と障害について述べる。
データ構造とアルゴリズムのコースを修了した学生(第2レベルのコース)が本研究に参加した。
学生の2つのグループは、短時間で解決するプログラミングの課題を与えられた。
コントロールグループ(グループA)はテキストブックやプログラミングコースのノートにアクセスできたが、インターネットアクセスは提供されなかった。
グループBの学生はChatGPTにアクセスでき、プログラミングの課題を解決するために使うことを奨励された。
この課題はpc2環境を用いたコンピュータラボ環境で実行された。
学生の各チームは、一定の数のテストケースを満たす実行可能なコードを書くことで、この問題に対処する。
学生チームは、合格したテストケースの数でパフォーマンスに基づいてスコアが付けられた。
結果より,ChatGPTを用いた学生は成績の点で有利であったが,提出されたコードには矛盾や不正確性があり,その結果全体の成績に影響を及ぼすことがわかった。
詳細な分析の結果、高等教育にAIを取り入れることが様々な機会と課題をもたらすことが示唆された。 The application of Artificial intelligence for teaching and learning in the academic sphere is a trending subject of interest in the computing education. ChatGPT, as an AI-based tool, provides various advantages, such as heightened student involvement, cooperation, accessibility and availability. This paper addresses the prospects and obstacles associated with utilizing ChatGPT as a tool for learning and assessment in undergraduate Computer Science curriculum in particular to teaching and learning fundamental programming courses. Students having completed the course work for a Data Structures and Algorithms (a sophomore level course) participated in this study. Two groups of students were given programming challenges to solve within a short period of time. The control group (group A) had access to text books and notes of programming courses, however no Internet access was provided. Group B students were given access to ChatGPT and were encouraged to use it to help solve the programming challenges. The challenge was conducted in a computer lab environment using PC2 environment. Each team of students address the problem by writing executable code that satisfies certain number of test cases. Student teams were scored based on their performance in terms of number of successful passed testcases. Results show that students using ChatGPT had an advantage in terms of earned scores, however there were inconsistencies and inaccuracies in the submitted code consequently affecting the overall performance. After a thorough analysis, the paper's findings indicate that incorporating AI in higher education brings about various opportunities and challenges. | 翻訳日:2023-04-30 07:47:07 公開日:2023-04-16 |
# AutoSTL: 時空間マルチタスク学習の自動化 AutoSTL: Automated Spatio-Temporal Multi-Task Learning ( http://arxiv.org/abs/2304.09174v1 ) ライセンス: Link先を確認 | Zijian Zhang, Xiangyu Zhao, Hao Miao, Chunxu Zhang, Hongwei Zhao and Junbo Zhang | (参考訳) 時空間予測はスマートシティ構築において重要な役割を果たす。
複数の時空間的タスクを共同でモデル化することで、その分離不能な関係を統合することにより、インテリジェントな都市生活をさらに促進することができる。
しかし、既存の研究ではこの共同学習の問題にうまく対処できず、一般にタスクを個別に、あるいは固定的なタスクの組み合わせで解決する。
課題は、異なる特性間の絡み合った関係、タスクの柔軟な組み合わせをサポートする要求、および複雑な時空間依存性にある。
そこで本研究では,複数の時空間タスクを協調して処理する自動時空間型マルチタスク学習(autostl)手法を提案する。
まず,複雑な依存関係を活用するために,高度時空間演算によるスケーラブルなアーキテクチャを提案する。
共有モジュールと特徴融合機構は、タスク間の本質的な関係をさらに捉えるために組み込まれている。
さらに,本モデルでは,演算と融合重量を自動的に割り当てる。
ベンチマークデータセットに関する広範な実験によって、このモデルが最先端のパフォーマンスを達成できることが確認された。
知る限り、AutoSTLは最初の自動時空間マルチタスク学習法である。 Spatio-Temporal prediction plays a critical role in smart city construction. Jointly modeling multiple spatio-temporal tasks can further promote an intelligent city life by integrating their inseparable relationship. However, existing studies fail to address this joint learning problem well, which generally solve tasks individually or a fixed task combination. The challenges lie in the tangled relation between different properties, the demand for supporting flexible combinations of tasks and the complex spatio-temporal dependency. To cope with the problems above, we propose an Automated Spatio-Temporal multi-task Learning (AutoSTL) method to handle multiple spatio-temporal tasks jointly. Firstly, we propose a scalable architecture consisting of advanced spatio-temporal operations to exploit the complicated dependency. Shared modules and feature fusion mechanism are incorporated to further capture the intrinsic relationship between tasks. Furthermore, our model automatically allocates the operations and fusion weight. Extensive experiments on benchmark datasets verified that our model achieves state-of-the-art performance. As we can know, AutoSTL is the first automated spatio-temporal multi-task learning method. | 翻訳日:2023-04-20 16:43:58 公開日:2023-04-16 |
# AIの公正性と社会への長期的影響 Fairness in AI and Its Long-Term Implications on Society ( http://arxiv.org/abs/2304.09826v1 ) ライセンス: Link先を確認 | Ondrej Bohdal, Timothy Hospedales, Philip H.S. Torr, Fazl Barez | (参考訳) 人工知能(AI)の様々な環境での展開が成功し、個人や社会に多くの肯定的な結果をもたらした。
しかし、aiシステムは偏りのある予測のために人口の一部を傷つけることも示されている。
AIフェアネスを詳しく調べて、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析し、社会的ストレス要因として機能する。
問題が継続すれば、他のリスクとの相互作用によって強化され、社会に望ましくない長期的な影響をもたらす可能性がある。
aiの公平性を改善する現在の戦略を検証し、現実の展開の観点からその限界を評価し、社会の大きな部分を傷つけることなくaiの利益を確実に享受するための今後の道を探る。 Successful deployment of artificial intelligence (AI) in various settings has led to numerous positive outcomes for individuals and society. However, AI systems have also been shown to harm parts of the population due to biased predictions. We take a closer look at AI fairness and analyse how lack of AI fairness can lead to deepening of biases over time and act as a social stressor. If the issues persist, it could have undesirable long-term implications on society, reinforced by interactions with other risks. We examine current strategies for improving AI fairness, assess their limitations in terms of real-world deployment, and explore potential paths forward to ensure we reap AI's benefits without harming significant parts of the society. | 翻訳日:2023-04-20 13:27:25 公開日:2023-04-16 |
# 欠損治療情報を用いた条件平均処理効果の推定 Estimating Conditional Average Treatment Effects with Missing Treatment Information ( http://arxiv.org/abs/2203.01422v2 ) ライセンス: Link先を確認 | Milan Kuzmanovic, Tobias Hatt, Stefan Feuerriegel | (参考訳) 条件平均治療効果(CATE)の推定は特に治療情報が欠落している場合に困難である。
これは実際は広く行われている問題であるが、欠損治療によるCATE推定はほとんど注目されていない。
本稿では,共変量シフトの形で固有の課題が生じるような治療の欠如を伴う条件下でのCATE推定を解析する。
私たちの設定では 2つの共変量シフトを識別します
(i)被処理者と対照者との間の共変量シフト
(II)観察群と欠失群の間の共変量の変化。
まず、これらの共変量シフトの効果を、欠損治療によるCATE推定の一般化を導出することにより、理論的に示す。
次に,この境界に動機づけられ,領域適応を用いて共変量の平衡表現を学習する新しいカテゴリー推定アルゴリズムmtrnetを開発した。
バランスの取れた表現を使用することで、MTRNetはデータが完全に観察されていない共変量領域においてより信頼性の高いCATE推定を提供する。
半合成データと実世界のデータを用いた様々な実験において,本アルゴリズムが最先端技術よりも大幅に改善することを示す。 Estimating conditional average treatment effects (CATE) is challenging, especially when treatment information is missing. Although this is a widespread problem in practice, CATE estimation with missing treatments has received little attention. In this paper, we analyze CATE estimation in the setting with missing treatments where unique challenges arise in the form of covariate shifts. We identify two covariate shifts in our setting: (i) a covariate shift between the treated and control population; and (ii) a covariate shift between the observed and missing treatment population. We first theoretically show the effect of these covariate shifts by deriving a generalization bound for estimating CATE in our setting with missing treatments. Then, motivated by our bound, we develop the missing treatment representation network (MTRNet), a novel CATE estimation algorithm that learns a balanced representation of covariates using domain adaptation. By using balanced representations, MTRNet provides more reliable CATE estimates in the covariate domains where the data are not fully observed. In various experiments with semi-synthetic and real-world data, we show that our algorithm improves over the state-of-the-art by a substantial margin. | 翻訳日:2023-04-19 19:10:48 公開日:2023-04-16 |
# レーザー誘起分解分光法におけるリカレントニューラルネットワークと古典的機械学習手法の比較 A comparison between Recurrent Neural Networks and classical machine learning approaches In Laser induced breakdown spectroscopy ( http://arxiv.org/abs/2304.08500v1 ) ライセンス: Link先を確認 | Fatemeh Rezaei, Pouriya Khaliliyan, Mohsen Rezaei, Parvin Karimi, Behnam Ashrafkhani | (参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks)は、時間的動的解析のために、異なるノード間の接続を確立するニューラルネットワークのクラスである。
本研究では, レーザ誘起分解分光法(LIBS)を用いて, 異なるリカレントニューラルネットワーク(RNN)アーキテクチャによるアルミニウム合金の定量分析を行う。
ナノ秒Nd:YAGレーザーパルスの基本高調波(1064nm)を用いて、アルミニウム標準試料の構成濃度を予測するためにLIBSプラズマを生成する。
ここでは、long short term memory(lstm)、gated recurrent unit(gru)、simple recurrent neural network(simple rnn)、およびconv-simplernn、conv-lstm、conv-gruからなるrecurrent convolutional networkなどの異なるネットワークに基づくリカレントニューラルネットワークを用いて濃度予測を行う。
次に、svr(support vector regressor)、mlp(multi layer perceptron)、決定木アルゴリズム( decision tree algorithm)、gbr(gradient boosting regression)、rfr(random forest regression)、線形回帰(linear regression)、k-nearest neighbor(knn)アルゴリズムの古典的な機械学習手法による予測の比較を行う。
その結果、畳み込みリカレントネットワークに基づく機械学習ツールは、他の多変量手法における要素のほとんどを予測するのに最適な効率を示した。 Recurrent Neural Networks are classes of Artificial Neural Networks that establish connections between different nodes form a directed or undirected graph for temporal dynamical analysis. In this research, the laser induced breakdown spectroscopy (LIBS) technique is used for quantitative analysis of aluminum alloys by different Recurrent Neural Network (RNN) architecture. The fundamental harmonic (1064 nm) of a nanosecond Nd:YAG laser pulse is employed to generate the LIBS plasma for the prediction of constituent concentrations of the aluminum standard samples. Here, Recurrent Neural Networks based on different networks, such as Long Short Term Memory (LSTM), Gated Recurrent Unit (GRU), Simple Recurrent Neural Network (Simple RNN), and as well as Recurrent Convolutional Networks comprising of Conv-SimpleRNN, Conv-LSTM and Conv-GRU are utilized for concentration prediction. Then a comparison is performed among prediction by classical machine learning methods of support vector regressor (SVR), the Multi Layer Perceptron (MLP), Decision Tree algorithm, Gradient Boosting Regression (GBR), Random Forest Regression (RFR), Linear Regression, and k-Nearest Neighbor (KNN) algorithm. Results showed that the machine learning tools based on Convolutional Recurrent Networks had the best efficiencies in prediction of the most of the elements among other multivariate methods. | 翻訳日:2023-04-19 17:01:00 公開日:2023-04-16 |
# 言語モデルと記号型解法を組み合わせた計算語問題の解法 Solving Math Word Problems by Combining Language Models With Symbolic Solvers ( http://arxiv.org/abs/2304.09102v1 ) ライセンス: Link先を確認 | Joy He-Yueya, Gabriel Poesia, Rose E. Wang, Noah D. Goodman | (参考訳) 数学語問題に対する高品質なステップバイステップソリューションの自動生成は、教育に多くの応用がある。
近年,大規模言語モデル (LLM) と外部ツールを組み合わせて複雑な推論や計算を行う手法が数学語問題を解く上で有望な方向として登場したが,プログラム支援言語モデル (PAL) のような従来の手法は,単純な手続き的問題に偏り,宣言的推論を必要とする問題に対して効果が低い。
本稿では,変数と方程式の集合として単語問題を段階的に形式化できる LLM と,方程式を解ける外部記号解法を併用する手法を提案する。
提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,Algebra教科書から抽出したより難解な単語問題のデータセットであるALGEBRAでPALを絶対20%上回った。
本研究は,複雑な数学用語問題を解くための外部ツールとの対話において,宣言的表現とインクリメンタル表現を使用することの利点を強調する。
私たちのデータとプロンプトはhttps://github.com/joyheyueya/declarative-math-word-problem.comで公開されています。 Automatically generating high-quality step-by-step solutions to math word problems has many applications in education. Recently, combining large language models (LLMs) with external tools to perform complex reasoning and calculation has emerged as a promising direction for solving math word problems, but prior approaches such as Program-Aided Language model (PAL) are biased towards simple procedural problems and less effective for problems that require declarative reasoning. We propose an approach that combines an LLM that can incrementally formalize word problems as a set of variables and equations with an external symbolic solver that can solve the equations. Our approach achieves comparable accuracy to the original PAL on the GSM8K benchmark of math word problems and outperforms PAL by an absolute 20% on ALGEBRA, a new dataset of more challenging word problems extracted from Algebra textbooks. Our work highlights the benefits of using declarative and incremental representations when interfacing with an external tool for solving complex math word problems. Our data and prompts are publicly available at https://github.com/joyheyueya/declarative-math-word-problem. | 翻訳日:2023-04-19 14:05:06 公開日:2023-04-16 |
# 推薦のためのバンディットアルゴリズムのフィールドテスト:多腕バンディットにおける人間の好みに対する仮定の有効性の理解 A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits ( http://arxiv.org/abs/2304.09088v1 ) ライセンス: Link先を確認 | Liu Leqi, Giulio Zhou, Fatma K{\i}l{\i}n\c{c}-Karzan, Zachary C. Lipton, Alan L. Montgomery | (参考訳) パーソナライズされたレコメンデーションシステムは、我々が読んだメディアと消費するプロダクトを形作る、モダンな生活を妨げている。
このようなシステムを動かすアルゴリズムは、様々なヒューリスティックに選択された予測対象を持つ潜在因子モデルのような教師付き学習に基づくヒューリスティックから成り立っている。
一方、レコメンデーションの理論的治療は、マルチアーム・バンディット(MAB)フレームワークを介して、探索と搾取のバランスを取る必要性を含む、問題の決定論的性質にしばしば対処する。
しかし、MABベースのアプローチは人間の嗜好に関する仮定に大きく依存している。
これらの嗜好の仮定は、そのような研究を行うための公的なツールキットが欠如していることもあって、人間の被験者による研究ではほとんどテストされない。
本研究では,マンガのレコメンデーションマブセットで,群集作業者を対象に研究を行う。
各アームはコミックのカテゴリを表し、ユーザーは推奨後にフィードバックを提供する。
人間の選好(逆分布)が時間とともに固定されているというコアMABの仮定の有効性を確認し、それらが保持されていないことを確認する。
この発見は、レコメンデータシステムに使用される任意のMABアルゴリズムが人間の好みのダイナミクスを考慮すべきであることを示唆している。
これらの疑問に答えつつ、人間の嗜好のダイナミクスを理解し、MABsアルゴリズムをユーザとテストするための柔軟な実験フレームワークを提供する。
実験フレームワークと収集したデータのコードは、https://github.com/HumainLab/ Human-bandit-evaluationで確認できます。 Personalized recommender systems suffuse modern life, shaping what media we read and what products we consume. Algorithms powering such systems tend to consist of supervised learning-based heuristics, such as latent factor models with a variety of heuristically chosen prediction targets. Meanwhile, theoretical treatments of recommendation frequently address the decision-theoretic nature of the problem, including the need to balance exploration and exploitation, via the multi-armed bandits (MABs) framework. However, MAB-based approaches rely heavily on assumptions about human preferences. These preference assumptions are seldom tested using human subject studies, partly due to the lack of publicly available toolkits to conduct such studies. In this work, we conduct a study with crowdworkers in a comics recommendation MABs setting. Each arm represents a comic category, and users provide feedback after each recommendation. We check the validity of core MABs assumptions-that human preferences (reward distributions) are fixed over time-and find that they do not hold. This finding suggests that any MAB algorithm used for recommender systems should account for human preference dynamics. While answering these questions, we provide a flexible experimental framework for understanding human preference dynamics and testing MABs algorithms with human users. The code for our experimental framework and the collected data can be found at https://github.com/HumainLab/human-bandit-evaluation. | 翻訳日:2023-04-19 14:03:42 公開日:2023-04-16 |
# ファウショット学習領域におけるディープラーニングアーキテクチャの概要 An Overview of Deep Learning Architectures in Few-Shot Learning Domain ( http://arxiv.org/abs/2008.06365v4 ) ライセンス: Link先を確認 | Shruti Jadon, Aryan Jadon | (参考訳) 2012年以降、ディープラーニングは人工知能に革命をもたらし、画像分類から音声生成まで、さまざまな分野で最先端の成果を上げてきた。
多くの可能性を秘めていますが、現在のアーキテクチャには大量のデータの前提条件があります。
Few-Shot Learning(ワンショットラーニング、Few-Shot Learning)は、機械学習のサブフィールドであり、人間の学習方法と同様、少ないデータで望ましい目的を学習できるようなモデルを作成することを目的としている。
本稿では,近距離学習への深層学習に基づくアプローチについて概説する。
我々は,最近の成果,課題,および,数少ない学習ベースのディープラーニングアーキテクチャの改善の可能性について論じた。
本論文の目的は3つある。
(i)コア参照へのポインタによる数ショット学習のためのディープラーニングアーキテクチャの簡単な紹介。
2)データ準備からモデルトレーニングに至るまで,低データ体制にディープラーニングがどのように適用されたかを示す。
そして
(iii) 実験に興味のある人にとっては、有用なリソースやオープンソースコードを指摘して、おそらくは少数の学習の分野に貢献するための出発点となる。
私たちのコードはGithubで公開されている。 Since 2012, Deep learning has revolutionized Artificial Intelligence and has achieved state-of-the-art outcomes in different domains, ranging from Image Classification to Speech Generation. Though it has many potentials, our current architectures come with the pre-requisite of large amounts of data. Few-Shot Learning (also known as one-shot learning) is a sub-field of machine learning that aims to create such models that can learn the desired objective with less data, similar to how humans learn. In this paper, we have reviewed some of the well-known deep learning-based approaches towards few-shot learning. We have discussed the recent achievements, challenges, and possibilities of improvement of few-shot learning based deep learning architectures. Our aim for this paper is threefold: (i) Give a brief introduction to deep learning architectures for few-shot learning with pointers to core references. (ii) Indicate how deep learning has been applied to the low-data regime, from data preparation to model training. and, (iii) Provide a starting point for people interested in experimenting and perhaps contributing to the field of few-shot learning by pointing out some useful resources and open-source code. Our code is available at Github: https://github.com/shruti-jadon/Hands-on-One-Shot-Learning. | 翻訳日:2023-04-19 02:08:58 公開日:2023-04-16 |
# 非負核回帰を用いた近傍およびグラフ構成 Neighborhood and Graph Constructions using Non-Negative Kernel Regression ( http://arxiv.org/abs/1910.09383v4 ) ライセンス: Link先を確認 | Sarath Shekkizhar and Antonio Ortega | (参考訳) データ駆動の近所の定義とグラフ構成は、機械学習や信号処理アプリケーションでよく使われる。
k-nearest neighbor~(knn)と$\epsilon$-neighborhoodメソッドは、計算の単純さのため、近所の選択に最もよく使われる方法である。
しかし、k や $\epsilon$ のようなこれらのメソッドに関連するパラメータの選択は、いまだにアドホックである。
この論文には2つの主な貢献がある。
まず,近傍構成がスパース信号近似問題と同値であることを示す,近傍選択の代替的視点を提案する。
第2に,よりスパース表現に繋がる近傍を求めるアルゴリズムとして,非負のカーネル回帰(nnk)を提案する。
NNKは信号表現に対する直交マッチング探索法と類似性があり、望ましい幾何学的および理論的性質を持っている。
実験が示す
(i)近傍およびグラフ構築のためのnnkアルゴリズムのロバスト性
(ii)隣人の数をデータプロパティに適応させる能力、
(iii)地域間およびグラフベースの機械学習タスクにおいて優れた性能を示す。 Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks. | 翻訳日:2023-04-19 02:06:09 公開日:2023-04-16 |
# マルチモーダル目的に対する多目的進化アルゴリズムの理論解析 Theoretical Analyses of Multiobjective Evolutionary Algorithms on Multimodal Objectives ( http://arxiv.org/abs/2012.07231v5 ) ライセンス: Link先を確認 | Weijie Zheng, Benjamin Doerr | (参考訳) MOEAの理論的理解は、実際の成功よりもはるかに遅れている。
特に、以前の理論研究は、主に一助的目的からなる簡単な問題を考える。
マルチモーダル多目的問題に対する進化的アルゴリズムの解法を深く理解するための第一歩として,従来のジャンプ関数ベンチマークに同型な2つの目的からなる双目的問題であるojzj問題を提案する。
ランタイムに関係なく、semoは完全なparetoフロントを計算することができないことを証明します。
対照的に、すべての問題サイズは$n$、すべてのジャンプサイズは${k \in [4.]である。
\frac n2 - 1]}$, グローバルセモ (gsemo) はparetoの前面を想定される数である$\theta((n-2k)n^{k})$の反復でカバーする。
k = o(n)$ に対して、より厳密な境界を持つ $\frac 32 e n^{k+1} \pm o(n^{k+1})$ を示す。
また,gsemoを,単一目的のマルチモーダル問題の利点を示す2つのアプローチと組み合わせた。
重い尾の突然変異演算子でGSEMOを使用する場合、期待されるランタイムは少なくとも$k^{\Omega(k)}$で改善される。
Rajabi と Witt (2022) の最近の停滞検出戦略を GSEMO に適用すると、期待されるランタイムは少なくとも$k^{\Omega(k)}$ の係数で改善され、さらに$k$ の小さな多項式係数で重み付き GSEMO を超える。
実験結果から,これらの漸近的差異は,小さな問題に対してすでに確認されていることが明らかとなった。 重み付き突然変異による5$のスピードアップと,停滞検出による10$のスピードアップは,ジャンプサイズから4$のジャンプサイズですでに観測可能であり,問題サイズは10$から50$である。
以上の結果から,局所最適に対処する単一目的進化アルゴリズムを多目的最適化にも有効に活用できる可能性が示唆された。 The theoretical understanding of MOEAs is lagging far behind their success in practice. In particular, previous theory work considers mostly easy problems that are composed of unimodal objectives. As a first step towards a deeper understanding of how evolutionary algorithms solve multimodal multiobjective problems, we propose the OJZJ problem, a bi-objective problem composed of two objectives isomorphic to the classic jump function benchmark. We prove that SEMO with probability one does not compute the full Pareto front, regardless of the runtime. In contrast, for all problem sizes $n$ and all jump sizes ${k \in [4..\frac n2 - 1]}$, the global SEMO (GSEMO) covers the Pareto front in an expected number of $\Theta((n-2k)n^{k})$ iterations. For $k = o(n)$, we also show the tighter bound $\frac 32 e n^{k+1} \pm o(n^{k+1})$, which might be the first runtime bound for an MOEA that is tight apart from lower-order terms. We also combine the GSEMO with two approaches that showed advantages in single-objective multimodal problems. When using the GSEMO with a heavy-tailed mutation operator, the expected runtime improves by a factor of at least $k^{\Omega(k)}$. When adapting the recent stagnation-detection strategy of Rajabi and Witt (2022) to the GSEMO, the expected runtime also improves by a factor of at least $k^{\Omega(k)}$ and surpasses the heavy-tailed GSEMO by a small polynomial factor in $k$. Via an experimental analysis, we show that these asymptotic differences are visible already for small problem sizes: A factor-$5$ speed-up from heavy-tailed mutation and a factor-$10$ speed-up from stagnation detection can be observed already for jump size~$4$ and problem sizes between $10$ and $50$. Overall, our results show that the ideas recently developed to aid single-objective evolutionary algorithms to cope with local optima can be effectively employed also in multiobjective optimization. | 翻訳日:2023-04-19 01:57:11 公開日:2023-04-16 |
# AdvSim:自動運転車の安全クリティカルシナリオの生成 AdvSim: Generating Safety-Critical Scenarios for Self-Driving Vehicles ( http://arxiv.org/abs/2101.06549v4 ) ライセンス: Link先を確認 | Jingkang Wang, Ava Pun, James Tu, Sivabalan Manivasagam, Abbas Sadat, Sergio Casas, Mengye Ren, Raquel Urtasun | (参考訳) 自動運転システムがより良くなるにつれて、自律的なスタックが失敗するシナリオをシミュレートすることがより重要になる。
伝統的に、これらのシナリオは、基盤となるアクター状態を入力として使用するプランニングモジュールに関して、いくつかのシーンで生成される。
これはスケールせず、閉塞による知覚障害など、あらゆる可能な自律的障害を特定することはできない。
本稿では,LiDARに基づく自律システムにおいて,安全クリティカルなシナリオを生成するための,AdvSimを提案する。
初期トラフィックシナリオが与えられた場合、AdvSimはアクターの軌跡を物理的に妥当な方法で修正し、LiDARセンサーデータを更新して乱れた世界に対応する。
重要なことは、センサデータから直接シミュレートすることで、完全な自律スタックにとって安全なシナリオが得られます。
我々の実験は、我々のアプローチが一般的であり、広範囲の近代自動運転システムに対して意味論的に意味のある安全クリティカルなシナリオを特定できることを示している。
さらに,これらのシステムの堅牢性と安全性は,AdvSimが生成したシナリオを用いてトレーニングすることでさらに向上できることを示す。 As self-driving systems become better, simulating scenarios where the autonomy stack may fail becomes more important. Traditionally, those scenarios are generated for a few scenes with respect to the planning module that takes ground-truth actor states as input. This does not scale and cannot identify all possible autonomy failures, such as perception failures due to occlusion. In this paper, we propose AdvSim, an adversarial framework to generate safety-critical scenarios for any LiDAR-based autonomy system. Given an initial traffic scenario, AdvSim modifies the actors' trajectories in a physically plausible manner and updates the LiDAR sensor data to match the perturbed world. Importantly, by simulating directly from sensor data, we obtain adversarial scenarios that are safety-critical for the full autonomy stack. Our experiments show that our approach is general and can identify thousands of semantically meaningful safety-critical scenarios for a wide range of modern self-driving systems. Furthermore, we show that the robustness and safety of these systems can be further improved by training them with scenarios generated by AdvSim. | 翻訳日:2023-04-19 01:30:34 公開日:2023-04-16 |
# 知識蒸留による軽量深度推定の促進 Boosting Light-Weight Depth Estimation Via Knowledge Distillation ( http://arxiv.org/abs/2105.06143v3 ) ライセンス: Link先を確認 | Junjie Hu, Chenyou Fan, Hualie Jiang, Xiyue Guo, Yuan Gao, Xiangyong Lu, and Tin Lun Lam | (参考訳) 単分子深度推定法(MDE)は、しばしば計算コストが高すぎるか、モデル複雑性と推論性能のトレードオフのため正確ではない。
本稿では,最小計算資源を用いて深度マップを正確に推定する軽量ネットワークを提案する。
モデル複雑性を最大に低減するコンパクトなモデルアーキテクチャを設計することで、これを実現する。
軽量ネットワークの性能向上のために,我々は知識蒸留(KD)技術を採用した。
対象領域の深度マップを正確に推定する専門教師として,大規模なネットワークを考える。
生徒は軽量ネットワークであり、教師の予測を真似るように訓練される。
しかし,このKDプロセスは,教師と生徒のモデル容量の差が大きいため,困難かつ不十分である。
そこで本稿では,KDをガイドする補助的未ラベルデータを用いて,教師の予測から学習しやすくすることを提案する。
このアプローチは教師と生徒のギャップを埋め、データ駆動学習を改善するのに役立つ。
提案手法は,そのパラメータの1%のみを用いながら,最先端手法に匹敵する性能が得られることを示す。
さらに,提案手法は,推定精度,計算効率,一般化可能性に関する従来の軽量手法よりも優れていた。 Monocular depth estimation (MDE) methods are often either too computationally expensive or not accurate enough due to the trade-off between model complexity and inference performance. In this paper, we propose a lightweight network that can accurately estimate depth maps using minimal computing resources. We achieve this by designing a compact model architecture that maximally reduces model complexity. To improve the performance of our lightweight network, we adopt knowledge distillation (KD) techniques. We consider a large network as an expert teacher that accurately estimates depth maps on the target domain. The student, which is the lightweight network, is then trained to mimic the teacher's predictions. However, this KD process can be challenging and insufficient due to the large model capacity gap between the teacher and the student. To address this, we propose to use auxiliary unlabeled data to guide KD, enabling the student to better learn from the teacher's predictions. This approach helps fill the gap between the teacher and the student, resulting in improved data-driven learning. Our extensive experiments show that our method achieves comparable performance to state-of-the-art methods while using only 1% of their parameters. Furthermore, our method outperforms previous lightweight methods regarding inference accuracy, computational efficiency, and generalizability. | 翻訳日:2023-04-19 01:19:29 公開日:2023-04-16 |
# ML4C:潜伏ウイルスによる因果関係 ML4C: Seeing Causality Through Latent Vicinity ( http://arxiv.org/abs/2110.00637v4 ) ライセンス: Link先を確認 | Haoyue Dai, Rui Ding, Yuanyuan Jiang, Shi Han, Dongmei Zhang | (参考訳) Supervised Causal Learning (SCL) は、地上の真理因果関係に関連するデータセットにアクセスすることによって、観測データから因果関係を学習することを目的としている。
本稿では,基本的な問題に対する最初の試みとして,監督によるメリットと,そのメリットについて述べる。
学習対象が事前認識可能でない場合,SCLがランダムな推測よりも優れているという認識から始めて,構造識別可能性を明確に考慮して,SCLの2相パラダイムを提案する。
このパラダイムに従うと、離散データにおけるSCLの問題に取り組み、ML4Cを提案する。
ML4Cの中核は、新しい学習目標を持つ二項分類器であり、unshielded Triple(UT)がv構造であるか否かを分類する。
具体的には、対応する骨格が提供される入力データセットから始まるML4Cは、V構造に分類された後に各UTを向き付ける。
これらのv構造は、最終的な出力を構成するために一緒に使用される。
SCLの基本的問題に対処するため、我々は、所定のUT(例えば、骨格中のUTの隣人)の近傍を利用して、その近傍における条件依存性と構造的絡みを考慮し特徴を導出するML4C成果化の原理的手法を提案する。
さらに,ML4Cが漸近的に正しいことを証明した。
最後に、ベンチマークデータセット上で実施された徹底的な実験は、ML4Cが精度、信頼性、堅牢性、耐久性の点で他の最先端アルゴリズムよりも著しく優れていることを示している。
まとめると、ML4Cは、因果学習における監督の有効性を検証するための有望な結果を示す。
私たちのコードはhttps://github.com/microsoft/ML4Cで公開されています。 Supervised Causal Learning (SCL) aims to learn causal relations from observational data by accessing previously seen datasets associated with ground truth causal relations. This paper presents a first attempt at addressing a fundamental question: What are the benefits from supervision and how does it benefit? Starting from seeing that SCL is not better than random guessing if the learning target is non-identifiable a priori, we propose a two-phase paradigm for SCL by explicitly considering structure identifiability. Following this paradigm, we tackle the problem of SCL on discrete data and propose ML4C. The core of ML4C is a binary classifier with a novel learning target: it classifies whether an Unshielded Triple (UT) is a v-structure or not. Specifically, starting from an input dataset with the corresponding skeleton provided, ML4C orients each UT once it is classified as a v-structure. These v-structures are together used to construct the final output. To address the fundamental question of SCL, we propose a principled method for ML4C featurization: we exploit the vicinity of a given UT (i.e., the neighbors of UT in skeleton), and derive features by considering the conditional dependencies and structural entanglement within the vicinity. We further prove that ML4C is asymptotically correct. Last but foremost, thorough experiments conducted on benchmark datasets demonstrate that ML4C remarkably outperforms other state-of-the-art algorithms in terms of accuracy, reliability, robustness and tolerance. In summary, ML4C shows promising results on validating the effectiveness of supervision for causal learning. Our codes are publicly available at https://github.com/microsoft/ML4C. | 翻訳日:2023-04-19 01:13:49 公開日:2023-04-16 |
# fedchain:フェデレーション学習における最適に近い通信コストのための連鎖アルゴリズム FedChain: Chained Algorithms for Near-Optimal Communication Cost in Federated Learning ( http://arxiv.org/abs/2108.06869v5 ) ライセンス: Link先を確認 | Charlie Hou, Kiran K. Thekumparampil, Giulia Fanti, Sewoong Oh | (参考訳) フェデレートラーニング(FL)は、多くのクライアントに分散した異種データ上でモデルをトレーニングする際のコミュニケーションの複雑さを最小限にすることを目的としている。
一般的なアプローチはローカルメソッドであり、クライアントはサーバ(例えばFedAvg)と通信する前にローカルデータを複数の最適化ステップで処理する。
ローカルメソッドはクライアントのデータ間の類似性を利用することができる。
一方、グローバルな手法では、クライアントは各ラウンド(例えばSGD)で勾配ベクトルを返すだけで、Rの点でより高速に収束するが、クライアントが均質である場合でもクライアント間の類似性を利用できない。
本稿では,クライアント間の類似性を生かしながら,Rの観点から高速収束を実現するために,ローカル手法とグローバル手法の強みを組み合わせたアルゴリズムフレームワークであるFedChainを提案する。
FedChainを用いることで、一般的な凸やPL設定における既知率を改善するアルゴリズムをインスタンス化し、強い凸性を満たす問題に対して(アルゴリズムに依存しない下界を介して)ほぼ最適である。
実証的な結果は、既存の方法よりも理論的に有利である。 Federated learning (FL) aims to minimize the communication complexity of training a model over heterogeneous data distributed across many clients. A common approach is local methods, where clients take multiple optimization steps over local data before communicating with the server (e.g., FedAvg). Local methods can exploit similarity between clients' data. However, in existing analyses, this comes at the cost of slow convergence in terms of the dependence on the number of communication rounds R. On the other hand, global methods, where clients simply return a gradient vector in each round (e.g., SGD), converge faster in terms of R but fail to exploit the similarity between clients even when clients are homogeneous. We propose FedChain, an algorithmic framework that combines the strengths of local methods and global methods to achieve fast convergence in terms of R while leveraging the similarity between clients. Using FedChain, we instantiate algorithms that improve upon previously known rates in the general convex and PL settings, and are near-optimal (via an algorithm-independent lower bound that we show) for problems that satisfy strong convexity. Empirical results support this theoretical gain over existing methods. | 翻訳日:2023-04-19 01:12:03 公開日:2023-04-16 |
# DeliData: マルチパーティ問題解決のための検討データセット DeliData: A dataset for deliberation in multi-party problem solving ( http://arxiv.org/abs/2108.05271v3 ) ライセンス: Link先を確認 | Georgi Karadzhov, Tom Stafford, Andreas Vlachos | (参考訳) グループ審議は人々が協力し、問題解決を可能にするが、資源不足のため未熟である。
この目的のために,500グループ対話と14k発話からなる認知課題を解決するための協調会話を含む最初の公開データセットを提案する。
これらの会話の64%では、グループメンバーが個別に特定したよりも優れた解決策を見つけることができ、43.8%のグループは正しい答えを最終解として、参加者の誰もそのタスクを正しく解決しなかった。
さらに,検討の手がかりを抽出し,注釈付き14k発話をすべて解放する新しいアノテーションスキーマを提案する。
最後に,提案したデータセットを用いて,検討発話を生成する2つの手法の開発と評価を行う。
data collection platform, dataset, annotated corpusはhttps://delibot.xyz.com/で公開されている。 Group deliberation enables people to collaborate and solve problems, however, it is understudied due to a lack of resources. To this end, we introduce the first publicly available dataset containing collaborative conversations on solving a well-established cognitive task, consisting of 500 group dialogues and 14k utterances. In 64% of these conversations, the group members are able to find a better solution than they had identified individually, and in 43.8% of the groups who had a correct answer as their final solution, none of the participants had solved the task correctly by themselves. Furthermore, we propose a novel annotation schema that captures deliberation cues and release all 14k utterances annotated with it. Finally, we use the proposed dataset to develop and evaluate two methods for generating deliberation utterances. The data collection platform, dataset and annotated corpus are publicly available at https://delibot.xyz. | 翻訳日:2023-04-19 01:11:43 公開日:2023-04-16 |
# MRIデータに基づくグリオーマ分類のための説明誘導訓練によるニューラルネットワークモデルの改善 Improving a neural network model by explanation-guided training for glioma classification based on MRI data ( http://arxiv.org/abs/2107.02008v2 ) ライセンス: Link先を確認 | Frantisek Sefcik, Wanda Benesova | (参考訳) 近年,人工知能(AI)システムが最前線に進出している。
これらのシステムは、主にディープラーニング(DL)に基づいており、画像処理、自然言語処理、音声認識などの分野で優れた結果が得られる。
深層学習モデルの統計的に高い精度にもかかわらず、その出力はしばしば「ブラックボックス」の決定である。
このように、解釈可能性法は、ディープラーニングモデルの意思決定プロセスに関する洞察を得るための一般的な方法となっている。
専門家は患者に対する判断を正当化しなければならないため、医学領域では深層学習モデルの説明が望ましい。
本研究では,lrp(layer-wise associated propagation)手法を用いて,画像の関連部分にのみ焦点をあてるようモデルに強制する手法を提案する。
我々は,低次・高次グリオーマ分類問題に対する畳み込みニューラルネットワーク(CNN)モデルを用いて実験を行った。
本実験は,モデル学習過程における解釈手法の活用方法として有望な結果を示す。 In recent years, artificial intelligence (AI) systems have come to the forefront. These systems, mostly based on Deep learning (DL), achieve excellent results in areas such as image processing, natural language processing, or speech recognition. Despite the statistically high accuracy of deep learning models, their output is often a decision of "black box". Thus, Interpretability methods have become a popular way to gain insight into the decision-making process of deep learning models. Explanation of a deep learning model is desirable in the medical domain since the experts have to justify their judgments to the patient. In this work, we proposed a method for explanation-guided training that uses a Layer-wise relevance propagation (LRP) technique to force the model to focus only on the relevant part of the image. We experimentally verified our method on a convolutional neural network (CNN) model for low-grade and high-grade glioma classification problems. Our experiments show promising results in a way to use interpretation techniques in the model training process. | 翻訳日:2023-04-19 01:10:14 公開日:2023-04-16 |
# 逐次実験に対する実測的推論 Counterfactual inference for sequential experiments ( http://arxiv.org/abs/2202.06891v3 ) ライセンス: Link先を確認 | Raaz Dwivedi, Katherine Tian, Sabina Tomkins, Predrag Klasnja, Susan Murphy, Devavrat Shah | (参考訳) 逐次設計実験では,複数の単位が時間とともに適応する治療方針を用いて,複数の時点に対する処理を割り当てることにより,後続の統計的推論を考える。
私たちの目標は、適応的治療方針に関する仮定を最小にし、各ユニットと各時間に対する異なる処置の下での、最小の可能なスケールで、反事実的平均に対する推論保証を提供することです。
反事実的手段に関する構造的な仮定がなければ、この課題は観測されたデータポイントよりも多くの未知のために実現不可能である。
そこで本研究では,非線形混合効果モデルの非パラメトリック一般化と,先行研究で考慮された双線形潜在因子モデルの非パラメトリック一般化として機能する潜在因子モデルを提案する。
推定には,非パラメトリック法,すなわち近接近傍の変種を用い,非漸近高確率誤差(非漸近高確率誤差)を各単位と時間ごとの反実平均に限定する。
正規性条件の下では、この境界は反事実平均に対する漸近的に妥当な信頼区間となり、単位数と時間点が適切な割合で同時に$\infty$となる。
我々は,いくつかのシミュレーションと,モバイル医療臨床試験HeartStepsのデータを含むケーススタディを通して,我々の理論を説明する。 We consider after-study statistical inference for sequentially designed experiments wherein multiple units are assigned treatments for multiple time points using treatment policies that adapt over time. Our goal is to provide inference guarantees for the counterfactual mean at the smallest possible scale -- mean outcome under different treatments for each unit and each time -- with minimal assumptions on the adaptive treatment policy. Without any structural assumptions on the counterfactual means, this challenging task is infeasible due to more unknowns than observed data points. To make progress, we introduce a latent factor model over the counterfactual means that serves as a non-parametric generalization of the non-linear mixed effects model and the bilinear latent factor model considered in prior works. For estimation, we use a non-parametric method, namely a variant of nearest neighbors, and establish a non-asymptotic high probability error bound for the counterfactual mean for each unit and each time. Under regularity conditions, this bound leads to asymptotically valid confidence intervals for the counterfactual mean as the number of units and time points grows to $\infty$ together at suitable rates. We illustrate our theory via several simulations and a case study involving data from a mobile health clinical trial HeartSteps. | 翻訳日:2023-04-19 01:04:10 公開日:2023-04-16 |
# HuMMan:Versatile Sensing and Modelingのためのマルチモーダル4Dヒューマンデータセット HuMMan: Multi-Modal 4D Human Dataset for Versatile Sensing and Modeling ( http://arxiv.org/abs/2204.13686v2 ) ライセンス: Link先を確認 | Zhongang Cai, Daxuan Ren, Ailing Zeng, Zhengyu Lin, Tao Yu, Wenjia Wang, Xiangyu Fan, Yang Gao, Yifan Yu, Liang Pan, Fangzhou Hong, Mingyuan Zhang, Chen Change Loy, Lei Yang, Ziwei Liu | (参考訳) 4Dヒューマンセンシングとモデリングは多くのアプリケーションで視覚とグラフィックの基本的なタスクである。
新しいセンサーとアルゴリズムの進歩により、より汎用的なデータセットの需要が高まっている。
本研究では,1000人の被験者,400kシーケンス,60Mフレームからなる大規模マルチモーダル4DデータセットであるHummanを寄贈する。
HuMManにはいくつかの魅力的な特性がある。
1)色画像,点雲,キーポイント,SMPLパラメータ,テクスチャメッシュを含むマルチモーダルデータ及びアノテーション
2) 一般的なモバイルデバイスは,センサスイートに含まれている。
3) 基本運動をカバーするように設計された一連の500の行動
4) 行動認識, ポーズ推定, パラメトリック・ヒューマン・リカバリ, テクスチャメッシュ再構築などの複数のタスクをサポートし, 評価した。
hummanの広範な実験は、細粒度なアクション認識、ダイナミックなヒューマンメッシュ再構成、ポイントクラウドベースのパラメトリックなヒューマンリカバリ、クロスデバイスドメインギャップといった課題に関するさらなる研究の必要性を訴えている。 4D human sensing and modeling are fundamental tasks in vision and graphics with numerous applications. With the advances of new sensors and algorithms, there is an increasing demand for more versatile datasets. In this work, we contribute HuMMan, a large-scale multi-modal 4D human dataset with 1000 human subjects, 400k sequences and 60M frames. HuMMan has several appealing properties: 1) multi-modal data and annotations including color images, point clouds, keypoints, SMPL parameters, and textured meshes; 2) popular mobile device is included in the sensor suite; 3) a set of 500 actions, designed to cover fundamental movements; 4) multiple tasks such as action recognition, pose estimation, parametric human recovery, and textured mesh reconstruction are supported and evaluated. Extensive experiments on HuMMan voice the need for further study on challenges such as fine-grained action recognition, dynamic human mesh reconstruction, point cloud-based parametric human recovery, and cross-device domain gaps. | 翻訳日:2023-04-19 00:54:10 公開日:2023-04-16 |
# 無効機器による因果推論:機械学習を用いた非線形処理モデルの探索 Causal Inference with Invalid Instruments: Exploring Nonlinear Treatment Models with Machine Learning ( http://arxiv.org/abs/2203.12808v3 ) ライセンス: Link先を確認 | Zijian Guo and Peter B\"uhlmann | (参考訳) 観測実験における因果推論について検討する。
本研究では,2段階曲率同定(two-stage curvature identification, tsci)と呼ばれる新しい手法を提案する。
TSCIの成功は、機器変数の処置に対する効果が、その違反形態と異なることを要求する。
機械学習の潜在的に高い複雑さに起因するバイアスを取り除くために、新しいバイアス補正ステップが実装されている。
提案するtsci推定器は,機械学習アルゴリズムが一貫して処理モデルを推定していない場合でも,漸近的に偏りなく正常であることが示されている。
本研究では,複数の違反形態の中から最良を選択するためのデータ依存型手法を考案する。
我々はTSCIを教育が収益に与える影響の研究に応用する。 We discuss causal inference for observational studies with possibly invalid instrumental variables. We propose a novel methodology called two-stage curvature identification (TSCI), which explores the nonlinear treatment model with machine learning and adjusts for different forms of violating the instrumental variable assumptions. The success of TSCI requires the instrumental variable's effect on treatment to differ from its violation form. A novel bias correction step is implemented to remove bias resulting from potentially high complexity of machine learning. Our proposed TSCI estimator is shown to be asymptotically unbiased and normal even if the machine learning algorithm does not consistently estimate the treatment model. We design a data-dependent method to choose the best among several candidate violation forms. We apply TSCI to study the effect of education on earnings. | 翻訳日:2023-04-19 00:53:01 公開日:2023-04-16 |
# 近隣効果の爆発: ヘテロフィリーグラフのためのConv-Agnostic GNNsフレームワーク Exploiting Neighbor Effect: Conv-Agnostic GNNs Framework for Graphs with Heterophily ( http://arxiv.org/abs/2203.11200v3 ) ライセンス: Link先を確認 | Jie Chen, Shouzhen Chen, Junbin Gao, Zengfeng Huang, Junping Zhang and Jian Pu | (参考訳) グラフ畳み込みネットワーク(GNN)におけるホモフィリー仮定(英語版)により、グラフノード分類タスクにおいて共通するコンセンサスとして、GNNはホモフィリックグラフではうまく機能するが、クラス間のエッジが多数あるヘテロフィリックグラフでは失敗する可能性がある。
しかしながら、以前のクラス間エッジの観点と関連するホモ比の指標は、いくつかの異種データセット下でのGNNのパフォーマンスを十分に説明できないため、クラス間エッジがすべてGNNに有害であるとは限らない。
本稿では, フォン・ノイマンエントロピーに基づく新しい計量法を提案し, GNNのヘテロフィリ問題を再検討し, 近隣の特定可能な全視点からクラス間エッジの特徴集約について検討する。
さらに,各ノードの隣接効果を学習することにより,ヘテロフィリデータセット上でのほとんどのGNNの性能向上を図るため,単純なConv-Agnostic GNNフレームワーク(CAGNN)を提案する。
具体的には、まず各ノードの特徴を下流タスクの判別機能とグラフ畳み込みの集約機能に分離する。
そこで我々は,各ノードの隣り合う効果を適応的に評価し,隣り合う情報を組み込む共有ミキサーモジュールを提案する。
提案するフレームワークはプラグインコンポーネントと見なすことができ、ほとんどのGNNと互換性がある。
9つのよく知られたベンチマークデータセットに関する実験結果は、特にヘテロフィリグラフにおいて、我々のフレームワークがパフォーマンスを大幅に改善できることを示している。
平均パフォーマンス向上率は、ジン、gat、gcnと比較して9.81%、25.81%、および20.61%である。
広範なアブレーション研究とロバストネス分析により,枠組みの有効性,ロバスト性,解釈性がさらに検証された。
コードはhttps://github.com/JC-202/CAGNNで入手できる。 Due to the homophily assumption in graph convolution networks (GNNs), a common consensus in the graph node classification task is that GNNs perform well on homophilic graphs but may fail on heterophilic graphs with many inter-class edges. However, the previous inter-class edges perspective and related homo-ratio metrics cannot well explain the GNNs performance under some heterophilic datasets, which implies that not all the inter-class edges are harmful to GNNs. In this work, we propose a new metric based on von Neumann entropy to re-examine the heterophily problem of GNNs and investigate the feature aggregation of inter-class edges from an entire neighbor identifiable perspective. Moreover, we propose a simple yet effective Conv-Agnostic GNN framework (CAGNNs) to enhance the performance of most GNNs on heterophily datasets by learning the neighbor effect for each node. Specifically, we first decouple the feature of each node into the discriminative feature for downstream tasks and the aggregation feature for graph convolution. Then, we propose a shared mixer module to adaptively evaluate the neighbor effect of each node to incorporate the neighbor information. The proposed framework can be regarded as a plug-in component and is compatible with most GNNs. The experimental results over nine well-known benchmark datasets indicate that our framework can significantly improve performance, especially for the heterophily graphs. The average performance gain is 9.81%, 25.81%, and 20.61% compared with GIN, GAT, and GCN, respectively. Extensive ablation studies and robustness analysis further verify the effectiveness, robustness, and interpretability of our framework. Code is available at https://github.com/JC-202/CAGNN. | 翻訳日:2023-04-19 00:52:48 公開日:2023-04-16 |
# ランドウ反磁性およびデ・ハース・ヴァン・アルフェン効果に及ぼす極小長の影響 Effect of Minimal Length on Landau Diamagnetism and de Haas-van Alphen Effect ( http://arxiv.org/abs/2206.04407v2 ) ライセンス: Link先を確認 | Md. Abhishek, and Bhabani Prasad Mandal | (参考訳) 一般化不確実性原理(GUP)の枠組みとしてランドウ磁気学を考察する。
本研究では, 磁化と磁化率の補正を, ダイアマグネティック材料のグランドパーティション関数を構築して計算する。
キュリーの法則は、量子重力効果が無視されたときに消滅する温度依存的な補正が得られることを示す。
さらに、GUPがデ・ハース=ヴァン・アルフェン効果にどのように影響するかを知るための低温限界についても検討する。 We study Landau diamagnetism in the framework of generalised uncertainty principle(GUP). We calculate the correction to magnetisation and susceptibility by constructing the grand partition function of diamagnetic material in this framework. We explicitly show that Curie's law gets a temperature independent correction which vanishes when quantum gravity effects are neglected. We further consider the low temperature limit to find how GUP affects the de Haas-van Alphen effect. | 翻訳日:2023-04-19 00:44:39 公開日:2023-04-16 |
# jnmr:ビデオフレーム補間のための非線形運動回帰 JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation ( http://arxiv.org/abs/2206.04231v2 ) ライセンス: Link先を確認 | Meiqin Liu, Chenming Xu, Chao Yao, Chunyu Lin, and Yao Zhao | (参考訳) ビデオフレーム補間(VFI)は、双方向の履歴参照から学習可能な動きを歪曲することで予測フレームを生成することを目的としている。
既存の作品の多くは時空間的意味情報抽出器を用いて動き推定と補間モデルを実現している。
しかし、彼らは生成する中間運動の真の機械論的合理性を十分に考慮していない。
本稿では,フレーム間の複雑な動きをモデル化するために,VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
具体的には、ターゲットフレームと多重参照フレーム間の運動軌跡は、多段階二次モデルの時間的連結により回帰される。
ConvLSTMは、時間次元における完全運動のこの結合分布を構築するために用いられる。
さらに、特徴学習ネットワークは、共同回帰モデリングのために最適化されるように設計されている。
繰り返し回帰と補間によって異なる解像度で視覚力学を学習するために、粗大な合成拡張モジュールも実行される。
VFIによる実験結果から, 関節運動の退行効果は最先端法と比較して有意に向上した。 Video frame interpolation (VFI) aims to generate predictive frames by warping learnable motions from the bidirectional historical references. Most existing works utilize spatio-temporal semantic information extractor to realize motion estimation and interpolation modeling. However, they insufficiently consider the real mechanistic rationality of generated middle motions. In this paper, we reformulate VFI as a Joint Non-linear Motion Regression (JNMR) strategy to model the complicated motions of inter-frame. Specifically, the motion trajectory between the target frame and the multiple reference frames is regressed by a temporal concatenation of multi-stage quadratic models. ConvLSTM is adopted to construct this joint distribution of complete motions in temporal dimension. Moreover, the feature learning network is designed to optimize for the joint regression modeling. A coarse-to-fine synthesis enhancement module is also conducted to learn visual dynamics at different resolutions through repetitive regression and interpolation. Experimental results on VFI show that the effectiveness and significant improvement of joint motion regression compared with the state-of-the-art methods. | 翻訳日:2023-04-19 00:44:29 公開日:2023-04-16 |
# MS-RNN:時空間予測学習のための柔軟なマルチスケールフレームワーク MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.03010v4 ) ライセンス: Link先を確認 | Zhifeng Ma, Hao Zhang, and Jie Liu | (参考訳) 深層学習の助けを借りて、過去の知識を通じて将来のフレームを予測する時空間予測学習は、多くの分野で広く使われている。
これまでの作業では,ネットワークの拡大あるいは深化によるモデルパフォーマンスの向上が基本的に行われていたが,メモリオーバーヘッドの増加によって,このテクノロジの開発や適用が著しく妨げられている。
メモリ消費を増大させることなく性能を向上させるため,我々はモデル性能を改善するための別の次元であるスケールに注力する。
この効果は画像分類やセマンティックセグメンテーションといった多くのCNNベースのタスクで広く実証されてきたが、近年のRNNモデルでは十分に研究されていない。
本稿では,マルチスケールの利点から学習し,時空間予測学習のための最近のrnnモデルを強化するために,マルチスケールrnn(ms-rnn)という汎用フレームワークを提案する。
異なるスケールを統合することで、パフォーマンスとオーバーヘッドを大幅に削減し、既存のモデルを強化します。
我々は,8つのRNNモデル(ConvLSTM,TrajGRU,PredRNN,PredRNN++,MIM,MotionRNN,PredRNN-V2,PrecipLSTM)を4つのデータセット(MNIST,TaxiBJ,KTH,ドイツ)で徹底的に実験することによってMS-RNNフレームワークを検証する。
その結果、我々のフレームワークを組み込んだrnnモデルは、メモリコストがずっと低く、性能が以前よりも向上した効率を示しました。
私たちのコードは \url{https://github.com/mazhf/ms-rnn} でリリースされる。 Spatiotemporal predictive learning, which predicts future frames through historical prior knowledge with the aid of deep learning, is widely used in many fields. Previous work essentially improves the model performance by widening or deepening the network, but it also brings surging memory overhead, which seriously hinders the development and application of this technology. In order to improve the performance without increasing memory consumption, we focus on scale, which is another dimension to improve model performance but with low memory requirement. The effectiveness has been widely demonstrated in many CNN-based tasks such as image classification and semantic segmentation, but it has not been fully explored in recent RNN models. In this paper, learning from the benefit of multi-scale, we propose a general framework named Multi-Scale RNN (MS-RNN) to boost recent RNN models for spatiotemporal predictive learning. By integrating different scales, we enhance the existing models with both improved performance and greatly reduced overhead. We verify the MS-RNN framework by exhaustive experiments with eight popular RNN models (ConvLSTM, TrajGRU, PredRNN, PredRNN++, MIM, MotionRNN, PredRNN-V2, and PrecipLSTM) on four different datasets (Moving MNIST, TaxiBJ, KTH, and Germany). The results show the efficiency that the RNN models incorporating our framework have much lower memory cost but better performance than before. Our code is released at \url{https://github.com/mazhf/MS-RNN}. | 翻訳日:2023-04-19 00:44:15 公開日:2023-04-16 |
# 顔認識の精度をデモグラフィックで見る: 問題に光を当てる Face Recognition Accuracy Across Demographics: Shining a Light Into the Problem ( http://arxiv.org/abs/2206.01881v2 ) ライセンス: Link先を確認 | Haiyu Wu, V\'itor Albiero, K. S. Krishnapriya, Michael C. King, Kevin W. Bowyer | (参考訳) 顔の照明の違いによる現象として,人口集団間での顔認識精度の変化を考察する。
制御された画像取得を伴う共通の運用シナリオでは、アフリカ系アメリカ人と白人の間で顔領域の明るさに大きな差があり、男性と女性の差も小さいことが観察される。
両顔に過剰に露出したインポスタイメージペアは,偽一致率(FMR)が増大していることが示唆された。
逆に、顔の明るさが強く異なる画像対は類似度尺度が減少する。
本研究では,顔の明るさの変動を計測するための輝度情報指標を提案し,顔の明るさが低すぎるか高すぎるかが,顔領域の情報が少ないことを示し,精度の低下の原因となった。
これに基づいて、制御された画像取得を伴う運用シナリオでは、各個人が適切な顔画像輝度を得るために照明を調整する必要がある。
これは、一対の顔画像(単一の画像ではなく)における皮膚領域の明るさが、顔認識精度にどのように影響するかを探求し、人口統計学的に不平等な正確さをもたらす体系的要因として評価する最初の研究である。
コードはhttps://github.com/HaiyuWu/FaceBrightnessにある。 We explore varying face recognition accuracy across demographic groups as a phenomenon partly caused by differences in face illumination. We observe that for a common operational scenario with controlled image acquisition, there is a large difference in face region brightness between African-American and Caucasian, and also a smaller difference between male and female. We show that impostor image pairs with both faces under-exposed, or both overexposed, have an increased false match rate (FMR). Conversely, image pairs with strongly different face brightness have a decreased similarity measure. We propose a brightness information metric to measure variation in brightness in the face and show that face brightness that is too low or too high has reduced information in the face region, providing a cause for the lower accuracy. Based on this, for operational scenarios with controlled image acquisition, illumination should be adjusted for each individual to obtain appropriate face image brightness. This is the first work that we are aware of to explore how the level of brightness of the skin region in a pair of face images (rather than a single image) impacts face recognition accuracy, and to evaluate this as a systematic factor causing unequal accuracy across demographics. The code is at https://github.com/HaiyuWu/FaceBrightness. | 翻訳日:2023-04-19 00:43:41 公開日:2023-04-16 |
# 喘息治療適応に基づくAI対応音響パターン認識:RDAベンチマークスイートによる評価 AI-enabled Sound Pattern Recognition on Asthma Medication Adherence: Evaluation with the RDA Benchmark Suite ( http://arxiv.org/abs/2205.15360v3 ) ライセンス: Link先を確認 | Nikos D. Fakotakis, Stavros Nousias, Gerasimos Arvanitis, Evangelia I. Zacharaki, Konstantinos Moustakas | (参考訳) 喘息は一般的な長期呼吸器疾患であり、世界社会や経済に悪影響を及ぼす。
治療には、気道に薬を分配する医療機器(吸入器)を使用し、その効率は吸入技術の精度に依存する。
臨床相談における吸入法の評価には客観的な方法が必要である。
センサを装備した統合型健康監視システムは、インテリジェントな構造から音信号の検出、分析、識別を組み込んだ薬物の作動認識を可能にし、信頼性の高いコンテンツ管理のための強力なツールを提供する。
音響信号検出を組み込んだセンサを備えた健康監視システムは、薬物のアクティベーションの認識を可能にし、効果的なオーディオコンテンツ分析に使用できる。
本稿では,喘息薬の付着度評価のための機械学習技術を用いて音響パターン認識を再検討し,ベンチマークおよびさらなる研究のために呼吸・薬物作動(rda)スイート(https://gitlab.com/vvr/モニター・メディエーション・アドヘレンス/rda-benchmark)を提案する。
RDAスイートには、オーディオ処理、特徴抽出、分類手順のための一連のツールが含まれており、呼吸と薬物の作動音からなるデータセットと共に提供される。
RDAの分類モデルは、従来の機械学習とディープネットワークのアーキテクチャに基づいて実装されている。
本研究は,実施手法の比較評価を行い,潜在的な改善について検討し,課題と今後の傾向について考察する。 Asthma is a common, usually long-term respiratory disease with negative impact on global society and economy. Treatment involves using medical devices (inhalers) that distribute medication to the airways and its efficiency depends on the precision of the inhalation technique. There is a clinical need for objective methods to assess the inhalation technique, during clinical consultation. Integrated health monitoring systems, equipped with sensors, enable the recognition of drug actuation, embedded with sound signal detection, analysis and identification, from intelligent structures, that could provide powerful tools for reliable content management. Health monitoring systems equipped with sensors, embedded with sound signal detection, enable the recognition of drug actuation and could be used for effective audio content analysis. This paper revisits sound pattern recognition with machine learning techniques for asthma medication adherence assessment and presents the Respiratory and Drug Actuation (RDA) Suite (https://gitlab.com/vvr/monitoring-medication-adherence/rda-benchmark) for benchmarking and further research. The RDA Suite includes a set of tools for audio processing, feature extraction and classification procedures and is provided along with a dataset, consisting of respiratory and drug actuation sounds. The classification models in RDA are implemented based on conventional and advanced machine learning and deep networks' architectures. This study provides a comparative evaluation of the implemented approaches, examines potential improvements and discusses on challenges and future tendencies. | 翻訳日:2023-04-19 00:43:05 公開日:2023-04-16 |
# rabiモデルにおける散逸駆動量子相転移のシグネチャ Signatures of Dissipation Driven Quantum Phase Transition in Rabi Model ( http://arxiv.org/abs/2205.11555v2 ) ライセンス: Link先を確認 | G. De Filippis, A. de Candia, G. Di Bello, C. A. Perroni, L. M. Cangemi, A. Nocera, M. Sassetti, R. Fazio, V. Cataudella | (参考訳) ワールドラインモンテカルロ法,行列積状態,変分法を用いて,粘性流体に埋め込まれた線形調和振動子に2レベル系を結合した散逸量子ラビモデルの平衡特性と緩和特性について検討する。
オーミム系では、ベレツィンスキー-コステリッツ-チューレス量子相転移は、2レベル系と発振器の間の結合強度を変化させることで起こる。
これは非摂動的な結果であり、非常に低い放散量でも起こる。
現状の理論的手法を用いて、熱力学平衡に対する緩和の特徴を明らかにし、時間領域と周波数領域の両方で量子相転移のシグネチャを指摘する。
我々は、散逸の低い値と適度な値に対して、量子相転移が深い結合状態において起こることを証明した。
本稿では,フラックス量子ビットと減衰LC発振器を結合することで,このモデルを実現することを提案する。 By using worldline Monte Carlo technique, matrix product state and a variational approach \`a la Feynman, we investigate the equilibrium properties and relaxation features of the dissipative quantum Rabi model, where a two level system is coupled to a linear harmonic oscillator embedded in a viscous fluid. We show that, in the Ohmic regime, a Beretzinski-Kosterlitz-Thouless quantum phase transition occurs by varying the coupling strength between the two level system and the oscillator. This is a non perturbative result, occurring even for extremely low dissipation magnitude. By using state-of-the-art theoretical methods, we unveil the features of the relaxation towards the thermodynamic equilibrium, pointing out the signatures of quantum phase transition both in the time and frequency domains. We prove that, for low and moderate values of the dissipation, the quantum phase transition occurs in the deep strong coupling regime. We propose to realize this model by coupling a flux qubit and a damped LC oscillator. | 翻訳日:2023-04-19 00:42:12 公開日:2023-04-16 |
# 大規模言語モデルにおけるLast-to-Most Promptingによる複雑な推論 Least-to-Most Prompting Enables Complex Reasoning in Large Language Models ( http://arxiv.org/abs/2205.10625v3 ) ライセンス: Link先を確認 | Denny Zhou, Nathanael Sch\"arli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, Ed Chi | (参考訳) 思考の連鎖は様々な自然言語推論タスクにおいて顕著な性能を示した。
しかし、プロンプトに示される例よりも、問題解決が難しいタスクでは、パフォーマンスが悪くなる傾向にある。
この難易度一般化の課題を克服するため、我々は、最小限のプロンプト戦略を提案する。
この戦略の重要なアイデアは、複雑な問題を一連の単純な部分問題に分解し、それらを連続して解くことである。
各サブプロブレムの解決は、以前に解決されたサブプロブレムに対する回答によって促進される。
記号操作, 構成一般化, 数学推論に関わる課題に関する実験結果から, 最小限のプロンプトは, プロンプトで見られるよりも難しい問題に一般化できることがわかった。
注目すべき発見は、GPT-3 のコード-ダヴィンチ-002 モデルが最低限のプロンプトで使用される場合、14の例を用いて少なくとも99%の精度で合成一般化ベンチマークSCANを解き、チェーン・オブ・シンセサイティングではわずか16%の精度で解けることである。
スキャンの解決を専門とする文献のニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体でトレーニングされるため、これは特に注目に値する。
Appendixのすべてのタスクに対するプロンプトも含んでいます。 Chain-of-thought prompting has demonstrated remarkable performance on various natural language reasoning tasks. However, it tends to perform poorly on tasks which requires solving problems harder than the exemplars shown in the prompts. To overcome this challenge of easy-to-hard generalization, we propose a novel prompting strategy, least-to-most prompting. The key idea in this strategy is to break down a complex problem into a series of simpler subproblems and then solve them in sequence. Solving each subproblem is facilitated by the answers to previously solved subproblems. Our experimental results on tasks related to symbolic manipulation, compositional generalization, and math reasoning reveal that least-to-most prompting is capable of generalizing to more difficult problems than those seen in the prompts. A notable finding is that when the GPT-3 code-davinci-002 model is used with least-to-most prompting, it can solve the compositional generalization benchmark SCAN in any split (including length split) with an accuracy of at least 99% using just 14 exemplars, compared to only 16% accuracy with chain-of-thought prompting. This is particularly noteworthy because neural-symbolic models in the literature that specialize in solving SCAN are trained on the entire training set containing over 15,000 examples. We have included prompts for all the tasks in the Appendix. | 翻訳日:2023-04-19 00:41:55 公開日:2023-04-16 |
# エルコスピノルの改訂 Elko spinors revised ( http://arxiv.org/abs/2207.08334v2 ) ライセンス: Link先を確認 | R. Romero | (参考訳) c 個のエルコスピノルが質量を持たないディラック方程式に従うことが示され、単位的にワイル双スピノルに等しい。
したがって、それらは質量次元1の新しいスピノルタイプを構成しない。 It is shown that c-number elko spinors obey the massless Dirac equation and are unitarily equivalent to Weyl bispinors. Therefore, they do not constitute a new spinor type with mass dimension one. | 翻訳日:2023-04-19 00:35:21 公開日:2023-04-16 |
# 有限視野CTによる身体組成評価:意味的画像拡張の観点から Body Composition Assessment with Limited Field-of-view Computed Tomography: A Semantic Image Extension Perspective ( http://arxiv.org/abs/2207.06551v2 ) ライセンス: Link先を確認 | Kaiwen Xu, Thomas Li, Mirza S. Khan, Riqiang Gao, Sanja L. Antic, Yuankai Huo, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman | (参考訳) Field-of-view (FOV) 組織切り離しは、通常肺検診(CT)において一般的である。
このことは、重要な解剖学的構造が欠落しているとして、オパチュニストCTベースの身体組成(BC)の評価に限界をもたらす。
従来,CTのFOVを拡張することは,限られたデータを用いたCT再構成問題と考えられてきた。
しかし、このアプローチはアプリケーションでは利用できないプロジェクションドメインデータに依存します。
本研究では,画像データを入力としてのみ要求する意味的画像拡張の観点から問題を定式化する。
提案した2段階法は,全体の推定範囲に基づいて新しいFOV境界を同定し,脱落した領域の欠損組織を刺激する。
トレーニングサンプルは、FOVで完全な体を持つCTスライスを用いてシミュレーションされ、モデル開発を自己監督する。
FOVを限定した肺検診CTを用いたBCG自動評価における提案手法の有効性を検討した。
提案法は欠損組織を効果的に修復し,FOV組織切断によるBC評価誤差を低減する。
BCによる大規模肺検診用CTデータセットの評価では、この補正により、オブジェクト内一貫性と人為的近似との相関が向上する。
開発方法はhttps://github.com/MASILab/S-EFOV.comで公開されている。 Field-of-view (FOV) tissue truncation beyond the lungs is common in routine lung screening computed tomography (CT). This poses limitations for opportunistic CT- based body composition (BC) assessment as key anatomical structures are missing. Traditionally, extending the FOV of CT is considered as a CT reconstruction problem using limited data. However, this approach relies on the projection domain data which might not be available in application. In this work, we formulate the problem from the semantic image extension perspective which only requires image data as inputs. The proposed two-stage method identifies a new FOV border based on the estimated extent of the complete body and imputes missing tissues in the truncated region. The training samples are simulated using CT slices with complete body in FOV, making the model development self-supervised. We evaluate the validity of the proposed method in automatic BC assessment using lung screening CT with limited FOV. The proposed method effectively restores the missing tissues and reduces BC assessment error introduced by FOV tissue truncation. In the BC assessment for a large-scale lung screening CT dataset, this correction improves both the intra-subject consistency and the correlation with anthropometric approximations. The developed method is available at https://github.com/MASILab/S-EFOV. | 翻訳日:2023-04-19 00:35:00 公開日:2023-04-16 |
# 深部コントラスト1級時系列異常検出 Deep Contrastive One-Class Time Series Anomaly Detection ( http://arxiv.org/abs/2207.01472v3 ) ライセンス: Link先を確認 | Rui Wang, Chongwei Liu, Xudong Mou, Kai Gao, Xiaohui Guo, Pin Liu, Tianyu Wo, Xudong Liu | (参考訳) 時系列データの蓄積とラベルの欠如により、時系列異常検出(AD)は自己教師型ディープラーニングタスクとなる。
正規性の特定の側面のみを明らかにする単一正規性推定法は、多数の異常を伴うタスクが不可能である。
特に、Contrastive Learning (CL) は2つのサンプルからなる負のペア間距離を計算し、AD性能を低下させる。
既存の多正規性推定に基づく手法は通常2段階であり、まずADと異なるタスクを事前訓練し、性能を制限している。
この欠点を克服するために、CLと1クラス分類の正規性仮定に従って、COCA(Contrastive One-class Anomaly Detection of Time Series)の深層コントラスト検出法を提案する。
元の表現と再構成された表現を、正の正の負サンプルのないCL、すなわち「シーケンスコントラスト」として扱う。
次に、不変項と分散項は、仮定の損失を同時に不変項によって最適化し、分散項によって「超球崩壊」が防止される対照的な一級損失関数を構成する。
さらに,2つの実世界の時系列データセットに対する広範な実験により,提案手法の優れた性能が得られた。 The accumulation of time-series data and the absence of labels make time-series Anomaly Detection (AD) a self-supervised deep learning task. Single-normality-assumption-based methods, which reveal only a certain aspect of the whole normality, are incapable of tasks involved with a large number of anomalies. Specifically, Contrastive Learning (CL) methods distance negative pairs, many of which consist of both normal samples, thus reducing the AD performance. Existing multi-normality-assumption-based methods are usually two-staged, firstly pre-training through certain tasks whose target may differ from AD, limiting their performance. To overcome the shortcomings, a deep Contrastive One-Class Anomaly detection method of time series (COCA) is proposed by authors, following the normality assumptions of CL and one-class classification. It treats the original and reconstructed representations as the positive pair of negative-sample-free CL, namely "sequence contrast". Next, invariance terms and variance terms compose a contrastive one-class loss function in which the loss of the assumptions is optimized by invariance terms simultaneously and the "hypersphere collapse" is prevented by variance terms. In addition, extensive experiments on two real-world time-series datasets show the superior performance of the proposed method achieves state-of-the-art. | 翻訳日:2023-04-19 00:34:26 公開日:2023-04-16 |
# 自動テスト生成への機械学習の統合:システムマッピングによる研究 The Integration of Machine Learning into Automated Test Generation: A Systematic Mapping Study ( http://arxiv.org/abs/2206.10210v5 ) ライセンス: Link先を確認 | Afonso Fontes and Gregory Gay | (参考訳) コンテキスト: 機械学習(ML)は効果的な自動テスト生成を可能にする。
目的:我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づけます。
方法: 124の出版物のサンプルに対して体系的なマッピングを行う。
結果:MLはシステム,GUI,ユニット,パフォーマンス,組合せテストの入力を生成したり,既存の生成メソッドのパフォーマンスを向上する。
MLはまた、テストの検証、プロパティベース、期待される出力オラクルを生成するためにも使用される。
監視された学習(ニューラルネットワークと強化学習をベースとすることが多い)は一般的であり、一部の出版物では教師なしあるいは半教師なしの学習も採用されている。
(Semi-/Un-) 従来のテストメトリクスとML関連のメトリクス(例えば精度)の両方を用いて改善されたアプローチを評価する一方、強化学習は報酬関数に関連するテストメトリクスを用いてしばしば評価される。
結論: Work-to-dateは素晴らしい将来性を示していますが、トレーニングデータ、リトレーニング、スケーラビリティ、評価の複雑さ、採用するMLアルゴリズム、ベンチマーク、複製性に関するオープンな課題があります。
私たちの発見は、この分野の研究者にとってロードマップとインスピレーションとなり得る。 Context: Machine learning (ML) may enable effective automated test generation. Objective: We characterize emerging research, examining testing practices, researcher goals, ML techniques applied, evaluation, and challenges. Methods: We perform a systematic mapping on a sample of 124 publications. Results: ML generates input for system, GUI, unit, performance, and combinatorial testing or improves the performance of existing generation methods. ML is also used to generate test verdicts, property-based, and expected output oracles. Supervised learning - often based on neural networks - and reinforcement learning - often based on Q-learning - are common, and some publications also employ unsupervised or semi-supervised learning. (Semi-/Un-)Supervised approaches are evaluated using both traditional testing metrics and ML-related metrics (e.g., accuracy), while reinforcement learning is often evaluated using testing metrics tied to the reward function. Conclusion: Work-to-date shows great promise, but there are open challenges regarding training data, retraining, scalability, evaluation complexity, ML algorithms employed - and how they are applied - benchmarks, and replicability. Our findings can serve as a roadmap and inspiration for researchers in this field. | 翻訳日:2023-04-19 00:33:05 公開日:2023-04-16 |
# 地盤間知覚知識伝達のための漸進的自己蒸留 Progressive Self-Distillation for Ground-to-Aerial Perception Knowledge Transfer ( http://arxiv.org/abs/2208.13404v3 ) ライセンス: Link先を確認 | Junjie Hu and Chenyou Fan and Mete Ozay and Hua Feng and Yuan Gao and Tin Lun Lam | (参考訳) 我々は、ドローンが飛行高度の異なる環境でどのように認識できるかという、現実的な問題はまだ検討されていない。
地上からの認識が常に行われる自動運転とは異なり、飛行中のドローンは、特定のタスクによって飛行高度を柔軟に変化させ、視点不変の知覚能力を必要とする。
教師あり学習でこのような問題に取り組むことは、異なる飛行高度のデータアノテーションに多大なコストをもたらす。
一方,現状の半教師あり学習法は視点差では有効ではない。
本稿では,地上視点のラベル付きデータと飛行視点のラベルなしデータのみを用いて,ドローンの認識を可能にするプログレッシブな半教師付き学習フレームワークを提案する。
私たちのフレームワークには4つのコアコンポーネントがあります。
一 垂直飛行高度の範囲を均等に分散した小片の集合に分割する密集した視点サンプリング戦略
二 最寄りの近傍の視点のラベルを先行の視点で学習したモデルで推測する近接隣人の擬似ラベル
三 視点の相違を緩和するため、異なる視点で拡張画像を生成するミックスビュー
四 最大飛行高度に達するまで段階的に学習する段階的な蒸留戦略
合成データセットと実世界のデータセットを収集し,本手法が合成データセットと実世界において22.2%と16.9%の精度向上をもたらすことを示すために,広範な実験解析を行った。
コードとデータセットはhttps://github.com/FreeformRobotics/Progressive-Self-Distillation-for-Ground-to-Aerial-Perception-Kn owledge-Transferで公開されている。 We study a practical yet hasn't been explored problem: how a drone can perceive in an environment from different flight heights. Unlike autonomous driving, where the perception is always conducted from a ground viewpoint, a flying drone may flexibly change its flight height due to specific tasks, requiring the capability for viewpoint invariant perception. Tackling the such problem with supervised learning will incur tremendous costs for data annotation of different flying heights. On the other hand, current semi-supervised learning methods are not effective under viewpoint differences. In this paper, we introduce the ground-to-aerial perception knowledge transfer and propose a progressive semi-supervised learning framework that enables drone perception using only labeled data of ground viewpoint and unlabeled data of flying viewpoints. Our framework has four core components: i) a dense viewpoint sampling strategy that splits the range of vertical flight height into a set of small pieces with evenly-distributed intervals, ii) nearest neighbor pseudo-labeling that infers labels of the nearest neighbor viewpoint with a model learned on the preceding viewpoint, iii) MixView that generates augmented images among different viewpoints to alleviate viewpoint differences, and iv) a progressive distillation strategy to gradually learn until reaching the maximum flying height. We collect a synthesized and a real-world dataset, and we perform extensive experimental analyses to show that our method yields 22.2% and 16.9% accuracy improvement for the synthesized dataset and the real world. Code and datasets are available on https://github.com/FreeformRobotics/Progressive-Self-Distillation-for-Ground-to-Aerial-Perception-Kn owledge-Transfer. | 翻訳日:2023-04-19 00:26:27 公開日:2023-04-16 |
# マルコフ観測モデル Markov Observation Models ( http://arxiv.org/abs/2208.06368v3 ) ライセンス: Link先を確認 | Michael A. Kouritzin | (参考訳) ここで、隠れマルコフモデルはマルコフ連鎖観測を可能にするために拡張される。
特に、観測は隠れマルコフ鎖に依存する一段階の遷移確率を持つマルコフ連鎖であると仮定される。
ボーム・ウェルチ法(baum-welch algorithm)に対する期待最大化の類似性は、隠れ状態と観測の両方の遷移確率を推定し、また初期結合状態観測分布の確率を推定するために開発された。
隠れた状態を追跡するための信頼状態またはフィルタ再帰は、この期待最大化アルゴリズムの計算から生じる。
ビタビアルゴリズムに類似した動的計画法も開発され、観測の順序から隠れた状態の最も可能性の高いシーケンスを推定する。 Herein, the Hidden Markov Model is expanded to allow for Markov chain observations. In particular, the observations are assumed to be a Markov chain whose one step transition probabilities depend upon the hidden Markov chain. An Expectation-Maximization analog to the Baum-Welch algorithm is developed for this more general model to estimate the transition probabilities for both the hidden state and for the observations as well as to estimate the probabilities for the initial joint hidden-state-observation distribution. A believe state or filter recursion to track the hidden state then arises from the calculations of this Expectation-Maximization algorithm. A dynamic programming analog to the Viterbi algorithm is also developed to estimate the most likely sequence of hidden states given the sequence of observations. | 翻訳日:2023-04-19 00:23:38 公開日:2023-04-16 |
# ビデオ対応のための時空間自己監督学習 Spatial-then-Temporal Self-Supervised Learning for Video Correspondence ( http://arxiv.org/abs/2209.07778v3 ) ライセンス: Link先を確認 | Rui Li, Dong Liu | (参考訳) 低レベルビデオ解析では,映像フレーム間の対応を導出するために効果的な表現が重要である。
これらの表現は、最近のいくつかの研究で注意深く設計された前文タスクを使用して、ラベルのない画像やビデオから自己教師付きで学習されている。
しかし、従来の研究は、空間的識別的特徴または時間的反復的特徴に焦点を合わせ、空間的・時間的手がかりの相乗効果にはほとんど注意を払わない。
この問題に対処するために,時空間型自己教師型学習手法を提案する。
具体的には,無ラベル画像からコントラスト学習により空間的特徴を抽出し,復元的学習により無ラベル映像の時間的手がかりを活用し,その特徴を増強する。
第2段階では,学習者が空間的手がかりを忘れないように大域的相関蒸留損失と局所的相関蒸留損失をデザインし,再構築に影響を及ぼす時間的不連続に対処する。
提案手法は,対応型映像解析タスクにおける実験結果によって確立された,最先端の自己教師あり手法を上回っている。
また, 2段階設計の有効性と蒸留損失を検証するため, アブレーション実験を行った。 In low-level video analyses, effective representations are important to derive the correspondences between video frames. These representations have been learned in a self-supervised fashion from unlabeled images or videos, using carefully designed pretext tasks in some recent studies. However, the previous work concentrates on either spatial-discriminative features or temporal-repetitive features, with little attention to the synergy between spatial and temporal cues. To address this issue, we propose a spatial-then-temporal self-supervised learning method. Specifically, we firstly extract spatial features from unlabeled images via contrastive learning, and secondly enhance the features by exploiting the temporal cues in unlabeled videos via reconstructive learning. In the second step, we design a global correlation distillation loss to ensure the learning not to forget the spatial cues, and a local correlation distillation loss to combat the temporal discontinuity that harms the reconstruction. The proposed method outperforms the state-of-the-art self-supervised methods, as established by the experimental results on a series of correspondence-based video analysis tasks. Also, we performed ablation studies to verify the effectiveness of the two-step design as well as the distillation losses. | 翻訳日:2023-04-19 00:15:33 公開日:2023-04-16 |
# オープンセット認識を改善するための人間の知覚の測定 Measuring Human Perception to Improve Open Set Recognition ( http://arxiv.org/abs/2209.03519v3 ) ライセンス: Link先を確認 | Jin Huang, Derek Prijatelj, Justin Dulay and Walter Scheirer | (参考訳) 対象が特定のビジョンタスクに属するかどうかを認識する人間の能力は、すべてのオープンセット認識アルゴリズムを上回っている。
心理学からの視覚的精神物理学の手法と手順によって測定される人間の知覚は、新規性を管理するアルゴリズムのための追加のデータストリームを提供する。
例えば、被験者から測定された反応時間は、クラスサンプルが既知のものや新しいものとは異なるクラスと混同される傾向にあるかどうかについての洞察を与えることができる。
本研究では,物体認識に関連する20万以上の反応時間測定を収集した大規模行動実験を考案し,実施した。
抽出された反応時間は、サンプルレベルのオブジェクト間で有意義に変化する。
そこで我々は,異なる画像に対して異なる反応時間を示す深層ネットワークにおいて,人間の行動と整合性を示す新しい精神物理学的損失関数を設計した。
バイオビジョンと同様に、このアプローチはラベル付きトレーニングデータに制限のあるレジームにおいて、優れたオープンセット認識性能を達成することができる。
ImageNetのデータを用いた実験により、マルチスケールDenseNetsのトレーニングでは、この新定式化により、トップ1の検証精度が6.02%、既知のサンプルでトップ1のテスト精度が9.81%、未知のサンプルでトップ1のテスト精度が33.18%向上した。
提案手法を文献から10個のオープンセット認識手法と比較し,複数の指標で比較した。 The human ability to recognize when an object belongs or does not belong to a particular vision task outperforms all open set recognition algorithms. Human perception as measured by the methods and procedures of visual psychophysics from psychology provides an additional data stream for algorithms that need to manage novelty. For instance, measured reaction time from human subjects can offer insight as to whether a class sample is prone to be confused with a different class -- known or novel. In this work, we designed and performed a large-scale behavioral experiment that collected over 200,000 human reaction time measurements associated with object recognition. The data collected indicated reaction time varies meaningfully across objects at the sample-level. We therefore designed a new psychophysical loss function that enforces consistency with human behavior in deep networks which exhibit variable reaction time for different images. As in biological vision, this approach allows us to achieve good open set recognition performance in regimes with limited labeled training data. Through experiments using data from ImageNet, significant improvement is observed when training Multi-Scale DenseNets with this new formulation: it significantly improved top-1 validation accuracy by 6.02%, top-1 test accuracy on known samples by 9.81%, and top-1 test accuracy on unknown samples by 33.18%. We compared our method to 10 open set recognition methods from the literature, which were all outperformed on multiple metrics. | 翻訳日:2023-04-19 00:15:00 公開日:2023-04-16 |
# パッチスペースニューラルトランスフォーメーションブレンドによるワンショットディテールリタッチ One-shot Detail Retouching with Patch Space Neural Transformation Blending ( http://arxiv.org/abs/2210.01217v3 ) ライセンス: Link先を確認 | Fazilet Gokbudak and Cengiz Oztireli | (参考訳) 初心者にとって写真編集は、専門知識と高度なツールを必要とするため、難しい作業だ。
写真家はしばしば、複雑な細部を詰め込んだ高品質なリタッチ写真を作るのに多くの時間を費やしている。
本稿では,一対の前後のサンプル画像に基づいて,入力画像の細部を自動的に修正するワンショット学習手法を提案する。
我々のアプローチは、新しい画像への正確かつ一般化可能な詳細編集転送を提供する。
画像マップに画像を表す新しい表現を提案することで、これらを実現する。
具体的には、各周波数帯域に対するパッチ変換を定義するために、パッチ空間にニューラルネットワークベースの変換ブレンディングを提案する。
このアンカー変換とそれに伴う重み付き写像のパラメトリゼーション、および時空間局在パッチは、一般化可能でありながら詳細をうまく捉えることができる。
本手法は既知のグラウンド・トゥルート・フィルタとアーティストによる編集のリタッチの両方で評価する。
本手法は複雑な細部修正編集を正確に転送する。 Photo retouching is a difficult task for novice users as it requires expert knowledge and advanced tools. Photographers often spend a great deal of time generating high-quality retouched photos with intricate details. In this paper, we introduce a one-shot learning based technique to automatically retouch details of an input image based on just a single pair of before and after example images. Our approach provides accurate and generalizable detail edit transfer to new images. We achieve these by proposing a new representation for image to image maps. Specifically, we propose neural field based transformation blending in the patch space for defining patch to patch transformations for each frequency band. This parametrization of the map with anchor transformations and associated weights, and spatio-spectral localized patches, allows us to capture details well while staying generalizable. We evaluate our technique both on known ground truth filters and artist retouching edits. Our method accurately transfers complex detail retouching edits. | 翻訳日:2023-04-19 00:06:24 公開日:2023-04-16 |
# 4個のシリコン量子ドット量子ビットの時間結晶化 Realizable time crystal of four silicon quantum dot qubits ( http://arxiv.org/abs/2209.13649v2 ) ライセンス: Link先を確認 | Nathan L. Foulk and Sankar Das Sarma | (参考訳) 量子フロケ物質の励起可能な実現は、量子ドットに基づく現代のシリコンスピン量子ビット(特に離散時間結晶(DTC))の到達範囲内であることを示す。
これはスピン量子ビットが他の量子ビットアーキテクチャよりもサイズと制御の点で遅れていることを考えると重要である。
しかし、シリコンスピン量子ビットは、通常ゲート操作を阻害する電荷ノイズが、この時間結晶実現の資産として活用できるため、このタスクに特に適している。
熱前現象と真の時間結晶時空間秩序の差異を説明する。
4量子ビットのスピン鎖であっても、離散時間結晶とフロケ対称性で保護されたトポロジカルな状態のサインを熱状態と区別することで、リッチな構造を構築することができる。
また,長い鎖長でこれらのシグネチャの持続性を分析し,dtc寿命がシステム長とともに指数関数的に増大し,これらのシグネチャが3キュービット以下のチェーンでも検出可能であることを示した。
また、より長いパルス持続時間の影響と、交換相互作用をイジングモデルに変換するためのパルスシーケンスの有効性についても論じる。
我々の理論的予測は、既存の量子ドットスピン量子ビットシステムを用いた直接実験の実装に適している。 We demonstrate that exciting possible realizations of quantum Floquet matter are within reach for modern silicon spin qubits based in quantum dots, most notably the discrete time crystal (DTC). This is significant given that spin qubits have fallen behind other qubit architectures in terms of size and control. However, silicon spin qubits are especially well suited to this task as the charge noise that usually foils gate operations can now be leveraged as an asset in this time-crystal realization. We illustrate differences between prethermal phenomena and true time-crystalline spatiotemporal order. We demonstrate that even for a spin chain of four qubits, rich regime structures can be established by observing signatures of the discrete time crystal and the Floquet symmetry-protected topological regime both distinct from the thermal regime. We also analyze the persistence of these signatures at longer chain lengths, showing that the DTC lifetime grows exponentially with the system length and that these signatures may even be detectable for chains as small as three qubits. We also discuss the effects of longer pulse durations and the effectiveness of pulse sequences for converting the exchange interaction to an Ising model. Our theoretical predictions are well suited for immediate experimental implementations using currently existing quantum dot spin qubit systems. | 翻訳日:2023-04-19 00:05:14 公開日:2023-04-16 |
# 楕円形インタフェース問題に対するカスプキャプチャPINN A cusp-capturing PINN for elliptic interface problems ( http://arxiv.org/abs/2210.08424v2 ) ライセンス: Link先を確認 | Yu-Hau Tseng, Te-Sheng Lin, Wei-Fan Hu, Ming-Chih Lai | (参考訳) 本稿では,連続的な解を持つがインターフェース上に不連続な第1微分を持つ不連続・係数楕円型インタフェース問題を解決するために,カスプ捕捉型物理インフォームドニューラルネットワーク(PINN)を提案する。
ニューラルネットワーク表現を用いたそのような解を見出すために,本手法では,クスプ強化レベル設定関数をネットワークへの付加機能入力として導入し,固有の解特性を保ちながら,(導体が不連続な)ソリューションcuspを鋭く捕捉する。
さらに、提案するニューラルネットワークはメッシュフリーの利点があるため、不規則なドメインでの問題を容易に処理できる。
損失関数が微分方程式の残差と特定の界面および境界条件を含む物理学的不定形フレームワークを用いてネットワークを訓練する。
本研究では,カスプキャプチャ手法の有効性とネットワークモデルの精度を実証するために,一連の数値実験を行った。
数値的な結果から,ニューロンの適度な数と十分な訓練データポイントを有する一層層(浅層)ネットワークを用いても,従来の手法に匹敵する予測精度が得られた。
さらに,インターフェース全体に不連続な解が存在する場合,既存のネットワークへのソリューションジャンプ近似に,教師付き学習タスクを組み込むだけでよい。 In this paper, we propose a cusp-capturing physics-informed neural network (PINN) to solve discontinuous-coefficient elliptic interface problems whose solution is continuous but has discontinuous first derivatives on the interface. To find such a solution using neural network representation, we introduce a cusp-enforced level set function as an additional feature input to the network to retain the inherent solution properties; that is, capturing the solution cusps (where the derivatives are discontinuous) sharply. In addition, the proposed neural network has the advantage of being mesh-free, so it can easily handle problems in irregular domains. We train the network using the physics-informed framework in which the loss function comprises the residual of the differential equation together with certain interface and boundary conditions. We conduct a series of numerical experiments to demonstrate the effectiveness of the cusp-capturing technique and the accuracy of the present network model. Numerical results show that even using a one-hidden-layer (shallow) network with a moderate number of neurons and sufficient training data points, the present network model can achieve prediction accuracy comparable with traditional methods. Besides, if the solution is discontinuous across the interface, we can simply incorporate an additional supervised learning task for solution jump approximation into the present network without much difficulty. | 翻訳日:2023-04-18 23:56:44 公開日:2023-04-16 |
# CelebA属性値の一貫性と精度 Consistency and Accuracy of CelebA Attribute Values ( http://arxiv.org/abs/2210.07356v2 ) ライセンス: Link先を確認 | Haiyu Wu, Grace Bezold, Manuel G\"unther, Terrance Boult, Michael C. King, Kevin W. Bowyer | (参考訳) 顔面属性分類の実験的基礎に関する最初の体系的分析を報告する。
属性値を独立に割り当てる2つのアノテータは、40の共通属性のうち12のみが >=95% の一貫性で割り当てられた値であり、3つの(高い頬骨、尖った鼻、楕円形の顔)が本質的にランダムな一貫性を持つことを示している。
セレバでは5,068の重複顔のうち、属性は5,068の重複のうち10から860の値と矛盾している。
CelebAのサブセットを手動で検査したところ、(あご=falseを含まない)最大40%の誤差率が推定された。
より深い分析のために口開き(MSO)を選択すると, (MSO=true) の誤差率を約20%, (MSO=false) を約2%と推定する。
mso属性値の修正版では、以前報告されたmsoよりも精度の高いモデルを学ぶことができる。
CelebA MSOの修正値はhttps://github.com/HaiyuWu/CelebAMSOで入手できる。 We report the first systematic analysis of the experimental foundations of facial attribute classification. Two annotators independently assigning attribute values shows that only 12 of 40 common attributes are assigned values with >= 95% consistency, and three (high cheekbones, pointed nose, oval face) have essentially random consistency. Of 5,068 duplicate face appearances in CelebA, attributes have contradicting values on from 10 to 860 of the 5,068 duplicates. Manual audit of a subset of CelebA estimates error rates as high as 40% for (no beard=false), even though the labeling consistency experiment indicates that no beard could be assigned with >= 95% consistency. Selecting the mouth slightly open (MSO) for deeper analysis, we estimate the error rate for (MSO=true) at about 20% and (MSO=false) at about 2%. A corrected version of the MSO attribute values enables learning a model that achieves higher accuracy than previously reported for MSO. Corrected values for CelebA MSO are available at https://github.com/HaiyuWu/CelebAMSO. | 翻訳日:2023-04-18 23:56:03 公開日:2023-04-16 |
# a family of $\mathbb{z}_n$ toric code におけるトーラスの基底状態縮退 Ground state degeneracy on torus in a family of $\mathbb{Z}_N$ toric code ( http://arxiv.org/abs/2211.00299v3 ) ライセンス: Link先を確認 | Haruki Watanabe, Meng Cheng, Yohei Fuji | (参考訳) 2+1$次元の位相的に順序付けられた位相は、一般的に3つの相互関連した特徴:分数化された(任意の)励起、位相的絡み合いエントロピー、対称性の保護や自発的対称性の破れを必要としないロバストな基底状態の縮退である。
このような縮退はトポロジカル縮退(topological degeneracy)と呼ばれ、通常、各方向のシステムサイズ$L_1$と$L_2$の選択にかかわらず、周期境界条件の下で見ることができる。
この作業では、北エフのトーリックコードの一連の拡張を$N$レベルスピン(N\geq2$)に導入する。
モデルはモデル内のパラメータによって位相的に順序付けられた位相または対称性で保護された位相を実現する。
位相的に順序付けられた位相の最も顕著な特徴は、モデルの翻訳対称性が未破壊のままであるにもかかわらず、基底状態が$L_1$と$L_2$に依存する場合である。
それでも位相的絡み合いエントロピーは非自明な値を取る。
我々は、この行動は、どの種も翻訳する非自明な行動に由来すると論じる。 Topologically ordered phases in $2+1$ dimensions are generally characterized by three mutually-related features: fractionalized (anyonic) excitations, topological entanglement entropy, and robust ground state degeneracy that does not require symmetry protection or spontaneous symmetry breaking. Such degeneracy is known as topological degeneracy and usually can be seen under the periodic boundary condition regardless of the choice of the system size $L_1$ and $L_2$ in each direction. In this work we introduce a family of extensions of the Kitaev toric code to $N$ level spins ($N\geq2$). The model realizes topologically ordered phases or symmetry-protected topological phases depending on parameters in the model. The most remarkable feature of the topologically ordered phases is that the ground state may be unique, depending on $L_1$ and $L_2$, despite that the translation symmetry of the model remains unbroken. Nonetheless, the topological entanglement entropy takes the nontrivial value. We argue that this behavior originates from the nontrivial action of translations permuting anyon species. | 翻訳日:2023-04-18 23:48:37 公開日:2023-04-16 |
# CCG解析と大規模言語モデルを用いた脳構造構築のモデル化 Modeling structure-building in the brain with CCG parsing and large language models ( http://arxiv.org/abs/2210.16147v3 ) ライセンス: Link先を確認 | Milo\v{s} Stanojevi\'c and Jonathan R. Brennan and Donald Dunagan and Mark Steedman and John T. Hale | (参考訳) 自然環境における言語理解の行動と神経の相関をモデル化するために、研究者は自然言語処理から機械学習まで幅広いツールに転換した。
構文構造が明示的にモデル化されている場合、先行研究は主に文脈自由文法(cfg)に依存しているが、そのような形式主義は人間の言語に対して十分に表現できない。
組合せカテゴリー文法(ccgs)は、漸進的な解釈を可能にする柔軟な構成構成性を持つ文法の表現的直接合成モデルである。
本研究では,より表現力に富んだccgが,fmriを用いて収集したヒト神経信号に対してcfgよりも優れたモデルを提供するかを評価する。
さらに、任意の随伴をどう扱うかが異なるCCGの変種をテストします。
これらの評価は、トランスフォーマリンニューラルネットワークモデルから次の単語予測可能性の推定を含むベースラインに対して実行される。
このような比較は、主に左側頭葉におけるCCG構造構築の独特な寄与を明らかにしている: CCG由来の尺度は、CFG由来のものよりも神経信号に適合する。
これらの効果は、予測可能性に特有の両側上の時間的効果とは空間的に異なる。
構造構築におけるニューラルエフェクトは、自然主義的聴取における予測可能性から分離可能であり、これらのエフェクトは、表現力が独立した言語基盤に動機付けられる文法によって最も特徴付けられる。 To model behavioral and neural correlates of language comprehension in naturalistic environments researchers have turned to broad-coverage tools from natural-language processing and machine learning. Where syntactic structure is explicitly modeled, prior work has relied predominantly on context-free grammars (CFG), yet such formalisms are not sufficiently expressive for human languages. Combinatory Categorial Grammars (CCGs) are sufficiently expressive directly compositional models of grammar with flexible constituency that affords incremental interpretation. In this work we evaluate whether a more expressive CCG provides a better model than a CFG for human neural signals collected with fMRI while participants listen to an audiobook story. We further test between variants of CCG that differ in how they handle optional adjuncts. These evaluations are carried out against a baseline that includes estimates of next-word predictability from a Transformer neural network language model. Such a comparison reveals unique contributions of CCG structure-building predominantly in the left posterior temporal lobe: CCG-derived measures offer a superior fit to neural signals compared to those derived from a CFG. These effects are spatially distinct from bilateral superior temporal effects that are unique to predictability. Neural effects for structure-building are thus separable from predictability during naturalistic listening, and those effects are best characterized by a grammar whose expressive power is motivated on independent linguistic grounds. | 翻訳日:2023-04-18 23:47:28 公開日:2023-04-16 |
# Universal Adversarial Directions (英語) Universal Adversarial Directions ( http://arxiv.org/abs/2210.15997v2 ) ライセンス: Link先を確認 | Ching Lam Choi, Farzan Farnia | (参考訳) 画像認識タスクにおいて大きな成功を収めたにもかかわらず、ディープニューラルネットワーク(DNN)は、単一の摂動ベクトルで全ての入力サンプルを摂動する普遍的対向摂動(UAP)の影響を受けやすいことが観察されている。
しかし、UPAはDNNアーキテクチャ間の転送に苦労し、最適化の問題に挑戦する。
本研究では,UAP と分類器の共通対角ゲームにおける平衡を解析し,UAP の転送可能性について検討する。
軽微な仮定の下では、普遍対逆例ゲームは純粋なナッシュ均衡を欠き、DNN分類器間のUPAの準最適移動可能性を示す。
この問題に対処するため, 対人摂動の普遍方向のみを固定し, 対人摂動の大きさをサンプル間で自由に選択できるユニバーサル対人方向(UAD)を提案する。
我々は, UAD対逆例ゲームが純粋な UAD 戦略とナッシュ均衡を持つことを証明し, UAD の移動可能性を示す。
また, uad最適化問題をよく知られた主成分分析 (pca) と結びつけ, 効率的なuad最適化アルゴリズムを開発した。
複数のベンチマーク画像データセット上でUADを評価する。
数値計算の結果,UADは標準勾配のUAPよりも高い転送性を示した。 Despite their great success in image recognition tasks, deep neural networks (DNNs) have been observed to be susceptible to universal adversarial perturbations (UAPs) which perturb all input samples with a single perturbation vector. However, UAPs often struggle in transferring across DNN architectures and lead to challenging optimization problems. In this work, we study the transferability of UAPs by analyzing equilibrium in the universal adversarial example game between the classifier and UAP adversary players. We show that under mild assumptions the universal adversarial example game lacks a pure Nash equilibrium, indicating UAPs' suboptimal transferability across DNN classifiers. To address this issue, we propose Universal Adversarial Directions (UADs) which only fix a universal direction for adversarial perturbations and allow the perturbations' magnitude to be chosen freely across samples. We prove that the UAD adversarial example game can possess a Nash equilibrium with a pure UAD strategy, implying the potential transferability of UADs. We also connect the UAD optimization problem to the well-known principal component analysis (PCA) and develop an efficient PCA-based algorithm for optimizing UADs. We evaluate UADs over multiple benchmark image datasets. Our numerical results show the superior transferability of UADs over standard gradient-based UAPs. | 翻訳日:2023-04-18 23:47:06 公開日:2023-04-16 |
# 例外曲線を囲むダイアボリック点の動的交差:プログラマブル対称非対称マルチモードスイッチ Dynamically crossing diabolic points while encircling exceptional curves: A programmable symmetric-asymmetric multimode switch ( http://arxiv.org/abs/2210.14840v2 ) ライセンス: Link先を確認 | Ievgen I. Arkhipov, Adam Miranowicz, Fabrizio Minganti, \c{S}ahin K. \"Ozdemir, Franco Nori | (参考訳) 非エルミート系の非自明なスペクトル特性は、エルミート系において対応するものなしで興味深い効果をもたらすことができる。
例えば、2モードフォトニックシステムでは、例外点(EP)を動的に巻くことで、制御された非対称モードスイッチングを実現することができる。
つまり、システムは最初の固有モードに関わらず、その固有状態のいずれかに収まるか、単に巻く方向を制御するだけで、要求に応じて2つの状態の間を切り替えることができる。
しかし、高次epまたは複数の低次epを持つマルチモードシステムでは、状況はより深く関与し、非対称モード切替を制御する能力は、断熱性の崩壊によって妨げられる。
ここでは,この難易度を,付加的にダイアボリックな点を横切ることで,例外曲線を巻くことで克服できることを実証する。
このようなマルチモードスイッチを実験的に実現するためのプラットフォームとして,4モード$\cal PT$-symmetric bosonicシステムを考える。
我々の研究は、非エルミートフォトニックセットアップにおける光操作の代替経路を提供する。 Nontrivial spectral properties of non-Hermitian systems can lead to intriguing effects with no counterparts in Hermitian systems. For instance, in a two-mode photonic system, by dynamically winding around an exceptional point (EP) a controlled asymmetric-symmetric mode switching can be realized. That is, the system can either end up in one of its eigenstates, regardless of the initial eigenmode, or it can switch between the two states on demand, by simply controlling the winding direction. However, for multimode systems with higher-order EPs or multiple low-order EPs, the situation can be more involved, and the ability to control asymmetric-symmetric mode switching can be impeded, due to the breakdown of adiabaticity. Here we demonstrate that this difficulty can be overcome by winding around exceptional curves by additionally crossing diabolic points. We consider a four-mode $\cal PT$-symmetric bosonic system as a platform for experimental realization of such a multimode switch. Our work provides alternative routes for light manipulations in non-Hermitian photonic setups. | 翻訳日:2023-04-18 23:46:16 公開日:2023-04-16 |
# 部分格子対称例外点の強化固有ベクトル感度と代数的分類 Enhanced eigenvector sensitivity and algebraic classification of sublattice-symmetric exceptional points ( http://arxiv.org/abs/2211.08449v2 ) ライセンス: Link先を確認 | Kang Yang and Ipsita Mandal | (参考訳) 例外点 (eps) は非エルミート的ハミルトニアンの退化であり、固有値は固有ベクトルとともに合体する。
彼らの命令はヨルダン分解によって与えられる。
ここでは、ハミトロニアンの固有値が$\lbrace E, -E\rbrace $の対に現れることを制限するような、亜格子対称性を持つフェルミオン系で生じる高次EPに焦点を当てる。
したがって、ナイーブ予測はゼロエネルギーでの偶数次epsのみをもたらす可能性がある。
しかし, 奇数次epの存在が示され, 退化点への接近方法にもよるが, 近傍における固有ベクトルの挙動に対する感度が向上することを示した。
奇数次EPは、より高い値と低い値の偶数次EPの混合として理解することができる。
このような異常な振る舞いは、問題のハミルトニアンの部分空間としてのEPの不規則位相と関連しており、これはジョルダンブロックの特異な特徴である。
拡張固有ベクトル感度は、ターゲット固有ベクトルへの量子距離が0に収束する様子を観察することによって記述することができる。
固有ベクトルCoalescenceを捉えるために、これらのEPの存在条件を記述する代数的方法を提案する。
これは、結果物と判別物に基づく以前の研究を補完し、より高次の例外的退化の未探索の構造を提示する。 Exceptional points (EPs) are degeneracy of non-Hermitian Hamiltonians, at which the eigenvalues, along with their eigenvectors, coalesce. Their orders are given by the Jordan decomposition. Here, we focus on higher-order EPs arising in fermionic systems with a sublattice symmetry, which restricts the eigenvalues of the Hamitlonian to appear in pairs of $\lbrace E, -E\rbrace $. Thus, a naive prediction might lead to only even-order EPs at zero energy. However, we show that odd-order EPs can exist and exhibit enhanced sensitivity in the behaviour of eigenvector-coalescence in their neighbourhood, depending on how we approach the degenerate point. The odd-order EPs can be understood as a mixture of higher- and lower-valued even-order EPs. Such an anomalous behaviour is related to the irregular topology of the EPs as the subspace of the Hamiltonians in question, which is a unique feature of the Jordan blocks. The enhanced eigenvector sensitivity can be described by observing how the quantum distance to the target eigenvector converges to zero. In order to capture the eigenvector-coalescence, we provide an algebraic method to describe the conditions for the existence of these EPs. This complements previous studies based on resultants and discriminants, and unveils heretofore unexplored structures of higher-order exceptional degeneracy. | 翻訳日:2023-04-18 23:26:31 公開日:2023-04-16 |
# fullconv-ttsに基づく低リソースモンゴル語テキスト音声合成システム Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based On FullConv-TTS ( http://arxiv.org/abs/2211.01948v3 ) ライセンス: Link先を確認 | Ziqi Liang | (参考訳) リカレントニューラルネットワーク(RNN)はシーケンスデータの標準的なモデリング技術となり、多くの新しい音声合成モデルで使われている。
しかし、RNNコンポーネントを含むTSモデルのトレーニングには、GPUのパフォーマンスに一定の要件があり、長い時間がかかる。
対照的に、CNNに基づくシーケンス合成技術は、高い並列性により一定の性能を確保しつつ、テキスト音声モデルのトレーニング時間を大幅に短縮することを示した。
本稿では,rnnコンポーネント(リカレントユニット)を一切使用しない深層畳み込みニューラルネットワークに基づく新しい音声合成システムを提案する。
同時に, 時間ゆがみ, 周波数マスク, タイムマスクなどのデータ拡張手法により, モデルの汎用性とロバスト性を向上させる。
最後に,CNN成分のみを用いたTSモデルは,合成音声の品質を確保しつつ,タコトロンのような古典的TSモデルと比較してトレーニング時間を短縮できることを示した。 Recurrent Neural Networks (RNNs) have become the standard modeling technique for sequence data, and are used in a number of novel text-to-speech models. However, training a TTS model including RNN components has certain requirements for GPU performance and takes a long time. In contrast, studies have shown that CNN-based sequence synthesis technology can greatly reduce training time in text-to-speech models while ensuring a certain performance due to its high parallelism. We propose a new text-to-speech system based on deep convolutional neural networks that does not employ any RNN components (recurrent units). At the same time, we improve the generality and robustness of our model through a series of data augmentation methods such as Time Warping, Frequency Mask, and Time Mask. The final experimental results show that the TTS model using only the CNN component can reduce the training time compared to the classic TTS models such as Tacotron while ensuring the quality of the synthesized speech. | 翻訳日:2023-04-18 23:24:41 公開日:2023-04-16 |
# 逆摂動に対するマルチインスタンス学習の脆弱性の解釈 Interpreting Vulnerabilities of Multi-Instance Learning to Adversarial Perturbations ( http://arxiv.org/abs/2211.17071v3 ) ライセンス: Link先を確認 | Yu-Xuan Zhang and Hua Meng and Xue-Mei Cao and Zhengchun Zhou and Mei Yang and Avik Ranjan Adhikary | (参考訳) MIL(Multi-Instance Learning)は、画像解析、ビデオ異常検出、テキスト分類など、さまざまなリアルタイムアプリケーションで非常に有用な、最近の機械学習パラダイムである。
既存の機械学習分類器のほとんどは、敵の摂動に対して非常に脆弱であることが知られている。
milは弱い教師付き学習であり、bagと呼ばれる一連のインスタンスで情報を利用できるが、すべてのインスタンスで利用できないため、逆らう摂動は致命的である。
本稿では,MIL手法の脆弱性を解析するために,2つの逆摂動法を提案し,逆摂動の効果を解析した。
2つのアルゴリズムのうち、1つはバッグごとにカスタマイズすることができ、もう1つは普遍的なもので、与えられたデータセット内のすべてのバッグに影響を与えるため、ある程度の一般化性を持つ。
また, シミュレーションにより, 提案アルゴリズムの有効性を示すとともに, 最新技術(SOTA) MIL 手法を騙した。
最後に, 実験を通じて, 単純な戦略により, 対角的摂動に対処する方法について検討した。
ソースコードはhttps://github.com/InkiInki/MI-UAPで入手できる。 Multi-Instance Learning (MIL) is a recent machine learning paradigm which is immensely useful in various real-life applications, like image analysis, video anomaly detection, text classification, etc. It is well known that most of the existing machine learning classifiers are highly vulnerable to adversarial perturbations. Since MIL is a weakly supervised learning, where information is available for a set of instances, called bag and not for every instances, adversarial perturbations can be fatal. In this paper, we have proposed two adversarial perturbation methods to analyze the effect of adversarial perturbations to interpret the vulnerability of MIL methods. Out of the two algorithms, one can be customized for every bag, and the other is a universal one, which can affect all bags in a given data set and thus has some generalizability. Through simulations, we have also shown the effectiveness of the proposed algorithms to fool the state-of-the-art (SOTA) MIL methods. Finally, we have discussed through experiments, about taking care of these kind of adversarial perturbations through a simple strategy. Source codes are available at https://github.com/InkiInki/MI-UAP. | 翻訳日:2023-04-18 23:15:34 公開日:2023-04-16 |
# 逐次インフォームド・フェデレーション・アンラーニング:フェデレーション最適化における効率的かつ証明可能なクライアント・アンラーニング Sequential Informed Federated Unlearning: Efficient and Provable Client Unlearning in Federated Optimization ( http://arxiv.org/abs/2211.11656v2 ) ライセンス: Link先を確認 | Yann Fraboni, Richard Vidal, Laetitia Kameni, Marco Lorenzi | (参考訳) 機械学習(mu)の目的は、訓練手順から与えられたデータポイントの寄与の排除に関する理論的保証を提供することである。
フェデレーテッド・アンラーニング(FU)は、フェデレーテッド・トレーニングルーチンから特定のクライアントの貢献を解放するためにMUを拡張することである。
現在のFUアプローチは一般に拡張性がなく、未学習の有効性の健全な理論的定量化を伴わない。
Informed Federated Unlearning (IFU)は、新しい効率で定量化可能なFUアプローチである。
与えられたクライアントからの未学習要求に対して、IFUは、FLを再起動しなければならない最適なFLイテレーションを特定し、ランダムな摂動機構を通じて未学習の保証を得る。
逐次学習要求を考慮し、ifuの理論も拡張されている。
タスクとデータセットの異なる実験結果から、IFUは基本的な再学習や最先端のFUアプローチと比較して、より効率的な未学習の手順をもたらすことが示された。 The aim of Machine Unlearning (MU) is to provide theoretical guarantees on the removal of the contribution of a given data point from a training procedure. Federated Unlearning (FU) consists in extending MU to unlearn a given client's contribution from a federated training routine. Current FU approaches are generally not scalable, and do not come with sound theoretical quantification of the effectiveness of unlearning. In this work we present Informed Federated Unlearning (IFU), a novel efficient and quantifiable FU approach. Upon unlearning request from a given client, IFU identifies the optimal FL iteration from which FL has to be reinitialized, with unlearning guarantees obtained through a randomized perturbation mechanism. The theory of IFU is also extended to account for sequential unlearning requests. Experimental results on different tasks and dataset show that IFU leads to more efficient unlearning procedures as compared to basic re-training and state-of-the-art FU approaches. | 翻訳日:2023-04-18 23:14:18 公開日:2023-04-16 |
# DEC-QED:超伝導回路および材料へのフラックスに基づく3次元電磁力学モデリングアプローチ DEC-QED: A flux-based 3D electrodynamic modeling approach to superconducting circuits and materials ( http://arxiv.org/abs/2212.12775v3 ) ライセンス: Link先を確認 | Dung N. Pham, Wentao Fan, Michael G. Scheer, Hakan E. T\"ureci | (参考訳) ジョセフソン接合を含む超伝導電子回路の挙動のモデル化は、超伝導情報プロセッサおよびデバイスの設計に不可欠である。
本稿では,ジョセフソン接合を含む超伝導電子回路の電磁力学を任意の3次元電磁環境下でモデル化するためのDEC-QEDを提案する。
DEC-QEDはBCS超伝導体の非線形応答と誘導電流を捉え、マイスナー効果、フラックス量子化、ジョセフソン効果などの現象を正確に捉える。
Discrete Exterior Calculus (DEC) に基づく空間粗粒化定式化を用いて、DEC-QEDは超伝導体の過渡的および長時間のダイナミクスを正確にシミュレートすることができる。
ゲージ不変フラックス場と電荷の観点からの電磁力学問題全体の表現は、古典場理論を第二量子化に適合させる。 Modeling the behavior of superconducting electronic circuits containing Josephson junctions is crucial for the design of superconducting information processors and devices. In this paper, we introduce DEC-QED, a computational approach for modeling the electrodynamics of superconducting electronic circuits containing Josephson junctions in arbitrary three-dimensional electromagnetic environments. DEC-QED captures the non-linear response and induced currents in BCS superconductors and accurately captures phenomena such as the Meissner effect, flux quantization and Josephson effects. Using a spatial coarse-graining formulation based on Discrete Exterior Calculus (DEC), DEC-QED can accurately simulate transient and long-time dynamics in superconductors. The expression of the entire electrodynamic problem in terms of the gauge-invariant flux field and charges makes the resulting classical field theory suitable for second quantization. | 翻訳日:2023-04-18 21:31:14 公開日:2023-04-16 |
# 音声中心の信頼できる機械学習:プライバシ、安全性、公正性 A Review of Speech-centric Trustworthy Machine Learning: Privacy, Safety, and Fairness ( http://arxiv.org/abs/2212.09006v2 ) ライセンス: Link先を確認 | Tiantian Feng and Rajat Hebbar and Nicholas Mehlman and Xuan Shi and Aditya Kommineni and and Shrikanth Narayanan | (参考訳) 音声中心の機械学習システムは、交通、医療、教育、防衛など、多くの主要な分野に革命をもたらし、人々の生活、働き方、相互作用の仕方を大きく変えた。
しかし、近年の研究では、多くの音声中心のMLシステムはより広範な展開に適していると考えられる必要があることが示されている。
具体的には、プライバシ侵害、パフォーマンスの識別、敵の攻撃に対する脆弱性に関する懸念が、すべてML研究分野で発見されている。
上記の課題とリスクに対処するために、これらのMLシステムが信頼性、特にプライベート、セーフ、フェアであることを保証するために、かなりの数の努力がなされている。
本稿では、プライバシ、安全性、公正性に関連する音声中心の信頼できるMLトピックに関する総合的な調査を行う。
研究コミュニティの要約としての役割に加えて,この領域でさらなる研究を希望する研究者に刺激を与える,将来有望な研究の方向性を指摘する。 Speech-centric machine learning systems have revolutionized many leading domains ranging from transportation and healthcare to education and defense, profoundly changing how people live, work, and interact with each other. However, recent studies have demonstrated that many speech-centric ML systems may need to be considered more trustworthy for broader deployment. Specifically, concerns over privacy breaches, discriminating performance, and vulnerability to adversarial attacks have all been discovered in ML research fields. In order to address the above challenges and risks, a significant number of efforts have been made to ensure these ML systems are trustworthy, especially private, safe, and fair. In this paper, we conduct the first comprehensive survey on speech-centric trustworthy ML topics related to privacy, safety, and fairness. In addition to serving as a summary report for the research community, we point out several promising future research directions to inspire the researchers who wish to explore further in this area. | 翻訳日:2023-04-18 21:30:34 公開日:2023-04-16 |
# セマンティックスを駆使したコミュニケーション:テュートリアル・クム・サーベイ Semantics-Empowered Communication: A Tutorial-cum-Survey ( http://arxiv.org/abs/2212.08487v3 ) ライセンス: Link先を確認 | Zhilin Lu, Rongpeng Li, Kun Lu, Xianfu Chen, Ekram Hossain, Zhifeng Zhao, and Honggang Zhang | (参考訳) セマンティクス・エミュレーション・コミュニケーション(semcom, semantics-empowered communication, semcom)研究の興隆とともに、学界と産業の両方において、幅広い側面(理論、応用、メトリクス、実装など)に対する前例のない関心が高まっている。
本研究の目的は,背景分類学と研究分類学の両方に関する総合的な調査と,詳細な技術チュートリアルを提供することである。
具体的には、文献をレビューし、意味伝達における「何」と「なぜ」の質問に答えることから始める。
その後,semcomのエコシステムとして,歴史,理論,メトリクス,データセット,ツールキットを提示し,その上で研究の方向性を分類する。
さらに, 明示的かつ暗黙的な推論に基づく手法により, 重要な実現手法を分類し, それらがどのように進化し, 現代的コンテントとチャネルセマンティクスを用いたコミュニケーションに寄与するかを詳述する。
セムコムにおける最新の取り組みの見直しと要約に加えて、包括的で統一された視点から他のコミュニケーションレベル(例えば、従来のコミュニケーション)との関係について論じる。
その後、今後の開発や工業的応用を促進するために、セマンティックな正確性、堅牢性、大規模スケーラビリティを高めるための先進的な実践技術を強調します。
最後に,今後の研究機会に光を当てた技術的課題について論じる。 Along with the springing up of the semantics-empowered communication (SemCom) research, it is now witnessing an unprecedentedly growing interest towards a wide range of aspects (e.g., theories, applications, metrics and implementations) in both academia and industry. In this work, we primarily aim to provide a comprehensive survey on both the background and research taxonomy, as well as a detailed technical tutorial. Specifically, we start by reviewing the literature and answering the "what" and "why" questions in semantic transmissions. Afterwards, we present the ecosystems of SemCom, including history, theories, metrics, datasets and toolkits, on top of which the taxonomy for research directions is presented. Furthermore, we propose to categorize the critical enabling techniques by explicit and implicit reasoning-based methods, and elaborate on how they evolve and contribute to modern content & channel semantics-empowered communications. Besides reviewing and summarizing the latest efforts in SemCom, we discuss the relations with other communication levels (e.g., conventional communications) from a holistic and unified viewpoint. Subsequently, in order to facilitate future developments and industrial applications, we also highlight advanced practical techniques for boosting semantic accuracy, robustness, and large-scale scalability, just to mention a few. Finally, we discuss the technical challenges that shed light on future research opportunities. | 翻訳日:2023-04-18 21:30:19 公開日:2023-04-16 |
# N$Dにおける長距離依存性のモデル化:タスク特化から汎用CNNへ Modelling Long Range Dependencies in $N$D: From Task-Specific to a General Purpose CNN ( http://arxiv.org/abs/2301.10540v2 ) ライセンス: Link先を確認 | David M. Knigge, David W. Romero, Albert Gu, Efstratios Gavves, Erik J. Bekkers, Jakub M. Tomczak, Mark Hoogendoorn, Jan-Jakob Sonke | (参考訳) 適応畳み込みニューラルネットワーク(CNN)アーキテクチャは、入力データの長さ、解像度、次元性を考慮するために、特定のタスクに合わせる必要がある。
本研究では,問題固有のCNNアーキテクチャの必要性に対処する。
連続畳み込みニューラルネットワーク(CCNN:Continuous Convolutional Neural Network)は、任意の解像度、次元、長さのデータを処理することができる単一のCNNである。
主要なコンポーネントは連続的な畳み込みカーネルで、各レイヤにおける長距離依存関係をモデル化し、タスク依存のダウンサンプリングと深さに対する現在のCNNアーキテクチャの必要性を取り除く。
我々は,同じアーキテクチャを用いて,逐次($1{\rm D}$),ビジュアル($2{\rm D}$)およびポイントクラウド($3{\rm D}$)上のタスクに対して,本手法の汎用性を示す。
私たちのCCNNは、検討されたすべてのタスクにおいて、現在の最先端よりも優れています。 Performant Convolutional Neural Network (CNN) architectures must be tailored to specific tasks in order to consider the length, resolution, and dimensionality of the input data. In this work, we tackle the need for problem-specific CNN architectures. We present the Continuous Convolutional Neural Network (CCNN): a single CNN able to process data of arbitrary resolution, dimensionality and length without any structural changes. Its key component are its continuous convolutional kernels which model long-range dependencies at every layer, and thus remove the need of current CNN architectures for task-dependent downsampling and depths. We showcase the generality of our method by using the same architecture for tasks on sequential ($1{\rm D}$), visual ($2{\rm D}$) and point-cloud ($3{\rm D}$) data. Our CCNN matches and often outperforms the current state-of-the-art across all tasks considered. | 翻訳日:2023-04-18 21:23:28 公開日:2023-04-16 |
# 雑音ラベル学習における識別可能性に向けて:多項混合アプローチ Towards the Identifiability in Noisy Label Learning: A Multinomial Mixture Approach ( http://arxiv.org/abs/2301.01405v2 ) ライセンス: Link先を確認 | Cuong Nguyen, Thanh-Toan Do, Gustavo Carneiro | (参考訳) 雑音ラベル(LNL)からの学習は、ディープラーニングにおいて重要な役割を果たす。
最も有望なLNLメソッドは、ノイズの多いアノテーションでデータセットからクリーンなラベルサンプルを特定することに依存する。
単一ノイズラベルを仮定する従来のLNL問題は、クリーンラベルが理論的には追加のヒューリスティックなしでは推定できないため、このような識別は困難である。
本稿では,多項混合モデルを用いてこの識別可能性問題を公式に検討し,問題を特定するための制約を決定することを目的とする。
具体的には、LNL の問題は、インスタンス毎に少なくとも 2C - 1$ のノイズラベルがあり、$C$ がクラスの数である場合、特定できる。
この要件を満たすため,各インスタンスに2ドル(2ドル)のアノテーションを追加することなく,近隣住民の雑音分布を推定することにより,新たなノイズラベルを自動的に生成する手法を提案する。
これらのノイズラベルを追加することで、期待最大化アルゴリズムを用いて、クリーンラベルの後方確率を推定し、興味のあるモデルをトレーニングすることができる。
提案手法は, 合成, ウェブ制御, 実世界のラベルノイズを含む複数のラベル評価ベンチマークにおいて, ヒューリスティクスを使わずにクリーンラベルを推定できることを示す。
さらに,本手法は多くの最先端手法と競合する。 Learning from noisy labels (LNL) plays a crucial role in deep learning. The most promising LNL methods rely on identifying clean-label samples from a dataset with noisy annotations. Such an identification is challenging because the conventional LNL problem, which assumes a single noisy label per instance, is non-identifiable, i.e., clean labels cannot be estimated theoretically without additional heuristics. In this paper, we aim to formally investigate this identifiability issue using multinomial mixture models to determine the constraints that make the problem identifiable. Specifically, we discover that the LNL problem becomes identifiable if there are at least $2C - 1$ noisy labels per instance, where $C$ is the number of classes. To meet this requirement without relying on additional $2C - 2$ manual annotations per instance, we propose a method that automatically generates additional noisy labels by estimating the noisy label distribution based on nearest neighbours. These additional noisy labels enable us to apply the Expectation-Maximisation algorithm to estimate the posterior probabilities of clean labels, which are then used to train the model of interest. We empirically demonstrate that our proposed method is capable of estimating clean labels without any heuristics in several label noise benchmarks, including synthetic, web-controlled, and real-world label noises. Furthermore, our method performs competitively with many state-of-the-art methods. | 翻訳日:2023-04-18 21:20:28 公開日:2023-04-16 |
# クリップ駆動による臓器分節・腫瘍検出のためのユニバーサルモデル CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection ( http://arxiv.org/abs/2301.00785v3 ) ライセンス: Link先を確認 | Jie Liu, Yixiao Zhang, Jie-Neng Chen, Junfei Xiao, Yongyi Lu, Bennett A. Landman, Yixuan Yuan, Alan Yuille, Yucheng Tang, Zongwei Zhou | (参考訳) 公共データセットの増加は、自動臓器分割と腫瘍検出に顕著な影響を与えている。
しかし、各データセットの小さなサイズと部分的にラベル付けされた問題、および様々な種類の腫瘍の限られた調査のため、結果のモデルは特定の臓器や腫瘍の分節化と解剖学的構造の意味論の無視に制限されることが多く、新しい領域に拡張することもできない。
そこで本研究では,clip(con contrastive language-image pre-training)から学習したテキスト埋め込みをセグメンテーションモデルに組み込む,クリップ駆動ユニバーサルモデルを提案する。
このクリップベースのラベルエンコーディングは解剖学的関係を捉え、25の臓器と6種類の腫瘍の構造的特徴を学習することができる。
提案モデルは14のデータセットの集合から開発され、合計3,410個のCTスキャンを使用してトレーニングを行い、3つの追加データセットから6,162個の外部CTスキャンで評価する。
医用セグメンテーション・デスロン(MSD)の公開リーダーボードにランクインし、BTCV(Beyond The Cranial Vault)で最先端の結果を得る。
さらに、Universal Modelはデータセット固有のモデルに比べて計算効率が良く(6倍高速)、様々なサイトからのCTスキャンより一般化され、新しいタスクにおいてより強力な転送学習性能を示す。 An increasing number of public datasets have shown a marked impact on automated organ segmentation and tumor detection. However, due to the small size and partially labeled problem of each dataset, as well as a limited investigation of diverse types of tumors, the resulting models are often limited to segmenting specific organs/tumors and ignore the semantics of anatomical structures, nor can they be extended to novel domains. To address these issues, we propose the CLIP-Driven Universal Model, which incorporates text embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models. This CLIP-based label encoding captures anatomical relationships, enabling the model to learn a structured feature embedding and segment 25 organs and 6 types of tumors. The proposed model is developed from an assembly of 14 datasets, using a total of 3,410 CT scans for training and then evaluated on 6,162 external CT scans from 3 additional datasets. We rank first on the Medical Segmentation Decathlon (MSD) public leaderboard and achieve state-of-the-art results on Beyond The Cranial Vault (BTCV). Additionally, the Universal Model is computationally more efficient (6x faster) compared with dataset-specific models, generalized better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. | 翻訳日:2023-04-18 21:20:04 公開日:2023-04-16 |
# マルチエージェント強化学習における効率的探索のためのアンサンブル値関数 Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.03439v5 ) ライセンス: Link先を確認 | Lukas Sch\"afer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V. Albrecht, David Mguni | (参考訳) 協調型マルチエージェント強化学習(MARL)は、エージェントが協力することを学ぶ必要がある。
既存の値ベースのMARLアルゴリズムは、例えば$\epsilon$-greedyのようなランダムな探索に依存している。
さらに、MARLの環境は他のエージェントの同時訓練により、個々のエージェントに非定常的に現れ、高度に変動し不安定な最適化信号をもたらす。
本稿では,任意の値に基づくmarlアルゴリズムを拡張する汎用フレームワークであるマルチエージェント探索(emax)のためのアンサンブル値関数を提案する。
EMAXは、各エージェントに対する価値関数のアンサンブルを訓練し、探索と非定常性の鍵となる課題に対処する: 1) アンサンブル全体における価値推定の不確実性は、エージェントの探索を協調を必要とする環境の一部に導くためのUCBポリシーで使用される。
2)アンサンブル全体の平均値の推定値がターゲット値となる。
これらのターゲットは,一般のターゲットネットワークに比べてばらつきが低く,最適化時により安定した勾配を示す。
EMAX,独立DQN,VDN,QMIXの3つの値ベースMARLアルゴリズムをインスタンス化し、4つの環境における21のタスクで評価する。
5つの値関数のアンサンブルを使用して、EMAXは、21タスクの平均で、これらのアルゴリズムのサンプル効率と最終的な評価リターンを53%、36%、498%改善する。 Cooperative multi-agent reinforcement learning (MARL) requires agents to explore to learn to cooperate. Existing value-based MARL algorithms commonly rely on random exploration, such as $\epsilon$-greedy, which is inefficient in discovering multi-agent cooperation. Additionally, the environment in MARL appears non-stationary to any individual agent due to the simultaneous training of other agents, leading to highly variant and thus unstable optimisation signals. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to extend any value-based MARL algorithm. EMAX trains ensembles of value functions for each agent to address the key challenges of exploration and non-stationarity: (1) The uncertainty of value estimates across the ensemble is used in a UCB policy to guide the exploration of agents to parts of the environment which require cooperation. (2) Average value estimates across the ensemble serve as target values. These targets exhibit lower variance compared to commonly applied target networks and we show that they lead to more stable gradients during the optimisation. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 53%, 36%, and 498%, respectively, averaged all 21 tasks. | 翻訳日:2023-04-18 21:14:21 公開日:2023-04-16 |
# KNOD: 自動プログラム修復のためのドメイン知識蒸留木デコーダ KNOD: Domain Knowledge Distilled Tree Decoder for Automated Program Repair ( http://arxiv.org/abs/2302.01857v3 ) ライセンス: Link先を確認 | Nan Jiang, Thibaud Lutellier, Yiling Lou, Lin Tan, Dan Goldwasser, and Xiangyu Zhang | (参考訳) APR(Automated Program repair)は、バグ修正プログラム用のパッチを自動生成することで、ソフトウェアの信頼性を向上させる。
最近のAPR技術は、ディープラーニング(DL)を利用して、既存のパッチやコードコーパスからパッチを生成するためのモデルを構築する。
有望ではあるが、DLベースのAPR技術は、パッチ空間の構文的にも意味的にも不正確なパッチに悩まされている。
これらのパッチは、しばしばソースコードの構文的および意味的なドメイン知識に反するので、バグを修正するための正しいパッチにはならない。
我々は、ドメイン知識を取り入れたDLベースのAPRアプローチKNODを提案し、パッチ生成を直接的かつ包括的にガイドする。
KNOD には,(1) 固有の木構造に従ってパッチされたコードの抽象構文木を直接生成する新しい3段階木デコーダ,(2) 統語的・意味論的ルールと教師-学生分布を活用して,訓練と推論の段階でドメイン知識をデコード手順に明示的に注入する新規ドメインルール蒸留という2つの特徴がある。
広範に使用されている3つのベンチマークでKNODを評価する。
KNODはDefects4J v1.2の72のバグ、QuixBugsの25のバグ、Defects4J v2.0ベンチマークの50のバグを修正し、既存のAPRツールを上回っている。 Automated Program Repair (APR) improves software reliability by generating patches for a buggy program automatically. Recent APR techniques leverage deep learning (DL) to build models to learn to generate patches from existing patches and code corpora. While promising, DL-based APR techniques suffer from the abundant syntactically or semantically incorrect patches in the patch space. These patches often disobey the syntactic and semantic domain knowledge of source code and thus cannot be the correct patches to fix a bug. We propose a DL-based APR approach KNOD, which incorporates domain knowledge to guide patch generation in a direct and comprehensive way. KNOD has two major novelties, including (1) a novel three-stage tree decoder, which directly generates Abstract Syntax Trees of patched code according to the inherent tree structure, and (2) a novel domain-rule distillation, which leverages syntactic and semantic rules and teacher-student distributions to explicitly inject the domain knowledge into the decoding procedure during both the training and inference phases. We evaluate KNOD on three widely-used benchmarks. KNOD fixes 72 bugs on the Defects4J v1.2, 25 bugs on the QuixBugs, and 50 bugs on the additional Defects4J v2.0 benchmarks, outperforming all existing APR tools. | 翻訳日:2023-04-18 21:13:07 公開日:2023-04-16 |
# 画像認識のための一般化ハイブリッド表現の学習 Learning Generalized Hybrid Proximity Representation for Image Recognition ( http://arxiv.org/abs/2301.13459v2 ) ライセンス: Link先を確認 | Zhiyuan Li, Anca Ralescu | (参考訳) 近年,学習距離表現がサンプル間の類似度関係を捉え,教師なし・教師なし学習タスクの性能向上に有用であることから,ディープメトリック学習手法が注目されている。
画像認識のための幾何空間と確率空間の両方で距離メトリクスを学習できる新しい教師付き距離学習法を提案する。
ユークリッド空間における距離指標の学習に重点を置く従来の計量学習法とは対照的に,提案手法はハイブリッド手法でより優れた距離表現を学習することができる。
これを実現するために,画像データから一般ハイブリッド近接特徴を学習するための一般化ハイブリッドメトリック損失(ghm-loss)を提案し,幾何学的近接と確率的近接とのトレードオフを制御した。
提案手法の有効性を評価するため,まず,提案した損失関数の理論的導出と証明を行い,提案手法の利点を他の最先端メトリック学習法と比較して示すために2つの公開データセットに対して広範な実験を行った。 Recently, deep metric learning techniques received attention, as the learned distance representations are useful to capture the similarity relationship among samples and further improve the performance of various of supervised or unsupervised learning tasks. We propose a novel supervised metric learning method that can learn the distance metrics in both geometric and probabilistic space for image recognition. In contrast to the previous metric learning methods which usually focus on learning the distance metrics in Euclidean space, our proposed method is able to learn better distance representation in a hybrid approach. To achieve this, we proposed a Generalized Hybrid Metric Loss (GHM-Loss) to learn the general hybrid proximity features from the image data by controlling the trade-off between geometric proximity and probabilistic proximity. To evaluate the effectiveness of our method, we first provide theoretical derivations and proofs of the proposed loss function, then we perform extensive experiments on two public datasets to show the advantage of our method compared to other state-of-the-art metric learning methods. | 翻訳日:2023-04-18 21:11:41 公開日:2023-04-16 |
# 仮想エージェントのためのE2Eスポットエンティティ抽出 E2E Spoken Entity Extraction for Virtual Agents ( http://arxiv.org/abs/2302.10186v5 ) ライセンス: Link先を確認 | Karan Singla, Yeon-Jun Kim | (参考訳) 本稿では,音声エンコーダを用いた音声処理のいくつかの側面を再考する。
人間のコンピュータによる会話では、名前や住所、メールアドレスなどのエンティティを音声から抽出することが難しい。
本稿では, テキストの書き起こしを必要とせずに, 音声読取可能な音声の実体を直接抽出する, 微調整事前学習音声エンコーダの効果について検討する。
このような直接的なアプローチは、キャリヤフレーズやスペル名エンティティなどの過剰な部分を無視した音声のエンティティ関連部分のみを転写するエンコーダを最適化する。
企業仮想エージェントからの対話の文脈において、1段階のアプローチは、まず語彙的転写を生成し、その後にテキストベースのエンティティ抽出によって音声エンティティを識別する典型的な2段階のアプローチよりも優れていることを実証する。 This paper rethink some aspects of speech processing using speech encoders, specifically about extracting entities directly from speech, without intermediate textual representation. In human-computer conversations, extracting entities such as names, street addresses and email addresses from speech is a challenging task. In this paper, we study the impact of fine-tuning pre-trained speech encoders on extracting spoken entities in human-readable form directly from speech without the need for text transcription. We illustrate that such a direct approach optimizes the encoder to transcribe only the entity relevant portions of speech ignoring the superfluous portions such as carrier phrases, or spell name entities. In the context of dialog from an enterprise virtual agent, we demonstrate that the 1-step approach outperforms the typical 2-step approach which first generates lexical transcriptions followed by text-based entity extraction for identifying spoken entities. | 翻訳日:2023-04-18 21:04:03 公開日:2023-04-16 |
# CILP: クラウドコンピューティング環境における動的リソース供給のための共シミュレーションに基づく模倣学習 CILP: Co-simulation based Imitation Learner for Dynamic Resource Provisioning in Cloud Computing Environments ( http://arxiv.org/abs/2302.05630v2 ) ライセンス: Link先を確認 | Shreshth Tuli and Giuliano Casale and Nicholas R. Jennings | (参考訳) intelligent virtual machine (vm) プロビジョニングは、クラウドコンピューティング環境におけるコストとリソース効率のよい計算の中心である。
VMのブートストラッピングに時間を要するため、レイテンシクリティカルなタスクの重要な課題は、VMを積極的にプロビジョニングするための将来のワークロード要求を予測することだ。
しかし、既存のAIベースのソリューションは、オーバーヘッドのプロビジョニング、異質なVMコスト、およびクラウドシステムのQuality of Service(QoS)など、すべての重要な側面を公平に考慮しない傾向があります。
そこで本研究では,vmのプロビジョニング問題を予測と最適化の2つのサブ問題として定式化した新しい手法であるcilpを提案する。
CILPは、ニューラルネットワークを代理モデルとして活用して、QoSスコアを計算するインフラストラクチャのディジタルツインを共用して、将来のワークロード要求を予測する。
ニューラルネットワークを拡張して、最適なVMプロビジョニングプランを動的に決定する模倣学習者として機能する。
トランスベースニューラルモデルはトレーニングと推論のオーバーヘッドを削減する一方で,新たな2相意思決定ループでは,情報提供決定が容易になる。
重要な点は,リソース利用,デプロイメントコスト,プロビジョニングオーバヘッドといった事前作業の制限に対処し,模倣学習フレームワークのプロビジョニング決定を知らせることです。
3つの公開ベンチマークによる実験によると、CILPはリソース利用率を最大22%、QoSスコアを14%、実行コストを44%向上させる。 Intelligent Virtual Machine (VM) provisioning is central to cost and resource efficient computation in cloud computing environments. As bootstrapping VMs is time-consuming, a key challenge for latency-critical tasks is to predict future workload demands to provision VMs proactively. However, existing AI-based solutions tend to not holistically consider all crucial aspects such as provisioning overheads, heterogeneous VM costs and Quality of Service (QoS) of the cloud system. To address this, we propose a novel method, called CILP, that formulates the VM provisioning problem as two sub-problems of prediction and optimization, where the provisioning plan is optimized based on predicted workload demands. CILP leverages a neural network as a surrogate model to predict future workload demands with a co-simulated digital-twin of the infrastructure to compute QoS scores. We extend the neural network to also act as an imitation learner that dynamically decides the optimal VM provisioning plan. A transformer based neural model reduces training and inference overheads while our novel two-phase decision making loop facilitates in making informed provisioning decisions. Crucially, we address limitations of prior work by including resource utilization, deployment costs and provisioning overheads to inform the provisioning decisions in our imitation learning framework. Experiments with three public benchmarks demonstrate that CILP gives up to 22% higher resource utilization, 14% higher QoS scores and 44% lower execution costs compared to the current online and offline optimization based state-of-the-art methods. | 翻訳日:2023-04-18 21:02:16 公開日:2023-04-16 |
# イベントベース認識のためのクロス表現蒸留を用いた動的グラフCNN A Dynamic Graph CNN with Cross-Representation Distillation for Event-Based Recognition ( http://arxiv.org/abs/2302.04177v2 ) ライセンス: Link先を確認 | Yongjian Deng, Hao Chen, Bochen Xie, Hai Liu, Youfu Li | (参考訳) イベントベース研究の最近の進歩は、空間性と時間的精度を優先している。
グラフCNN(GCN)を用いて学習したスパースポイントベース表現を用いることにより、フレームベースの高密度表現を適切に制約されたCNNで処理するアプローチが置き換えられている。
しかし、これらのグラフメソッドの有効性は、2つの制限付きでフレームベースと比べればはるかに劣っている。
(i$)
各頂点に対する変種属性(意味論、空間的および時間的手がかり)を慎重に統合することなく、偏りのあるグラフ構成は、不正確なグラフ表現をもたらす。
(ii$)
十分に事前訓練されたモデルがないため、不十分な学習。
ここでは,新しいイベントベースGCN(EDGCN)を動的集約モジュールで提案し,頂点のすべての属性を適応的に統合することで,最初の問題を解決する。
第2の課題に対処するために,クロス表現蒸留 (CRD) と呼ばれる新しい学習フレームワークを導入し,イベントグラフに対する追加の監視と事前知識を提供するために,イベントの密表現をクロス表現補助として活用する。
このフレーム・ツー・グラフ蒸留により,グラフベースモデルの利点を保ちながら,CNNによる大規模事前処理の恩恵を受けることができる。
広範な実験によって、モデルと学習フレームワークが効果的で、複数のビジョンタスクにまたがってうまく一般化できることが分かりました。 Recent advances in event-based research prioritize sparsity and temporal precision. Approaches using dense frame-based representations processed via well-pretrained CNNs are being replaced by the use of sparse point-based representations learned through graph CNNs (GCN). Yet, the efficacy of these graph methods is far behind their frame-based counterparts with two limitations. ($i$) Biased graph construction without carefully integrating variant attributes ($i.e.$, semantics, spatial and temporal cues) for each vertex, leading to imprecise graph representation. ($ii$) Deficient learning because of the lack of well-pretrained models available. Here we solve the first problem by proposing a new event-based GCN (EDGCN), with a dynamic aggregation module to integrate all attributes of vertices adaptively. To address the second problem, we introduce a novel learning framework called cross-representation distillation (CRD), which leverages the dense representation of events as a cross-representation auxiliary to provide additional supervision and prior knowledge for the event graph. This frame-to-graph distillation allows us to benefit from the large-scale priors provided by CNNs while still retaining the advantages of graph-based models. Extensive experiments show our model and learning framework are effective and generalize well across multiple vision tasks. | 翻訳日:2023-04-18 21:01:20 公開日:2023-04-16 |
# Nikiforov-Uvarov法によるポテンシャルについて On Potentials Integrated by the Nikiforov-Uvarov Method ( http://arxiv.org/abs/2303.02560v4 ) ライセンス: Link先を確認 | Lina Ellis, Ikumi Ellis, Christoph Koutschan, and Sergei K. Suslov | (参考訳) 計算機代数系を用いて,nikiforov と uvarov のパラダイムに統合可能な非相対論的・相対論的量子力学の基本ポテンシャルについて考察する。
この考察は、読者が量子物理学の分析方法を研究するのに役立つかもしれない。 We discuss basic potentials of the nonrelativistic and relativistic quantum mechanics that can be integrated in the Nikiforov and Uvarov paradigm with the aid of a computer algebra system. This consideration may help the readers to study analytical methods of quantum physics. | 翻訳日:2023-04-18 20:54:26 公開日:2023-04-16 |
# オープン量子システムの量子シミュレーション支援 Assisted quantum simulation of open quantum systems ( http://arxiv.org/abs/2302.13299v2 ) ライセンス: Link先を確認 | Jin-Min Liang, Qiao-Qiao Lv, Zhi-Xi Wang, Shao-Ming Fei | (参考訳) フォールトトレラント量子コンピュータに実装されたユニバーサル量子アルゴリズム(UQA)は、古典的な量子コンピュータよりも指数的なスピードアップを達成することが期待されている。
しかし、深い量子回路により、UQAは現在の時代には不可能である。
ノイズの多い中間規模量子(NISQ)デバイスのみを用いて、NISQ技術を介してUQAの回路深さを低減する量子補助量子アルゴリズムを導入する。
この枠組みに基づき,2つのパラメータ化量子回路を用いて短時間発展を実現するオープン量子システムをシミュレーションする2つの量子支援量子アルゴリズムを提案する。
本稿では,古典ベクトルを浅い量子回路と数量子ビット数で量子状態にロードする副ルーチンとして,変分量子状態生成法を提案する。
振幅減衰チャネルと2つのサイトにおける散逸的横フィールドイジングモデルのオープンバージョンを持つ2レベルシステムに対する数値的なアプローチを実証する。 Universal quantum algorithms (UQA) implemented on fault-tolerant quantum computers are expected to achieve an exponential speedup over classical counterparts. However, the deep quantum circuits makes the UQA implausible in the current era. With only the noisy intermediate-scale quantum (NISQ) devices in hand, we introduce the quantum-assisted quantum algorithm, which reduces the circuit depth of UQA via NISQ technology. Based on this framework, we present two quantum-assisted quantum algorithms for simulating open quantum systems, which utilize two parameterized quantum circuits to achieve a short-time evolution. We propose a variational quantum state preparation method, as a subroutine to prepare the ancillary state, for loading a classical vector into a quantum state with a shallow quantum circuit and logarithmic number of qubits. We demonstrate numerically our approaches for a two-level system with an amplitude damping channel and an open version of the dissipative transverse field Ising model on two sites. | 翻訳日:2023-04-18 20:53:14 公開日:2023-04-16 |
# 顔の毛髪属性学習のための論理的一貫性と記述力 Logical Consistency and Greater Descriptive Power for Facial Hair Attribute Learning ( http://arxiv.org/abs/2302.11102v2 ) ライセンス: Link先を確認 | Haiyu Wu, Grace Bezold, Aman Bhatta, Kevin W. Bowyer | (参考訳) 顔属性の研究は、これまで顔の毛髪の単純な二分属性のみを使用してきた。
我々は、新しい、より記述的な顔の毛髪アノテーションスキームを作成し、新しい顔の毛髪属性データセットFH37Kを作成しました。
顔属性の研究は、論理的な一貫性と完全性も扱っていない。
例えば、以前の研究では、画像はひげのないものとヤギひげ(あごひげの一種)を持つものの両方に分類される。
顔毛属性分類における従来の分類法の検査精度は,分類の論理的一貫性を強制すると有意に低下することが示された。
本稿では,属性間の論理整合性の学習を支援する論理一貫性予測損失lcplossと,関連する属性群間での正の予測を不要にするラベル補償トレーニング戦略を提案する。
FH37Kで訓練された属性分類器を用いて,顔の毛髪が顔の認識精度にどう影響するかを検討した。
その結果, 顔の髪型の違いと類似性は, 顔認識におけるインポスタ, 真の得点分布に重要な影響を及ぼすことがわかった。
コードはhttps:// github.com/ HaiyuWu/ LogicalConsistencyにある。 Face attribute research has so far used only simple binary attributes for facial hair; e.g., beard / no beard. We have created a new, more descriptive facial hair annotation scheme and applied it to create a new facial hair attribute dataset, FH37K. Face attribute research also so far has not dealt with logical consistency and completeness. For example, in prior research, an image might be classified as both having no beard and also having a goatee (a type of beard). We show that the test accuracy of previous classification methods on facial hair attribute classification drops significantly if logical consistency of classifications is enforced. We propose a logically consistent prediction loss, LCPLoss, to aid learning of logical consistency across attributes, and also a label compensation training strategy to eliminate the problem of no positive prediction across a set of related attributes. Using an attribute classifier trained on FH37K, we investigate how facial hair affects face recognition accuracy, including variation across demographics. Results show that similarity and difference in facial hairstyle have important effects on the impostor and genuine score distributions in face recognition. The code is at https:// github.com/ HaiyuWu/ LogicalConsistency. | 翻訳日:2023-04-18 20:52:50 公開日:2023-04-16 |
# 大規模言語モデルに関する調査 A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v5 ) ライセンス: Link先を確認 | Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen | (参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。
言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。
主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。
近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。
モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。
興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。
パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。
近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。
LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。
本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。
特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。
さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。 Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions. | 翻訳日:2023-04-18 20:27:03 公開日:2023-04-16 |
# 空間可変信号-雑音比を用いたHDRイメージング HDR Imaging with Spatially Varying Signal-to-Noise Ratios ( http://arxiv.org/abs/2303.17253v2 ) ライセンス: Link先を確認 | Yiheng Chi, Xingguang Zhang, Stanley H. Chan | (参考訳) 今日のハイダイナミックレンジ(HDR)画像融合アルゴリズムは複数の露光をブレンドできるが、取得は1つの露光内のダイナミックレンジが狭くなるように制御されることが多い。
光子制限状況におけるHDRイメージングでは、ダイナミックレンジは巨大であり、1つの露光におけるノイズは空間的に変化する。
既存の画像復調アルゴリズムとHDR融合アルゴリズムはどちらもこの状況に対処できず、低照度HDRイメージングでは厳しい限界が生じる。
本稿では2つの貢献について述べる。
まず、問題の原因を特定します。
その結果,(1)空間的に変化する信号対雑音比,特に極暗領域による過大ノイズ,(2)露光時の輝度範囲が広いこと,の共存が問題となることがわかった。
この問題はデノイザーの銀行によって処理できるが、複雑さが高いことを示している。
第2に,空間変化高ダイナミックレンジ(sv-hdr)融合ネットワークと呼ばれる,画像のデノベーションとヒューズを同時に行う新しい手法を提案する。
カスタム設計のマルチスケールトランスフレームワークに新しい露光共有ブロックを導入する。
様々な試験条件において,提案したSV-HDRの性能は既存手法よりも優れている。 While today's high dynamic range (HDR) image fusion algorithms are capable of blending multiple exposures, the acquisition is often controlled so that the dynamic range within one exposure is narrow. For HDR imaging in photon-limited situations, the dynamic range can be enormous and the noise within one exposure is spatially varying. Existing image denoising algorithms and HDR fusion algorithms both fail to handle this situation, leading to severe limitations in low-light HDR imaging. This paper presents two contributions. Firstly, we identify the source of the problem. We find that the issue is associated with the co-existence of (1) spatially varying signal-to-noise ratio, especially the excessive noise due to very dark regions, and (2) a wide luminance range within each exposure. We show that while the issue can be handled by a bank of denoisers, the complexity is high. Secondly, we propose a new method called the spatially varying high dynamic range (SV-HDR) fusion network to simultaneously denoise and fuse images. We introduce a new exposure-shared block within our custom-designed multi-scale transformer framework. In a variety of testing conditions, the performance of the proposed SV-HDR is better than the existing methods. | 翻訳日:2023-04-18 20:26:34 公開日:2023-04-16 |
# 視覚的に配線されたNFT : 非触覚における吸気の役割を探る Visually Wired NFTs: Exploring the Role of Inspiration in Non-Fungible Tokens ( http://arxiv.org/abs/2303.17031v2 ) ライセンス: Link先を確認 | Lucio La Cava, Davide Costa, Andrea Tagarelli | (参考訳) 非フランジブルトークン(nfts)への熱意は無数のクリエイターを惹きつけ、多くの創造的プロセスのように、潜在性や明示的なインスピレーションによって引き起こされるデジタル資産のビッグバンにつながった。
この研究は、視覚変換器とグラフベースのモデリングを利用して、NFT間の視覚的なインスピレーション現象を長年研究してきた。
私たちの目標は、視覚インスピレーションネットワークを形成する主な構造特性の公開、視覚インスピレーションとアセットパフォーマンスの相互関係の探索、インスピレーションプロセスに対する暗号の影響の調査、NFT間のインスピレーション関係の説明などです。
インスピレーションの広汎さが視覚的特徴空間の一時的な飽和、インスピレーションとインスピレーションの2分断が財務成績に及ぼす影響、市場とインスピレーションの波による本質的な自己調節機構の解明につながった。
私たちの仕事は、web3の進化のより広い視点を得るための出発点となり得る。 The fervor for Non-Fungible Tokens (NFTs) attracted countless creators, leading to a Big Bang of digital assets driven by latent or explicit forms of inspiration, as in many creative processes. This work exploits Vision Transformers and graph-based modeling to delve into visual inspiration phenomena between NFTs over the years. Our goals include unveiling the main structural traits that shape visual inspiration networks, exploring the interrelation between visual inspiration and asset performances, investigating crypto influence on inspiration processes, and explaining the inspiration relationships among NFTs. Our findings unveil how the pervasiveness of inspiration led to a temporary saturation of the visual feature space, the impact of the dichotomy between inspiring and inspired NFTs on their financial performance, and an intrinsic self-regulatory mechanism between markets and inspiration waves. Our work can serve as a starting point for gaining a broader view of the evolution of Web3. | 翻訳日:2023-04-18 20:26:14 公開日:2023-04-16 |
# GPT-4における概念物理推論の進歩 Advances in apparent conceptual physics reasoning in GPT-4 ( http://arxiv.org/abs/2303.17012v3 ) ライセンス: Link先を確認 | Colin G. West | (参考訳) ChatGPTは、人間の会話をエミュレートする巨大なテキストコーパスに基づいて訓練された大きな言語モデルに基づいて構築されている。
物理学の法則に関する明確なプログラミングが欠如しているにもかかわらず、最近の研究はGPT-3.5が何らかの名目レベルで入門物理学のコースをパスし、ニュートン力学の力の概念に関する最小限の理解に近いものを登録できることを示した。
この研究はこれらの結果を再現し、最新バージョンの GPT-4 が後者の文脈ではるかに高いスコアに達したことを示す。
実際、その反応は、非常に顕著な例外と制限を含む、専門家レベルの能力の完全な証明に非常に近い。
物理学教育と教育学の将来への影響について、簡単にコメントする。 ChatGPT is built on a large language model trained on an enormous corpus of human text to emulate human conversation. Despite lacking any explicit programming regarding the laws of physics, recent work has demonstrated that GPT-3.5 could pass an introductory physics course at some nominal level and register something close to a minimal understanding of Newtonian Mechanics on the Force Concept Inventory. This work replicates those results and also demonstrates that the latest version, GPT-4, has reached a much higher mark in the latter context. Indeed, its responses come quite close to perfectly demonstrating expert-level competence, with a few very notable exceptions and limitations. We briefly comment on the implications of this for the future of physics education and pedagogy. | 翻訳日:2023-04-18 20:25:50 公開日:2023-04-16 |
# tabret: unseen列のためのトランスフォーマティブベースの表モデル TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns ( http://arxiv.org/abs/2303.15747v4 ) ライセンス: Link先を確認 | Soma Onishi, Kenta Oono, and Kohei Hayashi | (参考訳) 表データのためのトレーニング済みトランスフォーマーモデルである \emph{TabRet} を提示する。
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
他の方法とは異なり、TabRetは‘emph{retokenizing}’と呼ばれる微調整の前に余分な学習ステップを持ち、マスク付き自動エンコーディング損失に基づいて機能の埋め込みを校正する。
実験では,公衆衛生調査を多数収集したタブレットを事前学習し,医療における分類タスクを微調整し,4つのデータセットで最高のauc性能を得た。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。
コードはhttps://github.com/pfnet-research/tabretで入手できる。 We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains. The code is available at https://github.com/pfnet-research/tabret . | 翻訳日:2023-04-18 20:24:39 公開日:2023-04-16 |
# 縦断画像の比較学習 Learning to Compare Longitudinal Images ( http://arxiv.org/abs/2304.02531v2 ) ライセンス: Link先を確認 | Heejong Kim and Mert R. Sabuncu | (参考訳) 縦断的研究では、同じ個体群からの一連の画像が異なるタイミングで取得され、生体医学的応用における時間的ダイナミクスの研究と特徴付けのための一般的な技術である。
縦長比較のための古典的なアプローチは、前処理による画像配向やコントラスト差などのニュアンス変動の正規化を含む。
統計分析は、個人または人口レベルで、関心の変化を検出するために行われる。
この古典的なアプローチは、事前処理の問題と統計モデリングの限界に悩まされる。
例えば、慣用的な変更が多い設定では、ニュアンス変動の正規化は難しいかもしれません。
本稿では,これらの問題を緩和するシンプルな機械学習アプローチを提案する。
提案手法では,深層学習モデル(PaIRNet,Pairwise Image Ranking Network)をトレーニングし,一対の長手画像と監督の有無を比較した。
例えば、自己監督的な設定では、モデルは時間的に画像を順序付けするように訓練され、学習は時間的に不可逆な変化を認識する必要がある。
4つのデータセットから得られた結果から,PaIRNetはニュアンス変動を抑えつつ,有意な経時変化の局所化と定量化に極めて有効であることが示された。
私たちのコードは \url{https://github.com/heejong-kim/learning-to-compare-longitudinal-images.git} で入手できる。 Longitudinal studies, where a series of images from the same set of individuals are acquired at different time-points, represent a popular technique for studying and characterizing temporal dynamics in biomedical applications. The classical approach for longitudinal comparison involves normalizing for nuisance variations, such as image orientation or contrast differences, via pre-processing. Statistical analysis is, in turn, conducted to detect changes of interest, either at the individual or population level. This classical approach can suffer from pre-processing issues and limitations of the statistical modeling. For example, normalizing for nuisance variation might be hard in settings where there are a lot of idiosyncratic changes. In this paper, we present a simple machine learning-based approach that can alleviate these issues. In our approach, we train a deep learning model (called PaIRNet, for Pairwise Image Ranking Network) to compare pairs of longitudinal images, with or without supervision. In the self-supervised setup, for instance, the model is trained to temporally order the images, which requires learning to recognize time-irreversible changes. Our results from four datasets demonstrate that PaIRNet can be very effective in localizing and quantifying meaningful longitudinal changes while discounting nuisance variation. Our code is available at \url{https://github.com/heejong-kim/learning-to-compare-longitudinal-images.git} | 翻訳日:2023-04-18 20:17:49 公開日:2023-04-16 |
# ドメイン一般化のためのテスト時間適応の改善 Improved Test-Time Adaptation for Domain Generalization ( http://arxiv.org/abs/2304.04494v2 ) ライセンス: Link先を確認 | Liang Chen, Yong Zhang, Yibing Song, Ying Shan, Lingqiao Liu | (参考訳) ドメイン一般化(DG)の主な課題は、トレーニングデータとテストデータの間にある分散シフト問題を扱うことである。
近年の研究では、学習モデルにテストデータを適用するテストタイムトレーニング(TTT)が、この問題に対する有望な解決策である可能性が示唆されている。
一般的に、TTT戦略は、テストフェーズ中に更新する信頼できるパラメータを更新および特定するための適切な補助的TTTタスクを選択するという、2つの主要な要因にそのパフォーマンスをヒンジする。
この2つの要因が適切に考慮されていない場合,TTTは改善せず,学習モデルに有害である可能性が示唆された。
本研究は,テスト時間適応法(itta)の改良を提案することで,これらの2つの要因を解決する。
まず、補助目的をヒューリスティックに定義するのではなく、TTTタスクと主予測タスクとの整合性を改善するために調整可能な学習可能なパラメータを含む学習可能なTTTタスクの整合性損失を提案する。
第二に、トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。
広範な実験により,提案された2つの戦略が学習モデルに有益であることを示す(第1図参照)。
コードはhttps://github.com/liangchen527/ITTAで入手できる。 The main challenge in domain generalization (DG) is to handle the distribution shift problem that lies between the training and test data. Recent studies suggest that test-time training (TTT), which adapts the learned model with test data, might be a promising solution to the problem. Generally, a TTT strategy hinges its performance on two main factors: selecting an appropriate auxiliary TTT task for updating and identifying reliable parameters to update during the test phase. Both previous arts and our experiments indicate that TTT may not improve but be detrimental to the learned model if those two factors are not properly considered. This work addresses those two factors by proposing an Improved Test-Time Adaptation (ITTA) method. First, instead of heuristically defining an auxiliary objective, we propose a learnable consistency loss for the TTT task, which contains learnable parameters that can be adjusted toward better alignment between our TTT task and the main prediction task. Second, we introduce additional adaptive parameters for the trained model, and we suggest only updating the adaptive parameters during the test phase. Through extensive experiments, we show that the proposed two strategies are beneficial for the learned model (see Figure 1), and ITTA could achieve superior performance to the current state-of-the-art methods on several DG benchmarks. Code is available at https://github.com/liangchen527/ITTA. | 翻訳日:2023-04-18 20:07:52 公開日:2023-04-16 |
# 変分量子アルゴリズムにおけるフーリエ展開 Fourier expansion in variational quantum algorithms ( http://arxiv.org/abs/2304.03787v2 ) ライセンス: Link先を確認 | Nikita A. Nemkov and Evgeniy O. Kiktenko and Aleksey K. Fedorov | (参考訳) 変分量子アルゴリズム(VQA)における損失関数のフーリエ展開は豊富な情報を含んでいるが、一般にアクセスは困難である。
一定のゲートがクリフォードゲートであり、パラメータ化されたゲートがパウリ作用素によって生成される変分回路のクラスに焦点をあてる。
古典的なアルゴリズムは、$N$-qubit 回路と 1 つの Pauli オブザーバブルに対して、$\mathcal{O}(N2^m)$ で有界な時間におけるすべての三角単項の係数を$m$まで計算する。
アルゴリズムの一般構造と実装を用いて、Clifford+Pauli VQA のようなフーリエ展開のいくつかの新しい側面を明らかにする。
(i)多変量ブール二次系の例としてフーリエ級数を計算する問題の再構成
(ii)切れたフーリエ展開によって与えられる近似が$l^2$ノルムによって定量化され、動的に評価されることを示す
(三)フーリエ級数の比較的スパースな傾向とフーリエ係数の団結傾向
(iv)非自明な大きさの回路のフルフーリエ級数を計算可能で、数十から数百キュービットとパラメトリックゲートを備える。 The Fourier expansion of the loss function in variational quantum algorithms (VQA) contains a wealth of information, yet is generally hard to access. We focus on the class of variational circuits, where constant gates are Clifford gates and parameterized gates are generated by Pauli operators, which covers most practical cases while allowing much control thanks to the properties of stabilizer circuits. We give a classical algorithm that, for an $N$-qubit circuit and a single Pauli observable, computes coefficients of all trigonometric monomials up to a degree $m$ in time bounded by $\mathcal{O}(N2^m)$. Using the general structure and implementation of the algorithm we reveal several novel aspects of Fourier expansions in Clifford+Pauli VQA such as (i) reformulating the problem of computing the Fourier series as an instance of multivariate boolean quadratic system (ii) showing that the approximation given by a truncated Fourier expansion can be quantified by the $L^2$ norm and evaluated dynamically (iii) tendency of Fourier series to be rather sparse and Fourier coefficients to cluster together (iv) possibility to compute the full Fourier series for circuits of non-trivial sizes, featuring tens to hundreds of qubits and parametric gates. | 翻訳日:2023-04-18 20:07:09 公開日:2023-04-16 |
# ALIKED:変形可能な変換による軽量キーポイントと記述子抽出ネットワーク ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation ( http://arxiv.org/abs/2304.03608v2 ) ライセンス: Link先を確認 | Xiaoming Zhao, Xingming Wu, Weihai Chen, Peter C. Y. Chen, Qingsong Xu, and Zhengguo Li | (参考訳) 画像キーポイントとディスクリプタは多くの視覚計測タスクにおいて重要な役割を果たす。
近年,キーポイントとディスクリプタ抽出の性能向上のために,ディープニューラルネットワークが広く利用されている。
しかし、従来の畳み込み演算は記述子に必要な幾何学的不変性を提供しない。
この問題に対処するために,各キーポイントに対するサポート機能の変形可能な位置を学習し,変形可能な記述子を構成するSparse Deformable Descriptor Head (SDDH)を提案する。
さらに、SDDHは密度の高い記述子マップの代わりにスパースキーポイントで記述子を抽出し、表現力の強い記述子を効率的に抽出することができる。
さらに,抽出したスパース記述子をトレーニングするために,ニューラルリジェクション誤差(NRE)の高密度からスパースへの損失を緩和する。
実験の結果,提案ネットワークは画像マッチング,3次元再構成,視覚的再局在化など,様々な視覚計測タスクにおいて効率的かつ強力であることがわかった。 Image keypoints and descriptors play a crucial role in many visual measurement tasks. In recent years, deep neural networks have been widely used to improve the performance of keypoint and descriptor extraction. However, the conventional convolution operations do not provide the geometric invariance required for the descriptor. To address this issue, we propose the Sparse Deformable Descriptor Head (SDDH), which learns the deformable positions of supporting features for each keypoint and constructs deformable descriptors. Furthermore, SDDH extracts descriptors at sparse keypoints instead of a dense descriptor map, which enables efficient extraction of descriptors with strong expressiveness. In addition, we relax the neural reprojection error (NRE) loss from dense to sparse to train the extracted sparse descriptors. Experimental results show that the proposed network is both efficient and powerful in various visual measurement tasks, including image matching, 3D reconstruction, and visual relocalization. | 翻訳日:2023-04-18 20:06:45 公開日:2023-04-16 |
# 学習率適応を伴うCMA-ES:CMA-ESはマルチモーダルとノイズを解消できるか? CMA-ES with Learning Rate Adaptation: Can CMA-ES with Default Population Size Solve Multimodal and Noisy Problems? ( http://arxiv.org/abs/2304.03473v2 ) ライセンス: Link先を確認 | Masahiro Nomura, Youhei Akimoto, Isao Ono | (参考訳) 共分散行列適応進化戦略(CMA-ES)はブラックボックス連続最適化問題の解法として最も成功した手法の1つである。
CMA-ESの実用的な側面の1つは、ハイパーパラメータチューニングなしで使用できることである。
しかし、ハイパーパラメータ設定は、特にマルチモーダル問題やノイズ問題などの困難なタスクに対して、依然としてかなりの影響がある。
本研究では, 既定人口規模を有するCMA-ESがマルチモーダル, ノイズを解消できるかどうかを検討する。
本研究では,CMA-ESのための新しい学習率適応機構を開発し,学習率を一定信号対雑音比を維持するようにした。
数値実験により,CMA-ESと提案した学習率適応機構の挙動について検討し,CMA-ESで得られた結果と一定の学習率との比較を行った。
提案した学習率適応を用いた場合,CMA-ESは,高コストの学習率チューニングを必要とせず,マルチモーダルおよび/またはノイズ問題に対して有効であることを示す。 The covariance matrix adaptation evolution strategy (CMA-ES) is one of the most successful methods for solving black-box continuous optimization problems. One practically useful aspect of the CMA-ES is that it can be used without hyperparameter tuning. However, the hyperparameter settings still have a considerable impact, especially for difficult tasks such as solving multimodal or noisy problems. In this study, we investigate whether the CMA-ES with default population size can solve multimodal and noisy problems. To perform this investigation, we develop a novel learning rate adaptation mechanism for the CMA-ES, such that the learning rate is adapted so as to maintain a constant signal-to-noise ratio. We investigate the behavior of the CMA-ES with the proposed learning rate adaptation mechanism through numerical experiments, and compare the results with those obtained for the CMA-ES with a fixed learning rate. The results demonstrate that, when the proposed learning rate adaptation is used, the CMA-ES with default population size works well on multimodal and/or noisy problems, without the need for extremely expensive learning rate tuning. | 翻訳日:2023-04-18 20:06:28 公開日:2023-04-16 |
# パーソナライズしたの?
リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価 Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling ( http://arxiv.org/abs/2304.05365v2 ) ライセンス: Link先を確認 | Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag Klasnja, Peng Liao, Kelly Zhang, Susan Murphy | (参考訳) デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。
このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。
オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。
しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。
RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。
パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。
本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。
我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。 There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user's context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user's historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an ``optimized'' intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study. | 翻訳日:2023-04-18 19:59:02 公開日:2023-04-16 |
# LRRNet:赤外線と可視画像のための新しい表現学習ガイド融合ネットワーク LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images ( http://arxiv.org/abs/2304.05172v2 ) ライセンス: Link先を確認 | Hui Li, Tianyang Xu, Xiao-Jun Wu, Jiwen Lu, Josef Kittler | (参考訳) 深層学習に基づく融合法は画像融合タスクにおいて有望な性能を実現している。
これは、融合プロセスにおいて非常に重要な役割を果たすネットワークアーキテクチャに起因する。
しかし、一般的には、優れた融合アーキテクチャを特定することは困難であり、そのため、融合ネットワークの設計は科学というよりは、まだブラックアートである。
この問題に対処するために,融合タスクを数学的に定式化し,その最適解と実装可能なネットワークアーキテクチャとの接続を確立する。
このアプローチは、軽量核融合ネットワークを構築するための論文で提案される新しい手法に繋がる。
試行錯誤戦略により、時間を要する経験的ネットワーク設計を避ける。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
低ランク表現(LRR)の目的は、学習可能なモデルの基礎である。
解の中心にある行列の乗算は畳み込み演算に変換され、最適化の反復過程は特別なフィードフォワードネットワークに置き換えられる。
この新しいネットワークアーキテクチャに基づき、赤外線と可視光画像を融合するエンドツーエンドの軽量核融合ネットワークを構築する。
そのトレーニングの成功は、画像の詳細を保存し、ソース画像の健全な特徴を高めるために提案された詳細から意味までの情報損失関数によって促進される。
実験により,提案した核融合ネットワークは,公開データセット上の最先端核融合手法よりも優れた核融合性能を示すことが示された。
興味深いことに、われわれのネットワークは既存の方法よりも少ないトレーニングパラメータを必要とする。
コードはhttps://github.com/hli1221/imagefusion-lrrnetで入手できる。 Deep learning based fusion methods have been achieving promising performance in image fusion tasks. This is attributed to the network architecture that plays a very important role in the fusion process. However, in general, it is hard to specify a good fusion architecture, and consequently, the design of fusion networks is still a black art, rather than science. To address this problem, we formulate the fusion task mathematically, and establish a connection between its optimal solution and the network architecture that can implement it. This approach leads to a novel method proposed in the paper of constructing a lightweight fusion network. It avoids the time-consuming empirical network design by a trial-and-test strategy. In particular we adopt a learnable representation approach to the fusion task, in which the construction of the fusion network architecture is guided by the optimisation algorithm producing the learnable model. The low-rank representation (LRR) objective is the foundation of our learnable model. The matrix multiplications, which are at the heart of the solution are transformed into convolutional operations, and the iterative process of optimisation is replaced by a special feed-forward network. Based on this novel network architecture, an end-to-end lightweight fusion network is constructed to fuse infrared and visible light images. Its successful training is facilitated by a detail-to-semantic information loss function proposed to preserve the image details and to enhance the salient features of the source images. Our experiments show that the proposed fusion network exhibits better fusion performance than the state-of-the-art fusion methods on public datasets. Interestingly, our network requires a fewer training parameters than other existing methods. The codes are available at https://github.com/hli1221/imagefusion-LRRNet | 翻訳日:2023-04-18 19:58:22 公開日:2023-04-16 |
# 悪い」引用は「良い」効果を持つか? Do "bad" citations have "good" effects? ( http://arxiv.org/abs/2304.06190v2 ) ライセンス: Link先を確認 | Honglin Bao and Misha Teplitskiy | (参考訳) 科学コミュニティは、研究論文の著者が影響しない論文を引用することを妨げている。
このような「修辞的」な引用は、よい仕事のための文学とインセンティブを低下させると仮定される。
著者の引用が魅力的にしか見えない世界がある一方で、引用を強制することは科学文献における注意力とダイナミズムの配分に過小評価された結果をもたらす可能性があると論じている。
エージェントを即時かつ修辞的に引用する新しいエージェントベースモデルを開発した。
エージェントはまず、期待された品質に基づいて論文を選別し、読み、実際の品質を観察し、十分に良いものの影響を受け、即座に引用する。
次に、エージェントは、実際に影響力があるかどうかに関わらず、彼らの物語を支持する論文を引用して(修辞的に)参照リストの残りのスロットを埋める。
引用をオン・アンド・オフにすることで、引用は品質と引用の間の相関を増加させ、引用のチャーンを増加させ、引用の不等式を減少させる。
これは、修辞的な引用が、安定したエリート質の論文の集合からよりダイナミックな集合への引用を、ハイ・トゥ・モデレートな品質と高い修辞的な価値で再帰させるためである。
好ましくない傾向と見なされる参照リストのサイズの増加は、その効果を増幅する。
まとめると、修辞的な引用は注意を減らし、既存のアイデアを置き換えやすくするので、それが本当に望ましくないかどうかは、望ましくないと判断するのに使われるメトリクスに依存する。 The scientific community discourages authors of research papers from citing papers that did not influence them. Such "rhetorical" citations are assumed to degrade the literature and incentives for good work. While a world where authors cite only substantively appears attractive, we argue that mandating substantive citing may have underappreciated consequences on the allocation of attention and dynamism in scientific literatures. We develop a novel agent-based model in which agents cite substantively and rhetorically. Agents first select papers to read based on their expected quality, read them and observe their actual quality, become influenced by those that are sufficiently good, and substantively cite them. Next, agents fill any remaining slots in the reference lists by (rhetorically) citing papers that support their narrative, regardless of whether they were actually influential. By turning rhetorical citing on-and-off, we find that rhetorical citing increases the correlation between quality and citations, increases citation churn, and reduces citation inequality. This occurs because rhetorical citing redistributes some citations from a stable set of elite-quality papers to a more dynamic set with high-to-moderate quality and high rhetorical value. Increasing the size of reference lists, often seen as an undesirable trend, amplifies the effects. In sum, rhetorical citing helps deconcentrate attention and makes it easier to displace incumbent ideas, so whether it is indeed undesirable depends on the metrics used to judge desirability. | 翻訳日:2023-04-18 19:48:07 公開日:2023-04-16 |
# 人工知能の公正性とバイアス:情報源、影響、緩和戦略の簡単な調査 Fairness And Bias in Artificial Intelligence: A Brief Survey of Sources, Impacts, And Mitigation Strategies ( http://arxiv.org/abs/2304.07683v1 ) ライセンス: Link先を確認 | Emilio Ferrara | (参考訳) 人工知能(AI)を医療の意思決定、診断、その他の領域に適用する大きな進歩は、AIシステムの公平性とバイアス、特に医療、雇用、刑事司法、信用スコアといった分野での懸念を同時に提起している。
このようなシステムは不公平な結果をもたらし、既存の不平等を永続させる。
この調査論文は、AIにおける公正さと偏見の簡潔で包括的な概要を提供し、そのソース、影響、緩和戦略に対処する。
我々は、データ、アルゴリズム、人間の意思決定バイアスなどのバイアス源をレビューし、不平等の永続性と有害なステレオタイプの強化に焦点を当て、バイアス付きAIシステムの社会的影響を評価する。
我々は,様々な緩和戦略を検討し,その実施の倫理的考察を議論し,効果的性を確保するための学際的連携の必要性を強調する。
複数の学術分野にまたがる体系的な文献レビューを通じて、AIバイアスとその種類の定義を示し、AIバイアスが個人や社会に与える影響について論じる。
また、データ前処理、モデル選択、後処理など、AIバイアスを軽減する現在のアプローチの概要も提供します。
AIのバイアスに対処するには、多様で代表的なデータセット、AIシステムの透明性と説明責任の向上、公正性と倫理的考慮を優先する代替AIパラダイムの探索など、包括的なアプローチが必要である。
この調査は、AIバイアスに関連するソース、影響、緩和戦略の概要を提供することで、公正で偏見のないAIシステムの開発に関する継続的な議論に貢献する。 The significant advancements in applying Artificial Intelligence (AI) to healthcare decision-making, medical diagnosis, and other domains have simultaneously raised concerns about the fairness and bias of AI systems, particularly in areas like healthcare, employment, criminal justice, and credit scoring. Such systems can lead to unfair outcomes and perpetuate existing inequalities. This survey paper offers a succinct, comprehensive overview of fairness and bias in AI, addressing their sources, impacts, and mitigation strategies. We review sources of bias, such as data, algorithm, and human decision biases, and assess the societal impact of biased AI systems, focusing on the perpetuation of inequalities and the reinforcement of harmful stereotypes. We explore various proposed mitigation strategies, discussing the ethical considerations of their implementation and emphasizing the need for interdisciplinary collaboration to ensure effectiveness. Through a systematic literature review spanning multiple academic disciplines, we present definitions of AI bias and its different types, and discuss the negative impacts of AI bias on individuals and society. We also provide an overview of current approaches to mitigate AI bias, including data pre-processing, model selection, and post-processing. Addressing bias in AI requires a holistic approach, involving diverse and representative datasets, enhanced transparency and accountability in AI systems, and the exploration of alternative AI paradigms that prioritize fairness and ethical considerations. This survey contributes to the ongoing discussion on developing fair and unbiased AI systems by providing an overview of the sources, impacts, and mitigation strategies related to AI bias. | 翻訳日:2023-04-18 17:58:38 公開日:2023-04-16 |
# 位置情報に基づく公衆衛生機能を用いた生存分析 Using Geographic Location-based Public Health Features in Survival Analysis ( http://arxiv.org/abs/2304.07679v1 ) ライセンス: Link先を確認 | Navid Seidi, Ardhendu Tripathy, Sajal K. Das | (参考訳) 興味のある事象まで経過した時間はしばしば、入力特徴に基づいて生存スコアを推定する生存分析手法を用いてモデル化される。
ニューラルネットワークのような現代的なツールを使用して、パーソナライズされたヘルスケアにおいて、より正確な予測モデルを開発することに関心が再燃している。
より高品質な特徴と頻繁な観察は患者の予測を改善するが、患者の地理的位置に基づく公衆衛生統計が個人の予測に与える影響は研究されていない。
本稿では,入力特徴に公衆衛生統計を取り入れた生存分析モデルの補完的改善を提案する。
地域別公衆衛生情報を含めると,全国のがん発生データを含むSurveillance, Epidemiology, End Results (SEER)データセットで評価されたコンコーマンス指数の統計的に有意な改善が得られた。
この改善は、標準のCox比例ハザードモデルと最先端のDeep Survival Machinesモデルの両方に当てはまる。
生存分析における地理的位置に基づく公衆衛生機能の有用性が示唆された。 Time elapsed till an event of interest is often modeled using the survival analysis methodology, which estimates a survival score based on the input features. There is a resurgence of interest in developing more accurate prediction models for time-to-event prediction in personalized healthcare using modern tools such as neural networks. Higher quality features and more frequent observations improve the predictions for a patient, however, the impact of including a patient's geographic location-based public health statistics on individual predictions has not been studied. This paper proposes a complementary improvement to survival analysis models by incorporating public health statistics in the input features. We show that including geographic location-based public health information results in a statistically significant improvement in the concordance index evaluated on the Surveillance, Epidemiology, and End Results (SEER) dataset containing nationwide cancer incidence data. The improvement holds for both the standard Cox proportional hazards model and the state-of-the-art Deep Survival Machines model. Our results indicate the utility of geographic location-based public health features in survival analysis. | 翻訳日:2023-04-18 17:58:11 公開日:2023-04-16 |
# 心血管磁気共鳴画像のマルチモーダル表現学習 Multimodal Representation Learning of Cardiovascular Magnetic Resonance Imaging ( http://arxiv.org/abs/2304.07675v1 ) ライセンス: Link先を確認 | Jielin Qiu, Peide Huang, Makiya Nakashima, Jaehyun Lee, Jiacheng Zhu, Wilson Tang, Pohao Chen, Christopher Nguyen, Byung-Hak Kim, Debbie Kwon, Douglas Weber, Ding Zhao, David Chen | (参考訳) 医療における明示的なラベルの欠如を考えると、自己教師付き学習は臨床画像応用に不可欠である。
しかし、正確な視覚言語アライメントに依存する従来のアプローチは、心臓磁気共鳴(CMR)のような複雑な臨床画像モダリティでは必ずしも実現できない。
CMRは、心臓解剖、生理学、微細構造を包括的に可視化し、解釈が困難である。
さらに、CMRレポートは画像のシーケンスと異なるビューからの情報を合成する必要があるため、研究と診断レポートのペアの間には潜在的に弱いアライメントが生じる可能性がある。
これらの課題を克服するために,CMR画像と関連する心臓医の報告を共同で学習するマルチモーダル学習フレームワークである「textbf{CMRformer}」を提案する。
さらに、cmr研究を改善するための大きな障害の1つは、大規模な公開データセットの欠如である。
このギャップを埋めるために,臨床症例から13,787の研究から得られた大きな \textbf{cmr dataset} を収集した。
提案するcmrformerと収集したデータセットを用いて,cmr画像検索や診断レポート検索などの実世界の臨床課題において優れた性能を得た。
さらに、学習された表現は、疾患分類などの下流の応用に実用的に有用であると評価した。
我々の研究はcmr研究の進展を早め、より正確で効果的な診断と治療につながる可能性がある。 Self-supervised learning is crucial for clinical imaging applications, given the lack of explicit labels in healthcare. However, conventional approaches that rely on precise vision-language alignment are not always feasible in complex clinical imaging modalities, such as cardiac magnetic resonance (CMR). CMR provides a comprehensive visualization of cardiac anatomy, physiology, and microstructure, making it challenging to interpret. Additionally, CMR reports require synthesizing information from sequences of images and different views, resulting in potentially weak alignment between the study and diagnosis report pair. To overcome these challenges, we propose \textbf{CMRformer}, a multimodal learning framework to jointly learn sequences of CMR images and associated cardiologist's reports. Moreover, one of the major obstacles to improving CMR study is the lack of large, publicly available datasets. To bridge this gap, we collected a large \textbf{CMR dataset}, which consists of 13,787 studies from clinical cases. By utilizing our proposed CMRformer and our collected dataset, we achieved remarkable performance in real-world clinical tasks, such as CMR image retrieval and diagnosis report retrieval. Furthermore, the learned representations are evaluated to be practically helpful for downstream applications, such as disease classification. Our work could potentially expedite progress in the CMR study and lead to more accurate and effective diagnosis and treatment. | 翻訳日:2023-04-18 17:57:53 公開日:2023-04-16 |
# 方向的特徴相互作用に基づくブラックボックスモデルの記述 Explanations of Black-Box Models based on Directional Feature Interactions ( http://arxiv.org/abs/2304.07670v1 ) ライセンス: Link先を確認 | Aria Masoomi, Davin Hill, Zhonghui Xu, Craig P Hersh, Edwin K. Silverman, Peter J. Castaldi, Stratis Ioannidis, Jennifer Dy | (参考訳) 機械学習アルゴリズムは、さまざまなドメインにユビキタスにデプロイされるため、しばしばブラックボックスモデルを透過的にすることが必須である。
最近のいくつかの研究は、インスタンス当たりの予測のために最も影響力のある特徴を捉えてブラックボックスモデルを説明する。
二変量法は、有向グラフとして表されるブラックボックスモデルにおける特徴的相互作用を捉えることができるため、説明可能性を高める。
このグラフを解析することで、等しく重要な特徴群(すなわち、交換可能)を発見できる一方、方向性の概念は最も影響力のある特徴を特定できる。
両変数法をShapley値説明に適用し,特徴的相互作用を発見するための方向性説明の能力を実験的に実証する。
我々は, CIFAR10, IMDB, Census, Divorce, Drug, および遺伝子データにおける最先端技術に対する手法の優位性を示す。 As machine learning algorithms are deployed ubiquitously to a variety of domains, it is imperative to make these often black-box models transparent. Several recent works explain black-box models by capturing the most influential features for prediction per instance; such explanation methods are univariate, as they characterize importance per feature. We extend univariate explanation to a higher-order; this enhances explainability, as bivariate methods can capture feature interactions in black-box models, represented as a directed graph. Analyzing this graph enables us to discover groups of features that are equally important (i.e., interchangeable), while the notion of directionality allows us to identify the most influential features. We apply our bivariate method on Shapley value explanations, and experimentally demonstrate the ability of directional explanations to discover feature interactions. We show the superiority of our method against state-of-the-art on CIFAR10, IMDB, Census, Divorce, Drug, and gene data. | 翻訳日:2023-04-18 17:57:29 公開日:2023-04-16 |
# FedBlockHealth - フェデレーションラーニングとブロックチェーンによるIoT可能なヘルスケアにおけるプライバシとセキュリティの相乗的アプローチ FedBlockHealth: A Synergistic Approach to Privacy and Security in IoT-Enabled Healthcare through Federated Learning and Blockchain ( http://arxiv.org/abs/2304.07668v1 ) ライセンス: Link先を確認 | Nazar Waheed, Ateeq Ur Rehman, Anushka Nehra, Mahnoor Farooq, Nargis Tariq, Mian Ahmad Jan, Fazlullah Khan, Abeer Z. Alalmaie, Priyadarsi Nanda | (参考訳) 医療におけるIoT(Internet of Things)デバイスの急速な採用は、データのプライバシ、セキュリティ、患者の安全性を維持する上で、新たな課題をもたらしている。
従来のアプローチでは、特にリソース制約のあるIoTデバイスにおいて、計算効率を維持しながら、セキュリティとプライバシを確保する必要がある。
本稿では、フェデレーション学習とブロックチェーン技術を組み合わせた新しいハイブリッドアプローチを提案し、IoT対応ヘルスケアアプリケーションにセキュアでプライバシ保護されたソリューションを提供する。
我々のアプローチは、ローカルモデルの更新にセマンティックセキュリティを提供する公開鍵暗号システムを活用する一方、ブロックチェーン技術は、これらの更新の完全性を確保し、アクセス制御と説明責任を強制する。
連合学習プロセスは、センシティブな患者データを共有することなく、安全なモデルアグリゲーションを可能にする。
我々はEMNISTデータセットを用いて提案したフレームワークの実装と評価を行い、計算効率を保ちながらデータのプライバシとセキュリティを保護する効果を実証した。
その結果、当社のハイブリッドアプローチは、セキュアでプライバシ保護されたIoT対応ヘルスケアアプリケーションの開発を著しく促進し、この分野における将来の研究に有望な方向性をもたらすことが示唆されている。 The rapid adoption of Internet of Things (IoT) devices in healthcare has introduced new challenges in preserving data privacy, security and patient safety. Traditional approaches need to ensure security and privacy while maintaining computational efficiency, particularly for resource-constrained IoT devices. This paper proposes a novel hybrid approach combining federated learning and blockchain technology to provide a secure and privacy-preserved solution for IoT-enabled healthcare applications. Our approach leverages a public-key cryptosystem that provides semantic security for local model updates, while blockchain technology ensures the integrity of these updates and enforces access control and accountability. The federated learning process enables a secure model aggregation without sharing sensitive patient data. We implement and evaluate our proposed framework using EMNIST datasets, demonstrating its effectiveness in preserving data privacy and security while maintaining computational efficiency. The results suggest that our hybrid approach can significantly enhance the development of secure and privacy-preserved IoT-enabled healthcare applications, offering a promising direction for future research in this field. | 翻訳日:2023-04-18 17:57:13 公開日:2023-04-16 |
# ArguGPT:GPTモデルによる議論的エッセイの評価、理解、識別 ArguGPT: evaluating, understanding and identifying argumentative essays generated by GPT models ( http://arxiv.org/abs/2304.07666v1 ) ライセンス: Link先を確認 | Yikang Liu, Ziyin Zhang, Wanyang Zhang, Shisen Yue, Xiaojing Zhao, Xinyuan Cheng, Yiwen Zhang, Hai Hu | (参考訳) AI生成コンテンツ(AIGC)は、世界中の教育者に対して大きな課題を提示している。
インストラクターは、裸眼で、あるいはいくつかのツールの助けを借りて、大きな言語モデルによって生成されたテキストを検出できる必要があります。
AIGCの語彙的、構文的、スタイル的特徴を理解する必要も増えている。
英語教育におけるこれらの課題に対処するため,本研究では,(1)授業中あるいは宿題課題,(2)toefl,(3)grライティング課題の3つの資料から,7つのgptモデルで生成した4,038個の議論的エッセイのバランスコーパスであるargugptを提案する。
機械が生成するテキストは、ほぼ同じ数の人間の書いたエッセイと、3つのスコアレベルがエッセイプロンプトで一致している。
そして、機械エッセイと人間のエッセイを区別するために英語のインストラクターを雇います。
その結果, 機械生成エッセイに初めて曝露した場合, インストラクターは61%の精度しか検出できないことがわかった。
しかし、この数字は1回の最小限の自己訓練の後に67%まで上昇する。
次に、これらのエッセイの言語分析を行い、機械がより複雑な構文構造を持つ文を生成する一方で、人間のエッセイは語彙的により複雑であることを示す。
最後に、既存のAIGC検出器を試験し、SVMとRoBERTaを用いて独自の検出器を構築する。
その結果,ArguGPTのトレーニングセットを微調整したRoBERTaは,エッセイレベルと文レベルの両方で90%以上の精度を達成できた。
我々の知る限りでは、これは生成的大言語モデルによって生成された議論的エッセイの包括的分析としては初めてのものである。
ArguGPTと私たちのモデルは、https://github.com/huhailinguist/ArguGPTで公開されます。 AI generated content (AIGC) presents considerable challenge to educators around the world. Instructors need to be able to detect such text generated by large language models, either with the naked eye or with the help of some tools. There is also growing need to understand the lexical, syntactic and stylistic features of AIGC. To address these challenges in English language teaching, we first present ArguGPT, a balanced corpus of 4,038 argumentative essays generated by 7 GPT models in response to essay prompts from three sources: (1) in-class or homework exercises, (2) TOEFL and (3) GRE writing tasks. Machine-generated texts are paired with roughly equal number of human-written essays with three score levels matched in essay prompts. We then hire English instructors to distinguish machine essays from human ones. Results show that when first exposed to machine-generated essays, the instructors only have an accuracy of 61% in detecting them. But the number rises to 67% after one round of minimal self-training. Next, we perform linguistic analyses of these essays, which show that machines produce sentences with more complex syntactic structures while human essays tend to be lexically more complex. Finally, we test existing AIGC detectors and build our own detectors using SVMs and RoBERTa. Results suggest that a RoBERTa fine-tuned with the training set of ArguGPT achieves above 90% accuracy in both essay- and sentence-level classification. To the best of our knowledge, this is the first comprehensive analysis of argumentative essays produced by generative large language models. Machine-authored essays in ArguGPT and our models will be made publicly available at https://github.com/huhailinguist/ArguGPT | 翻訳日:2023-04-18 17:56:53 公開日:2023-04-16 |
# ベイジアン階層モデルを用いたアクティブラーニング回帰における動的探索・探索貿易 Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression with Bayesian Hierarchical Modeling ( http://arxiv.org/abs/2304.07665v1 ) ライセンス: Link先を確認 | Upala Junaida Islam and Kamran Paynabar and George Runger and Ashif Sikandar Iquebal | (参考訳) アクティブラーニングは、未知のブラックボックス関数を学ぶための最も有益な実験を適応的にサンプルするフレームワークを提供する。
アクティブラーニングの様々なアプローチが文献で提案されているが、それらはデザイン分野における探索と搾取に焦点を当てている。
探索探索を同時に考慮する手法は、最適ではないかもしれないトレードオフを制御するために固定的あるいはアドホックな手段を用いる。
本稿では,より多くのデータポイントが問い合わせられるにつれて,探索・探索トレードオフの動的バランスをとるためのベイズ階層的アプローチを開発する。
その後,特徴空間におけるデータサンプルの線形依存に基づく近似ベイズ計算法を定式化し,ベイズ階層モデルから得られたトレードオフパラメータの後方分布から標本を抽出する。
シミュレーションおよび実世界の例では、提案手法は、純粋な探索とエクスプロイト戦略と比較して、それぞれ6%と11%の平均的な改善を達成している。
さらに重要なことは、探索と搾取の間のトレードオフを最適にバランスさせることで、我々のアプローチは、純粋な探検でも純粋な搾取でも、より良く、または少なくともうまく機能する、ということです。 Active learning provides a framework to adaptively sample the most informative experiments towards learning an unknown black-box function. Various approaches of active learning have been proposed in the literature, however, they either focus on exploration or exploitation in the design space. Methods that do consider exploration-exploitation simultaneously employ fixed or ad-hoc measures to control the trade-off that may not be optimal. In this paper, we develop a Bayesian hierarchical approach to dynamically balance the exploration-exploitation trade-off as more data points are queried. We subsequently formulate an approximate Bayesian computation approach based on the linear dependence of data samples in the feature space to sample from the posterior distribution of the trade-off parameter obtained from the Bayesian hierarchical model. Simulated and real-world examples show the proposed approach achieves at least 6% and 11% average improvement when compared to pure exploration and exploitation strategies respectively. More importantly, we note that by optimally balancing the trade-off between exploration and exploitation, our approach performs better or at least as well as either pure exploration or pure exploitation. | 翻訳日:2023-04-18 17:56:24 公開日:2023-04-16 |
# ボース・フェルミ混合液中の無散逸流 Dissipationless flow in a Bose-Fermi mixture ( http://arxiv.org/abs/2304.07663v1 ) ライセンス: Link先を確認 | Zoe Z. Yan, Yiqi Ni, Alexander Chuang, Pavel E. Dolgirev, Kushal Seetharam, Eugene Demler, Carsten Robens, Martin Zwierlein | (参考訳) 相互作用するボソンとフェルミオンの混合物は自然界においてユビキタスである。
これらは物理学の標準模型のバックボーンを形成し、超伝導体や二次元電子系などの量子材料を理解するための枠組みを提供し、^3$he/$^4$he希釈冷凍機において技術的に重要である。
ボース-フェルミ混合物は、共存する液体、超固体、複合フェルミオン、結合した超流動、中間の量子相転移を特徴とする複雑な相図を示すと予測される。
しかし、それらの結合した熱力学と集合的挙動は、特に強いボソン-フェルミオン相互作用に対する我々の理解に挑戦する。
完全に制御可能なシステムのクリーンな実現は少ない。
超低温原子ガスは、種濃度と相互作用強度を自由に調整できるため、ボース-フェルミ混合物を実験的に研究するための理想的なプラットフォームを提供する。
本稿では,ボース-アインシュタイン凝縮体 (BEC) に浸漬したスピン偏極フェルミガスの集合振動を,ボソン-フェルミオン相互作用強度と温度の関数として検討する。
驚くべきことに、強い種間相互作用において、フェルミオン集団励起はボソニック超流動集団モードを完璧に模倣するように進化し、フェルミオンフローは散逸しない。
ボース気体中の熱励起が増加するにつれて、フェルミオンの動力学は2次元電子流体における流体力学の出現を思い起こさせる無衝突状態から流体力学状態への交差を示す。
強相互作用するボース-フェルミ混合物の非平衡ダイナミクスを理解するための扉を開く。 Interacting mixtures of bosons and fermions are ubiquitous in nature. They form the backbone of the standard model of physics, provide a framework for understanding quantum materials such as unconventional superconductors and two-dimensional electronic systems, and are of technological importance in $^3$He/$^4$He dilution refrigerators. Bose-Fermi mixtures are predicted to exhibit an intricate phase diagram featuring coexisting liquids, supersolids, composite fermions, coupled superfluids, and quantum phase transitions in between. However, their coupled thermodynamics and collective behavior challenge our understanding, in particular for strong boson-fermion interactions. Clean realizations of fully controllable systems are scarce. Ultracold atomic gases offer an ideal platform to experimentally investigate Bose-Fermi mixtures, as the species concentration and interaction strengths can be freely tuned. Here, we study the collective oscillations of a spin-polarized Fermi gas immersed in a Bose-Einstein condensate (BEC) as a function of the boson-fermion interaction strength and temperature. Remarkably, for strong interspecies interactions the fermionic collective excitations evolve to perfectly mimic the bosonic superfluid collective modes, and fermion flow becomes dissipationless. With increasing number of thermal excitations in the Bose gas, the fermions' dynamics exhibit a crossover from the collisionless to the hydrodynamic regime, reminiscent of the emergence of hydrodynamics in two-dimensional electron fluids. Our findings open the door towards understanding non-equilibrium dynamics of strongly interacting Bose-Fermi mixtures. | 翻訳日:2023-04-18 17:56:04 公開日:2023-04-16 |
# ランダム補助クラス増分と混合特徴による非経験的クラス増分学習 Non-exemplar Class-incremental Learning by Random Auxiliary Classes Augmentation and Mixed Features ( http://arxiv.org/abs/2304.07707v1 ) ライセンス: Link先を確認 | Ke Song, Quan Xia, Guoqiang Liang, Zhaojie Chen, Yanning Zhang | (参考訳) non-exemplar class-incremental learningは、古いクラスのサンプルを保存せずに、新しいクラスと古いクラスを分類することを指す。
新しいクラスサンプルのみが最適化に利用できるため、しばしば古い知識を破滅的に忘れてしまう。
この問題を軽減するため, モデル蒸留, クラス増級などの新しい手法が提案されている。
本稿では,Random Auxiliary class augmentation と Mixed Feature を組み合わせたRAMFと呼ばれる実効非実例手法を提案する。
一方,3つの拡張から1つの拡張をランダムに選択し,その入力に適用し,拡張サンプルと追加クラスラベルを生成するランダムな補助クラス拡張法を設計する。
データとラベル空間を拡張することで、モデルがより多様な表現を学習できるため、モデルがタスク固有の特徴の学習に偏ることを防ぐことができる。
新しいタスクを学ぶとき、機能空間の変更を減らし、モデルの一般化を改善する。
一方で、モデル最適化に新機能のみを使用すると、以前フィーチャースペースに埋め込まれた表現に影響を与えるため、新機能を置き換えるために混合機能を使用します。
代わりに、新しい機能と古い機能を組み合わせることで、計算の複雑さを増大させることなく古い知識を維持できる。
3つのベンチマークでの大規模な実験は、最先端の非経験的手法よりも優れ、高性能なリプレイ方式に匹敵するアプローチの優位性を実証している。 Non-exemplar class-incremental learning refers to classifying new and old classes without storing samples of old classes. Since only new class samples are available for optimization, it often occurs catastrophic forgetting of old knowledge. To alleviate this problem, many new methods are proposed such as model distillation, class augmentation. In this paper, we propose an effective non-exemplar method called RAMF consisting of Random Auxiliary classes augmentation and Mixed Feature. On the one hand, we design a novel random auxiliary classes augmentation method, where one augmentation is randomly selected from three augmentations and applied on the input to generate augmented samples and extra class labels. By extending data and label space, it allows the model to learn more diverse representations, which can prevent the model from being biased towards learning task-specific features. When learning new tasks, it will reduce the change of feature space and improve model generalization. On the other hand, we employ mixed feature to replace the new features since only using new feature to optimize the model will affect the representation that was previously embedded in the feature space. Instead, by mixing new and old features, old knowledge can be retained without increasing the computational complexity. Extensive experiments on three benchmarks demonstrate the superiority of our approach, which outperforms the state-of-the-art non-exemplar methods and is comparable to high-performance replay-based methods. | 翻訳日:2023-04-18 17:49:51 公開日:2023-04-16 |
# 非エルミート超格子の相転移 Phase transitions in non-Hermitian superlattices ( http://arxiv.org/abs/2304.07706v1 ) ライセンス: Link先を確認 | Stefano Longhi | (参考訳) 本研究では, 1次元超格子におけるエネルギースペクトル相転移を, 虚ゲージ場下で, 単位セル毎のM部位を大きなM限界で有する。
ほぼ平坦な帯域を示すモデルでは,準完全実数から複素エネルギーへの滑らかな相転移が虚数ゲージ場の増加として観測され,mが増加するにつれて相転移がより鋭くなり(実数)、より鋭くなることが示されている。
この制限の場合、ランダムまたは非共変性障害を持つ超格子の場合、スペクトル相転移は、非エルミート非局所化遷移と呼ばれる各単位セル内の固有関数の局所化-非局在化遷移に対応し、元々はハタノとネルソンによって予測された。
しかし、乱れのない超格子ではスペクトル相転移も観測できるが、非エルミート非局在相転移とは一致しない。
予測された現象は、制御可能なMと想像ゲージ場を持つ合成超格子を既存の実験装置で実現できる非エルミートフォトニック量子ウォークで観測することができる。 We investigate the energy spectral phase transitions arising in one-dimensional superlattices under an imaginary gauge field and possessing M sites in each unit cell in the large M limit. It is shown that in models displaying nearly flat bands a smooth phase transition, from quasi entirely real to complex energies, can be observed as the imaginary gauge field is increased, and that the phase transition becomes sharper and sharper (exact) as M is increased. In this limiting case, for superlattices with random or incommensurate disorder the spectral phase transition corresponds to a localization-delocalization transition of the eigenfunctions within each unit cell, dubbed nonHermitian delocalization transition and originally predicted by Hatano and Nelson. However, it is shown here that in superlattices without disorder a spectral phase transition can be observed as well, which does not correspond to a non-Hermitian delocalization phase transition. The predicted phenomena could be observed in non-Hermitian photonic quantum walks, where synthetic superlattices with controllable M and imaginary gauge fields can be realized with existing experimental apparatus. | 翻訳日:2023-04-18 17:49:27 公開日:2023-04-16 |
# 密集群集追跡における重度咬合の頭部集中による対処 Handling Heavy Occlusion in Dense Crowd Tracking by Focusing on the Heads ( http://arxiv.org/abs/2304.07705v1 ) ライセンス: Link先を確認 | Yu Zhang, Huaming Chen, Wei Bao, Zhongzheng Lai, Dong Yuan, Zao Zhang | (参考訳) ディープラーニングの急速な発展に伴い、オブジェクト検出と追跡は、今日の社会において重要な役割を果たす。
密集した群衆シーンのすべての歩行者をコンピュータビジョンのアプローチで識別し追跡することは、この分野で典型的な課題であり、Multiple Object Tracking(MOT)チャレンジとも呼ばれる。
現代のトラッカーは、より複雑なシーンで操作する必要がある。
MOT20チャレンジの結果によると、歩行者はMOT17チャレンジの4倍密度がある。
したがって、非常に混み合った場面で検出・追跡する能力を向上させることが、この研究の目的である。
人体に対する咬合問題に照らし合わせると、頭部は通常より識別が容易である。
本研究では,小型・中型ともに歩行者のリコールと精度の向上を図るために,アンカーレス方式のジョイントヘッドとボディ検出器を設計した。
また,本モデルでは,訓練用歩行者検出のための統計的頭部比に関する情報は不要である。
提案するモデルは,その比率を動的に学習する。
提案モデルの有効性を検証するため,MOT20,Crowd Human,HT21データセットなど,さまざまなデータセットに対する広範な実験を行った。
その結果,提案手法は中小歩行者のリコール率と精度を著しく改善し,これらの課題データセットにおいて最先端の結果を得ることができた。 With the rapid development of deep learning, object detection and tracking play a vital role in today's society. Being able to identify and track all the pedestrians in the dense crowd scene with computer vision approaches is a typical challenge in this field, also known as the Multiple Object Tracking (MOT) challenge. Modern trackers are required to operate on more and more complicated scenes. According to the MOT20 challenge result, the pedestrian is 4 times denser than the MOT17 challenge. Hence, improving the ability to detect and track in extremely crowded scenes is the aim of this work. In light of the occlusion issue with the human body, the heads are usually easier to identify. In this work, we have designed a joint head and body detector in an anchor-free style to boost the detection recall and precision performance of pedestrians in both small and medium sizes. Innovatively, our model does not require information on the statistical head-body ratio for common pedestrians detection for training. Instead, the proposed model learns the ratio dynamically. To verify the effectiveness of the proposed model, we evaluate the model with extensive experiments on different datasets, including MOT20, Crowdhuman, and HT21 datasets. As a result, our proposed method significantly improves both the recall and precision rate on small & medium sized pedestrians and achieves state-of-the-art results in these challenging datasets. | 翻訳日:2023-04-18 17:49:06 公開日:2023-04-16 |
# BRECデータセットを用いたGNN表現性向上に向けて Towards Better Evaluation of GNN Expressiveness with BREC Dataset ( http://arxiv.org/abs/2304.07702v1 ) ライセンス: Link先を確認 | Yanbo Wang, Muhan Zhang | (参考訳) グラフニューラルネットワーク(GNN)の理論表現性の研究は急速に進展し,その表現性を高めるために多くの手法が提案されている。
しかしながら、ほとんどのメソッドは、$k$-次元Weisfeiler-Lehman(k$-WL)テスト階層に厳密に従う数を除いて、一様表現性尺度を持たない。
それらの理論解析は、しばしば非同型グラフの特定の族を区別することに限定され、その表現性を定量的に比較することが困難となる。
理論的解析とは対照的に、表現性を測定する別の方法は、1-WL非識別グラフを含む特定のデータセット上でのモデル性能を評価することである。
しかし、この目的のために特別に設計された以前のデータセットは、難易度(1-WLを超えるモデルは100%近い精度)、粒度(モデルは100%正しいかランダムに近い確率で推測される)、スケール(各データセットで本質的に異なるグラフのみ)の問題に直面している。
これらの制約に対処するため、我々は4つの主要なカテゴリ(Basic, Regular, Extension, CFI)から慎重に選択された400組の非同型グラフを含む新しい表現性データセット、$\textbf{BREC}$を提案する。
これらのグラフは、より難しい(最大4-WL)、より細かい粒度(1-WLと3-WLのモデルを比較することができる)、より大きなスケール(400対)を持つ。
さらに、BRECデータセット上で、高い-1-WL表現率を持つ16のモデルを合成試験した。
我々の実験は、これらの1-WL GNNモデルを超える最先端の表現性を初めて徹底的に比較した。
我々は、このデータセットが将来のGNNの表現性をテストするためのベンチマークになることを期待している。
データセットと評価コードは、https://github.com/GraphPKU/BREC.comで公開されています。 Research on the theoretical expressiveness of Graph Neural Networks (GNNs) has developed rapidly, and many methods have been proposed to enhance the expressiveness. However, most methods do not have a uniform expressiveness measure except for a few that strictly follow the $k$-dimensional Weisfeiler-Lehman ($k$-WL) test hierarchy. Their theoretical analyses are often limited to distinguishing certain families of non-isomorphic graphs, leading to difficulties in quantitatively comparing their expressiveness. In contrast to theoretical analysis, another way to measure expressiveness is by evaluating model performance on certain datasets containing 1-WL-indistinguishable graphs. Previous datasets specifically designed for this purpose, however, face problems with difficulty (any model surpassing 1-WL has nearly 100% accuracy), granularity (models tend to be either 100% correct or near random guess), and scale (only a few essentially different graphs in each dataset). To address these limitations, we propose a new expressiveness dataset, $\textbf{BREC}$, which includes 400 pairs of non-isomorphic graphs carefully selected from four primary categories (Basic, Regular, Extension, and CFI). These graphs have higher difficulty (up to 4-WL), finer granularity (able to compare models between 1-WL and 3-WL), and a larger scale (400 pairs). Further, we synthetically test 16 models with higher-than-1-WL expressiveness on our BREC dataset. Our experiment gives the first thorough comparison of the expressiveness of those state-of-the-art beyond-1-WL GNN models. We expect this dataset to serve as a benchmark for testing the expressiveness of future GNNs. Our dataset and evaluation code are released at: https://github.com/GraphPKU/BREC. | 翻訳日:2023-04-18 17:48:45 公開日:2023-04-16 |
# usnid: 教師なしおよび半教師なしの新しいインテント発見のためのフレームワーク USNID: A Framework for Unsupervised and Semi-supervised New Intent Discovery ( http://arxiv.org/abs/2304.07699v1 ) ライセンス: Link先を確認 | Hanlei Zhang, Hua Xu, Xin Wang, Fei Long, Kai Gao | (参考訳) 新しい意図発見は自然言語処理にとって大きな価値があり、ユーザニーズをよりよく理解し、フレンドリーなサービスを提供する。
しかし、既存のほとんどの手法は、ラベル付きデータの事前知識が限られている場合、離散テキスト表現の複雑な意味を捉えるのに苦労している。
そこで本研究では,未監視および半監督の新しいインテント発見のための,usnidと呼ばれる新しいフレームワークを提案する。
まず、教師なしまたは半教師なしのデータを使用して、浅い意味的類似関係を掘り起こし、クラスタ化のための初期化表現を提供する。
第2に,クラスタ割り当ての不整合の問題に対処し,表現学習のための高品質な自己教師付き目標を提供するために,centroid-guided clustering機構を設計する。
第3に、クラスタレベルとインスタンスレベルの両方の目的を最適化することにより、教師なしまたは半教師付きデータのハイレベルなセマンティクスをキャプチャして、きめ細かい意図的クラスタを検出する。
また,新しいインテントの数を事前に知ることなく,オープンワールドシナリオにおけるクラスタ数を効果的に推定する方法を提案する。
usnidはいくつかのインテントベンチマークデータセットで非常によく機能し、教師なしで半教師なしの新しいインテント発見を行い、異なるクラスタ番号で堅牢なパフォーマンスを示す。 New intent discovery is of great value to natural language processing, allowing for a better understanding of user needs and providing friendly services. However, most existing methods struggle to capture the complicated semantics of discrete text representations when limited or no prior knowledge of labeled data is available. To tackle this problem, we propose a novel framework called USNID for unsupervised and semi-supervised new intent discovery, which has three key technologies. First, it takes full use of unsupervised or semi-supervised data to mine shallow semantic similarity relations and provide well-initialized representations for clustering. Second, it designs a centroid-guided clustering mechanism to address the issue of cluster allocation inconsistency and provide high-quality self-supervised targets for representation learning. Third, it captures high-level semantics in unsupervised or semi-supervised data to discover fine-grained intent-wise clusters by optimizing both cluster-level and instance-level objectives. We also propose an effective method for estimating the cluster number in open-world scenarios without knowing the number of new intents beforehand. USNID performs exceptionally well on several intent benchmark datasets, achieving new state-of-the-art results in unsupervised and semi-supervised new intent discovery and demonstrating robust performance with different cluster numbers. | 翻訳日:2023-04-18 17:48:13 公開日:2023-04-16 |
# マルチスケールセマンティックマッチングによるX線画像へのシミュレーション画像の変換 Translating Simulation Images to X-ray Images via Multi-Scale Semantic Matching ( http://arxiv.org/abs/2304.07693v1 ) ライセンス: Link先を確認 | Jingxuan Kang, Tudor Jianu, Baoru Huang, Binod Bhattarai, Ngan Le, Frans Coenen, and Anh Nguyen | (参考訳) 仮想シミュレータでは血管内インターベンショントレーニングがますます行われている。
しかし, 血管内シミュレータから実世界へ体験を移すことは, 未解決の問題である。
重要な課題は、仮想環境は通常、現実的にシミュレートされないことだ。
本稿では,シミュレーション画像を血管内シミュレーターからx線画像に変換する新しい手法を提案する。
従来の画像から画像への翻訳手法は、しばしば視覚効果に焦点を当て、構造情報を無視する。
このギャップに対処するために,マルチスケール意味マッチングを用いた新しい手法を提案する。
入力画像と生成画像が同一の位置意味関係を持つことを保証するために,自己ドメイン意味マッチングを適用する。
さらに、異なるスタイルの影響を排除するために、クロスドメインマッチングを適用します。
集中的な実験により,本手法は現実的なx線画像を生成し,他の最先端手法を大差で上回ることを示した。
このタスクの新たなベンチマークとして,新たな大規模データセットも収集しています。
ソースコードとデータセットは公開される予定だ。 Endovascular intervention training is increasingly being conducted in virtual simulators. However, transferring the experience from endovascular simulators to the real world remains an open problem. The key challenge is the virtual environments are usually not realistically simulated, especially the simulation images. In this paper, we propose a new method to translate simulation images from an endovascular simulator to X-ray images. Previous image-to-image translation methods often focus on visual effects and neglect structure information, which is critical for medical images. To address this gap, we propose a new method that utilizes multi-scale semantic matching. We apply self-domain semantic matching to ensure that the input image and the generated image have the same positional semantic relationships. We further apply cross-domain matching to eliminate the effects of different styles. The intensive experiment shows that our method generates realistic X-ray images and outperforms other state-of-the-art approaches by a large margin. We also collect a new large-scale dataset to serve as the new benchmark for this task. Our source code and dataset will be made publicly available. | 翻訳日:2023-04-18 17:47:48 公開日:2023-04-16 |
# 移動センサを用いた長期視覚定位 Long-term Visual Localization with Mobile Sensors ( http://arxiv.org/abs/2304.07691v1 ) ライセンス: Link先を確認 | Shen Yan, Yu Liu, Long Wang, Zehong Shen, Zhen Peng, Haomin Liu, Maojun Zhang, Guofeng Zhang, Xiaowei Zhou | (参考訳) 画像マッチングとポーズ推定の著しい進歩にもかかわらず,照度,季節変化,構造変化による照会画像と参照画像の出現差が大きいため,時間変動した屋外環境におけるカメラの局在化は依然として課題である。
そこで本研究では,GPS,コンパス,重力センサなどの携帯端末にセンサを追加することで,この問題を解決することを提案する。
これらの移動センサは,画像マッチングと最終ポーズ推定における探索空間を小さくするために,適切な初期ポーズと効果的な制約を提供する。
提案手法では,既存のシステムでは面倒な2D-3Dマッチングではなく,効率的に2D-3D対応を確立できるように,直接2D-3Dマッチングネットワークを構築できる。
研究課題に対する公開データセットが存在しないため,様々なモバイルセンサデータと重要なシーンの外観変化を提供する新しいデータセットを収集し,クエリ画像のための接地ポーズを取得するシステムを開発した。
提案手法といくつかの最先端ベースラインをベンチマークし,提案手法の有効性を実証する。
コードとデータセットは公開される予定だ。 Despite the remarkable advances in image matching and pose estimation, image-based localization of a camera in a temporally-varying outdoor environment is still a challenging problem due to huge appearance disparity between query and reference images caused by illumination, seasonal and structural changes. In this work, we propose to leverage additional sensors on a mobile phone, mainly GPS, compass, and gravity sensor, to solve this challenging problem. We show that these mobile sensors provide decent initial poses and effective constraints to reduce the searching space in image matching and final pose estimation. With the initial pose, we are also able to devise a direct 2D-3D matching network to efficiently establish 2D-3D correspondences instead of tedious 2D-2D matching in existing systems. As no public dataset exists for the studied problem, we collect a new dataset that provides a variety of mobile sensor data and significant scene appearance variations, and develop a system to acquire ground-truth poses for query images. We benchmark our method as well as several state-of-the-art baselines and demonstrate the effectiveness of the proposed approach. The code and dataset will be released publicly. | 翻訳日:2023-04-18 17:47:32 公開日:2023-04-16 |
# 不確定な距離表現のための経験的ブレグマン分岐の学習 Learning Empirical Bregman Divergence for Uncertain Distance Representation ( http://arxiv.org/abs/2304.07689v1 ) ライセンス: Link先を確認 | Zhiyuan Li, Ziru Liu, Anna Zou, Anca L. Ralescu | (参考訳) ディープメトリック学習技術は、ディープネットワークを用いたサンプルの埋め込みを学習することで、様々な教師なしおよび教師なしの学習タスクの視覚的表現に使われている。
しかし、2つの埋め込みの類似性関数として固定距離計量を用いる古典的手法は、複雑なデータ分布を捉える際の最適以下の性能をもたらす可能性がある。
bregman divergenceは様々な距離メトリクスの測定を一般化し、ディープメトリック学習の多くの分野に出現する。
本稿では,Bregmanの発散から,メトリクス学習の損失がどのように生ずるかを示す。
次に,Bregman分散の根底にある凸関数のパラメータ化に基づくデータから直接,経験的Bregman分散を学習するための新しい手法を提案する。
さらに,本手法が一般的な5つのデータセットに対して,他のsata深層メトリック学習手法,特にパターン認識問題に対して効果的に動作することを示す。 Deep metric learning techniques have been used for visual representation in various supervised and unsupervised learning tasks through learning embeddings of samples with deep networks. However, classic approaches, which employ a fixed distance metric as a similarity function between two embeddings, may lead to suboptimal performance for capturing the complex data distribution. The Bregman divergence generalizes measures of various distance metrics and arises throughout many fields of deep metric learning. In this paper, we first show how deep metric learning loss can arise from the Bregman divergence. We then introduce a novel method for learning empirical Bregman divergence directly from data based on parameterizing the convex function underlying the Bregman divergence with a deep learning setting. We further experimentally show that our approach performs effectively on five popular public datasets compared to other SOTA deep metric learning methods, particularly for pattern recognition problems. | 翻訳日:2023-04-18 17:47:15 公開日:2023-04-16 |
# MLRegTest: 正規言語の機械学習のためのベンチマーク MLRegTest: A Benchmark for the Machine Learning of Regular Languages ( http://arxiv.org/abs/2304.07687v1 ) ライセンス: Link先を確認 | Sam van der Poel, Dakotah Lambert, Kalina Kostyszyn, Tiantian Gao, Rahul Verma, Derek Andersen, Joanne Chau, Emily Peterson, Cody St. Clair, Paul Fodor, Chihiro Shibata, Jeffrey Heinz | (参考訳) 機械学習(ML)システムの評価と、既知の分類器の学習能力により、学習可能なパターンのきめ細かい検査が可能になり、未知の分類器の学習に適用された場合の信頼性を高める。
本稿では,MLRegTestと呼ばれる,1,800の正規言語からのトレーニング,開発,テストセットを含むシーケンス分類におけるMLシステムのベンチマークについて述べる。
異なる形式言語は、異なる種類の長距離依存を表現し、シーケンス内の長距離依存を正しく識別することは、MLシステムがうまく一般化する上で既知の課題である。
MLRegTestは、その論理的複雑さ(モナディック二階数、一階数、命題数、単項式)と論理的リテラル(文字列、階層文字列、サブシーケンス、またはそれらの組み合わせ)に基づいて言語を編成する。
リテラルの論理的複雑さと選択は、通常の言語におけるさまざまな長距離依存関係を理解するための体系的な方法を提供する。
最後に, MLRegTestにおける異なるニューラルネットワーク(RNN, LSTM, GRU, 変圧器)の性能について検討した。
主な結論は、それらのパフォーマンスがテストセットの種類、言語クラス、ニューラルネットワークアーキテクチャに大きく依存しているということだ。 Evaluating machine learning (ML) systems on their ability to learn known classifiers allows fine-grained examination of the patterns they can learn, which builds confidence when they are applied to the learning of unknown classifiers. This article presents a new benchmark for ML systems on sequence classification called MLRegTest, which contains training, development, and test sets from 1,800 regular languages. Different kinds of formal languages represent different kinds of long-distance dependencies, and correctly identifying long-distance dependencies in sequences is a known challenge for ML systems to generalize successfully. MLRegTest organizes its languages according to their logical complexity (monadic second order, first order, propositional, or monomial expressions) and the kind of logical literals (string, tier-string, subsequence, or combinations thereof). The logical complexity and choice of literal provides a systematic way to understand different kinds of long-distance dependencies in regular languages, and therefore to understand the capacities of different ML systems to learn such long-distance dependencies. Finally, the performance of different neural networks (simple RNN, LSTM, GRU, transformer) on MLRegTest is examined. The main conclusion is that their performance depends significantly on the kind of test set, the class of language, and the neural network architecture. | 翻訳日:2023-04-18 17:47:00 公開日:2023-04-16 |
# 低次元画像表現学習のための固有次元制約付きオートエンコーダ Autoencoders with Intrinsic Dimension Constraints for Learning Low Dimensional Image Representations ( http://arxiv.org/abs/2304.07686v1 ) ライセンス: Link先を確認 | Jianzhang Zheng, Hao Shen, Jian Yang, Xuan Tang, Mingsong Chen, Hui Yu, Jielong Guo, Xian Wei | (参考訳) オートエンコーダは様々なコンピュータビジョンアプリケーションで大きな成功を収めている。
オートエンコーダは、自己教師付きパラダイム、すなわち再構築を通じて適切な低次元画像表現を学習する。
既存の研究では、画像のピクセルレベルでの再構成誤差の最小化と、ディープニューラルネットワーク(DNN)におけるデータ表現の基本的な幾何学的性質である内在次元(ID)の保存を無視することに焦点を当てている。
本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構築に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。
このアプローチはデータセット全体の大域的多様体構造を保持するだけでなく、各点の特徴写像の局所的多様体構造も維持し、学習された低次元特徴をより識別し、下流アルゴリズムの性能を向上させる。
我々の知る限り、既存の研究は、オートエンコーダの正規化におけるグローバルおよびローカルなID不変特性の活用に限られている。
ベンチマークデータセット(Extended Yale B, Caltech101, ImageNet)の数値実験結果から, 結果の正規化学習モデルは, 画像分類やクラスタリングを含む下流タスクに対して, より優れた識別的表現を実現することが示された。 Autoencoders have achieved great success in various computer vision applications. The autoencoder learns appropriate low dimensional image representations through the self-supervised paradigm, i.e., reconstruction. Existing studies mainly focus on the minimizing the reconstruction error on pixel level of image, while ignoring the preservation of Intrinsic Dimension (ID), which is a fundamental geometric property of data representations in Deep Neural Networks (DNNs). Motivated by the important role of ID, in this paper, we propose a novel deep representation learning approach with autoencoder, which incorporates regularization of the global and local ID constraints into the reconstruction of data representations. This approach not only preserves the global manifold structure of the whole dataset, but also maintains the local manifold structure of the feature maps of each point, which makes the learned low-dimensional features more discriminant and improves the performance of the downstream algorithms. To our best knowledge, existing works are rare and limited on exploiting both global and local ID invariant properties on the regularization of autoencoders. Numerical experimental results on benchmark datasets (Extended Yale B, Caltech101 and ImageNet) show that the resulting regularized learning models achieve better discriminative representations for downstream tasks including image classification and clustering. | 翻訳日:2023-04-18 17:46:38 公開日:2023-04-16 |
# SeaThru-NeRF:Scattering Mediaにおけるニューラル放射場 SeaThru-NeRF: Neural Radiance Fields in Scattering Media ( http://arxiv.org/abs/2304.07743v1 ) ライセンス: Link先を確認 | Deborah Levy, Amit Peleg, Naama Pearl, Dan Rosenbaum, Derya Akkaynak, Simon Korman, Tali Treibitz | (参考訳) 新規なビュー生成のためのニューラルラジアンスフィールド(NeRF)の研究は、新しいモデルと拡張によって爆発的に進んでいる。
しかし、未解決の疑問は、媒体が物体の外観に強く影響を及ぼす水中や霧のシーンで何が起こるかである。
これまでのところ、NeRFとその変種はこれらのケースを無視している。
しかし、NeRFフレームワークはボリュームレンダリングに基づいているため、一度適切にモデル化された場合、媒体の効果を考慮に入れておくことができる。
本研究では,SeaThru画像形成モデルに基づく散乱媒質中のNeRFの新たなレンダリングモデルを構築し,シーン情報と媒体パラメータの両方を学ぶのに適したアーキテクチャを提案する。
本手法の強みをシミュレーションおよび実世界のシーンで示し、水中で新しい写真リアリスティックなビューを正しくレンダリングする。
さらにエキサイティングなことに、これらのシーンの明確なビューをレンダリングし、カメラとシーンの間の媒体を取り除き、媒体によってひどく遮られる遠方の物体の外観と深さを再構築することができる。
私たちのコードとユニークなデータセットは、プロジェクトのwebサイトから入手できます。 Research on neural radiance fields (NeRFs) for novel view generation is exploding with new models and extensions. However, a question that remains unanswered is what happens in underwater or foggy scenes where the medium strongly influences the appearance of objects. Thus far, NeRF and its variants have ignored these cases. However, since the NeRF framework is based on volumetric rendering, it has inherent capability to account for the medium's effects, once modeled appropriately. We develop a new rendering model for NeRFs in scattering media, which is based on the SeaThru image formation model, and suggest a suitable architecture for learning both scene information and medium parameters. We demonstrate the strength of our method using simulated and real-world scenes, correctly rendering novel photorealistic views underwater. Even more excitingly, we can render clear views of these scenes, removing the medium between the camera and the scene and reconstructing the appearance and depth of far objects, which are severely occluded by the medium. Our code and unique datasets are available on the project's website. | 翻訳日:2023-04-18 17:39:50 公開日:2023-04-16 |
# Canvas:ニューラルネットワークにおけるエンドツーエンドカーネルアーキテクチャ検索 Canvas: End-to-End Kernel Architecture Search in Neural Networks ( http://arxiv.org/abs/2304.07741v1 ) ライセンス: Link先を確認 | Chenggang Zhao, Genghan Zhang, Mingyu Gao | (参考訳) ニューラルネットワーク(nns)における高いパフォーマンスと精度の要求は、決して終わらない。
既存のテンソルコンパイルとニューラルアーキテクチャサーチ(NAS)技術は2つの目標を直交的に最適化するが、具体的な戦略で多くの類似点を共有している。
我々はこの2つを1つに組み合わせて、カーネルアーキテクチャ検索(KAS)を例に挙げる。
KASはシステムの観点からNASをレビューし、よりきめ細かいレベルに拡大して、高性能かつ高精度なニューラルカーネルを生成する。
KASの可能性を実証するために、私たちは、高品質なカーネルを畳み込み置換として見つけるために、エンドツーエンドのフレームワークCanvasを構築した。
Canvasはリッチなきめ細かいプリミティブからサンプルを抽出し、確率的に反復的に新しいカーネルを構築し、ユーザ指定の制約に従って評価する。
canvasはカーネル内で自由に調整可能なテンソル次元サイズをサポートし、構造的合法性を満たすために2段階のソルバを使用し、モデル予算を十分に活用する。
評価の結果,標準畳み込みを共通NNで生成した新しいカーネルに置き換えることで,従来の最先端技術と比較して平均1.5倍の高速化を実現し,精度の低下と探索効率を許容できることがわかった。
canvasは、過去に多くの手動で設計されたカーネルを再発見し、将来の機械学習イノベーションを刺激する新しい構造を作り出すことで、kasの実用性を検証する。 The demands for higher performance and accuracy in neural networks (NNs) never end. Existing tensor compilation and Neural Architecture Search (NAS) techniques orthogonally optimize the two goals but actually share many similarities in their concrete strategies. We exploit such opportunities by combining the two into one and make a case for Kernel Architecture Search (KAS). KAS reviews NAS from a system perspective and zooms into a more fine-grained level to generate neural kernels with both high performance and good accuracy. To demonstrate the potential of KAS, we build an end-to-end framework, Canvas, to find high-quality kernels as convolution replacements. Canvas samples from a rich set of fine-grained primitives to stochastically and iteratively construct new kernels and evaluate them according to user-specified constraints. Canvas supports freely adjustable tensor dimension sizes inside the kernel and uses two levels of solvers to satisfy structural legality and fully utilize model budgets. The evaluation shows that by replacing standard convolutions with generated new kernels in common NNs, Canvas achieves average 1.5x speedups compared to the previous state-of-the-art with acceptable accuracy loss and search efficiency. Canvas verifies the practicability of KAS by rediscovering many manually designed kernels in the past and producing new structures that may inspire future machine learning innovations. | 翻訳日:2023-04-18 17:39:31 公開日:2023-04-16 |
# 効果的な知識管理の落とし穴:国際情報技術機関からの洞察 Pitfalls in Effective Knowledge Management: Insights from an International Information Technology Organization ( http://arxiv.org/abs/2304.07737v1 ) ライセンス: Link先を確認 | Kalle Koivisto, Toni Taipalus | (参考訳) 知識は組織にとって不可欠なリソースだと考えられている。
組織が所有する知識から利益を得るためには、知識を効果的に管理する必要がある。
知識の共有とマネジメントは実践者にとって重要であると見なされているが、組織は知識の恩恵を受けることができず、協力の問題や従業員の離脱に伴う貴重な知識の喪失につながる。
本研究の目的は、個人が知識を効果的に共有し管理することを妨げる障害要因を特定し、これらの要因を取り除く方法を理解することである。
国際規模のIT組織で働く50人の個人による半構造化グループインタビューを通じて、実証データを収集した。
本研究は,知識管理の重要性が認識されていることと,その重要性が実際にどのように反映されているかというギャップの存在を確認する。
いくつかの障害要因が特定され、個人的社会的トピック、組織的社会トピック、技術的トピック、環境トピック、および相互関連社会的および技術的トピックに分類された。
これらの障害を緩和するための推奨事項は、トレーニングやガイドラインなど、従業員の行動を改善することに焦点を当てている。
本研究は,知識共有と経営戦略の創出にこの知識を活用することにより,知識集約的な分野の組織に影響を及ぼすものである。 Knowledge is considered an essential resource for organizations. For organizations to benefit from their possessed knowledge, knowledge needs to be managed effectively. Despite knowledge sharing and management being viewed as important by practitioners, organizations fail to benefit from their knowledge, leading to issues in cooperation and the loss of valuable knowledge with departing employees. This study aims to identify hindering factors that prevent individuals from effectively sharing and managing knowledge and understand how to eliminate these factors. Empirical data were collected through semi-structured group interviews from 50 individuals working in an international large IT organization. This study confirms the existence of a gap between the perceived importance of knowledge management and how little this importance is reflected in practice. Several hindering factors were identified, grouped into personal social topics, organizational social topics, technical topics, environmental topics, and interrelated social and technical topics. The presented recommendations for mitigating these hindering factors are focused on improving employees' actions, such as offering training and guidelines to follow. The findings of this study have implications for organizations in knowledge-intensive fields, as they can use this knowledge to create knowledge sharing and management strategies to improve their overall performance. | 翻訳日:2023-04-18 17:39:07 公開日:2023-04-16 |
# transfusionodom: 解釈可能なトランスフォーマーベースのlidar-inertial fusion odometry 推定 TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion Odometry Estimation ( http://arxiv.org/abs/2304.07728v1 ) ライセンス: Link先を確認 | Leyuan Sun, Guanqun Ding, Yue Qiu, Yusuke Yoshiyasu and Fumio Kanehiro | (参考訳) センサのマルチモーダル融合は,移動ロボットの基本モジュールであるオドメトリ推定の性能を高めるために一般的に用いられている手法である。
しかし, 教師付きセンサ融合オドメトリ推定タスクにおいて, 異なるモード間の融合をどのように行うか?
まだ課題の1つが残っている。
要素和や連結といったいくつかの単純な演算は、異なるモーダルを効率的に組み込むために適応的な注意重みを割り当てることができないため、競合オドメトリーの結果を得るのが困難である。
近年、Transformerアーキテクチャは、特に言語とのビジョン領域において、マルチモーダル融合タスクの可能性を示している。
本研究では,オドメトリ推定のためのエンドツーエンドの教師付きトランスフォーマトベースlidar-inertial fusion framework(transfusionodom)を提案する。
マルチアテンション融合モジュールは、モデルの複雑さを盲目的に増やすことで生じる過剰フィッティング問題に対処するために、均質および不均質なモダリティに対する異なる融合アプローチを示す。
さらに,変圧器を用いたマルチモーダルインタラクションの学習過程を解釈するために,モダリティ間の相互作用を説明するために,汎用可視化手法を導入する。
さらに, 各種マルチモーダル核融合戦略の評価を行い, 提案する核融合戦略の性能を検証した。
提案した融合戦略の一般化能力を検証するために, 合成マルチモーダルデータセットが公開されている。
提案したTransFusionOdomをKITTIデータセットで定量および定性評価することにより,他の関連する研究と比較して優れた性能が得られた。 Multi-modal fusion of sensors is a commonly used approach to enhance the performance of odometry estimation, which is also a fundamental module for mobile robots. However, the question of \textit{how to perform fusion among different modalities in a supervised sensor fusion odometry estimation task?} is still one of challenging issues remains. Some simple operations, such as element-wise summation and concatenation, are not capable of assigning adaptive attentional weights to incorporate different modalities efficiently, which make it difficult to achieve competitive odometry results. Recently, the Transformer architecture has shown potential for multi-modal fusion tasks, particularly in the domains of vision with language. In this work, we propose an end-to-end supervised Transformer-based LiDAR-Inertial fusion framework (namely TransFusionOdom) for odometry estimation. The multi-attention fusion module demonstrates different fusion approaches for homogeneous and heterogeneous modalities to address the overfitting problem that can arise from blindly increasing the complexity of the model. Additionally, to interpret the learning process of the Transformer-based multi-modal interactions, a general visualization approach is introduced to illustrate the interactions between modalities. Moreover, exhaustive ablation studies evaluate different multi-modal fusion strategies to verify the performance of the proposed fusion strategy. A synthetic multi-modal dataset is made public to validate the generalization ability of the proposed fusion strategy, which also works for other combinations of different modalities. The quantitative and qualitative odometry evaluations on the KITTI dataset verify the proposed TransFusionOdom could achieve superior performance compared with other related works. | 翻訳日:2023-04-18 17:38:47 公開日:2023-04-16 |
# MS-LSTM:ビデオ予測領域における時空間多スケール表現の探索 MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain ( http://arxiv.org/abs/2304.07724v1 ) ライセンス: Link先を確認 | Zhifeng Ma, Hao Zhang, Jie Liu | (参考訳) 空間的および時間的次元における動きの劇的な変化は、映像予測タスクを極めて困難にする。
既存のRNNモデルは、モデルをより深くまたは拡張することで、より高い性能が得られる。
ビデオのマルチスケール機能は、レイヤを積み重ねることによってのみ得られるが、これは非効率であり、(メモリ、FLOP、トレーニング時間など)耐え難いトレーニングコストをもたらす。
そこで本研究では,MS-LSTMと呼ばれる時空間的マルチスケールモデルを提案する。
積層層に基づくMS-LSTMでは、時空間情報を完全にキャプチャする2つの効率的なマルチスケール設計が組み込まれている。
具体的には、ミラー化されたピラミッド構造を持つLSTMを用いて空間的マルチスケール表現を構築し、異なる畳み込みカーネルを持つLSTMを用いて時間的マルチスケール表現を構築する。
4つのビデオデータセット上の8つのベースラインモデルによる詳細な比較実験により、MS-LSTMの性能は向上するが、トレーニングコストは低下することが示された。 The drastic variation of motion in spatial and temporal dimensions makes the video prediction task extremely challenging. Existing RNN models obtain higher performance by deepening or widening the model. They obtain the multi-scale features of the video only by stacking layers, which is inefficient and brings unbearable training costs (such as memory, FLOPs, and training time). Different from them, this paper proposes a spatiotemporal multi-scale model called MS-LSTM wholly from a multi-scale perspective. On the basis of stacked layers, MS-LSTM incorporates two additional efficient multi-scale designs to fully capture spatiotemporal context information. Concretely, we employ LSTMs with mirrored pyramid structures to construct spatial multi-scale representations and LSTMs with different convolution kernels to construct temporal multi-scale representations. Detailed comparison experiments with eight baseline models on four video datasets show that MS-LSTM has better performance but lower training costs. | 翻訳日:2023-04-18 17:38:13 公開日:2023-04-16 |
# 時空間的特徴を有するオクルード画素再構成のための新しいエンド・ツー・エンドフレームワークによる人物再同定 A Novel end-to-end Framework for Occluded Pixel Reconstruction with Spatio-temporal Features for Improved Person Re-identification ( http://arxiv.org/abs/2304.07721v1 ) ライセンス: Link先を確認 | Prathistith Raj Medi, Ghanta Sai Krishna, Praneeth Nemani, Satyanarayana Vollala, Santosh Kumar | (参考訳) 人身元確認は、大衆の安全を高めるために群衆の動きを監視し追跡するために不可欠である。
しかし,隠蔽の存在下での再同定は既存システムの性能を大幅に低下させ,課題となっている。
本研究では,深層ニューラルネットワークを用いたrgb画像/映像の効果的なオクルージョン検出および再構成フレームワークを開発することにより,この問題に対する合理的な解決法を提案する。
具体的には、CNNベースのオクルージョン検出モデルは、個別の入力フレームを分類し、次いでConv-LSTMとオートエンコーダとで、シーケンシャル(ビデオ)データと非シーケンシャル(画像)データに対応する隠蔽画素を再構成する。
再構成されたRGBフレームの品質をさらに改善し、条件付き生成逆数ネットワーク(cGAN)を用いて微調整する。
本手法はドメインの4つのよく知られた公開データセット上で評価され,質的再構成結果が実に魅力的である。
シームズネットワークの再同定精度の定量的評価は, 様々なデータセット上で画素再構成を行った後, 例外的なランク1精度を示した。
最先端のアプローチとの比較分析はまた、実生活監視システムにおける我々の仕事の堅牢性を示している。 Person re-identification is vital for monitoring and tracking crowd movement to enhance public security. However, re-identification in the presence of occlusion substantially reduces the performance of existing systems and is a challenging area. In this work, we propose a plausible solution to this problem by developing effective occlusion detection and reconstruction framework for RGB images/videos consisting of Deep Neural Networks. Specifically, a CNN-based occlusion detection model classifies individual input frames, followed by a Conv-LSTM and Autoencoder to reconstruct the occluded pixels corresponding to the occluded frames for sequential (video) and non-sequential (image) data, respectively. The quality of the reconstructed RGB frames is further refined and fine-tuned using a Conditional Generative Adversarial Network (cGAN). Our method is evaluated on four well-known public data sets of the domain, and the qualitative reconstruction results are indeed appealing. Quantitative evaluation in terms of re-identification accuracy of the Siamese network showed an exceptional Rank-1 accuracy after occluded pixel reconstruction on various datasets. A comparative analysis with state-of-the-art approaches also demonstrates the robustness of our work for use in real-life surveillance systems. | 翻訳日:2023-04-18 17:37:55 公開日:2023-04-16 |
# Data-OOB: シンプルで効率的なデータ値として推定されるアウトオブバッグ Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value ( http://arxiv.org/abs/2304.07718v1 ) ライセンス: Link先を確認 | Yongchan Kwon, James Zou | (参考訳) データバリュエーション(data valuation)は、モデルトレーニングに有用なデータや有害なデータに関する統計的な洞察を提供するための強力なフレームワークである。
多くのShapleyベースのデータ評価手法は、様々な下流タスクにおいて有望な結果を示しているが、多くのモデルをトレーニングする必要があるため、計算的に困難であることが知られている。
その結果、大規模なデータセットに適用することは不可能であると認識されている。
そこで本研究では,バッグ外推定を用いたバッグモデルのためのデータ評価手法であるData-OOBを提案する。
提案手法は計算効率が高く,訓練された弱学習者を用いて数百万データにスケールできる。
具体的には、Data-OOBは、評価するために10^6$のサンプルがあり、入力次元が100である場合、1つのCPUプロセッサ上で2.25時間未満である。
さらに、data-oob は、2つの異なる点を比較した場合の無限小jackknife影響関数と同じ重要なデータポイントを識別する、という理論的な解釈を持っている。
数千のサンプルサイズを持つ12の分類データセットを用いて,包括的な実験を行った。
提案手法は,既存のデータ評価手法を著しく上回っており,誤ラベルデータを特定し,有用な(あるいは有害な)データポイントのセットを見つけ,実世界のアプリケーションでデータ値を適用する可能性を強調している。 Data valuation is a powerful framework for providing statistical insights into which data are beneficial or detrimental to model training. Many Shapley-based data valuation methods have shown promising results in various downstream tasks, however, they are well known to be computationally challenging as it requires training a large number of models. As a result, it has been recognized as infeasible to apply to large datasets. To address this issue, we propose Data-OOB, a new data valuation method for a bagging model that utilizes the out-of-bag estimate. The proposed method is computationally efficient and can scale to millions of data by reusing trained weak learners. Specifically, Data-OOB takes less than 2.25 hours on a single CPU processor when there are $10^6$ samples to evaluate and the input dimension is 100. Furthermore, Data-OOB has solid theoretical interpretations in that it identifies the same important data point as the infinitesimal jackknife influence function when two different points are compared. We conduct comprehensive experiments using 12 classification datasets, each with thousands of sample sizes. We demonstrate that the proposed method significantly outperforms existing state-of-the-art data valuation methods in identifying mislabeled data and finding a set of helpful (or harmful) data points, highlighting the potential for applying data values in real-world applications. | 翻訳日:2023-04-18 17:37:33 公開日:2023-04-16 |
# フォトニック量子ウォークにおける固有状態のないアンダーソン局在 Anderson localization without eigenstates in photonic quantum walks ( http://arxiv.org/abs/2304.07713v1 ) ライセンス: Link先を確認 | Stefano Longhi | (参考訳) アンダーソン局在は、強い静的および非相関性障害を持つ波状系においてユビキタスである。
アンダーソン局在の根底にある繊細な破壊的干渉は、ハミルトニアンの時間的変動や非周期的ドライブの存在下で洗い流され、非局在化と輸送の回復に繋がる。
しかし、対角線外障害のある一次元格子では、アンダーソンの局所化はキラル対称性に由来する隠れた保存則を破らない任意の時間依存の駆動のために持続し、「固有状態のない局所化」と呼ばれる。
このような興味深い現象は、コイン演算子に適用された静的な乱れを伴う離散時間フォトニック量子ウォークで観察でき、非エルミート力学にも拡張できることを示した。 Anderson localization is ubiquitous in wavy systems with strong static and uncorrelated disorder. The delicate destructive interference underlying Anderson localization is usually washed out in the presence of temporal fluctuations or aperiodic drives in the Hamiltonian, leading to delocalization and restoring transport. However, in one-dimensional lattices with off-diagonal disorder Anderson localization can persist for arbitrary time-dependent drivings that do not break a hidden conservation law originating from the chiral symmetry, leading to the dubbed 'localization without eigenstates'. Here it is shown that such an intriguing phenomenon can be observed in discrete-time photonic quantum walks with static disorder applied to the coin operator, and can be extended to non-Hermitian dynamics as well. | 翻訳日:2023-04-18 17:37:10 公開日:2023-04-16 |
# obstacle-transformer:周辺軌道に基づく軌道予測ネットワーク Obstacle-Transformer: A Trajectory Prediction Network Based on Surrounding Trajectories ( http://arxiv.org/abs/2304.07711v1 ) ライセンス: Link先を確認 | Wendong Zhang and Qingjie Chai and Quanqi Zhang and Chengwei Wu | (参考訳) リカレントニューラルネットワーク、Long Short-Term Memory、Transformerは、移動物体の軌道予測に大きな進歩をもたらした。
周囲の特徴を持つ軌道要素は, 性能向上のために統合されているが, 解決すべき問題がいくつか残っている。
1つは、時系列処理モデルが予測シーケンス数の増加とともに推論時間を増加させるということである。
もうひとつは、シーンの画像から特徴を引き出すことができず、ある状況ではポイントクラウドを抽出できないことだ。
そこで本稿では,一定時間における軌道予測のためのObstacle-Transformerを提案する。
Obstacle''は画像や点雲ではなく周囲の軌跡によって設計されており、より広い範囲のシナリオでObstacle-Transformerが適用可能である。
ETHデータセットとUCYデータセットを用いて実験を行い、モデルの性能を検証する。 Recurrent Neural Network, Long Short-Term Memory, and Transformer have made great progress in predicting the trajectories of moving objects. Although the trajectory element with the surrounding scene features has been merged to improve performance, there still exist some problems to be solved. One is that the time series processing models will increase the inference time with the increase of the number of prediction sequences. Another lies in which the features can not be extracted from the scene's image and point cloud in some situations. Therefore, this paper proposes an Obstacle-Transformer to predict trajectory in a constant inference time. An ``obstacle'' is designed by the surrounding trajectory rather than images or point clouds, making Obstacle-Transformer more applicable in a wider range of scenarios. Experiments are conducted on ETH and UCY data sets to verify the performance of our model. | 翻訳日:2023-04-18 17:36:55 公開日:2023-04-16 |
# 散逸格子におけるアンダーソン局在 Anderson localization in dissipative lattices ( http://arxiv.org/abs/2304.07710v1 ) ライセンス: Link先を確認 | Stefano Longhi | (参考訳) アンダーソン局在は、不規則格子における波動の拡散が完全に停止し、 {dynamical localization} の普遍的なメカニズムを提供すると予測する。
非相関対角性障害を持つ1次元エルミート・アンダーソンモデルでは、動的局在とスペクトル局在の間に1対1の対応があり、すなわちすべてのハミルトン固有関数の指数的局在がある。
この対応は乱れた散逸格子を扱うときに破られる。
近年, 粒子を周囲環境と交換し, 散逸のランダムなゆらぎを導入すると, スペクトルの局在が観測されるが, 動的局在は得られないことがわかった。
このような研究は、保存的(ハミルトニアン)と散逸的ダイナミクスの混合格子を考慮し、半古典的解析に制限された。
しかし、完全なリンドブラド力学を示す純粋散逸格子におけるアンダーソンの局在は、ほとんど解明されていない。
ここでは、リンドブラッド・マスター方程式の枠組みにおける純散逸アンダーソン模型を考察し、保存的なホッピングとランダム散逸を持つ半古典的モデルと同様に、リウヴィリアン超作用素のすべての固有状態の強いスペクトル局在にもかかわらず、動的非局在を観察できることを示した。
この結果は、リウヴィリアン超作用素の定常状態の非局在化から生じる動的非局在化がデ強調効果を持つアンダーソンモデルで観測される非局在化とは大きく異なる。 Anderson localization predicts that wave spreading in disordered lattices can come to a complete halt, providing a universal mechanism for {dynamical localization}. In the one-dimensional Hermitian Anderson model with uncorrelated diagonal disorder, there is a one-to-one correspondence between dynamical localization and spectral localization, i.e. the exponential localization of all the Hamiltonian eigenfunctions. This correspondence can be broken when dealing with disordered dissipative lattices. Recently, it has been shown that when the system exchanges particles with the surrounding environment and random fluctuations of the dissipation are introduced, spectral localization is observed but without dynamical localization. Such previous studies considered lattices with mixed conservative (Hamiltonian) and dissipative dynamics, and were restricted to a semiclassical analysis. However, Anderson localization in purely dissipative lattices, displaying an entirely Lindbladian dynamics, remains largely unexplored. Here we consider the purely-dissipative Anderson model in the framework of a Lindblad master equation and show that, akin to the semiclassical models with conservative hopping and random dissipation, one observes dynamical delocalization in spite of strong spectral localization of all eigenstates of the Liouvillian superoperator. This result is very distinct than delocalization observed in the Anderson model with dephasing effects, where dynamical delocalization arises from the delocalization of the stationary state of the Liouvillian superoperator. | 翻訳日:2023-04-18 17:36:42 公開日:2023-04-16 |
# SPARQLクエリ生成に対する自然言語のコピー機構の総合的評価 A Comprehensive Evaluation of the Copy Mechanism for Natural Language to SPARQL Query Generation ( http://arxiv.org/abs/2304.07772v1 ) ライセンス: Link先を確認 | Samuel Reyd, Amal Zouaq, Papa Abdou Karim Karou Diallo | (参考訳) 近年、SPARQLクエリ生成のためのニューラルネットワーク翻訳(NMT)の分野は、大きく成長している。
近年,従来のエンコーダ・デコーダアーキテクチャによるコピー機構の導入や,事前学習したエンコーダ・デコーダの使用により,新たな性能ベンチマークが設定されている。
本稿では,最近のnmtベースのsparql生成実験を再現・拡張する多種多様な実験を行い,事前学習モデルと非事前学習モデルの比較,質問アノテーション形式,非訓練モデルと事前学習モデルに対するコピー機構の利用について述べる。
その結果、コピー機構の追加や質問アノテーションの使用により、事前学習モデルと事前学習モデルのパフォーマンスが向上し、3つの一般的なデータセットに新たなベースラインが設定された。 In recent years, the field of neural machine translation (NMT) for SPARQL query generation has witnessed a significant growth. Recently, the incorporation of the copy mechanism with traditional encoder-decoder architectures and the use of pre-trained encoder-decoders have set new performance benchmarks. This paper presents a large variety of experiments that replicate and expand upon recent NMT-based SPARQL generation studies, comparing pre-trained and non-pre-trained models, question annotation formats, and the use of a copy mechanism for non-pre-trained and pre-trained models. Our results show that either adding the copy mechanism or using a question annotation improves performances for nonpre-trained models and for pre-trained models, setting new baselines for three popular datasets. | 翻訳日:2023-04-18 17:30:48 公開日:2023-04-16 |
# 異常検出のための正規化完全サイクル整合gan Regularized Complete Cycle Consistent GAN for Anomaly Detection ( http://arxiv.org/abs/2304.07769v1 ) ライセンス: Link先を確認 | Zahra Dehghanian, Saeed Saravani, Maryam Amirmazlaghani, Mohammad Rahmati | (参考訳) 本研究では,生成型逆ニューラルネットワーク(gans)のパワーを,再構成誤差のサイクル一貫性を通じて活用し,実世界のアプリケーションにおける異常検出手法を提案する。
従来の手法ではクラス単位での精度のばらつきが高いため、すべてのタイプの異常には適用できない。
RCALADという手法は,この構造に新たな識別器を導入し,より効率的な学習プロセスを実現することで,この問題を解決しようとするものである。
さらに、RCALADは入力空間の補足的分布を用いて、通常のデータ分布に向けて再構成を操り、その再構成から異常サンプルを効果的に分離し、より正確な異常検出を容易にする。
モデルの性能をさらに向上するため、2つの新しい異常スコアを導入した。
提案モデルは6つのデータセットに対する広範な実験を通じて徹底的に評価され、既存の最先端モデルよりも優れた結果が得られた。
コードはリサーチコミュニティ(https://github.com/zahraDehghanian97/RCALAD)で簡単に入手できる。 This study presents an adversarial method for anomaly detection in real-world applications, leveraging the power of generative adversarial neural networks (GANs) through cycle consistency in reconstruction error. Previous methods suffer from the high variance between class-wise accuracy which leads to not being applicable for all types of anomalies. The proposed method named RCALAD tries to solve this problem by introducing a novel discriminator to the structure, which results in a more efficient training process. Additionally, RCALAD employs a supplementary distribution in the input space to steer reconstructions toward the normal data distribution, effectively separating anomalous samples from their reconstructions and facilitating more accurate anomaly detection. To further enhance the performance of the model, two novel anomaly scores are introduced. The proposed model has been thoroughly evaluated through extensive experiments on six various datasets, yielding results that demonstrate its superiority over existing state-of-the-art models. The code is readily available to the research community at https://github.com/zahraDehghanian97/RCALAD. | 翻訳日:2023-04-18 17:30:33 公開日:2023-04-16 |
# Segment Anything Model (SAM) を用いた深層学習ユニバーサルクレーター検出 Deep learning universal crater detection using Segment Anything Model (SAM) ( http://arxiv.org/abs/2304.07764v1 ) ライセンス: Link先を確認 | Iraklis Giannakis, Anshuman Bhardwaj, Lydia Sam, Georgios Leontidis | (参考訳) クレーターは惑星探査において最も重要な形態的特徴である。
そのため、クレーターの検出、マッピング、数え上げは、主に手作業で行う惑星科学の主流のプロセスであり、非常に退屈で時間を要するプロセスである。
近年、機械学習(ML)とコンピュータビジョンがクレーターの検出とそのサイズ推定の両方に成功している。
既存の機械学習による自動クレーター検出のアプローチは、例えばデジタル高度モデル(DEM)や画像、Lunar Reconnaissance Orbiter Camera(LROC)などのオービタのメタデータなど、特定の種類のデータで訓練されている。
そのため、それぞれのmlスキームは、トレーニングプロセスで使用されるデータの種類にのみ適用可能であり、信頼性がある。
異なるソース、角度、設定からのデータは、これらのMLスキームの信頼性を損なう可能性がある。
本稿では,META AIから最近提案されたSegment Anything Model(SAM)に基づく,普遍的なクレーター検出手法を提案する。
samはプロンプト可能なセグメンテーションシステムで、追加のトレーニングを必要とせずに、未知のオブジェクトやイメージにゼロショット一般化できる。
SAMを用いて、様々な設定(例えば、ルナー、火星)と異なる捕獲角度のために、あらゆる種類のデータ(例えば、衛星画像のレベル1と2の製品、DEMなど)でクレーターのような物体を識別できる。
さらに,形状指標を用いてクレーター状特徴のセグメンテーションマスクのみを保持する。
これらのマスクには楕円が取り付けられ、検出されたクレーターの位置と大きさと形状の両方を復元する。 Craters are amongst the most important morphological features in planetary exploration. To that extent, detecting, mapping and counting craters is a mainstream process in planetary science, done primarily manually, which is a very laborious and time-consuming process. Recently, machine learning (ML) and computer vision have been successfully applied for both detecting craters and estimating their size. Existing ML approaches for automated crater detection have been trained in specific types of data e.g. digital elevation model (DEM), images and associated metadata for orbiters such as the Lunar Reconnaissance Orbiter Camera (LROC) etc.. Due to that, each of the resulting ML schemes is applicable and reliable only to the type of data used during the training process. Data from different sources, angles and setups can compromise the reliability of these ML schemes. In this paper we present a universal crater detection scheme that is based on the recently proposed Segment Anything Model (SAM) from META AI. SAM is a prompt-able segmentation system with zero-shot generalization to unfamiliar objects and images without the need for additional training. Using SAM we can successfully identify crater-looking objects in any type of data (e,g, raw satellite images Level-1 and 2 products, DEMs etc.) for different setups (e.g. Lunar, Mars) and different capturing angles. Moreover, using shape indexes, we only keep the segmentation masks of crater-like features. These masks are subsequently fitted with an ellipse, recovering both the location and the size/geometry of the detected craters. | 翻訳日:2023-04-18 17:30:16 公開日:2023-04-16 |
# MisRoB{\AE}RTa:トランスフォーマー対誤情報 MisRoB{\AE}RTa: Transformers versus Misinformation ( http://arxiv.org/abs/2304.07759v1 ) ライセンス: Link先を確認 | Ciprian-Octavian Truic\u{a} and Elena-Simona Apostol | (参考訳) 誤報は我々の民主的価値観と原則に対する脅威だと考えられている。
ソーシャルメディア上でのコンテンツの拡散は社会を二極化させ、社会の認識を歪め、伝統的なジャーナリズムの厳格さを欠く一方で社会不安を引き起こす。
トランスフォーマーと転送学習は、複数のよく知られた自然言語処理タスクの最先端の方法であることが証明された。
本稿では,誤情報検出のための新しいトランスフォーマーベースの深層ニューラルネットワークアンサンブルアーキテクチャであるmisrob{\ae}rtaを提案する。
MisRoB{\AE}RTaは2つの変換器(BART \とRoBERTa)を利用して分類性能を向上させる。
また,誤情報検出作業における複数変圧器の性能評価を行った。
トレーニングとテストのために、私たちは10のクラスでラベル付けされた大規模な現実世界のニュース記事データセットを使用し、現在の研究における2つの欠点に対処しました。
本データセットでは,ニュース記事の内容が正しくラベル付けされていることを確認するために,手動で検証を行った。
実験結果から,誤情報検出問題における変圧器の精度は,文脈,データセットサイズ,語彙次元を学習するための手法に大きく影響された。
本研究では,1つの変圧器のみを使用する分類モデルで最高の精度が得られたのに対して,DistilRoBERTaは微調整や訓練に最低限の時間で最高の精度が得られることを示す。
提案する misrob{\ae}rta は, 誤情報検出タスクにおいて他のトランスフォーマーモデルよりも優れている。
この結論に達するために、2つのデータセット上でMisRoB{\AE}RTaを用いて完全なアブレーションと感度試験を行った。 Misinformation is considered a threat to our democratic values and principles. The spread of such content on social media polarizes society and undermines public discourse by distorting public perceptions and generating social unrest while lacking the rigor of traditional journalism. Transformers and transfer learning proved to be state-of-the-art methods for multiple well-known natural language processing tasks. In this paper, we propose MisRoB{\AE}RTa, a novel transformer-based deep neural ensemble architecture for misinformation detection. MisRoB{\AE}RTa takes advantage of two transformers (BART \& RoBERTa) to improve the classification performance. We also benchmarked and evaluated the performances of multiple transformers on the task of misinformation detection. For training and testing, we used a large real-world news articles dataset labeled with 10 classes, addressing two shortcomings in the current research: increasing the size of the dataset from small to large, and moving the focus of fake news detection from binary classification to multi-class classification. For this dataset, we manually verified the content of the news articles to ensure that they were correctly labeled. The experimental results show that the accuracy of transformers on the misinformation detection problem was significantly influenced by the method employed to learn the context, dataset size, and vocabulary dimension. We observe empirically that the best accuracy performance among the classification models that use only one transformer is obtained by BART, while DistilRoBERTa obtains the best accuracy in the least amount of time required for fine-tuning and training. The proposed MisRoB{\AE}RTa outperforms the other transformer models in the task of misinformation detection. To arrive at this conclusion, we performed ample ablation and sensitivity testing with MisRoB{\AE}RTa on two datasets. | 翻訳日:2023-04-18 17:29:48 公開日:2023-04-16 |
# 代数的枠組みにおける量子テクスチュアリティの再考 Revisiting Quantum Contextuality in an Algebraic Framework ( http://arxiv.org/abs/2304.07757v1 ) ライセンス: Link先を確認 | Mathias Van Den Bossche and Philippe Grangier | (参考訳) 量子文脈性(quantum contextity)の枠組みでは、コッチェン・スペックルの定理とグリーソンの定理を関連付けることを可能にする、超文脈性( extracontextuality)と超価値(extravalence)の概念について議論する。
コーシェン=スペクターの定理は本質的にノーゴー定理であるが、グリーソンの定理はボルンの法則を数学的に正当化するものである。
しかし、我々の文脈外アプローチは `Heisenberg cut'' を記述する方法を必要とする。
無限テンソル積に関するジョン・フォン・ノイマンの論文に従えば、量子力学の通常の定式化が表現のユニタリ同値と結びついており、粒子の可算無限大(あるいは自由度)に遭遇したときは機能しなくなることに気付くことができる。
これは、対応するヒルベルト空間の次元が数えきれないほど無限になり、ユニタリ同値が失われ、セクター化が生じるためである。
このような本質的な文脈的アプローチは、量子物理学と古典物理学の両方を含む統一された数学的モデルを提供する。 Within the framework of quantum contextuality, we discuss the ideas of extracontextuality and extravalence, that allow one to relate Kochen-Specker's and Gleason's theorems. We emphasize that whereas Kochen-Specker's is essentially a no-go theorem, Gleason's provides a mathematical justification of Born's rule. Our extracontextual approach requires however a way to describe the ``Heisenberg cut''. Following an article by John von Neumann on infinite tensor products, this can be done by noticing that the usual formalism of quantum mechanics, associated with unitary equivalence of representations, stops working when countable infinities of particles (or degrees of freedom) are encountered. This is because the dimension of the corresponding Hilbert space becomes uncountably infinite, leading to the loss of unitary equivalence, and to sectorisation. Such an intrinsically contextual approach provides a unified mathematical model including both quantum and classical physics, that appear as required incommensurable facets in the description of nature. | 翻訳日:2023-04-18 17:29:20 公開日:2023-04-16 |
# Hierarchical Feature Conditional Diffusion を用いたMRIスライス間隔の任意化 Arbitrary Reduction of MRI Inter-slice Spacing Using Hierarchical Feature Conditional Diffusion ( http://arxiv.org/abs/2304.07756v1 ) ライセンス: Link先を確認 | Xin Wang, Zhenrong Shen, Zhiyun Song, Sheng Wang, Mengjun Liu, Lichi Zhang, Kai Xuan, Qian Wang | (参考訳) 2次元走査プロトコルで収集された磁気共鳴(MR)画像は、通常、大きなスライス間隔を持ち、高平面分解能を持つが、平面分解能は低下する。
超高解像度技術は、2DスキャンしたMR画像のスライス間隔を減らし、下流での視覚体験とコンピュータ支援診断を容易にする。
しかし、既存のほとんどの超解像法は一定のスケーリング比で訓練されており、MRスキャンがスライス間隔の異なる臨床環境では不都合である。
そこで本稿では,mrインタースライス間隔を任意に低減するための階層的特徴条件拡散(hifi-diff)を提案する。
隣接した2つのMRスライスと相対的な位置オフセットが与えられた場合、HiFi-Diffはガウスノイズマップを任意の所望のMRスライスに変換する。
さらに, 階層的特徴抽出 (HiFE) モジュールは, 階層的に条件特徴を抽出し, 要素ワイド変調を行う。
HCP-1200データセットを用いた実験結果から,HiFi-Diffの高忠実度超解像能と下流セグメンテーション性能の向上効果が示された。 Magnetic resonance (MR) images collected in 2D scanning protocols typically have large inter-slice spacing, resulting in high in-plane resolution but reduced through-plane resolution. Super-resolution techniques can reduce the inter-slice spacing of 2D scanned MR images, facilitating the downstream visual experience and computer-aided diagnosis. However, most existing super-resolution methods are trained at a fixed scaling ratio, which is inconvenient in clinical settings where MR scanning may have varying inter-slice spacings. To solve this issue, we propose Hierarchical Feature Conditional Diffusion (HiFi-Diff)} for arbitrary reduction of MR inter-slice spacing. Given two adjacent MR slices and the relative positional offset, HiFi-Diff can iteratively convert a Gaussian noise map into any desired in-between MR slice. Furthermore, to enable fine-grained conditioning, the Hierarchical Feature Extraction (HiFE) module is proposed to hierarchically extract conditional features and conduct element-wise modulation. Our experimental results on the publicly available HCP-1200 dataset demonstrate the high-fidelity super-resolution capability of HiFi-Diff and its efficacy in enhancing downstream segmentation performance. | 翻訳日:2023-04-18 17:28:57 公開日:2023-04-16 |
# GeoMultiTaskNet:地理座標を用いたリモートセンシング非教師付きドメイン適応 GeoMultiTaskNet: remote sensing unsupervised domain adaptation using geographical coordinates ( http://arxiv.org/abs/2304.07750v1 ) ライセンス: Link先を確認 | Valerio Marsocci, Nicolas Gonthier, Anatol Garioud, Simone Scardapane, Cl\'ement Mallet | (参考訳) 土地被覆地図は、広い範囲の地球観測(eo)応用において重要な要素である。
しかし、リモートセンシング(RS)セマンティックセグメンテーションのための教師付きシステムを開発するために、大規模なデータセットに注釈を付けるのは、コストと時間を要する。
教師なしドメイン適応(unsupervised domain adaption,uda)は、ソースドメインでトレーニングされたモデルを、アノテーションなしでターゲットドメインに適応させることによって、これらの問題に取り組むことができる。
UDAはコンピュータビジョンにおいて重要性を増しているが、まだRSでは未定である。
そこで我々は,GeoMultiTaskモジュール (GeoMT) と動的クラスサンプリング (DCS) 戦略という2つのコントリビューションに基づいて,新しい軽量モデルGeoMultiTaskNetを提案する。
このアプローチは、セマンティックセグメンテーションにおいて、UDAの地理的メタデータを使った最初のものである。
最先端のパフォーマンス(47,22%miou)に達したと同時に、flairデータセットのサブセット上のパラメータ数(33m)も削減された。 Land cover maps are a pivotal element in a wide range of Earth Observation (EO) applications. However, annotating large datasets to develop supervised systems for remote sensing (RS) semantic segmentation is costly and time-consuming. Unsupervised Domain Adaption (UDA) could tackle these issues by adapting a model trained on a source domain, where labels are available, to a target domain, without annotations. UDA, while gaining importance in computer vision, is still under-investigated in RS. Thus, we propose a new lightweight model, GeoMultiTaskNet, based on two contributions: a GeoMultiTask module (GeoMT), which utilizes geographical coordinates to align the source and target domains, and a Dynamic Class Sampling (DCS) strategy, to adapt the semantic segmentation loss to the frequency of classes. This approach is the first to use geographical metadata for UDA in semantic segmentation. It reaches state-of-the-art performances (47,22% mIoU), reducing at the same time the number of parameters (33M), on a subset of the FLAIR dataset, a recently proposed dataset properly shaped for RS UDA, used for the first time ever for research scopes here. | 翻訳日:2023-04-18 17:28:35 公開日:2023-04-16 |
# 対話型画像検索のための言語ガイド付き局所浸透 Language Guided Local Infiltration for Interactive Image Retrieval ( http://arxiv.org/abs/2304.07747v1 ) ライセンス: Link先を確認 | Fuxiang Huang and Lei Zhang | (参考訳) Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが要求されたテキスト修正の下で画像を取得することを目的としている。
既存の手法は通常、画像とテキストの特徴を単純に大まかに結合または要約するが、テキストが修正しようとする画像の局所的意味論を正確に変更することは困難である。
この問題を解決するために,テキスト情報を完全に活用し,できるだけ画像特徴にテキスト機能を浸透させるLanguage Guided Local Infiltration (LGLI)システムを提案する。
具体的には,まずLanguage Prompt Visual Localization (LPVL) モジュールを提案する。
次に, TILA (Text Infiltration with Local Awareness) モジュールを導入し, 参照画像を正確に修正し, 画像テキストの浸透表現を生成する。
各種ベンチマークデータベースにおける大規模な実験により,本手法が最先端IIR手法よりも優れていることを確認した。 Interactive Image Retrieval (IIR) aims to retrieve images that are generally similar to the reference image but under the requested text modification. The existing methods usually concatenate or sum the features of image and text simply and roughly, which, however, is difficult to precisely change the local semantics of the image that the text intends to modify. To solve this problem, we propose a Language Guided Local Infiltration (LGLI) system, which fully utilizes the text information and penetrates text features into image features as much as possible. Specifically, we first propose a Language Prompt Visual Localization (LPVL) module to generate a localization mask which explicitly locates the region (semantics) intended to be modified. Then we introduce a Text Infiltration with Local Awareness (TILA) module, which is deployed in the network to precisely modify the reference image and generate image-text infiltrated representation. Extensive experiments on various benchmark databases validate that our method outperforms most state-of-the-art IIR approaches. | 翻訳日:2023-04-18 17:28:12 公開日:2023-04-16 |
# 自動運転用スマート路面インフラストラクチャセンサの品質評価のためのフレームワーク Framework for Quality Evaluation of Smart Roadside Infrastructure Sensors for Automated Driving Applications ( http://arxiv.org/abs/2304.07745v1 ) ライセンス: Link先を確認 | Laurent Kloeker, Chenghua Liu, Chao Wei, Lutz Eckstein | (参考訳) スマートロードサイドインフラストラクチャセンサーの使用は、コネクテッドおよび自動車両の将来の応用に非常に重要である。
インテリジェントトランスポートシステムステーション(ITS-Ss)の形の外部センサ技術は、デジタルツインの形で道路利用者に関する安全クリティカルなリアルタイム情報を提供することができる。
センサ設定の選択は、データ品質だけでなく下流機能にも大きな影響を与えている。
これまでのところ、どのセンサーがどのレベルのデータ品質をもたらすかという研究は不十分である。
本稿では,スマート道路インフラストラクチャセンサの詳細な品質評価を行うための新しい手法を提案する。
DAIR-V2Xデータセットで評価し,様々なセンサタイプにまたがるマルチモーダルなフレームワークを提案する。
異なるlidarおよびカメラセンサの構成を分析し、精度、レイテンシ、信頼性の観点から評価する。
評価の結果,このフレームワークは今後いくつかのITSアプリケーションで確実に利用できることがわかった。 The use of smart roadside infrastructure sensors is highly relevant for future applications of connected and automated vehicles. External sensor technology in the form of intelligent transportation system stations (ITS-Ss) can provide safety-critical real-time information about road users in the form of a digital twin. The choice of sensor setups has a major influence on the downstream function as well as the data quality. To date, there is insufficient research on which sensor setups result in which levels of ITS-S data quality. We present a novel approach to perform detailed quality assessment for smart roadside infrastructure sensors. Our framework is multimodal across different sensor types and is evaluated on the DAIR-V2X dataset. We analyze the composition of different lidar and camera sensors and assess them in terms of accuracy, latency, and reliability. The evaluations show that the framework can be used reliably for several future ITS-S applications. | 翻訳日:2023-04-18 17:27:54 公開日:2023-04-16 |
# JoB-VS:ToF-MRA画像における脳血管分離 JoB-VS: Joint Brain-Vessel Segmentation in TOF-MRA Images ( http://arxiv.org/abs/2304.07744v1 ) ライセンス: Link先を確認 | Natalia Valderrama, Ioannis Pitsiorlas, Luisa Vargas, Pablo Arbel\'aez, Maria A. Zuluaga | (参考訳) 飛行時磁気共鳴画像から脳と血管のセグメンテーション(job-vs)を学習するための最初の共同タスク学習フレームワークを提案する。
最先端の血管分割法とは異なり,本手法では,容積入力データから脳を抽出するモデルを実装する前処理ステップを回避する。
この追加ステップをスキップすることで、私たちのメソッドはエンドツーエンドのコンテナセグメンテーションフレームワークになります。
JoB-VSは格子アーキテクチャを使用し、異なるスケールの構造(例えば脳と血管)のセグメンテーションを好んでいる。
そのセグメンテーションヘッドは、脳と血管マスクの同時予測を可能にする。
さらに,本研究では,逆例によるデータ拡張生成を行い,その性能向上効果を実証する。
JoB-VSはOASIS-3データセットのAP平均70.03%、F1スコア69.09%を達成し、IXIデータセットのセグメンテーションを一般化することができる。
これらの結果から,完全TOF-MRA画像における血管分割の課題に対するJoB-VSの有効性が示唆された。 We propose the first joint-task learning framework for brain and vessel segmentation (JoB-VS) from Time-of-Flight Magnetic Resonance images. Unlike state-of-the-art vessel segmentation methods, our approach avoids the pre-processing step of implementing a model to extract the brain from the volumetric input data. Skipping this additional step makes our method an end-to-end vessel segmentation framework. JoB-VS uses a lattice architecture that favors the segmentation of structures of different scales (e.g., the brain and vessels). Its segmentation head allows the simultaneous prediction of the brain and vessel mask. Moreover, we generate data augmentation with adversarial examples, which our results demonstrate to enhance the performance. JoB-VS achieves 70.03% mean AP and 69.09% F1-score in the OASIS-3 dataset and is capable of generalizing the segmentation in the IXI dataset. These results show the adequacy of JoB-VS for the challenging task of vessel segmentation in complete TOF-MRA images. | 翻訳日:2023-04-18 17:27:41 公開日:2023-04-16 |
# VISAR: ビジュアルプログラミングとラピッドドラフトプロトタイピングを備えたAIArgumentative Writing Assistant VISAR: A Human-AI Argumentative Writing Assistant with Visual Programming and Rapid Draft Prototyping ( http://arxiv.org/abs/2304.07810v1 ) ライセンス: Link先を確認 | Zheng Zhang, Jie Gao, Ranjodh Singh Dhaliwal, Toby Jia-Jun Li | (参考訳) 議論的な執筆では、著者は階層的な執筆目標をブレインストーミングし、議論の説得力を確保し、ドラフトを通じて計画を修正し整理しなければならない。
大規模言語モデル(LLM)の最近の進歩により、チャットインタフェース(チャットGPTなど)を通じてインタラクティブなテキスト生成が可能になった。
しかしながら、このアプローチは暗黙の書き込みコンテキストやユーザの意図を無視し、ユーザコントロールと自律性のサポートを欠き、センスメイキングや書き込み計画の修正に限定的な支援を提供することが多い。
これらの課題に対処するために,著者のブレインストーミングを支援するAI対応ライティングアシスタントシステムであるVISARを導入し,テキスト編集とビジュアルプログラミングを通じて議論構造を整理し,議論の発散による説得力を高める。
visarを使えば、ユーザは自動ドラフトプロトタイピングを使用して、書き込み計画を探索、実験、検証することができる。
制御された研究室研究では、議論的な執筆計画プロセスの促進におけるVISARの有用性と有効性を確認した。 In argumentative writing, writers must brainstorm hierarchical writing goals, ensure the persuasiveness of their arguments, and revise and organize their plans through drafting. Recent advances in large language models (LLMs) have made interactive text generation through a chat interface (e.g., ChatGPT) possible. However, this approach often neglects implicit writing context and user intent, lacks support for user control and autonomy, and provides limited assistance for sensemaking and revising writing plans. To address these challenges, we introduce VISAR, an AI-enabled writing assistant system designed to help writers brainstorm and revise hierarchical goals within their writing context, organize argument structures through synchronized text editing and visual programming, and enhance persuasiveness with argumentation spark recommendations. VISAR allows users to explore, experiment with, and validate their writing plans using automatic draft prototyping. A controlled lab study confirmed the usability and effectiveness of VISAR in facilitating the argumentative writing planning process. | 翻訳日:2023-04-18 17:22:11 公開日:2023-04-16 |
# EasyNER: 医用テキストからの深層学習と辞書に基づく名前付きエンティティ認識のためのカスタマイズ可能な使いやすいパイプライン EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and Dictionary-based Named Entity Recognition from Medical Text ( http://arxiv.org/abs/2304.07805v1 ) ライセンス: Link先を確認 | Rafsan Ahmed, Petter Berntsson, Alexander Skafte, Salma Kazemi Rashed, Marcus Klang, Adam Barvesten, Ola Olde, William Lindholm, Antton Lamarca Arrizabalaga, Pierre Nugues, Sonja Aits | (参考訳) 医学研究は、既に3500万以上の研究論文を含むPubMedデータベースで多数の出版物を生成する。
この膨大な文献に散在する知識の統合は、新しい医学的介入につながる生理的メカニズムと疾患の過程に関する重要な洞察を与える可能性がある。
しかし、データの規模と複雑さが人間の処理能力を大きく超えるため、研究者にとってこの情報を完全に活用することは大きな課題である。
新型コロナウイルス(covid-19)パンデミックのような極端な緊急性の場合、これは特に問題となる。
自動テキストマイニングは、大量の医学研究記事から情報を抽出し、接続するのに役立ちます。
テキストマイニングの最初のステップは、通常、名前付きエンティティ認識(NER)と呼ばれる特定のキーワードのクラス(例えば、すべてのタンパク質や病名)の識別である。
本稿では, 疾患, 細胞, 化学物質, 遺伝子, タンパク質, 種など, 医学研究論文の典型的実体のエンドツーエンドパイプラインについて述べる。
このパイプラインは、大規模な医学研究論文コレクション(PubMed、CORD-19)または原文にアクセスおよび処理することができ、HUNERコーパスコレクションに微調整された一連のディープラーニングモデルを組み込むことができる。
さらに、このパイプラインはcovid-19やその他の医学的トピックに関連する辞書ベースのnerを実行できる。
ユーザーは独自のNERモデルや辞書をロードして追加エンティティを含めることもできる。
出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。
関連するスクリプトは、特定の興味のあるエンティティに対する結果の迅速な検査を可能にする。
モデルユースケースとして、パイプラインはPubMedと、COVID-19に関連する764の398研究論文の集合であるCORD19データセットの2つのオートファジー関連抽象化にデプロイされた。 Medical research generates a large number of publications with the PubMed database already containing >35 million research articles. Integration of the knowledge scattered across this large body of literature could provide key insights into physiological mechanisms and disease processes leading to novel medical interventions. However, it is a great challenge for researchers to utilize this information in full since the scale and complexity of the data greatly surpasses human processing abilities. This becomes especially problematic in cases of extreme urgency like the COVID-19 pandemic. Automated text mining can help extract and connect information from the large body of medical research articles. The first step in text mining is typically the identification of specific classes of keywords (e.g., all protein or disease names), so called Named Entity Recognition (NER). Here we present an end-to-end pipeline for NER of typical entities found in medical research articles, including diseases, cells, chemicals, genes/proteins, and species. The pipeline can access and process large medical research article collections (PubMed, CORD-19) or raw text and incorporates a series of deep learning models fine-tuned on the HUNER corpora collection. In addition, the pipeline can perform dictionary-based NER related to COVID-19 and other medical topics. Users can also load their own NER models and dictionaries to include additional entities. The output consists of publication-ready ranked lists and graphs of detected entities and files containing the annotated texts. An associated script allows rapid inspection of the results for specific entities of interest. As model use cases, the pipeline was deployed on two collections of autophagy-related abstracts from PubMed and on the CORD19 dataset, a collection of 764 398 research article abstracts related to COVID-19. | 翻訳日:2023-04-18 17:21:50 公開日:2023-04-16 |
# EGformer:360度深度推定のための等角形状バイアス変換器 EGformer: Equirectangular Geometry-biased Transformer for 360 Depth Estimation ( http://arxiv.org/abs/2304.07803v1 ) ライセンス: Link先を確認 | Ilwi Yun, Chanyong Shin, Hyunku Lee, Hyuk-Jae Lee and Chae Eun Rhee | (参考訳) 畳み込みニューラルネットワーク(CNN)による対処が難しい180×360視野の歪みを考えると、等方形(360)画像(EIs)の深さを推定することは困難である。
グローバルアテンションを持つトランスフォーマーは、EI深度推定タスクにおいてCNNよりも大幅に改善されるが、計算的に非効率であり、局所アテンションを持つトランスフォーマーの必要性が高まる。
しかし、EIsに対して局所的な注意をうまく適用するには、歪んだ正方形幾何と限定受容場を同時に扱う特定の戦略が必要である。
以前の作品ではどちらの作品も気付いていなかったため、時には不満足な深さに陥ることもあった。
本稿では,等角幾何学を考慮した局所的注意抽出を可能にする等角幾何学バイアス変換器egformerを提案する。
そこで我々は,EIsの歪みを低減するのに苦労するのではなく,局所的な注意のバイアスとして等角形状を積極的に活用する。
直近の変圧器を用いた固有深さ推定法と比較して,提案手法は計算コストが最も低く,パラメータも少ないため,提案手法の有効性が実証された。 Estimating the depths of equirectangular (360) images (EIs) is challenging given the distorted 180 x 360 field-of-view, which is hard to be addressed via convolutional neural network (CNN). Although a transformer with global attention achieves significant improvements over CNN for EI depth estimation task, it is computationally inefficient, which raises the need for transformer with local attention. However, to apply local attention successfully for EIs, a specific strategy, which addresses distorted equirectangular geometry and limited receptive field simultaneously, is required. Prior works have only cared either of them, resulting in unsatisfactory depths occasionally. In this paper, we propose an equirectangular geometry-biased transformer termed EGformer, which enables local attention extraction in a global manner considering the equirectangular geometry. To achieve this, we actively utilize the equirectangular geometry as the bias for the local attention instead of struggling to reduce the distortion of EIs. As compared to the most recent transformer based EI depth estimation studies, the proposed approach yields the best depth outcomes overall with the lowest computational cost and the fewest parameters, demonstrating the effectiveness of the proposed methods. | 翻訳日:2023-04-18 17:21:22 公開日:2023-04-16 |
# ファジィ確率決定木を用いた臨床実習 Assisting clinical practice with fuzzy probabilistic decision trees ( http://arxiv.org/abs/2304.07788v1 ) ライセンス: Link先を確認 | Emma L. Ambag, Giulia Capitoli, Vincenzo L' Imperio, Michele Provenzano, Marco S. Nobile, Pietro Li\`o | (参考訳) 完全な人間理解可能なモデルの必要性は、AI研究の中心的なテーマとして認識されつつある。
これらのモデルが解釈可能になったら、センシティブなドメインでの意思決定を支援するAIモデルの受け入れが増加し、今後の規制によって解釈可能なモデルへのこの傾向が増幅される。
解釈可能なaiのキラー応用の1つは、本質的に信頼を生み出す正確な意思決定支援方法論の恩恵を受ける医療プラクティスである。
本研究では,確率木とファジィ論理を組み合わせて臨床実習を支援する新しい手法であるFPT(MedFP)を提案する。
このアプローチは、臨床医が診断手順全体を生成、制御、検証できるようにするため、完全に解釈可能であり、方法論の強みの1つは、不確実性や副作用の見積もりを提供することで誤診の頻度を減少させる能力である。
本手法は,悪性甲状腺結節の分類と慢性腎臓病患者の進行リスクの予測という2つの現実の医療シナリオに対する概念実証として適用されている。
さらに,確率モデルにファジィ変数を導入することで,従来の確率的決定木が設定した鮮明なしきい値を使用すると,かなりのニュアンスを失うことが示唆された。
FPTとその予測は、この目的のために特別に設計されたユーザフレンドリーなインターフェースを用いて、直感的に臨床実践を支援することができることを示す。
さらに,FPTモデルの解釈可能性についても論じる。 The need for fully human-understandable models is increasingly being recognised as a central theme in AI research. The acceptance of AI models to assist in decision making in sensitive domains will grow when these models are interpretable, and this trend towards interpretable models will be amplified by upcoming regulations. One of the killer applications of interpretable AI is medical practice, which can benefit from accurate decision support methodologies that inherently generate trust. In this work, we propose FPT, (MedFP), a novel method that combines probabilistic trees and fuzzy logic to assist clinical practice. This approach is fully interpretable as it allows clinicians to generate, control and verify the entire diagnosis procedure; one of the methodology's strength is the capability to decrease the frequency of misdiagnoses by providing an estimate of uncertainties and counterfactuals. Our approach is applied as a proof-of-concept to two real medical scenarios: classifying malignant thyroid nodules and predicting the risk of progression in chronic kidney disease patients. Our results show that probabilistic fuzzy decision trees can provide interpretable support to clinicians, furthermore, introducing fuzzy variables into the probabilistic model brings significant nuances that are lost when using the crisp thresholds set by traditional probabilistic decision trees. We show that FPT and its predictions can assist clinical practice in an intuitive manner, with the use of a user-friendly interface specifically designed for this purpose. Moreover, we discuss the interpretability of the FPT model. | 翻訳日:2023-04-18 17:20:59 公開日:2023-04-16 |
# デジタル病理と因果学習による好酸球性食道炎の治療課題の改善 Harnessing Digital Pathology And Causal Learning To Improve Eosinophilic Esophagitis Dietary Treatment Assignment ( http://arxiv.org/abs/2304.07787v1 ) ライセンス: Link先を確認 | Eliel Aknin, Ariel Larey, Julie M. Caldwell, Margaret H. Collins, Juan P. Abonia, Seema S. Aceves, Nicoleta C. Arva, Mirna Chehade, Evan S. Dellon, Nirmala Gonsalves, Sandeep K. Gupta, John Leung, Kathryn A. Peterson, Tetsuo Shoda, Jonathan M. Spergel, Marc E. Rothenberg, Yonatan Savir | (参考訳) 好酸球性食道炎 (EoE) は食道過敏症に合併した食道の慢性, 食品抗原によるアレルギー性炎症である。
EoEはGERD後の慢性摂食障害の主要な原因である。
eoeの診断は、複雑な患者依存の特徴を抽出する能力を制限する手作業と時間を要する作業である組織学的スライドにおける好酸球の数え上げに依存する。
EoEの治療には、医薬品及び食品の除去が含まれる。
パーソナライズされた食品除去計画はエンゲージメントと効率にとって不可欠であるが、以前の試みでは大きな成果を上げられなかった。
本研究では,aiを用いて生検スライド全体から組織学的特徴を推定し,手作業では抽出できない特徴を抽出した。
一方,我々は,この豊富なデータを処理できる因果学習モデルを開発した。
本研究は,18~60歳の症状のある成人112名を対象に,6食品除去食 (6FED) または1食品除去食 (1FED) を6週間投与した「Six-Food vs. One-Food Eosinophilic Esophagitis Diet Study」に適用した。
以上の結果から,6FED治療の平均治療効果(ATE)は1FED治療に比べ有意な差はなく,食事効果が優れていなかった。
2つのxgboostモジュールを持つt-learnerを用いて,いくつかの因果モデルを検討した結果,最善の処理戦略が得られた。
1FEDと6FEDは35%-38%の改善しか得られず、これはランダムな治療課題と大きく異なるものではないが、我々の因果モデルでは58.4%の改善率が有意に向上した。
本研究は、組織学的スライドにおける分子の特徴分布を因果学習を通して解析することにより、治療計画の強化におけるAIの重要性を述べる。
我々のアプローチは、診断と治療に組織学に依存している他の条件に利用できる。 Eosinophilic esophagitis (EoE) is a chronic, food antigen-driven, allergic inflammatory condition of the esophagus associated with elevated esophageal eosinophils. EoE is a top cause of chronic dysphagia after GERD. Diagnosis of EoE relies on counting eosinophils in histological slides, a manual and time-consuming task that limits the ability to extract complex patient-dependent features. The treatment of EoE includes medication and food elimination. A personalized food elimination plan is crucial for engagement and efficiency, but previous attempts failed to produce significant results. In this work, on the one hand, we utilize AI for inferring histological features from the entire biopsy slide, features that cannot be extracted manually. On the other hand, we develop causal learning models that can process this wealth of data. We applied our approach to the 'Six-Food vs. One-Food Eosinophilic Esophagitis Diet Study', where 112 symptomatic adults aged 18-60 years with active EoE were assigned to either a six-food elimination diet (6FED) or a one-food elimination diet (1FED) for six weeks. Our results show that the average treatment effect (ATE) of the 6FED treatment compared with the 1FED treatment is not significant, that is, neither diet was superior to the other. We examined several causal models and show that the best treatment strategy was obtained using T-learner with two XGBoost modules. While 1FED only and 6FED only provide improvement for 35%-38% of the patients, which is not significantly different from a random treatment assignment, our causal model yields a significantly better improvement rate of 58.4%. This study illustrates the significance of AI in enhancing treatment planning by analyzing molecular features' distribution in histological slides through causal learning. Our approach can be harnessed for other conditions that rely on histology for diagnosis and treatment. | 翻訳日:2023-04-18 17:20:33 公開日:2023-04-16 |
# It's all in the Embedding!
文書埋め込みを用いた偽ニュース検出 It's All in the Embedding! Fake News Detection Using Document Embeddings ( http://arxiv.org/abs/2304.07781v1 ) ライセンス: Link先を確認 | Ciprian-Octavian Truic\u{a} and Elena-Simona Apostol | (参考訳) マスメディアの状況がジャーナリストの厳格さからソーシャルメディアへと変化している今、パーソナライズされたソーシャルメディアが新しい標準になりつつある。
メディアのデジタル化の進展は多くの利点をもたらすが、偽ニュースを利用することで偽情報、誤情報、誤情報を拡散するリスクも高まる。
この有害な現象の出現は、社会を分極し、選挙、予防接種など特定の話題に関する世論を操ることに成功した。
ソーシャルメディアに伝播するこうした情報は、従来のジャーナリズムの厳格さを欠きながら、大衆の認識を歪め、社会不安を生じさせる可能性がある。
自然言語処理と機械学習技術は、偽ニュースを検出する効率的なツールを開発するために不可欠である。
テキストデータのコンテキストを利用するモデルは、単語のベクトル表現内で言語的特徴を符号化するため、偽ニュース検出問題の解決に不可欠である。
本稿では,文書埋め込みを用いて,ニュース記事を信頼性やニセモノと正確にラベル付けする複数のモデルを構築する手法を提案する。
また、バイナリや複数ラベルの分類を用いて偽ニュースを検出する異なるアーキテクチャのベンチマークを示す。
精度,精度,リコールの5つの大ニュースコーパスで評価した。
より複雑なDeep Neural Networkモデルよりも優れた結果を得た。
高い精度を得る上で最も重要な要因は,分類モデルの複雑さではなく,文書符号化である。 With the current shift in the mass media landscape from journalistic rigor to social media, personalized social media is becoming the new norm. Although the digitalization progress of the media brings many advantages, it also increases the risk of spreading disinformation, misinformation, and malformation through the use of fake news. The emergence of this harmful phenomenon has managed to polarize society and manipulate public opinion on particular topics, e.g., elections, vaccinations, etc. Such information propagated on social media can distort public perceptions and generate social unrest while lacking the rigor of traditional journalism. Natural Language Processing and Machine Learning techniques are essential for developing efficient tools that can detect fake news. Models that use the context of textual data are essential for resolving the fake news detection problem, as they manage to encode linguistic features within the vector representation of words. In this paper, we propose a new approach that uses document embeddings to build multiple models that accurately label news articles as reliable or fake. We also present a benchmark on different architectures that detect fake news using binary or multi-labeled classification. We evaluated the models on five large news corpora using accuracy, precision, and recall. We obtained better results than more complex state-of-the-art Deep Neural Network models. We observe that the most important factor for obtaining high accuracy is the document encoding, not the classification model's complexity. | 翻訳日:2023-04-18 17:19:58 公開日:2023-04-16 |
# SikuGPT:デジタル人間性の観点からみた古代テキストの知的情報処理のための生成事前学習モデル SikuGPT: A Generative Pre-trained Model for Intelligent Information Processing of Ancient Texts from the Perspective of Digital Humanities ( http://arxiv.org/abs/2304.07778v1 ) ライセンス: Link先を確認 | Liu Chang, Wang Dongbo, Zhao Zhixiao, Hu Die, Wu Mengcheng, Lin Litao, Shen Si, Li Bin, Liu Jiangfeng, Zhang Hai, Zhao Lianzheng | (参考訳) 人工知能技術の急速な進歩は、デジタル人文科学研究の繁栄を促した。
このような背景から、AIGCの波の新たな発展傾向に適応するためには、デジタル人文科学研究の重要な構成要素である古代のテキストのインテリジェントな処理に研究手法を転換する必要がある。
本研究では,Siku Quanshuのコーパスに基づくGPTモデルであるSikuGPTを提案する。
言語内翻訳やテキスト分類などのタスクにおけるモデルの性能は、古代のテキスト処理を目的とした他のGPT型モデルを上回る。
sikugptの中国古文書の処理能力は、中国の古代文化の国際普及と同様に、古代情報と知識サービスの組織化を促進するのに役立つ。 The rapid advance in artificial intelligence technology has facilitated the prosperity of digital humanities research. Against such backdrop, research methods need to be transformed in the intelligent processing of ancient texts, which is a crucial component of digital humanities research, so as to adapt to new development trends in the wave of AIGC. In this study, we propose a GPT model called SikuGPT based on the corpus of Siku Quanshu. The model's performance in tasks such as intralingual translation and text classification exceeds that of other GPT-type models aimed at processing ancient texts. SikuGPT's ability to process traditional Chinese ancient texts can help promote the organization of ancient information and knowledge services, as well as the international dissemination of Chinese ancient culture. | 翻訳日:2023-04-18 17:19:40 公開日:2023-04-16 |
# 非拘束ビデオに対するロバストなクロスモーダル知識蒸留 Robust Cross-Modal Knowledge Distillation for Unconstrained Videos ( http://arxiv.org/abs/2304.07775v1 ) ライセンス: Link先を確認 | Wenke Xia, Xingjian Li, Andong Deng, Haoyi Xiong, Dejing Dou, Di Hu | (参考訳) クロスモーダル蒸留は様々なモダリティの知識を伝達するために広く使われており、対象の非モダルの表現を豊かにしている。
最近の研究は、視覚と音の時間的同期とクロスモーダル蒸留のセマンティック一貫性を強く関連付けている。
しかし、同期からのそのような意味的一貫性は、無関係なモダリティノイズと区別された意味的相関のため、制約のないビデオでは保証が難しい。
この目的のために,まず教師モダリティの無関係ノイズをクロスモーダルコンテキストで消去する \textit{modality noise filter} (mnf) モジュールを提案する。
この浄化の後、我々は、異なるサンプル単位のセマンティックな相関を対照的に参照することで、ターゲットのモダリティに有用な知識を適応的に蒸留する「textit{Contrastive Semantic Calibration} (CSC)」モジュールを設計する。
広範な実験により,視覚動作認識と映像検索タスクの両方において,他の蒸留法と比較して性能向上が期待できることがわかった。
また,提案手法の一般化を証明するため,音声タグ処理にも拡張した。
ソースコードは \href{https://github.com/gewu-lab/cross-modal-distillation}{https://github.com/gewu-lab/cross-modal-distillation} で入手できる。 Cross-modal distillation has been widely used to transfer knowledge across different modalities, enriching the representation of the target unimodal one. Recent studies highly relate the temporal synchronization between vision and sound to the semantic consistency for cross-modal distillation. However, such semantic consistency from the synchronization is hard to guarantee in unconstrained videos, due to the irrelevant modality noise and differentiated semantic correlation. To this end, we first propose a \textit{Modality Noise Filter} (MNF) module to erase the irrelevant noise in teacher modality with cross-modal context. After this purification, we then design a \textit{Contrastive Semantic Calibration} (CSC) module to adaptively distill useful knowledge for target modality, by referring to the differentiated sample-wise semantic correlation in a contrastive fashion. Extensive experiments show that our method could bring a performance boost compared with other distillation methods in both visual action recognition and video retrieval task. We also extend to the audio tagging task to prove the generalization of our method. The source code is available at \href{https://github.com/GeWu-Lab/cross-modal-distillation}{https://github.com/GeWu-Lab/cross-modal-distillation}. | 翻訳日:2023-04-18 17:19:28 公開日:2023-04-16 |
# 統語的単純化による統語的複雑度同定・測定・低減 Syntactic Complexity Identification, Measurement, and Reduction Through Controlled Syntactic Simplification ( http://arxiv.org/abs/2304.07774v1 ) ライセンス: Link先を確認 | Muhammad Salman, Armin Haller, Sergio J. Rodr\'iguez M\'endez | (参考訳) テキストの単純化は自然言語処理(NLP)の分野の一つであり、簡単な方法でテキストを理解する機会を提供する。
しかし、通常、複雑で複雑な文の形で、構造化されていないテキストから知識を理解し、取り出すのは難しい。
文章を平易な英語の代用語に置き換え、文章や段落を要約しながら読みやすさを向上させるために、最先端のニューラルネットワークベースの方法がある。
非構造化テキストからの知識グラフ(kg)作成プロセスでは、長文と置換語を要約することは、情報損失につながる可能性があるため望ましくない。
しかし、テキストからのkg生成には、テキストと同じ言及を持つすべての可能な事実(トリプル)の抽出が必要である。
本研究では,文中の事実情報,すなわち三重化に基づく制御された単純化を提案する。
本稿では,複合文と複合文を簡素な文に分割・再現するための古典的構文依存型アプローチを提案する。
この単純化プロセスは、各文、すなわち三重項における可能な領域事実の単純な構造で元の単語を保持できる。
また, 文の構文複雑性(sc)を同定・測定するアルゴリズムも導入し, 制御された構文単純化プロセスによる削減を行った。
最後に、データセット再アノテーションの実験もGPT3を通して行われ、この改良されたコーパスをリソースとして公開することを目指している。
この研究は、WSDM-2023 ConferenceにおけるLearning with Knowledge Graphs (IWLKG)の国際ワークショップで受け入れられ、発表された。
コードとデータはwww.github.com/sallmanm/SynSimで入手できる。 Text simplification is one of the domains in Natural Language Processing (NLP) that offers an opportunity to understand the text in a simplified manner for exploration. However, it is always hard to understand and retrieve knowledge from unstructured text, which is usually in the form of compound and complex sentences. There are state-of-the-art neural network-based methods to simplify the sentences for improved readability while replacing words with plain English substitutes and summarising the sentences and paragraphs. In the Knowledge Graph (KG) creation process from unstructured text, summarising long sentences and substituting words is undesirable since this may lead to information loss. However, KG creation from text requires the extraction of all possible facts (triples) with the same mentions as in the text. In this work, we propose a controlled simplification based on the factual information in a sentence, i.e., triple. We present a classical syntactic dependency-based approach to split and rephrase a compound and complex sentence into a set of simplified sentences. This simplification process will retain the original wording with a simple structure of possible domain facts in each sentence, i.e., triples. The paper also introduces an algorithm to identify and measure a sentence's syntactic complexity (SC), followed by reduction through a controlled syntactic simplification process. Last, an experiment for a dataset re-annotation is also conducted through GPT3; we aim to publish this refined corpus as a resource. This work is accepted and presented in International workshop on Learning with Knowledge Graphs (IWLKG) at WSDM-2023 Conference. The code and data is available at www.github.com/sallmanm/SynSim. | 翻訳日:2023-04-18 17:19:04 公開日:2023-04-16 |
# PCPNet:ポイントクラウド予測のための効率的でセマンティックなトランスフォーマーネットワーク PCPNet: An Efficient and Semantic-Enhanced Transformer Network for Point Cloud Prediction ( http://arxiv.org/abs/2304.07773v1 ) ライセンス: Link先を確認 | Zhen Luo, Junyi Ma, Zijie Zhou and Guangming Xiong | (参考訳) 過去の認識情報に基づいて環境の将来の構造特性を予測する能力は、自動運転車にとって極めて必要であり、次の意思決定と経路計画をより合理的にすることに役立つ。
近年、ポイントクラウド予測(PCP)を用いて、ポイントクラウド形式で将来の環境構造を予測し、記述している。
本稿では,過去点雲列を利用した将来のLiDAR点雲を予測するために,トランスフォーマーを用いたネットワークを提案する。
また,予測したlidar point cloud sequenceを基礎的真理と意味的に類似させるための意味的補助訓練戦略の設計を行い,実車アプリケーションにおけるより多くのタスクに対するデプロイの重要性を改善した。
我々のアプローチは完全に自己管理されており、手動ラベリングは不要であり、異なる環境に対してしっかりとした一般化能力を有する。
実験の結果,提案手法は予測結果と意味的類似性において最先端のPCP手法よりも優れており,実時間性能も良好であることがわかった。
当社のオープンソースコードと事前トレーニングされたモデルは、https://github.com/blurryface0814/pcpnetで利用可能です。 The ability to predict future structure features of environments based on past perception information is extremely needed by autonomous vehicles, which helps to make the following decision-making and path planning more reasonable. Recently, point cloud prediction (PCP) is utilized to predict and describe future environmental structures by the point cloud form. In this letter, we propose a novel efficient Transformer-based network to predict the future LiDAR point clouds exploiting the past point cloud sequences. We also design a semantic auxiliary training strategy to make the predicted LiDAR point cloud sequence semantically similar to the ground truth and thus improves the significance of the deployment for more tasks in real-vehicle applications. Our approach is completely self-supervised, which means it does not require any manual labeling and has a solid generalization ability toward different environments. The experimental results show that our method outperforms the state-of-the-art PCP methods on the prediction results and semantic similarity, and has a good real-time performance. Our open-source code and pre-trained models are available at https://github.com/Blurryface0814/PCPNet. | 翻訳日:2023-04-18 17:18:14 公開日:2023-04-16 |
# AgropvファームにおけるAI駆動影モデル検出 AI driven shadow model detection in agropv farms ( http://arxiv.org/abs/2304.07853v1 ) ライセンス: Link先を確認 | Sai Paavan Kumar Dornadula, Pascal Brunet, Dr. Susan Elias | (参考訳) Agro-Photovoltaic (APV) は、農業と太陽の太陽光発電プロジェクトを組み合わせた農業の実践である。
この新興市場は今後数年で大幅に成長すると予想され、2030年には90億ドルの投資が見込まれている。
影の同定は、植物の成長、微小気候、蒸発散に影響を与えるAPV環境を理解するために重要である。
本研究では,最先端のcnnとganベースのニューラルネットワークを用いて,農業経営における影の検出を行い,その効果を示す。
しかし、動くオブジェクトからの部分的なシャドーイングやリアルタイム監視など、課題は残る。
今後の研究は、より高度なニューラルネットワークに基づくシャドー検出アルゴリズムの開発と、それをapvファームの制御システムに統合することに焦点を当てるべきである。
全体的な陰影検出は、環境、土壌、農家を支えながら、生産性と収益性を高めるために重要である。 Agro-photovoltaic (APV) is a growing farming practice that combines agriculture and solar photovoltaic projects within the same area. This emerging market is expected to experience significant growth in the next few years, with a projected investment of $9 billion in 2030. Identifying shadows is crucial to understanding the APV environment, as they impact plant growth, microclimate, and evapotranspiration. In this study, we use state-of-the-art CNN and GAN-based neural networks to detect shadows in agro-PV farms, demonstrating their effectiveness. However, challenges remain, including partial shadowing from moving objects and real-time monitoring. Future research should focus on developing more sophisticated neural network-based shadow detection algorithms and integrating them with control systems for APV farms. Overall, shadow detection is crucial to increase productivity and profitability while supporting the environment, soil, and farmers. | 翻訳日:2023-04-18 17:12:22 公開日:2023-04-16 |
# ChatPLUG: オープンドメイン生成対話システム ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented Instruction Tuning for Digital Human ( http://arxiv.org/abs/2304.07849v1 ) ライセンス: Link先を確認 | Junfeng Tian, Hehong Chen, Guohai Xu, Ming Yan, Xing Gao, Jianhai Zhang, Chenliang Li, Jiayi Liu, Wenshen Xu, Haiyang Xu, Qi Qian, Wei Wang, Qinghao Ye, Jiejing Zhang, Ji Zhang, Fei Huang, Jingren Zhou | (参考訳) 本稿では,デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムChatPLUGについて述べる。
大規模事前学習やモデルサイズや対話コーパスのスケールアップに焦点を当てた他のオープンドメイン対話モデルと異なり,多種多様なスキルを持つデジタル人間のための強力で実用的な対話システムを構築することを目的としている。
そこで我々はまず,共通文書コーパスと対話データとカリキュラム学習を併用した大規模事前学習を行い,さまざまな世界知識と対話能力をChatPLUGに注入する。
そこで我々は,知識,個性,マルチターンメモリ,共感といった多様な特徴にまたがる幅広い対話タスクを収集し,その上で,統一された自然言語命令テンプレートを用いて,モデル名のチューニングをさらに進める。
インターネット検索からの外部知識は、知識幻覚の問題を緩和するための教示微調整にも使用される。
自動評価と人間評価の両方において, \modelname は最先端の中国語対話システムよりも優れており,様々なテキスト理解と生成タスクにおいて,強力なマルチタスク一般化を示す。
さらに、高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような現実世界のアプリケーションに \modelname をデプロイします。
私たちのモデルとコードは、ModelScope~\footnote{\small{https://modelscope.cn/models/damo/ChatPLUG-3.7B}} とGithub~\footnote{\small{https://github.com/X-PLUG/ChatPLUG}}で公開されます。 In this paper, we present ChatPLUG, a Chinese open-domain dialogue system for digital human applications that instruction finetunes on a wide range of dialogue tasks in a unified internet-augmented format. Different from other open-domain dialogue models that focus on large-scale pre-training and scaling up model size or dialogue corpus, we aim to build a powerful and practical dialogue system for digital human with diverse skills and good multi-task generalization by internet-augmented instruction tuning. To this end, we first conduct large-scale pre-training on both common document corpus and dialogue data with curriculum learning, so as to inject various world knowledge and dialogue abilities into ChatPLUG. Then, we collect a wide range of dialogue tasks spanning diverse features of knowledge, personality, multi-turn memory, and empathy, on which we further instruction tune \modelname via unified natural language instruction templates. External knowledge from an internet search is also used during instruction finetuning for alleviating the problem of knowledge hallucinations. We show that \modelname outperforms state-of-the-art Chinese dialogue systems on both automatic and human evaluation, and demonstrates strong multi-task generalization on a variety of text understanding and generation tasks. In addition, we deploy \modelname to real-world applications such as Smart Speaker and Instant Message applications with fast inference. Our models and code will be made publicly available on ModelScope~\footnote{\small{https://modelscope.cn/models/damo/ChatPLUG-3.7B}} and Github~\footnote{\small{https://github.com/X-PLUG/ChatPLUG}}. | 翻訳日:2023-04-18 17:12:07 公開日:2023-04-16 |
# ブラックホール真空からの3成分の絡み合い抽出 Tripartite Entanglement Extraction from the Black Hole Vacuum ( http://arxiv.org/abs/2304.07847v1 ) ライセンス: Link先を確認 | Ireneo James Membrere and Kensuke Gallock-Yoshimura and Laura J. Henderson and Robert B. Mann | (参考訳) 我々は,ブラックホール近傍で収穫される三成分の絡み合いに関する最初の調査を行った。
静的なbtzブラックホール時空の下では、二部絡みの収穫が激しいホーキング放射のために不可能であることが知られている地域で三部絡みの収穫が可能であることが分かる。
これらの状況では、収穫された絡み合いはGHZ型である。 We carry out the first investigation of tripartite entanglement harvesting in the vicinity of a black hole. Working in the context of a static BTZ black hole spacetime we find that it is possible to harvest tripartite entanglement in regions where harvesting of bipartite entanglement is known to be impossible due to intense Hawking radiation. In these situations this implies that the harvested entanglement is of the GHZ type. | 翻訳日:2023-04-18 17:11:34 公開日:2023-04-16 |
# 航空管制士養成のための仮想シミュレーションパイロットエージェント A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers ( http://arxiv.org/abs/2304.07842v1 ) ライセンス: Link先を確認 | Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Petr Motlicek, Matthias Kleinert | (参考訳) 本稿では,最先端人工知能(AI)ベースのツールを統合することで,航空交通制御装置(ATCo)のトレーニングを高速化する,新しい仮想シミュレーションパイロットエンジンを提案する。
仮想シミュレーションパイロットエンジンはATCo訓練生から音声通信を受け、音声認識と理解を自動的に行う。
したがって、コミュニケーションをトランスクリプティングするだけでなく、その意味も理解できる。
出力は後に応答生成システムに送信され、これはパイロットがatcoの訓練生に与えた音声読み戻しに似ている。
パイプライン全体は以下のサブモジュールで構成されている。
(i)音声を単語列に変換する自動音声認識(ASR)システム
(ii)書き起こされた音声通信を理解する高レベル航空交通制御(atc)関連エンティティパーサ
(iii)対話の状況に応じてパイロットに似た発話を生成するテキスト対音声サブモジュール。
我々のシステムは、Wav2Vec 2.0、Conformer、BERT、Tacotronモデルといった最先端のAIベースのツールを使用している。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
さらに,リアルタイム監視データや演習に関連するメタデータ(セクターや滑走路など)を組み込んだり,あるいはATCo研修生に意図的に読み返りエラーを導入して,システムの性能を向上させるためのモジュールシステムも開発した。
我々のASRシステムは、高品質のATCオーディオで5.5%と15.9%のワードエラー率(WER)に達することができる。
また、ASRに監視データを追加することで、コールサイン検出精度が96%以上になることを示す。 In this paper we propose a novel virtual simulation-pilot engine for speeding up air traffic controller (ATCo) training by integrating different state-of-the-art artificial intelligence (AI) based tools. The virtual simulation-pilot engine receives spoken communications from ATCo trainees, and it performs automatic speech recognition and understanding. Thus, it goes beyond only transcribing the communication and can also understand its meaning. The output is subsequently sent to a response generator system, which resembles the spoken read back that pilots give to the ATCo trainees. The overall pipeline is composed of the following submodules: (i) automatic speech recognition (ASR) system that transforms audio into a sequence of words; (ii) high-level air traffic control (ATC) related entity parser that understands the transcribed voice communication; and (iii) a text-to-speech submodule that generates a spoken utterance that resembles a pilot based on the situation of the dialogue. Our system employs state-of-the-art AI-based tools such as Wav2Vec 2.0, Conformer, BERT and Tacotron models. To the best of our knowledge, this is the first work fully based on open-source ATC resources and AI tools. In addition, we have developed a robust and modular system with optional submodules that can enhance the system's performance by incorporating real-time surveillance data, metadata related to exercises (such as sectors or runways), or even introducing a deliberate read-back error to train ATCo trainees to identify them. Our ASR system can reach as low as 5.5% and 15.9% word error rates (WER) on high and low-quality ATC audio. We also demonstrate that adding surveillance data into the ASR can yield callsign detection accuracy of more than 96%. | 翻訳日:2023-04-18 17:11:27 公開日:2023-04-16 |
# コードレビューに基づく自動プログラム修復: 事前学習されたトランスフォーマーモデルはどのように機能するか? Automated Program Repair Based on Code Review: How do Pre-trained Transformer Models Perform? ( http://arxiv.org/abs/2304.07840v1 ) ライセンス: Link先を確認 | Rishov Paul, Md. Mohib Hossain, Masum Hasan, and Anindya Iqbal | (参考訳) sequence-to-sequenceモデルは、十分な量のデータセットでトレーニングされた場合、誤ったプログラムを正しいプログラムに変換するために使用されます。
最近の研究では、コードレビュー(コードの変更を示唆する自然言語命令)がプログラムの修復をさらに改善できるという強い実証的証拠も示されている。
自然言語(NL)とコンピュータプログラムコーパスで訓練された大規模言語モデルは、両方の固有知識を含む能力を有する。
本研究では,このコードとNLの固有の知識を,プログラムの自動修復に活用できるかどうかを検討する。
プログラミング言語(PL)と自然言語(NL)の両方で事前訓練された2つの最先端言語モデルであるPLBARTとCodeT5を2つの自然言語ベースのプログラム修復データセットに適用したところ、事前訓練された言語モデルには、コードレビューとその後のコード変更の両方を含むデータセットが微調整されていることがわかった。
事前学習したモデルは,review4repairデータセットでは9.91%,tufanoらによるデータセットでは24.72%向上した。
これは、事前学習された逐次モデルが自然言語をよりよく理解し、それを利用することができることを示唆している。
プレトレーニング機構とモデルアーキテクチャの貢献度を評価するためのアブレーション研究を行った。
事前トレーニングはモデルアーキテクチャよりもパフォーマンス向上において極めて重要であることがわかった。
自動プログラム修復の文脈で事前訓練されたトランスフォーマーモデルを使用することの実用化は、まだ長い道のりである。
しかし,本研究では,事前学習モデルを採用することの実質的な価値を実証し,今後の研究で活用する道を開く。 Sequence-to-sequence models have been used to transform erroneous programs into correct ones when trained with a large enough dataset. Some recent studies also demonstrated strong empirical evidence that code review (natural language instruction about suggestive changes in code) can improve the program repair further. Large language models, trained with Natural Language (NL) and computer program corpora, have the capacity to contain inherent knowledge of both. In this study, we investigate if this inherent knowledge of code and NL can be utilized to improve automated program repair. We applied PLBART and CodeT5, two state-of-the-art language models that are pre-trained with both Programming Language (PL) and Natural Language (NL), on two such natural language-based program repair datasets and found that the pre-trained language models fine-tuned with datasets containing both code review and subsequent code changes notably outperform each of the previous models. We observed that the pre-trained models improve the previously best-reported results by 9.91% on the Review4Repair dataset and by 24.72% on the dataset by Tufano et al. This suggests that a pre-trained sequential model has a better understanding of natural language and can utilize it much better. We performed an ablation study to assess the contribution of the pre-training mechanism and the model architecture. We found that pre-training was significantly more important in the performance gain than the model architecture. The practical application of using pre-trained transformer models in the context of automated program repair is still a long way off. However, our study demonstrates the substantial value of employing pre-trained models, paving the path for future studies to use more of these. | 翻訳日:2023-04-18 17:11:00 公開日:2023-04-16 |
# 相互接続力学のクープマンモード分解による電力グリッドの負荷分布評価 Characterizing the load profile in power grids by Koopman mode decomposition of interconnected dynamics ( http://arxiv.org/abs/2304.07832v1 ) ライセンス: Link先を確認 | Ali Tavasoli, Behnaz Moradijamei, Heman Shakeri | (参考訳) 電力負荷予測は電力グリッドの効率的な管理と最適化に不可欠である。
過去数十年間、様々な統計的および深層学習アプローチが負荷予測モデルの開発に使われてきた。
本稿では,演算子理論フレームワーク内のデータ駆動手法を用いて,負荷ダイナミクスを識別する解釈可能な機械学習手法を提案する。
基礎となるダイナミクスに固有のKoopman演算子を用いて負荷データを表現します。
対応する固有関数を計算することにより、負荷ダイナミクスを動的の最も堅牢な特徴であるコヒーレントな時空間パターンに分解する。
各パターンはその単一周波数に応じて独立に進化し、線形ダイナミクスに基づく予測可能性となる。
負荷ダイナミクスは、動的に固有のコヒーレントな時空間パターンに基づいて構築され、複数の時間スケールでリッチな動的特徴を符号化できることを強調した。
これらの特徴は、相互接続された電力グリッド上の複雑な相互作用と異なる外因性効果と関連している。
より効率的なKoopman演算子アプローチを実現するために、カーネルベースのクラスタリングアプローチを用いて負荷データをクラスタリングし、特に同期力学系において、同様の負荷パターンを持つパワーステーションを同定する。
ヨーロッパ大陸の電力系統における再生可能電力システムからの大規模データセットを用いて本手法の評価を行い,その精度と計算効率の観点から,クープマン方式が深層学習(LSTM)アーキテクチャより優れていることを示す。
この論文のコードはGitHubリポジトリに保管されており、以下のアドレス github.com/Shakeri-Lab/Power-Gridsでアクセスできる。 Electricity load forecasting is crucial for effectively managing and optimizing power grids. Over the past few decades, various statistical and deep learning approaches have been used to develop load forecasting models. This paper presents an interpretable machine learning approach that identifies load dynamics using data-driven methods within an operator-theoretic framework. We represent the load data using the Koopman operator, which is inherent to the underlying dynamics. By computing the corresponding eigenfunctions, we decompose the load dynamics into coherent spatiotemporal patterns that are the most robust features of the dynamics. Each pattern evolves independently according to its single frequency, making its predictability based on linear dynamics. We emphasize that the load dynamics are constructed based on coherent spatiotemporal patterns that are intrinsic to the dynamics and are capable of encoding rich dynamical features at multiple time scales. These features are related to complex interactions over interconnected power grids and different exogenous effects. To implement the Koopman operator approach more efficiently, we cluster the load data using a modern kernel-based clustering approach and identify power stations with similar load patterns, particularly those with synchronized dynamics. We evaluate our approach using a large-scale dataset from a renewable electric power system within the continental European electricity system and show that the Koopman-based approach outperforms a deep learning (LSTM) architecture in terms of accuracy and computational efficiency. The code for this paper has been deposited in a GitHub repository, which can be accessed at the following address github.com/Shakeri-Lab/Power-Grids. | 翻訳日:2023-04-18 17:10:29 公開日:2023-04-16 |
# ChatGPTの音質はどのように変化するか? How does ChatGPT rate sound semantics? ( http://arxiv.org/abs/2304.07830v1 ) ライセンス: Link先を確認 | Kai Siedenburg and Charalampos Saitis | (参考訳) 音のセマンティック次元は、聴覚感覚経験の性質や、知覚、言語、意味のより広い関係を理解する上で、中心的な役割を担っている。
その結果,近年の大型言語モデル(LLMs)の普及に伴い,このようなモデルが人間のものと類似した知覚意味論の組織を示すかどうかを問うことができた。
具体的には、最先端のLLMに基づくチャットボットChatGPTに、20のセマンティックスケールで楽器の音質を評価するよう促した。
別々のチャットで複数の応答を導き出しました。
ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、明るさ(明暗)やピッチ高さ(深高)といった音楽音のよく知られた心理物理学的次元に沿って強い一致を示した。
探索的因子分析により,チャットボットと人間の格付けの間に潜伏因子空間の空間配置が異なっていた。
予想外に、チャットボットは人間の評価に匹敵する程度の内部変動を示した。
我々の研究は、人間の感覚経験の健全な次元を捉えるLLMの可能性を強調している。 Semantic dimensions of sound have been playing a central role in understanding the nature of auditory sensory experience as well as the broader relation between perception, language, and meaning. Accordingly, and given the recent proliferation of large language models (LLMs), here we asked whether such models exhibit an organisation of perceptual semantics similar to those observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic scales. We elicited multiple responses in separate chats, analogous to having multiple human raters. ChatGPT generated semantic profiles that only partially correlated with human ratings, yet showed robust agreement along well-known psychophysical dimensions of musical sounds such as brightness (bright-dark) and pitch height (deep-high). Exploratory factor analysis suggested the same dimensionality but different spatial configuration of a latent factor space between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees of internal variability that were comparable in magnitude to that of human ratings. Our work highlights the potential of LLMs to capture salient dimensions of human sensory experience. | 翻訳日:2023-04-18 17:10:05 公開日:2023-04-16 |
# 顔認識システムにおけるランダムパッチによる物理的攻撃に対する防御戦略 A Random-patch based Defense Strategy Against Physical Attacks for Face Recognition Systems ( http://arxiv.org/abs/2304.07822v1 ) ライセンス: Link先を確認 | JiaHao Xie, Ye Luo, Jianwei Lu | (参考訳) この物理的攻撃は、現実世界のコンピュータビジョンシステムに対する一種の脅威とみなされてきた。
それでも、多くの既存の防衛方法は小さな摂動攻撃にしか役に立たないため、物理的攻撃を効果的に検出できない。
本稿では,顔認識システム(FRS)の物理的攻撃を頑健に検出する,ランダムパッチに基づく防御戦略を提案する。
複雑な深層ニューラルネットワーク(dnn)の構築に重点を置き,攻撃に対する高い認識率を達成する主流の防御手法とは異なり,ロバストな検出モデルを得るために,標準dnnにパッチベースの防御戦略を導入する。
適用したデータセットの広範な実験結果から,提案手法がホワイトボックス攻撃の検出に優れていること,frsと防御手法の両方を攻撃する適応攻撃に優れていることが示された。
さらに,本手法の単純さと堅牢性により,実世界の顔認識システムに容易に適用でき,検出性能を高めるために他の防御方法にも拡張することができる。 The physical attack has been regarded as a kind of threat against real-world computer vision systems. Still, many existing defense methods are only useful for small perturbations attacks and can't detect physical attacks effectively. In this paper, we propose a random-patch based defense strategy to robustly detect physical attacks for Face Recognition System (FRS). Different from mainstream defense methods which focus on building complex deep neural networks (DNN) to achieve high recognition rate on attacks, we introduce a patch based defense strategy to a standard DNN aiming to obtain robust detection models. Extensive experimental results on the employed datasets show the superiority of the proposed defense method on detecting white-box attacks and adaptive attacks which attack both FRS and the defense method. Additionally, due to the simpleness yet robustness of our method, it can be easily applied to the real world face recognition system and extended to other defense methods to boost the detection performance. | 翻訳日:2023-04-18 17:09:46 公開日:2023-04-16 |
# 多変量長期臨床データの時間依存性反復計算 Time-dependent Iterative Imputation for Multivariate Longitudinal Clinical Data ( http://arxiv.org/abs/2304.07821v1 ) ライセンス: Link先を確認 | Omer Noy and Ron Shamir | (参考訳) データ不足は臨床研究における大きな課題である。
電子カルテでは、しばしば実験室検査やバイタルサインの値のかなりの部分が欠落している。
不足はバイアスのある見積もりにつながり、データから結論を引き出す能力を制限する可能性がある。
さらに、多くの機械学習アルゴリズムは完全なデータセットにのみ適用できる。
一般的な解決策はデータインプテーションであり、欠落した値を満たすプロセスである。
しかし、一般的な計算手法のいくつかは臨床データでは不十分である。
我々は時間依存反復計算(TDI)というシンプルな新しい手法を開発し、時系列データを計算するための実用的なソリューションを提供した。
フォワードフィルとイテレーティブインプタを統合することで、多変量データと長手データの両方に対処する。
この統合は、欠落率や測定頻度を含むデータの臨床的パターンに基づいて、患者、変数、観察固有の動的重み付け戦略を採用する。
ランダムにマスクした臨床データセットを用いてTDIを試験した。
MIMIC IIIから50,000人以上の患者を観察したコホートに適用すると,本手法は30例中25例に対して根平均2乗誤差が0.63例,SoftImputeが0.85例であった。
MIMIC IIIとCOVID-19の患者データセットは予測タスクの実行に使用された。
重要なことは、これらの試験は、TDI計算がリスク予測の改善につながることを示した。 Missing data is a major challenge in clinical research. In electronic medical records, often a large fraction of the values in laboratory tests and vital signs are missing. The missingness can lead to biased estimates and limit our ability to draw conclusions from the data. Additionally, many machine learning algorithms can only be applied to complete datasets. A common solution is data imputation, the process of filling-in the missing values. However, some of the popular imputation approaches perform poorly on clinical data. We developed a simple new approach, Time-Dependent Iterative imputation (TDI), which offers a practical solution for imputing time-series data. It addresses both multivariate and longitudinal data, by integrating forward-filling and Iterative Imputer. The integration employs a patient, variable, and observation-specific dynamic weighting strategy, based on the clinical patterns of the data, including missing rates and measurement frequency. We tested TDI on randomly masked clinical datasets. When applied to a cohort consisting of more than 500,000 patient observations from MIMIC III, our approach outperformed state-of-the-art imputation methods for 25 out of 30 clinical variables, with an overall root-mean-squared-error of 0.63, compared to 0.85 for SoftImpute, the second best method. MIMIC III and COVID-19 inpatient datasets were used to perform prediction tasks. Importantly, these tests demonstrated that TDI imputation can lead to improved risk prediction. | 翻訳日:2023-04-18 17:09:30 公開日:2023-04-16 |
# PVセルのMPPTとパラメータ推定の比較検討 Comparative Study of MPPT and Parameter Estimation of PV cells ( http://arxiv.org/abs/2304.07817v1 ) ライセンス: Link先を確認 | Sahil Kumar, Sahitya Gupta, Vajayant Pratik, Pascal Brunet | (参考訳) 本研究は,太陽電池および太陽電池モジュールのPVLIBモデルにおける未知パラメータの正確なパラメータを精度良く推定する機械学習手法の利用に焦点を当て,太陽電池セル用回路の正確なモデルパラメータを推定することは,様々なタスクにおいて重要である。
人工知能ニューラルネットワーク(ANN)アルゴリズムが採用され、計算効率の点で他のメタヒューリスティックアルゴリズムや機械学習アルゴリズムよりも優れていた。
データと出力の一貫性を検証するために、照度と温度に基づいて他の機械学習アルゴリズムと比較した。
Bland Altmanテストが実施され、95%以上の精度が得られた。
検証にあたり、ANNアルゴリズムはパラメータとそれぞれの値を推定するために使用される。 The presented work focuses on utilising machine learning techniques to accurately estimate accurate values for known and unknown parameters of the PVLIB model for solar cells and photovoltaic modules.Finding accurate model parameters of circuits for photovoltaic (PV) cells is important for a variety of tasks. An Artificial Neural Network (ANN) algorithm was employed, which outperformed other metaheuristic and machine learning algorithms in terms of computational efficiency. To validate the consistency of the data and output, the results were compared against other machine learning algorithms based on irradiance and temperature. A Bland Altman test was conducted that resulted in more than 95 percent accuracy rate. Upon validation, the ANN algorithm was utilised to estimate the parameters and their respective values. | 翻訳日:2023-04-18 17:09:08 公開日:2023-04-16 |
# Sabi\'a: ポルトガルの大規模言語モデル Sabi\'a: Portuguese Large Language Models ( http://arxiv.org/abs/2304.07880v1 ) ライセンス: Link先を確認 | Ramon Pires, Hugo Abonizio, Thales Rog\'erio, Rodrigo Nogueira | (参考訳) 言語モデルの能力が向上し続ければ、"ワンサイズフィットオール"モデルが主要なパラダイムとして残ることは考えられます。
例えば、世界中の膨大な数の言語が低リソースであることを考えれば、一般的なプラクティスは、複数の言語で単一のモデルを事前学習することだ。
本稿では,この実践に挑戦するエビデンスを増大させ,対象言語での単言語事前学習が,すでに多様なコーパスで広く訓練されているモデルを大幅に改善することを示す。
より具体的には、ポルトガル語テキストのGPT-JおよびLLaMAモデルを、当初の事前訓練予算の3%以下で事前訓練する。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
私たちのベストモデルであるSabi\'a-65Bは、GPT-3.5-turboと同等に動作します。
対象言語と翻訳言語で当初考えられたデータセットから評価することにより,言語固有の事前学習の貢献度について検討する。
1)対象言語固有の言語ニュアンス及び構造を捉えること、及び
2) ドメインや文化に関するモデルの知識を豊かにする。
以上の結果から,効果の大部分は単言語前訓練によって獲得したドメイン固有知識によるものであることが示唆された。 As the capabilities of language models continue to advance, it is conceivable that "one-size-fits-all" model will remain as the main paradigm. For instance, given the vast number of languages worldwide, many of which are low-resource, the prevalent practice is to pretrain a single model on multiple languages. In this paper, we add to the growing body of evidence that challenges this practice, demonstrating that monolingual pretraining on the target language significantly improves models already extensively trained on diverse corpora. More specifically, we further pretrain GPT-J and LLaMA models on Portuguese texts using 3% or less of their original pretraining budget. Few-shot evaluations on Poeta, a suite of 14 Portuguese datasets, reveal that our models outperform English-centric and multilingual counterparts by a significant margin. Our best model, Sabi\'a-65B, performs on par with GPT-3.5-turbo. By evaluating on datasets originally conceived in the target language as well as translated ones, we study the contributions of language-specific pretraining in terms of 1) capturing linguistic nuances and structures inherent to the target language, and 2) enriching the model's knowledge about a domain or culture. Our results indicate that the majority of the benefits stem from the domain-specific knowledge acquired through monolingual pretraining. | 翻訳日:2023-04-18 17:02:22 公開日:2023-04-16 |
# 新しい材料設計のための量子コンピューティング支援 A Quantum Computing-driven Aid for New Material Design ( http://arxiv.org/abs/2304.07879v1 ) ライセンス: Link先を確認 | Kenson Wesley R and Dr. Reena Monica P | (参考訳) 物質発見は世界の進化以来行われている現象である。
材料の発見は科学、工学、技術などの様々な分野において大きな発展をもたらしたが、技術進歩は材料の急速な発見と初期の研究開発を文書化したデータベースの作成に繋がった。
様々なレベルの効率で介入する技術が開発され、過去の素材の発見とデータベースの作成が進められた。
量子コンピューティングは、精度と精度をさらに向上させる最近の開発である。
本研究では,GeO2,SiO2,SiGe,ZrO2,LiHなどの分子の基底状態エネルギーを量子アルゴリズムの変分量子固有解法(VQE)を用いて調べた。
また、ハミルトニアンエネルギーと基底状態エネルギーのデータを持つ元素と分子からなるデータベースを開発した。 Material discovery is a phenomenon practiced since the evolution of the world. The Discovery of materials had led to significant development in varied fields such as Science, Engineering and Technology etc., It had been a slow and long-drawn process, however, technological advancement had led to the rapid discovery of materials and the creation of a database that documented the earlier research and development. Many intervening technologies at varying levels of efficiency were developed to advance the discovery of materials in the past and create a database. Quantum computing is a recent development that further advances precision and accuracy. In this study, the ground state energy of molecules such as GeO2, SiO2, SiGe, ZrO2 and LiH were found using the quantum algorithm Variational Quantum Eigensolver (VQE). Also, a database consisting of the elements and molecules with the data of their Hamiltonian and Ground State energy was developed. | 翻訳日:2023-04-18 17:02:02 公開日:2023-04-16 |
# 複合組織均質化のためのニューラルネットワークトランスフォーマーモデル A Neural Network Transformer Model for Composite Microstructure Homogenization ( http://arxiv.org/abs/2304.07877v1 ) ライセンス: Link先を確認 | Emil Pitz and Kishore Pochiraju | (参考訳) 複合組織における不均一性と不確実性は、厳密にモデル化された場合の計算ボトルネックか、応力場の不正確さと近似された場合の故障予測のいずれかをもたらす。
任意および非線形の微細構造解析に適した手法は存在するが、計算コストは大規模構造解析での使用を非現実的にしている。
サーロゲートモデルまたは還元順序モデル(rom)は一般的に効率性を高めるが、通常は単一の微細構造で校正される。
森田中法のような均質化法は、幅広い構成特性に対して急速な均質化を提供する。
しかし、応力や位相平均化のような仮定を単純化することは、構造の決定論的および確率的変化の両方の考慮を不可能にする。
本稿では,様々な構造や構成要素の知識を取り込み,計算効率のよい均質化サロゲートモデルとして機能するトランスフォーマリンニューラルネットワークアーキテクチャについて述べる。
任意の複合組織の画像や抽象化が与えられると、トランスフォーマーネットワークは均質化された応力-ひずみ応答を予測する。
マイクロ構造の特徴を符号化する2つの方法が試験された。
第1の方法は、ミクロ構造の2点統計を計算し、主成分分析を用いて次元の減少を図る。
第2の方法は、畳み込みニューラルネットワークを備えたオートエンコーダを使用する。
どちらのマイクロ構造符号化法も、均質化材料応答を正確に予測する。
本稿では,ネットワークアーキテクチャ,トレーニングおよびテストデータ生成,サイクリングおよびランダムロード時のトランスフォーマネットワークの性能について述べる。 Heterogeneity and uncertainty in a composite microstructure lead to either computational bottlenecks if modeled rigorously, or to solution inaccuracies in the stress field and failure predictions if approximated. Although methods suitable for analyzing arbitrary and non-linear microstructures exist, their computational cost makes them impractical to use in large-scale structural analysis. Surrogate models or Reduced Order Models (ROM), commonly enhance efficiencies, but they are typically calibrated with a single microstructure. Homogenization methods, such as the Mori-Tanaka method, offer rapid homogenization for a wide range of constituent properties. However, simplifying assumptions, like stress and strain averaging in phases, render the consideration of both deterministic and stochastic variations in microstructure infeasible. This paper illustrates a transformer neural network architecture that captures the knowledge of various microstructures and constituents, enabling it to function as a computationally efficient homogenization surrogate model. Given an image or an abstraction of an arbitrary composite microstructure, the transformer network predicts the homogenized stress-strain response. Two methods were tested that encode features of the microstructure. The first method calculates two-point statistics of the microstructure and uses Principal Component Analysis for dimensionality reduction. The second method uses an autoencoder with a Convolutional Neural Network. Both microstructure encoding methods accurately predict the homogenized material response. The paper describes the network architecture, training and testing data generation and the performance of the transformer network under cycling and random loadings. | 翻訳日:2023-04-18 17:01:48 公開日:2023-04-16 |
# 放射線治療計画支援のためのsegment anything foundation modelの有用性 The Segment Anything foundation model achieves favorable brain tumor autosegmentation accuracy on MRI to support radiotherapy treatment planning ( http://arxiv.org/abs/2304.07875v1 ) ライセンス: Link先を確認 | Florian Putz, Johanna Grigo, Thomas Weissmann, Philipp Schubert, Daniel Hoefler, Ahmed Gomaa, Hassen Ben Tkhayat, Amr Hagag, Sebastian Lettmaier, Benjamin Frey, Udo S. Gaipl, Luitpold V. Distel, Sabine Semrau, Christoph Bert, Rainer Fietkau, Yixing Huang | (参考訳) 背景:脳腫瘍患者に対する放射線治療(RT)の計画にはMRIの腫瘍分節化が不可欠である。
セグメンテーションモデル(SA)は、複数のセグメンテーションタスクに対して高い精度を示すが、まだ医療データセットでは評価されていない。
方法: 369個のMRIデータセット(BraTS 2020)から16744個の経側切片を用いたグリオーマ脳腫瘍自動切除のポイント・ツー・マスクタスクでSAを評価した。
スライス毎に最大9ポイントのプロンプトが配置された。
腫瘍コア (enhancing tumor + necrotic core) を造影t1w配列に分割した。
SAにより予測された3つのマスクのうち、最も高い計算値のIoU (オークルマスク) と、最も高い予測値のIoU (サジェストマスク) のマスクについて精度を評価した。
また,全MRIスライスにおけるSAの評価に加えて,腫瘍まで採取した画像(max.3D extent + 2 cm)も評価した。
結果: フルMRIスライスにおけるオラクルマスクを用いた平均最高IoU (mbIoU) は0.762 (IQR 0.713-0.917) であった。
最高の2Dマスクは平均6.6ポイントプロンプト(IQR 5-9)で達成された。
セグメンテーション精度は低グレードのグリオーマ (mbIoU 0.789 vs. 0.668) と比較して有意に良好であった。
腫瘍に採取したMRIスライス(mbIoU 0.759)では精度が悪く,提案したマスク(全スライス0.572)ではさらに悪化していた。
すべての実験において,腫瘍ボクセルの少ない周辺スライスの精度は低かった(mbiou, <300: 0.537 vs. >=300: 0.841)。
腫瘍コアの3D DSC は 0.872 であり, 軸, 矢状, コロナマスクの併用により 0.919 に改善した。
結論:segment anything foundation modelは、写真で訓練しながら、mriスライス上のグリオーマ脳腫瘍の分画において高いゼロショット精度を達成することができる。
その結果,臨床応用に適切に組み込むと,Segment Anything は RT 治療計画の加速と促進が可能であることが示唆された。 Background: Tumor segmentation in MRI is crucial in radiotherapy (RT) treatment planning for brain tumor patients. Segment anything (SA), a novel promptable foundation model for autosegmentation, has shown high accuracy for multiple segmentation tasks but was not evaluated on medical datasets yet. Methods: SA was evaluated in a point-to-mask task for glioma brain tumor autosegmentation on 16744 transversal slices from 369 MRI datasets (BraTS 2020). Up to 9 point prompts were placed per slice. Tumor core (enhancing tumor + necrotic core) was segmented on contrast-enhanced T1w sequences. Out of the 3 masks predicted by SA, accuracy was evaluated for the mask with the highest calculated IoU (oracle mask) and with highest model predicted IoU (suggested mask). In addition to assessing SA on whole MRI slices, SA was also evaluated on images cropped to the tumor (max. 3D extent + 2 cm). Results: Mean best IoU (mbIoU) using oracle mask on full MRI slices was 0.762 (IQR 0.713-0.917). Best 2D mask was achieved after a mean of 6.6 point prompts (IQR 5-9). Segmentation accuracy was significantly better for high- compared to low-grade glioma cases (mbIoU 0.789 vs. 0.668). Accuracy was worse using MRI slices cropped to the tumor (mbIoU 0.759) and was much worse using suggested mask (full slices 0.572). For all experiments, accuracy was low on peripheral slices with few tumor voxels (mbIoU, <300: 0.537 vs. >=300: 0.841). Stacking best oracle segmentations from full axial MRI slices, mean 3D DSC for tumor core was 0.872, which was improved to 0.919 by combining axial, sagittal and coronal masks. Conclusions: The Segment Anything foundation model, while trained on photos, can achieve high zero-shot accuracy for glioma brain tumor segmentation on MRI slices. The results suggest that Segment Anything can accelerate and facilitate RT treatment planning, when properly integrated in a clinical application. | 翻訳日:2023-04-18 17:01:24 公開日:2023-04-16 |
# 視覚トランスフォーマによる不均質デハジングに対するデータ中心解 A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer ( http://arxiv.org/abs/2304.07874v1 ) ライセンス: Link先を確認 | Yangyi Liu, Huan Liu, Liangyan Li, Zijun Wu and Jun Chen | (参考訳) 近年、画像デハジングへの関心が高まっている。
この課題に対処するために多くのディープラーニング手法が提案され、同種ヘイズを扱う大きな成果を上げてきた。
しかし、これらのソリューションは、NTIREの課題によって導入されたNH-HAZE23データセットのような、均一でないヘイズを持つ画像に適用された場合、同等のパフォーマンスを維持することはできない。
このような失敗の理由の1つは、不均質なヘイズが均質なヘイズをモデル化するのに必要となる前提の1つに従わないことである。
さらに、NH-HAZE23データセットは限られた量であるのに対し、従来のエンドツーエンドのトレーニングアプローチでは、多数の非均一なハズ画像とクリーンな画像が必要である。
NH-HAZE23データセットを他の均質でないデハージングデータセットを利用して拡張することは可能であるが、ターゲットデータセットと拡張データセットとの分散ギャップを低減する適切なデータ前処理アプローチを設計する必要があることが観察されている。
この発見は、データ中心のAIの本質と実際に一致している。
新たなネットワークアーキテクチャと,データ品質を体系的に向上させる原則的データ前処理手法を用いて,革新的なデハジング手法を提案する。
具体的には、拡張データセットにRGBチャネルワイズ変換を適用し、最先端トランスフォーマーを2ブランチフレームワークのバックボーンとして組み込む。
提案手法の有効性を示すため,広範囲な実験とアブレーション実験を行った。 Recent years have witnessed an increased interest in image dehazing. Many deep learning methods have been proposed to tackle this challenge, and have made significant accomplishments dealing with homogeneous haze. However, these solutions cannot maintain comparable performance when they are applied to images with non-homogeneous haze, e.g., NH-HAZE23 dataset introduced by NTIRE challenges. One of the reasons for such failures is that non-homogeneous haze does not obey one of the assumptions that is required for modeling homogeneous haze. In addition, a large number of pairs of non-homogeneous hazy image and the clean counterpart is required using traditional end-to-end training approaches, while NH-HAZE23 dataset is of limited quantities. Although it is possible to augment the NH-HAZE23 dataset by leveraging other non-homogeneous dehazing datasets, we observe that it is necessary to design a proper data-preprocessing approach that reduces the distribution gaps between the target dataset and the augmented one. This finding indeed aligns with the essence of data-centric AI. With a novel network architecture and a principled data-preprocessing approach that systematically enhances data quality, we present an innovative dehazing method. Specifically, we apply RGB-channel-wise transformations on the augmented datasets, and incorporate the state-of-the-art transformers as the backbone in the two-branch framework. We conduct extensive experiments and ablation study to demonstrate the effectiveness of our proposed method. | 翻訳日:2023-04-18 17:00:45 公開日:2023-04-16 |
# 低リソース言語のためのニューラルマシン翻訳 Neural Machine Translation For Low Resource Languages ( http://arxiv.org/abs/2304.07869v1 ) ライセンス: Link先を確認 | Vakul Goyle, Kartikay Goyle, Parvathy Krishnaswamy, Kannan Girija Ravikumar, Utsa Chattopadhyay | (参考訳) ニューラルマシン翻訳は、自然言語がもたらす本質的に複雑な性質と流動性のため、難しい課題である。
しかし、近年ではいくつかの言語ペアで最先端のパフォーマンスを実現している。
近年、多言語ニューラルマシン翻訳(mnmt)の分野では、多くのトラクションが見られるが、どのアプローチがうまく機能するかを特定するための包括的な調査は行われていない。
このプロジェクトの目的は、低リソース言語の領域を調査し、最新結果を達成するためにニューラルマシン翻訳モデルを構築することである。
このプロジェクトは、 \texttt{mbart.cc25} \cite{liu2020multilingual}言語モデルに基づいて構築され、様々なnlpおよびバック翻訳やトランスファー学習のようなディープラーニング技術で強化するための戦略を探求する。
この実装は、NMTアプリケーションのアーキテクチャを解き放ち、低リソース言語問題空間のパースペクティブ内で、そのアプリケーションを修正する機会を提供する様々なコンポーネントを決定しようとします。 Neural Machine translation is a challenging task due to the inherent complex nature and the fluidity that natural languages bring. Nonetheless, in recent years, it has achieved state-of-the-art performance in several language pairs. Although, a lot of traction can be seen in the areas of multilingual neural machine translation (MNMT) in the recent years, there are no comprehensive survey done to identify what approaches work well. The goal of this project is to investigate the realm of low resource languages and build a Neural Machine Translation model to achieve state-of-the-art results. The project looks to build upon the \texttt{mBART.CC25} \cite{liu2020multilingual} language model and explore strategies to augment it with various NLP and Deep Learning techniques like back translation and transfer learning. This implementation tries to unpack the architecture of the NMT application and determine the different components which offers us opportunities to amend the said application within the purview of the low resource languages problem space. | 翻訳日:2023-04-18 17:00:20 公開日:2023-04-16 |
# CEBoosting: 因果エントロピーブースティングによるレジームスイッチングによる動的システムのオンラインスパース同定 CEBoosting: Online Sparse Identification of Dynamical Systems with Regime Switching by Causation Entropy Boosting ( http://arxiv.org/abs/2304.07863v1 ) ライセンス: Link先を確認 | Chuanqi Chen, Nan Chen, Jin-Long Wu | (参考訳) レジームスイッチングは、マルチスケールの特徴、カオス的振る舞い、極端な事象を持つ多くの複雑な力学系においてユビキタスである。
本稿では,オンラインモデル同定によるレジームスイッチングの検出と新しいレジームに関連するダイナミクスの発見を容易にするために,causation entropy boosting (ceboosting) 戦略を開発した。
効率的に計算可能な因果エントロピーは、予め決定されたライブラリ内の各候補関数の論理値を提供する。
1つまたは数つの因果エントロピー指標の反転は、現在のレジームに校正されたモデルに関連することは、レジームスイッチングの検出を意味する。
逐次データによって形成される各バッチの長さは短いが、データバッチのシーケンスに対応する因果エントロピーの累積値はロバストな指標となる。
検出されたモデル構造の整流化により、後続のパラメータ推定は2次最適化問題となり、閉解析式を用いて解く。
ローレンツ96モデルを用いて、因果エントロピーインジケータを効率よく計算できることを示し、その方法が適度に大きな次元系に適用された。
CEBoostingアルゴリズムは部分的な観測を伴う状況にも適応する。
確率的パラメータ化モデルを用いて,ceboosting戦略とデータ同化を組み合わせることで,観測されていない潜在プロセスによって引き起こされるレジームスイッチングを識別できることを示した。
さらに,セボオスト法を地形平均フロー相互作用の非線形パラダイムモデルに適用し,強い間欠性と極端な事象の存在下でのレジームスイッチングのオンライン検出を実証した。 Regime switching is ubiquitous in many complex dynamical systems with multiscale features, chaotic behavior, and extreme events. In this paper, a causation entropy boosting (CEBoosting) strategy is developed to facilitate the detection of regime switching and the discovery of the dynamics associated with the new regime via online model identification. The causation entropy, which can be efficiently calculated, provides a logic value of each candidate function in a pre-determined library. The reversal of one or a few such causation entropy indicators associated with the model calibrated for the current regime implies the detection of regime switching. Despite the short length of each batch formed by the sequential data, the accumulated value of causation entropy corresponding to a sequence of data batches leads to a robust indicator. With the detected rectification of the model structure, the subsequent parameter estimation becomes a quadratic optimization problem, which is solved using closed analytic formulae. Using the Lorenz 96 model, it is shown that the causation entropy indicator can be efficiently calculated, and the method applies to moderately large dimensional systems. The CEBoosting algorithm is also adaptive to the situation with partial observations. It is shown via a stochastic parameterized model that the CEBoosting strategy can be combined with data assimilation to identify regime switching triggered by the unobserved latent processes. In addition, the CEBoosting method is applied to a nonlinear paradigm model for topographic mean flow interaction, demonstrating the online detection of regime switching in the presence of strong intermittency and extreme events. | 翻訳日:2023-04-18 17:00:01 公開日:2023-04-16 |
# 異方性ディッケ模型の相転移 Phase transitions of the anisotropic Dicke model ( http://arxiv.org/abs/2304.07857v1 ) ライセンス: Link先を確認 | Pragna Das, Devendra Singh Bhakuni, and Auditya Sharma | (参考訳) 異方性ディックモデルの様々な相転移を, 回転および逆回転光物質結合の両方で系統的に解析する。
通常の状態から超放射相への基底状態量子相転移(QPT)に加えて、異方性ディックモデルは励起状態量子相転移(ES-QPT)、エルゴードから非エルゴード遷移(ENET)、温度依存相転移(英語版)といった他の遷移も示している。
これらの相転移は, 標準連続レベル間隔比だけでなく, フォン・ノイマンエンタングルメントエントロピー, 参加比, マルチフラクタル次元, 相互情報など, 様々な固有ベクトル量を用いて, 有益に研究されていることを示す。
enetでは、参加率の静的性とダイナミクスの両方が一貫した有用なイメージを提供する。
私たちの研究でエキサイティングな発見は、ESQPTとENETが互いに密接に関連していることです。
フォン・ノイマンエントロピーのジャンプに対応するスペクトルの2つの特性エネルギーの助けを借りてこれを示す。 We systematically analyze the various phase transitions of the anisotropic Dicke model that is endowed with both rotating and counter-rotating light-matter couplings. In addition to the ground state quantum phase transition (QPT) from the normal to the super-radiant phase, the anisotropic Dicke model also exhibits other transitions namely the excited state quantum phase transition (ES- QPT), ergodic to non-ergodic transition (ENET) and the temperature dependent phase transition. We show that these phase transitions are profitably studied not only with the standard consecutive level spacing ratio, but also with the aid of various eigenvector quantities such as von Neumann entanglement entropy, the participation ratio, multifractal dimension and mutual information. For ENET, both the statics and dynamics of the participation ratio offer a consistent and useful picture. An exciting finding from our work is that the ESQPT and the ENET are closely related to each other. We show this with the aid of two characteristic energies in the spectrum corresponding to jumps in von Neumann entropy. | 翻訳日:2023-04-18 16:59:34 公開日:2023-04-16 |
# 調査データを用いた罰則的好き推論 Penalized Likelihood Inference with Survey Data ( http://arxiv.org/abs/2304.07855v1 ) ライセンス: Link先を確認 | Joann Jasiak and Purevdorj Tuvaandorj | (参考訳) 本稿では,3つのLasso推論手法,Debiased Lasso,$C(\alpha)$,Selective Inferenceを調査環境に拡張する。
調査重量および/またはヘテロスケダスティック性を有する一般線形モデルにおける推論手順の漸近的妥当性を確立する。
さらに,この手法を非線形パラメータ関数の推論,例えばサーベイロジットモデルにおける平均辺効果に一般化する。
シミュレーションデータとCanadian Internet Use Survey 2020データにおけるアプローチの有効性について述べる。 This paper extends three Lasso inferential methods, Debiased Lasso, $C(\alpha)$ and Selective Inference to a survey environment. We establish the asymptotic validity of the inference procedures in generalized linear models with survey weights and/or heteroskedasticity. Moreover, we generalize the methods to inference on nonlinear parameter functions e.g. the average marginal effect in survey logit models. We illustrate the effectiveness of the approach in simulated data and Canadian Internet Use Survey 2020 data. | 翻訳日:2023-04-18 16:59:14 公開日:2023-04-16 |
# 中国語の言語モデルに追従するより良い指導に向けて--学習データと評価の影響の検討 Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation ( http://arxiv.org/abs/2304.07854v1 ) ライセンス: Link先を確認 | Yunjie Ji, Yan Gong, Yong Deng, Yiping Peng, Qiang Niu, Baochang Ma, Xiangang Li | (参考訳) 近年,ChatGPTに似た機能を備えた低コストモデルの開発に向けて,大規模な公的な取り組みが進められている。
しかし、これらのモデルの性能に関する包括的かつ深い評価は、まだ乏しいままである。
本研究では,量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
私たちの分析は、公開アクセス可能な、高品質なインストラクションデータセットと、中国のマルチターン会話に基礎を置いている。
実世界の9つのシナリオを包含して,1000サンプルの評価セットを用いて様々なモデルを評価する。
我々の目標は、定量的分析による手動評価を補完し、オープンソースのチャットモデルの継続的な進歩に価値ある洞察を提供することである。
さらに,中国語領域におけるモデルのパフォーマンスとトレーニングと推論効率を向上させるために,llama(オープンソースパフォーマンスに最も近いモデル)の語彙をgpt-3のようなプロプライエタリな言語モデルに拡張し,3.4bの中国語単語で2次事前学習を行う。
モデルやデータだけでなく、コードも公開しています。 Recently, significant public efforts have been directed towards developing low-cost models with capabilities akin to ChatGPT, thereby fostering the growth of open-source conversational models. However, there remains a scarcity of comprehensive and in-depth evaluations of these models' performance. In this study, we examine the influence of training data factors, including quantity, quality, and linguistic distribution, on model performance. Our analysis is grounded in several publicly accessible, high-quality instruction datasets, as well as our own Chinese multi-turn conversations. We assess various models using a evaluation set of 1,000 samples, encompassing nine real-world scenarios. Our goal is to supplement manual evaluations with quantitative analyses, offering valuable insights for the continued advancement of open-source chat models. Furthermore, to enhance the performance and training and inference efficiency of models in the Chinese domain, we extend the vocabulary of LLaMA - the model with the closest open-source performance to proprietary language models like GPT-3 - and conduct secondary pre-training on 3.4B Chinese words. We make our model, data, as well as code publicly available. | 翻訳日:2023-04-18 16:59:07 公開日:2023-04-16 |
# cat-nerf:tx$^2$formerによる動的身体モデリング CAT-NeRF: Constancy-Aware Tx$^2$Former for Dynamic Body Modeling ( http://arxiv.org/abs/2304.07915v1 ) ライセンス: Link先を確認 | Haidong Zhu, Zhaoheng Zheng, Wanrong Zheng, Ram Nevatia | (参考訳) 本稿では,映像における人体レンダリングの問題点を時間的視点で論じる。
ダイナミックボディ形状を、NeRFのような体積神経レンダリング法で再構成するには、人体形状や動きを理解する必要がある正準および観測空間の点の対応を見つける必要がある。
いくつかの方法は、各フレームのユニークな動きや筋肉の動きを正確にモデル化できないse(3)のような剛体変換を用いる。
他の者は、神経ブレンド重み場や翻訳ベクトル場などの訓練可能なネットワークを持つ各フレームの変換を生成し、一般的なボディ形状の外観構成を考慮しない。
本稿では,2つのトランスフォーマー層を組み合わせる新しい手法であるTx$^2$Formerを用いて,外観コンステランスの自己認識のためのCAT-NeRFを提案する。
外観コンテンシーはビデオ全体の一般的な形状をモデル化し、一意性は各フレームのユニークなパターンをモデル化する。
さらに,各一対の外観特異性間の相関を制限し,フレーム・一様パターンが外観特異性において最大に捉えられるようにするために,新しい共分散損失を導入する。
本手法はH36MとZJU-MoCapで評価し,最先端性能を示す。 This paper addresses the problem of human rendering in the video with temporal appearance constancy. Reconstructing dynamic body shapes with volumetric neural rendering methods, such as NeRF, requires finding the correspondence of the points in the canonical and observation space, which demands understanding human body shape and motion. Some methods use rigid transformation, such as SE(3), which cannot precisely model each frame's unique motion and muscle movements. Others generate the transformation for each frame with a trainable network, such as neural blend weight field or translation vector field, which does not consider the appearance constancy of general body shape. In this paper, we propose CAT-NeRF for self-awareness of appearance constancy with Tx$^2$Former, a novel way to combine two Transformer layers, to separate appearance constancy and uniqueness. Appearance constancy models the general shape across the video, and uniqueness models the unique patterns for each frame. We further introduce a novel Covariance Loss to limit the correlation between each pair of appearance uniquenesses to ensure the frame-unique pattern is maximally captured in appearance uniqueness. We assess our method on H36M and ZJU-MoCap and show state-of-the-art performance. | 翻訳日:2023-04-18 16:53:08 公開日:2023-04-16 |
# プロパティによるエンティティタイプ認識 Recognizing Entity Types via Properties ( http://arxiv.org/abs/2304.07910v1 ) ライセンス: Link先を確認 | Daqian Shi, Fausto Giunchiglia | (参考訳) オントロジーの発展における主要なアプローチは、異なる情報を符号化するオントロジーの融合であり、そこでは、不均一性がオントロジーの融合を動機付け、高品質なマージ性能を制限している。
したがって、エンティティタイプ(etype)認識タスクは、オントロジに符号化された情報を利用してエンティティとetypeのクラスを推論することを目的として、そのような異種性を扱うために提案される。
本稿では,e型を定義に使用するプロパティに基づいて認識するプロパティベースアプローチを提案する。
認識論的観点から見ると、実体や型を特徴づける性質であり、この定義はそれらを定義するために使われる特定のラベルや階層スキーマとは独立である。
主なコントリビューションは、etypeとエンティティ間のコンテキスト的類似度を測定するプロパティベースのメトリクスセットと、提案した類似度メトリクスを利用する機械学習ベースのetype認識アルゴリズムで構成される。
実験結果は,最先端技術と比較すると,類似度指標の有効性と,提案した固有型認識アルゴリズムの優位性を示す。 The mainstream approach to the development of ontologies is merging ontologies encoding different information, where one of the major difficulties is that the heterogeneity motivates the ontology merging but also limits high-quality merging performance. Thus, the entity type (etype) recognition task is proposed to deal with such heterogeneity, aiming to infer the class of entities and etypes by exploiting the information encoded in ontologies. In this paper, we introduce a property-based approach that allows recognizing etypes on the basis of the properties used to define them. From an epistemological point of view, it is in fact properties that characterize entities and etypes, and this definition is independent of the specific labels and hierarchical schemas used to define them. The main contribution consists of a set of property-based metrics for measuring the contextual similarity between etypes and entities, and a machine learning-based etype recognition algorithm exploiting the proposed similarity metrics. Compared with the state-of-the-art, the experimental results show the validity of the similarity metrics and the superiority of the proposed etype recognition algorithm. | 翻訳日:2023-04-18 16:52:47 公開日:2023-04-16 |
# SECAdvisor:経済モデルを用いたサイバーセキュリティ計画ツール SECAdvisor: a Tool for Cybersecurity Planning using Economic Models ( http://arxiv.org/abs/2304.07909v1 ) ライセンス: Link先を確認 | Muriel Figueredo Franco, Christian Omlin, Oliver Kamer, Eder John Scheid, Burkhard Stiller | (参考訳) サイバーセキュリティの計画は、十分な保護を望むデジタル化された企業にとって、資金を過渡さずに難しい。
現在、投資の欠如と逆の経済インセンティブはサイバー攻撃の根本原因であり、世界中の企業にいくつかの経済的影響をもたらす。
そのため、サイバーセキュリティ計画では、企業がより良いサイバーセキュリティ戦略を達成するために、技術的、経済的側面を考慮する必要がある。
この記事では、経済モデルを用いたサイバーセキュリティ計画を支援するツールであるSECAdvisorを紹介します。
SECAdvisorが許可する
(a)異なる企業の情報のリスクと評価を理解すること。
(b)企業のサイバーセキュリティに対する最適な投資を算定する。
(c)利用可能な予算及び要求に基づいて保護の勧告を受け、
(d)コスト効率の観点から保護ソリューションを比較する。
さらに,SECAdvisorを用いたユーザビリティと実世界のトレーニング活動の評価を行った。 Cybersecurity planning is challenging for digitized companies that want adequate protection without overspending money. Currently, the lack of investments and perverse economic incentives are the root cause of cyberattacks, which results in several economic impacts on companies worldwide. Therefore, cybersecurity planning has to consider technical and economic dimensions to help companies achieve a better cybersecurity strategy. This article introduces SECAdvisor, a tool to support cybersecurity planning using economic models. SECAdvisor allows to (a) understand the risks and valuation of different businesses' information, (b) calculate the optimal investment in cybersecurity for a company, (c) receive a recommendation of protections based on the budget available and demands, and (d) compare protection solutions in terms of cost-efficiency. Furthermore, evaluations on usability and real-world training activities performed using SECAdvisor are discussed. | 翻訳日:2023-04-18 16:52:28 公開日:2023-04-16 |
# 深層学習を用いた脳腫瘍分類とセグメンテーション Brain Tumor classification and Segmentation using Deep Learning ( http://arxiv.org/abs/2304.07901v1 ) ライセンス: Link先を確認 | Belal Badawy, Romario Sameh Samir, Youssef Tarek, Mohammed Ahmed, Rana Ibrahim, Manar Ahmed, Mohamed Hassan | (参考訳) 脳腫瘍は複雑で生命を脅かす病気であり、正確な診断とタイムリーな治療を必要とする。
本稿では,MRI画像を用いた脳腫瘍の分類・診断における医療従事者の支援を目的とした機械学習システムを提案する。
私たちのシステムはセキュアなログインを提供しており、医師はMRIの写真をアップロードまたは撮影することができ、アプリはモデルを分類して腫瘍を分類し、医師に患者の履歴、名前、結果のフォルダーを提供する。
私たちのシステムは、このフォルダに結果やMRIを追加し、MRIで別の医師に送信し、アプリの保存ページに重要な結果を保存することもできます。
さらに,本システムは1秒以内の分類が可能であり,脳腫瘍医師のコミュニティとチャットできる。
これらの目的を達成するために,本システムは,mri画像の大規模データセット上でトレーニングされた最先端機械学習アルゴリズムを用いる。
このアルゴリズムは、異なるタイプの脳腫瘍を正確に分類し、腫瘍の大きさ、位置、重症度に関する詳細な情報を提供する。
さらに,セキュアなログインやデータ暗号化など,セキュリティとプライバシを確保する機能も備えています。
実世界のMRI画像のデータセットを用いてシステム評価を行い,その性能を既存システムと比較した。
その結果, 精度が高く, 効率良く, 使い易いシステムであることが判明した。
我々は,脳腫瘍の診断と治療の分野に革命をもたらす可能性があり,医療専門家に患者の予後を改善する強力なツールを提供すると考えている。 Brain tumors are a complex and potentially life-threatening medical condition that requires accurate diagnosis and timely treatment. In this paper, we present a machine learning-based system designed to assist healthcare professionals in the classification and diagnosis of brain tumors using MRI images. Our system provides a secure login, where doctors can upload or take a photo of MRI and our app can classify the model and segment the tumor, providing the doctor with a folder of each patient's history, name, and results. Our system can also add results or MRI to this folder, draw on the MRI to send it to another doctor, and save important results in a saved page in the app. Furthermore, our system can classify in less than 1 second and allow doctors to chat with a community of brain tumor doctors. To achieve these objectives, our system uses a state-of-the-art machine learning algorithm that has been trained on a large dataset of MRI images. The algorithm can accurately classify different types of brain tumors and provide doctors with detailed information on the size, location, and severity of the tumor. Additionally, our system has several features to ensure its security and privacy, including secure login and data encryption. We evaluated our system using a dataset of real-world MRI images and compared its performance to other existing systems. Our results demonstrate that our system is highly accurate, efficient, and easy to use. We believe that our system has the potential to revolutionize the field of brain tumor diagnosis and treatment and provide healthcare professionals with a powerful tool for improving patient outcomes. | 翻訳日:2023-04-18 16:52:17 公開日:2023-04-16 |
# 文脈識別型コントラスト学習による時系列異常検出 Time-series Anomaly Detection via Contextual Discriminative Contrastive Learning ( http://arxiv.org/abs/2304.07898v1 ) ライセンス: Link先を確認 | Katrina Chen and Mingbin Feng and Tony S. Wirjanto | (参考訳) 時間的データの異常の検出は、時間的ダイナミクスに依存する異常のため困難である。
一級分類法は異常検出タスクに一般的に用いられるが、時間データに適用すると制限がある。
特に、すべての正常なインスタンスを単一のハイパースフィアにマッピングしてそのグローバル特性をキャプチャすることは、ローカル情報に関して異常が定義されるコンテキストベースの異常を検出する際のパフォーマンス低下につながる可能性がある。
この制限に対処するため,DeepSVDDの損失関数に着想を得た新しい手法を提案する。
すべての通常のインスタンスを単一のハイパースフィアセンターにマッピングする代わりに、各通常のインスタンスは最新のコンテキストウィンドウにプルされる。
しかし、このアプローチは、あるインスタンスをエンコードするニューラルネットワークとそのコンテキストを、一定のエンコーダソリューションに最適化する、表現崩壊問題を引き起こす。
この問題を克服するため,我々は,自己教師型学習異常検出手法であるNeutral ADによる決定論的コントラスト損失と組み合わせた。
決定論的コントラスト損失を組み込むことで、定値エンコーダ溶液の発生を効果的に防止できることを示すための理論的解析を提供する。
実験の結果,実世界の産業データセットにおける各種ベースラインおよびモデル変種よりも優れた性能を示した。 Detecting anomalies in temporal data is challenging due to anomalies being dependent on temporal dynamics. One-class classification methods are commonly used for anomaly detection tasks, but they have limitations when applied to temporal data. In particular, mapping all normal instances into a single hypersphere to capture their global characteristics can lead to poor performance in detecting context-based anomalies where the abnormality is defined with respect to local information. To address this limitation, we propose a novel approach inspired by the loss function of DeepSVDD. Instead of mapping all normal instances into a single hypersphere center, each normal instance is pulled toward a recent context window. However, this approach is prone to a representation collapse issue where the neural network that encodes a given instance and its context is optimized towards a constant encoder solution. To overcome this problem, we combine our approach with a deterministic contrastive loss from Neutral AD, a promising self-supervised learning anomaly detection approach. We provide a theoretical analysis to demonstrate that the incorporation of the deterministic contrastive loss can effectively prevent the occurrence of a constant encoder solution. Experimental results show superior performance of our model over various baselines and model variants on real-world industrial datasets. | 翻訳日:2023-04-18 16:51:55 公開日:2023-04-16 |
# 変数外一般化 Out-of-Variable Generalization ( http://arxiv.org/abs/2304.07896v1 ) ライセンス: Link先を確認 | Siyuan Guo, Jonas Wildberger, Bernhard Sch\"olkopf | (参考訳) エージェントが新しくて目に見えない環境でうまく機能する能力は、インテリジェンスの重要な側面である。
機械学習では、この能力は強いあるいは分布外一般化と呼ばれる。
しかし、単にデータ分布の違いを考慮するだけでは、環境の違いを完全に捉えるには不十分である。
本稿では,これまで観測されなかった変数を含む新たな状況に対処するエージェントの能力について,変数外一般化について検討する。
人間もまた、変数のサブセットを一度に探索し、観察し、測定することで「自然」を探索する。
数学的には、過去の限界知識、すなわち変数の部分集合上の知識の効率的な再利用が必要である。
本研究では,重なり合うが相違する因果関係の親の集合を観察する際の予測課題に着目し,この問題を考察する。
ある環境の残差分布は、観測されていない因果親に対する真の生成関数の部分微分を符号化していることを示す。
したがって、残差から学習することで、他の環境で結果変数を観測しない場合でもゼロショット予測が可能となる。 The ability of an agent to perform well in new and unseen environments is a crucial aspect of intelligence. In machine learning, this ability is referred to as strong or out-of-distribution generalization. However, simply considering differences in data distributions is not sufficient to fully capture differences in environments. In the present paper, we assay out-of-variable generalization, which refers to an agent's ability to handle new situations that involve variables never jointly observed before. We expect that such ability is important also for AI-driven scientific discovery: humans, too, explore 'Nature' by probing, observing and measuring subsets of variables at one time. Mathematically, it requires efficient re-use of past marginal knowledge, i.e., knowledge over subsets of variables. We study this problem, focusing on prediction tasks that involve observing overlapping, yet distinct, sets of causal parents. We show that the residual distribution of one environment encodes the partial derivative of the true generating function with respect to the unobserved causal parent. Hence, learning from the residual allows zero-shot prediction even when we never observe the outcome variable in the other environment. | 翻訳日:2023-04-18 16:51:34 公開日:2023-04-16 |
# ブラジルにおける医療用人工知能プライバシオントロジー Ontology for Healthcare Artificial Intelligence Privacy in Brazil ( http://arxiv.org/abs/2304.07889v1 ) ライセンス: Link先を確認 | Tiago Andres Vaz, Jos\'e Miguel Silva Dora, Lu\'is da Cunha Lamb and Suzi Alves Camey | (参考訳) 本稿では、疫学、医学、統計学、計算機科学の交点における新しいドメインオントロジーの作成について述べる。
論文は、現在の法律で定義された用語を用いて、医療における人工知能(AI)の応用に備えて、病院データを匿名で扱うための体系的なアプローチを概説する。
開発プロセスは、スコープの定義、知識の選択、重要な用語のレビュー、疫学研究で使用されるデザインを記述するクラスの構築、機械学習パラダイム、データと属性の種類、匿名化されたデータが露出する可能性のあるリスク、プライバシー攻撃、再識別を緩和する技術、プライバシーモデル、匿名化の効果を測定するメトリクスを含む7つの実践的なステップで構成された。
論文は、このオントロジーの実践的な実装を、AIの開発と検証のために病院で実施することから締めくくっている。 This article details the creation of a novel domain ontology at the intersection of epidemiology, medicine, statistics, and computer science. Using the terminology defined by current legislation, the article outlines a systematic approach to handling hospital data anonymously in preparation for its use in Artificial Intelligence (AI) applications in healthcare. The development process consisted of 7 pragmatic steps, including defining scope, selecting knowledge, reviewing important terms, constructing classes that describe designs used in epidemiological studies, machine learning paradigms, types of data and attributes, risks that anonymized data may be exposed to, privacy attacks, techniques to mitigate re-identification, privacy models, and metrics for measuring the effects of anonymization. The article concludes by demonstrating the practical implementation of this ontology in hospital settings for the development and validation of AI. | 翻訳日:2023-04-18 16:51:18 公開日:2023-04-16 |
# ユニバーサルゲートセットの漏洩ベンチマーク Leakage Benchmarking for Universal Gate Sets ( http://arxiv.org/abs/2304.07884v1 ) ライセンス: Link先を確認 | Bujiao Wu, Xiaoyang Wang, Xiao Yuan, Cupjin Huang and Jianxin Chen | (参考訳) 量子コンピューティングプラットフォームではエラーが一般的な問題であり、リークは最も解決が難しい問題のひとつだ。
これは、リーク(すなわち、より大きなヒルベルト空間内の望ましくない部分空間に計算部分空間に格納された情報の損失)は、計算部分空間を保存するエラーよりも検出および修正が難しいためである。
その結果、リークはフォールトトレラント量子計算の開発に重大な障害をもたらす。
本稿では,マルチ量子ビット量子システムにおける漏洩率を測定するためのlrb( leak randomized benchmarking)と呼ばれる効率的で正確なベンチマークフレームワークを提案する。
提案手法は,既存のリークベンチマークプロトコルよりも状態準備・測定(SPAM)ノイズに敏感であり,ゲートセット自体の仮定を少なくし,これまで行われていなかったマルチキュービットリークのベンチマークに使用できる。
また, LRB プロトコルをインターリーブド LRB (Interleaved LRB) と呼ばれるインターリーブ型に拡張することで, 一般的な n サイト量子ゲートの平均リーク率を妥当な雑音仮定でベンチマークすることができる。
フラックスチューニングにより実現した汎用2ビットゲートのベンチマークにおいて,iLRBプロトコルを実証し,対応するリークモデルの下でのiLRBの挙動を解析する。
数値実験により, lrbプロトコルとilrbプロトコルの両方の実現可能性を示す理論的推定値との一致が示された。 Errors are common issues in quantum computing platforms, among which leakage is one of the most challenging to address. This is because leakage, i.e., the loss of information stored in the computational subspace to undesired subspaces in a larger Hilbert space, is more difficult to detect and correct than errors that preserve the computational subspace. As a result, leakage presents a significant obstacle to the development of fault-tolerant quantum computation. In this paper, we propose an efficient and accurate benchmarking framework called leakage randomized benchmarking (LRB) for measuring leakage rates on multi-qubit quantum systems. Our approach is more insensitive to state preparation and measurement (SPAM) noise than existing leakage benchmarking protocols, requires fewer assumptions about the gate set itself, and can be used to benchmark multi-qubit leakages, which was not done previously. We also extend the LRB protocol to an interleaved variant called interleaved LRB (iLRB), which can benchmark the average leakage rate of generic n-site quantum gates with reasonable noise assumptions. We demonstrate the iLRB protocol on benchmarking generic two-qubit gates realized using flux tuning, and analyze the behavior of iLRB under corresponding leakage models. Our numerical experiments show good agreement with theoretical estimations, indicating the feasibility of both the LRB and iLRB protocols. | 翻訳日:2023-04-18 16:51:01 公開日:2023-04-16 |
# Bent & Broken Bicycles: 損傷対象再同定のための合成データを活用する Bent & Broken Bicycles: Leveraging synthetic data for damaged object re-identification ( http://arxiv.org/abs/2304.07883v1 ) ライセンス: Link先を確認 | Luca Piano, Filippo Gabriele Prattic\`o, Alessandro Sebastian Russo, Lorenzo Lanari, Lia Morra, Fabrizio Lamberti | (参考訳) インスタンスレベルのオブジェクト再識別は、画像検索からインテリジェントな監視と不正検出まで、基本的なコンピュータビジョンタスクである。
本研究では、変形や欠落による視覚的外観の変化を微妙なクラス内変動から識別することを目的とした、損傷対象再識別の新しい課題を提案する。
この課題を探求するため,我々はコンピュータ生成画像のパワーを利用して,損傷発生前後に同じ自転車の高品質合成画像を半自動的に生成する。
その結果得られたデータセット、bend & broken bicycles(bbbicycles)には、39,200の画像と20の異なる自転車モデルにまたがる2,800のユニークな自転車インスタンスが含まれている。
本課題のベースラインとして,マルチタスクでトランスフォーマーをベースとしたディープネットワークであるTransReI3Dを提案する。
bbbicyclesデータセットはhttps://huggingface.co/datasets/grainspolito/bbbicyclesで利用可能である。 Instance-level object re-identification is a fundamental computer vision task, with applications from image retrieval to intelligent monitoring and fraud detection. In this work, we propose the novel task of damaged object re-identification, which aims at distinguishing changes in visual appearance due to deformations or missing parts from subtle intra-class variations. To explore this task, we leverage the power of computer-generated imagery to create, in a semi-automatic fashion, high-quality synthetic images of the same bike before and after a damage occurs. The resulting dataset, Bent & Broken Bicycles (BBBicycles), contains 39,200 images and 2,800 unique bike instances spanning 20 different bike models. As a baseline for this task, we propose TransReI3D, a multi-task, transformer-based deep network unifying damage detection (framed as a multi-label classification task) with object re-identification. The BBBicycles dataset is available at https://huggingface.co/datasets/GrainsPolito/BBBicycles | 翻訳日:2023-04-18 16:50:38 公開日:2023-04-16 |
# パーソナライズフレンドリな画像分類のための共有基盤の連合学習 Federated Learning of Shareable Bases for Personalization-Friendly Image Classification ( http://arxiv.org/abs/2304.07882v1 ) ライセンス: Link先を確認 | Hong-You Chen, Jike Zhong, Mingda Zhang, Xuhui Jia, Hang Qi, Boqing Gong, Wei-Lun Chao, Li Zhang | (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、個々のクライアントのデータ配信に合わせてカスタマイズされたモデルを構築するために、クライアントのデータの集合的な知恵を活用することを目的としている。
既存の作業は、主にFLプロセスに参加する顧客に対してパーソナライズを提供しており、欠席または新しく現れた新しいクライアントを包含することが困難である。
本稿では,このような障害に対処する新しいPFLフレームワークであるFedBasisを提案する。
fedbasisは、いくつかの共有可能な‘basis’モデルのセットを学習し、線形に組み合わせてクライアント向けにパーソナライズされたモデルを形成することができる。
具体的には、新しいクライアントの場合、モデルではなく、小さな組み合わせ係数だけを学ぶ必要があります。
この概念により、推定コストを増加させることなく、他の競合pflベースライン、特に低データレジームと比較して、feedbasisはパラメータ効率が高く、ロバストで正確である。
また、その適用性を示すために、画像分類のためのより実用的なPFLテストベッドを提示し、画像とラベル空間の両方においてクライアント間で大きなデータ不一致と、より忠実なトレーニングとテストの分割を特徴とする。 Personalized federated learning (PFL) aims to harness the collective wisdom of clients' data to build customized models tailored to individual clients' data distributions. Existing works offer personalization primarily to clients who participate in the FL process, making it hard to encompass new clients who were absent or newly show up. In this paper, we propose FedBasis, a novel PFL framework to tackle such a deficiency. FedBasis learns a set of few, shareable ``basis'' models, which can be linearly combined to form personalized models for clients. Specifically for a new client, only a small set of combination coefficients, not the models, needs to be learned. This notion makes FedBasis more parameter-efficient, robust, and accurate compared to other competitive PFL baselines, especially in the low data regime, without increasing the inference cost. To demonstrate its applicability, we also present a more practical PFL testbed for image classification, featuring larger data discrepancies across clients in both the image and label spaces as well as more faithful training and test splits. | 翻訳日:2023-04-18 16:50:19 公開日:2023-04-16 |
# 視覚言語モデルにおける思考プロンプトチューニングの連鎖 Chain of Thought Prompt Tuning in Vision Language Models ( http://arxiv.org/abs/2304.07919v1 ) ライセンス: Link先を確認 | Jiaxin Ge, Hongyin Luo, Siyuan Qian, Yulu Gan, Jie Fu, Shanghang Zhan | (参考訳) 言語-画像事前学習は、自然言語のプロンプトを視覚モデルに促すことで、ゼロショットおよび数ショットダウンストリームタスクに対して有望な結果を示した。
しかし、最近の研究では、例えば不慣れな領域からの画像を処理する際に、人間が複雑なタスク設定で行う固有の段階から段階までの認知的推論プロセスを無視し、チューニングに1つのプロンプトしか使用していない。
Chain of Thoughtは人間の推論プロセスに対するシンプルで効果的な近似であり、自然言語処理(NLP)タスクに有用であることが証明されている。
この認知的直観に基づいて、効果的な推論を行うことは視覚的タスクにおいて重要な問題であり、思考の連鎖がこの問題の解決策になり得ると考えている。
本稿では,視覚言語モデリングのための思考プロンプトチューニングの新たな連鎖を提案する。
大規模な実験により,画像分類タスクの一般化,単一データセット以上の転送性の向上,ドメイン一般化性能の向上,画像テキスト検索や視覚的質問応答の高速化など,推論能力の向上が期待できる。
私たちは視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。
私たちはコードを公開します Language-Image Pre-training has demonstrated promising results on zero-shot and few-shot downstream tasks by prompting visual models with natural language prompts. However, most recent studies only use a single prompt for tuning, neglecting the inherent step-to-step cognitive reasoning process that humans conduct in complex task settings, for example, when processing images from unfamiliar domains. Chain of Thought is a simple and effective approximation to human reasoning process and has been proven useful for natural language processing (NLP) tasks. Based on this cognitive intuition, we believe that conducting effective reasoning is also an important problem in visual tasks, and a chain of thought could be a solution to this problem. In this work, we propose a novel chain of thought prompt tuning for vision-language modeling. Extensive experiments show that our method not only generalizes better in image classification tasks, has greater transferability beyond a single dataset, and has stronger domain generalization performance, but also performs much better in imagetext retrieval and visual question answering, which require more reasoning capabilities. We are the first to successfully adapt chain-of-thought prompting that combines visual and textual embeddings. We will release our codes | 翻訳日:2023-04-18 16:41:38 公開日:2023-04-16 |
# 潜在空間エネルギーモデルを用いた3d認識不連続画像表現のためのラピッドベース生成放射場 Likelihood-Based Generative Radiance Field with Latent Space Energy-Based Model for 3D-Aware Disentangled Image Representation ( http://arxiv.org/abs/2304.07918v1 ) ライセンス: Link先を確認 | Yaxuan Zhu, Jianwen Xie, Ping Li | (参考訳) 我々は,NeRF(Neural Radiance Fields)による3次元表現と,可変ボリュームレンダリングによる2次元画像処理を組み込んだ,可能性に基づくトップダウン3次元画像生成モデルNeRF-LEBMを提案する。
このモデルは、3Dオブジェクトから2Dイメージへのレンダリングプロセスとしてイメージを表現し、オブジェクトの特性を考慮に入れた潜伏変数に条件付けされ、伝達可能なエネルギーベースの事前モデルに従うと仮定される。
我々は、NeRF-LEBMをトレーニングするための2つの可能性に基づく学習フレームワークを提案する。
(i)マルコフ連鎖モンテカルロに基づく推定と最大確率推定
(ii)再パラメータ化トリックによる変分推論。
我々は、既知のカメラポーズと未知のカメラポーズの両方を用いてシナリオでモデルを研究する。
いくつかのベンチマークデータセットの実験では、NeRF-LEBMは2D画像から3Dオブジェクト構造を推測し、新しいビューとオブジェクトで2D画像を生成し、不完全な2D画像から学び、未知のカメラポーズで2D画像から学ぶことができる。 We propose the NeRF-LEBM, a likelihood-based top-down 3D-aware 2D image generative model that incorporates 3D representation via Neural Radiance Fields (NeRF) and 2D imaging process via differentiable volume rendering. The model represents an image as a rendering process from 3D object to 2D image and is conditioned on some latent variables that account for object characteristics and are assumed to follow informative trainable energy-based prior models. We propose two likelihood-based learning frameworks to train the NeRF-LEBM: (i) maximum likelihood estimation with Markov chain Monte Carlo-based inference and (ii) variational inference with the reparameterization trick. We study our models in the scenarios with both known and unknown camera poses. Experiments on several benchmark datasets demonstrate that the NeRF-LEBM can infer 3D object structures from 2D images, generate 2D images with novel views and objects, learn from incomplete 2D images, and learn from 2D images with known or unknown camera poses. | 翻訳日:2023-04-18 16:41:15 公開日:2023-04-16 |
# 虚時間進化のための非単体トロッター回路 Non-unitary Trotter circuits for imaginary time evolution ( http://arxiv.org/abs/2304.07917v1 ) ライセンス: Link先を確認 | Chiara Leadbeater, Nathan Fitzpatrick, David Mu\~noz Ramo and Alex J. W. Thom | (参考訳) トロッター分解型リアルタイム進化のための定評あるパウリガジェットプリミティブと同等の想像時間を提案する。
仮想時間発展(ite)は、古典的ハードウェア上のシステムの基底状態を得るために広く使われている。
量子ハードウェアの短期実装はヒューリスティックスに依存し、その精度を損なう。
その結果、よりネイティブな量子アルゴリズムの開発への関心が高まっている。
非単体ゲートを決定論的に実装することは不可能であるため、ITE演算子のブロック符号化をシミュレーションするユニタリ量子回路に依存する確率的想像時間進化(PITE)アルゴリズムの実装を利用する。
このスキームは、横イジングモデルとフェルミオンハバードモデルでテストされ、システムの基底状態に収束することが示されている。 We propose an imaginary time equivalent of the well-established Pauli gadget primitive for Trotter-decomposed real time evolution. Imaginary time evolution (ITE) is widely used for obtaining the ground state of a system on classical hardware. Near-term implementations on quantum hardware rely on heuristics, compromising their accuracy. As a result, there is a growing interest in the development of more natively quantum algorithms. Since it is not possible to implement a non-unitary gate deterministically, we resort to the implementation of probabilistic imaginary time evolution (PITE) algorithms, which rely on a unitary quantum circuit to simulate a block encoding of the ITE operator - that is, they rely on successful ancillary measurements to evolve the system non-unitarily. This scheme was tested on the transverse Ising model and the fermionic Hubbard model and is demonstrated to converge to the ground state of the system. | 翻訳日:2023-04-18 16:40:56 公開日:2023-04-16 |
# GaitRef:refined Sequential Skeletonsを用いた歩行認識 GaitRef: Gait Recognition with Refined Sequential Skeletons ( http://arxiv.org/abs/2304.07916v1 ) ライセンス: Link先を確認 | Haidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia | (参考訳) 歩行認識と呼ばれる歩行シーケンスで人間を識別することは、遠くから観察できるとともに、被験者の協力を必要としない、有用な生体情報理解タスクである。
人の歩行の順序を表すのに使われる2つの一般的な様相はシルエットと関節骨格である。
各フレーム内の歩行者の境界を記録するシルエットシーケンスは、その人物の持ち運び物や衣服の様々な外観に苦しむ可能性がある。
フレームワイドな関節検出はノイズが多く、シーケンシャルな検出と一致しないジッタを導入する。
本稿では,シルエットと骨格を組み合わせることで,歩行認識のためのフレームワイドジョイント予測を洗練する。
シルエットシーケンスからの 時間的情報とともに
精巧な骨格は余分なアノテーションを使わずに歩容認識性能を向上できることを示した。
我々は,CASIA-B,OUMVLP,Gait3D,GREWの4つの公開データセットを用いて手法を比較し,最先端の性能を示す。 Identifying humans with their walking sequences, known as gait recognition, is a useful biometric understanding task as it can be observed from a long distance and does not require cooperation from the subject. Two common modalities used for representing the walking sequence of a person are silhouettes and joint skeletons. Silhouette sequences, which record the boundary of the walking person in each frame, may suffer from the variant appearances from carried-on objects and clothes of the person. Framewise joint detections are noisy and introduce some jitters that are not consistent with sequential detections. In this paper, we combine the silhouettes and skeletons and refine the framewise joint predictions for gait recognition. With temporal information from the silhouette sequences. We show that the refined skeletons can improve gait recognition performance without extra annotations. We compare our methods on four public datasets, CASIA-B, OUMVLP, Gait3D and GREW, and show state-of-the-art performance. | 翻訳日:2023-04-18 16:40:39 公開日:2023-04-16 |