このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240324となっている論文です。

PDF登録状況(公開日: 20240324)

TitleAuthorsAbstract論文公表日・翻訳日
# 病理基礎モデルの大規模研修に向けて

Towards Large-Scale Training of Pathology Foundation Models ( http://arxiv.org/abs/2404.15217v1 )

ライセンス: Link先を確認
kaiko. ai, Nanne Aben, Edwin D. de Jong, Ioannis Gatopoulos, Nicolas Känzig, Mikhail Karasikov, Axel Lagré, Roman Moser, Joost van Doorn, Fei Tang, (参考訳) 近年の深層学習法の発展、特に近代的な自己教師付き学習アルゴリズムの発展により、医療画像の基礎モデル(FM)構築への関心と努力が高まっている。 本研究では,大規模な病理画像データのためのスケーラブルなトレーニングパイプラインと,さまざまなハイパーパラメータ選択とFM構築のためのトレーニング手法の包括的解析について述べる。 我々は、オープンアクセスのTCGA全スライドイメージに基づいてトレーニングされたFM(https://github.com/kaiko-ai/towards_large_pathology_fms)の最初のバッチを公開し、公開する。 実験により, 乳がんの亜型化から大腸癌の核分節化まで, パッチレベル下流の様々な課題において, 最先端の性能に達することが確認された。 最後に、フィールドで使用される評価手法を統一し、異なるFMの将来の比較を簡素化するために、様々な下流タスクにおけるFMの一貫性のある評価を目的としたオープンソースフレームワーク(https://github.com/kaiko-ai/eva)を提案する。

Driven by the recent advances in deep learning methods and, in particular, by the development of modern self-supervised learning algorithms, increased interest and efforts have been devoted to build foundation models (FMs) for medical images. In this work, we present our scalable training pipeline for large pathology imaging data, and a comprehensive analysis of various hyperparameter choices and training techniques for building pathology FMs. We release and make publicly available the first batch of our pathology FMs (https://github.com/kaiko-ai/towards_large_pathology_fms) trained on open-access TCGA whole slide images, a commonly used collection of pathology images. The experimental evaluation shows that our models reach state-of-the-art performance on various patch-level downstream tasks, ranging from breast cancer subtyping to colorectal nuclear segmentation. Finally, to unify the evaluation approaches used in the field and to simplify future comparisons of different FMs, we present an open-source framework (https://github.com/kaiko-ai/eva) designed for the consistent evaluation of pathology FMs across various downstream tasks.
翻訳日:2024-04-28 11:06:36 公開日:2024-03-24
# ニューロソフィックな集合とマッピングのためのPythonフレームワーク

A Python Framework for Neutrosophic Sets and Mappings ( http://arxiv.org/abs/2404.05735v1 )

ライセンス: Link先を確認
Giorgio Nordo, Saeid Jafari, Arif Mehmood, Bhimraj Basumatary, (参考訳) 本稿では,Pythonで開発されたオープンソースフレームワークについて,様々なタイプの宇宙上のニュートロゾフィック集合の記号表現と,それらの間のマッピングの両方を,シンプルかつ直感的に操作するように設計された3つのクラスからなる。 このフレームワークによって提供される能力は、Saama et al 、Saranya et al 、El-Ghareeb、Topal et al 、Sleem などのニュートロソフィックな集合を操作するためのソフトウェアソリューションを提供する以前の試みを拡張し、一般化する。 コードが詳細に説明され、多くの例やユースケースも提供されている。

In this paper we present an open source framework developed in Python and consisting of three distinct classes designed to manipulate in a simple and intuitive way both symbolic representations of neutrosophic sets over universes of various types as well as mappings between them. The capabilities offered by this framework extend and generalize previous attempts to provide software solutions to the manipulation of neutrosophic sets such as those proposed by Salama et al., Saranya et al., El-Ghareeb, Topal et al. and Sleem. The code is described in detail and many examples and use cases are also provided.
翻訳日:2024-04-21 20:14:16 公開日:2024-03-24
# 変圧器を用いた自動評価・オフトピック検出のためのジョイントモデリング

Transformer-based Joint Modelling for Automatic Essay Scoring and Off-Topic Detection ( http://arxiv.org/abs/2404.08655v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Yash Vadi, Kuldeep Yadav, (参考訳) AES(Automated Essay Scoring)システムは、グレーティングシステムにおいて費用対効果と時間対効果のオプションを構成するため、市場で広く普及している。 しかしながら、多くの研究は、AES系が非関連応答に下位グレードを割り当てることに失敗したことを証明している。 そこで, 自動エッセイ評価における話題外応答の検出は, 候補者が与えられた課題に無関係なテキスト応答を書ける実践的タスクにおいて重要である。 本稿では,エッセイを共同で採点し,非教師なしエッセイを検出する技術を提案する。 提案するAutomated Open Essay Scoring (AOES)モデルでは,トランスフォーマモデル上に付加可能な新しいトピック正規化モジュール(TRM)を用いて,ハイブリッド損失関数を用いてトレーニングを行う。 トレーニング後、AOESモデルは、オフトピーエッセイ検出のためのマハラノビス距離スコアを計算するためにさらに使用される。 提案手法は,2つのエッセイ・スコリング・データセットのベースラインおよび従来手法よりも,オフトピー検出やオントピースコアにおいて優れていた。 また, 異なる対向戦略に対する実験結果から, 提案手法が人体レベルの摂動を検知する上で頑健であることを示す。

Automated Essay Scoring (AES) systems are widely popular in the market as they constitute a cost-effective and time-effective option for grading systems. Nevertheless, many studies have demonstrated that the AES system fails to assign lower grades to irrelevant responses. Thus, detecting the off-topic response in automated essay scoring is crucial in practical tasks where candidates write unrelated text responses to the given task in the question. In this paper, we are proposing an unsupervised technique that jointly scores essays and detects off-topic essays. The proposed Automated Open Essay Scoring (AOES) model uses a novel topic regularization module (TRM), which can be attached on top of a transformer model, and is trained using a proposed hybrid loss function. After training, the AOES model is further used to calculate the Mahalanobis distance score for off-topic essay detection. Our proposed method outperforms the baseline we created and earlier conventional methods on two essay-scoring datasets in off-topic detection as well as on-topic scoring. Experimental evaluation results on different adversarial strategies also show how the suggested method is robust for detecting possible human-level perturbations.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-24
# ANNとLSTMの組み合わせモデルによるフィッシングサイトの検出

Phishing Website Detection Using a Combined Model of ANN and LSTM ( http://arxiv.org/abs/2404.10780v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Hina jabbar, (参考訳) このデジタル時代、私たちの生活はインターネットと世界の技術に依存しています。 テクノロジーとコミュニケーションのプラットフォームを幅広く利用することで、私たちの生活はより良く、より簡単になります。 しかし一方では、セキュリティ上の問題や残酷な活動も行っており、フィッシングはこうした残酷な活動の1つだ。 コンピュータ利用者や企業の個人情報を盗むことを目的としたサイバー犯罪の一種で、元のウェブサイトのコピーである偽ウェブサイトを運営している。 攻撃者は、コンピュータのユーザに対する詐欺行為のために、アカウントID、パスワード、ユーザー名などの個人情報を使用した。 この問題を解決するために研究者たちは、機械学習とディープラーニングのアプローチに焦点を当てた。 本研究では、機械学習とディープラーニングモデルを用いて、セカンダリデータセット上の偽のWebページを識別する。

In this digital era, our lives highly depend on the internet and worldwide technology. Wide usage of technology and platforms of communication makes our lives better and easier. But on the other side it carries out some security issues and cruel activities, phishing is one activity of these cruel activities. It is a type of cybercrime, which has the purpose of stealing the personal information of the computer user, and enterprises, which carry out fake websites that are the copy of the original websites. The attackers used personal information like account IDs, passwords, and usernames for the purpose of some fraudulent activities against the user of the computer. To overcome this problem researchers focused on the machine learning and deep learning approaches. In our study, we are going to use machine learning and deep learning models to identify the fake web pages on the secondary dataset.
翻訳日:2024-04-21 19:45:03 公開日:2024-03-24
# 教師付きキーフレーズ抽出とランク付けのための効率的なドメイン非依存的アプローチ

An efficient domain-independent approach for supervised keyphrase extraction and ranking ( http://arxiv.org/abs/2404.07954v1 )

ライセンス: Link先を確認
Sriraghavendra Ramaswamy, (参考訳) 単一文書からキーフレーズを自動抽出するための教師付き学習手法を提案する。 提案手法は,候補句の統計的・位置的特徴を簡易に計算し,外部知識ベースや事前学習された言語モデルや単語埋め込みに依存しない。 提案ソリューションのランキングコンポーネントは,比較的軽量なアンサンブルモデルである。 ベンチマークデータセットの評価から,本手法は,ディープラーニングに基づく教師なしモデルを含む,最先端のベースラインモデルよりも大幅に精度が向上し,教師付きディープラーニングベースモデルと競合することを示す。 私たちのソリューションの教師なしの性質にもかかわらず、"黄金"キーワードのコーパスや外部知識コーパスに依存しないという事実は、我々のソリューションが教師なしソリューションの利点をある程度備えていることを意味する。

We present a supervised learning approach for automatic extraction of keyphrases from single documents. Our solution uses simple to compute statistical and positional features of candidate phrases and does not rely on any external knowledge base or on pre-trained language models or word embeddings. The ranking component of our proposed solution is a fairly lightweight ensemble model. Evaluation on benchmark datasets shows that our approach achieves significantly higher accuracy than several state-of-the-art baseline models, including all deep learning-based unsupervised models compared with, and is competitive with some supervised deep learning-based models too. Despite the supervised nature of our solution, the fact that does not rely on any corpus of "golden" keywords or any external knowledge corpus means that our solution bears the advantages of unsupervised solutions to a fair extent.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-24
# 機械学習によるコミュニティリスクとレジリエンスのポストアセスメント

Machine Learning-based Approach for Ex-post Assessment of Community Risk and Resilience Based on Coupled Human-infrastructure Systems Performance ( http://arxiv.org/abs/2404.07966v1 )

ライセンス: Link先を確認
Xiangpeng Li, Ali Mostafavi, (参考訳) 地域社会のリスクとレジリエンスの事前評価のためのデータ駆動分析の文献には、特に人・インフラシステムの性能に関する特徴を用いて制限がある。 このギャップに対処するために、我々は、コミュニティリスクとレジリエンスのポストアセスメントのための機械学習ベースの手法を作成し、人間-インフラシステムのパフォーマンスに関する特徴に基づいて、それらの相互作用について検討した。 テキサス州ハリス郡の2017年ハリケーン・ハーベイの状況において, 住民保護行動, インフラ・建築性能, 回復機能に関連する特徴群を用いて, 地域社会のリスクとレジリエンス性能について検討した。 これらの特徴は,K平均クラスタリング法を用いて,国勢調査ブロック群を4つの異なるクラスタに分類し,特徴分析に基づいて,これらのクラスタをラベル付け,4つのリスク耐性アーチタイプに指定した。 最後に、異なるクラスタと異なる所得集団の空間的領域におけるリスク・レジリエンス状態の相違について分析した。 これらの結果から, 人-インフラ系の複合性能と相互作用によって形成される空間領域のリスク・レジリエンス状態が明らかとなった。 結果は、高リスク領域における高いレジリエンスに寄与する特徴についても知らせる。 例えば, 高リスク地域では, 避難率は高いレジリエンスに寄与し, 低リスク地域では, 高いレジリエンスに寄与した。

There is a limitation in the literature of data-driven analyses for the ex-post evaluation of community risk and resilience, particularly using features related to the performance of coupled human-infrastructure systems. To address this gap, in this study we created a machine learning-based method for the ex-post assessment of community risk and resilience and their interplay based on features related to the coupled human-infrastructure systems performance. Utilizing feature groups related to population protective actions, infrastructure/building performance features, and recovery features, we examined the risk and resilience performance of communities in the context of the 2017 Hurricane Harvey in Harris County, Texas. These features related to the coupled human-infrastructure systems performance were processed using the K-means clustering method to classify census block groups into four distinct clusters then, based on feature analysis, these clusters were labeled and designated into four quadrants of risk-resilience archetypes. Finally, we analyzed the disparities in risk-resilience status of spatial areas across different clusters as well as different income groups. The findings unveil the risk-resilience status of spatial areas shaped by their coupled human-infrastructure systems performance and their interactions. The results also inform about features that contribute to high resilience in high-risk areas. For example, the results indicate that in high-risk areas, evacuation rates contributed to a greater resilience, while in low-risk areas, preparedness contributed to greater resilience.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-24
# MicroHD: TinyMLシステムのための超次元計算アルゴリズムの精度駆動最適化

MicroHD: An Accuracy-Driven Optimization of Hyperdimensional Computing Algorithms for TinyML systems ( http://arxiv.org/abs/2404.00039v1 )

ライセンス: Link先を確認
Flavio Ponzina, Tajana Rosing, (参考訳) 超次元コンピューティング(HDC)は、軽量コンピューティングとメモリ要件のおかげで、TinyMLアプリケーションを効果的にターゲットできる有望なAIアプローチとして浮上している。 HDCの以前の研究は、超次元空間の標準10k次元をはるかに低い値に制限することは可能であり、HDCのリソース要求をさらに減らすことを示した。 同様に、他の研究では、バイナリ値を生成したハイパーベクターの要素として使用することができ、ある程度の精度劣化のコストで大きな効率向上をもたらすことが示されている。 しかし、現在の最適化の試みは同時にHDCハイパーパラメータを最適化せず、精度の劣化を直接制御せず、その結果、いくつかのアプリケーションに許容できない出力特性を提供するサブ最適化HDCモデルが提供される。 本研究では,HDCハイパーパラメータを反復的に調整し,ユーザ定義の精度レベルを確保しつつ,メモリとコンピューティングの要求を低減した,新しい精度駆動型HDC最適化手法であるMicroHDを提案する。 提案手法は、異なる符号化関数を用いてHDC実装に適用でき、より大きなHDCワークロードに対して優れたスケーラビリティを示し、1%未満の精度劣化に対するベースライン実装と比較して最大200倍の圧縮と効率向上を実現する。

Hyperdimensional computing (HDC) is emerging as a promising AI approach that can effectively target TinyML applications thanks to its lightweight computing and memory requirements. Previous works on HDC showed that limiting the standard 10k dimensions of the hyperdimensional space to much lower values is possible, reducing even more HDC resource requirements. Similarly, other studies demonstrated that binary values can be used as elements of the generated hypervectors, leading to significant efficiency gains at the cost of some degree of accuracy degradation. Nevertheless, current optimization attempts do not concurrently co-optimize HDC hyper-parameters, and accuracy degradation is not directly controlled, resulting in sub-optimal HDC models providing several applications with unacceptable output qualities. In this work, we propose MicroHD, a novel accuracy-driven HDC optimization approach that iteratively tunes HDC hyper-parameters, reducing memory and computing requirements while ensuring user-defined accuracy levels. The proposed method can be applied to HDC implementations using different encoding functions, demonstrates good scalability for larger HDC workloads, and achieves compression and efficiency gains up to 200x when compared to baseline implementations for accuracy degradations lower than 1%.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-24
# 制約による確率的最適化:非漸近的インスタンス依存分析

Stochastic Optimization with Constraints: A Non-asymptotic Instance-Dependent Analysis ( http://arxiv.org/abs/2404.00042v1 )

ライセンス: Link先を確認
Koulik Khamaru, (参考訳) 凸制約下での確率的凸最適化の問題を考察する。 本稿では, 自然分散低減近位勾配(VRPG)アルゴリズムの挙動を解析する。 我々の主な成果は、VRPGアルゴリズムの漸近的でない保証である。 minimax最悪のケースが保証されているのとは対照的に、私たちの結果は本質的にインスタンスに依存します。 これは、我々の保証が損失関数の複雑さ、雑音の可変性、制約集合の幾何学を捉えることを意味する。 VRPGアルゴリズムの漸近的でない性能は、与えられた問題の解と与えられた問題の小さな摂動の解の間のスケールされた距離($\sqrt{N}$でスケール)によって支配されることを示す。 局所ミニマックスローバウンドと摂動問題への解とのよく確立された接続を利用し、$N \rightarrow \infty$として、VRPGアルゴリズムは、H\`{a}jek と Le Cam による有名な局所ミニマックスローバウンドを、標本サイズの普遍定数と対数係数まで達成することを示した。

We consider the problem of stochastic convex optimization under convex constraints. We analyze the behavior of a natural variance reduced proximal gradient (VRPG) algorithm for this problem. Our main result is a non-asymptotic guarantee for VRPG algorithm. Contrary to minimax worst case guarantees, our result is instance-dependent in nature. This means that our guarantee captures the complexity of the loss function, the variability of the noise, and the geometry of the constraint set. We show that the non-asymptotic performance of the VRPG algorithm is governed by the scaled distance (scaled by $\sqrt{N}$) between the solutions of the given problem and that of a certain small perturbation of the given problem -- both solved under the given convex constraints; here, $N$ denotes the number of samples. Leveraging a well-established connection between local minimax lower bounds and solutions to perturbed problems, we show that as $N \rightarrow \infty$, the VRPG algorithm achieves the renowned local minimax lower bound by H\`{a}jek and Le Cam up to universal constants and a logarithmic factor of the sample size.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-24
# 機械学習とコンピュータビジョンによる低ビジョンと盲目の人々のアクセシビリティ向上

Improve accessibility for Low Vision and Blind people using Machine Learning and Computer Vision ( http://arxiv.org/abs/2404.00043v1 )

ライセンス: Link先を確認
Jasur Shukurov, (参考訳) 世界規模でモバイル技術が拡大するにつれ、障害者のための宿泊施設の必要性が高まっている。 このプロジェクトでは、視覚障害者のアクセシビリティ向上に機械学習とコンピュータビジョンを活用する方法について検討する。 視覚障害者の日々の生活において、アクセシビリティを向上させる様々なソフトウェアを開発する試みが数多く行われている。 しかし、市場でのアプリケーションは精度が低く、オーディオフィードバックのみを提供する。 このプロジェクトは、視覚障害者が音や触覚のフィードバック、例えば振動をリアルタイムで受け取り、宇宙空間での移動を支援するモバイルアプリケーションの構築に集中する。 モバイルアプリには3つの主要な機能がある。 最初の機能は、カメラからテキストをスキャンして、ユーザーに読むことだ。 この機能は、テキスト付き紙、環境、道路標識で使用することができる。 第2の機能は、ユーザの周りのオブジェクトを検出し、それらのオブジェクトに対するオーディオフィードバックを提供することだ。 また、オブジェクトとその位置の説明を提供し、ユーザがオブジェクトに近すぎる場合に触覚フィードバックを与える。 最後の機能は、カメラを介してユーザーに合計の通貨価値を提供する通貨検出である。

With the ever-growing expansion of mobile technology worldwide, there is an increasing need for accommodation for those who are disabled. This project explores how machine learning and computer vision could be utilized to improve accessibility for people with visual impairments. There have been many attempts to develop various software that would improve accessibility in the day-to-day lives of blind people. However, applications on the market have low accuracy and only provide audio feedback. This project will concentrate on building a mobile application that helps blind people to orient in space by receiving audio and haptic feedback, e.g. vibrations, about their surroundings in real-time. The mobile application will have 3 main features. The initial feature is scanning text from the camera and reading it to a user. This feature can be used on paper with text, in the environment, and on road signs. The second feature is detecting objects around the user, and providing audio feedback about those objects. It also includes providing the description of the objects and their location, and giving haptic feedback if the user is too close to an object. The last feature is currency detection which provides a total amount of currency value to the user via the camera.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-24
# 気象・気候予測のための解釈可能な機械学習:サーベイ

Interpretable Machine Learning for Weather and Climate Prediction: A Survey ( http://arxiv.org/abs/2403.18864v1 )

ライセンス: Link先を確認
Ruyi Yang, Jingyu Hu, Zihao Li, Jianli Mu, Tingzhao Yu, Jiangjiang Xia, Xuhong Li, Aritra Dasgupta, Haoyi Xiong, (参考訳) 先進的な機械学習モデルは、最近、天気予報と気候予報のために高い予測精度を達成した。 しかしながら、これらの複雑なモデルには固有の透明性と解釈可能性がなく、ユーザの信頼を阻害し、さらなるモデル改善を妨げる「ブラックボックス」として機能することが多い。 このように、解釈可能な機械学習技術は、気象モデルや気候モデリングの信頼性と有用性を高めるために欠かせないものとなっている。 本稿では,気象予測に適用された現在の解釈可能な機械学習手法について概説する。 我々はメソッドを2つの主要なパラダイムに分類する。 1)摂動に基づく,ゲーム理論に基づく,勾配に基づく帰属法など,事前学習されたモデルを説明するポストホック解釈可能性技術。 2)ツリーアンサンブルや説明可能なニューラルネットワークといったアーキテクチャを用いて,スクラッチから本質的に解釈可能なモデルを設計する。 それぞれの手法が予測に対する洞察を与え、機械学習が捉えた新しい気象関係を明らかにする方法について要約する。 最後に,物理原理に沿ったより深い機械的解釈の実現,標準化された評価ベンチマークの開発,反復的モデル開発ワークフローへの解釈可能性の統合,大規模基盤モデルへの説明可能性の提供に関する研究課題について論じる。

Advanced machine learning models have recently achieved high predictive accuracy for weather and climate prediction. However, these complex models often lack inherent transparency and interpretability, acting as "black boxes" that impede user trust and hinder further model improvements. As such, interpretable machine learning techniques have become crucial in enhancing the credibility and utility of weather and climate modeling. In this survey, we review current interpretable machine learning approaches applied to meteorological predictions. We categorize methods into two major paradigms: 1) Post-hoc interpretability techniques that explain pre-trained models, such as perturbation-based, game theory based, and gradient-based attribution methods. 2) Designing inherently interpretable models from scratch using architectures like tree ensembles and explainable neural networks. We summarize how each technique provides insights into the predictions, uncovering novel meteorological relationships captured by machine learning. Lastly, we discuss research challenges around achieving deeper mechanistic interpretations aligned with physical principles, developing standardized evaluation benchmarks, integrating interpretability into iterative model development workflows, and providing explainability for large foundation models.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-24
# 量子アニール(MAQ)の修正多重配列アライメントアルゴリズム

Modified Multiple Sequence Alignment Algorithm on Quantum Annealers (MAQ) ( http://arxiv.org/abs/2403.17979v1 )

ライセンス: Link先を確認
Melody Lee, (参考訳) 本稿では,生物情報学と遺伝的シークエンシングの分野に応用した量子アニールに対する改良型MSAアルゴリズムを提案する。 ヒトゲノムを理解するために、研究者はこれらの遺伝子配列(またはそのタンパク質)の広範なセットを比較してパターンを同定する。 この比較は、(多重)列の集合のアライメントから始まる。 しかし、このアライメント問題は非決定論的にポリノミカル時間完備であると考えられており、それゆえ、現在の古典的アルゴリズムは解を見つけるためにブルート力やヒューリスティックな方法に最も依存している。 量子アニーリングアルゴリズムは、量子力学的性質の使用により、この強いブルート力の必要性を回避できる。 しかし、これらのアルゴリズムの新規性のため、多くは初歩的で、ハードウェアの制約によって制限されている。 進行アライメント手法を用いてアニーリングアルゴリズムを改良し、より複雑なヒューリスティックスをアルゴリズムに導入しながら、スピン使用率を線形に削減する。 これにより、量子コンピューティングベースのバイオインフォマティクス(bioinformatics)のさらなる探索の扉が開かれ、病気の検出とモニタリングをより深く理解することが可能になる。

We propose a modified MSA algorithm on quantum annealers with applications in areas of bioinformatics and genetic sequencing. To understand the human genome, researchers compare extensive sets of these genetic sequences -- or their protein counterparts -- to identify patterns. This comparison begins with the alignment of the set of (multiple) sequences. However, this alignment problem is considered nondeterministically-polynomial time complete and, thus, current classical algorithms at best rely on brute force or heuristic methods to find solutions. Quantum annealing algorithms are able to bypass this need for sheer brute force due to their use of quantum mechanical properties. However, due to the novelty of these algorithms, many are rudimentary in nature and limited by hardware restrictions. We apply progressive alignment techniques to modify annealing algorithms, achieving a linear reduction in spin usage whilst introducing more complex heuristics to the algorithm. This opens the door for further exploration into quantum computing-based bioinformatics, potentially allowing for a deeper understanding of disease detection and monitoring.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-24
# EG-ConMix:グラフコントラスト学習に基づく侵入検出手法

EG-ConMix: An Intrusion Detection Method based on Graph Contrastive Learning ( http://arxiv.org/abs/2403.17980v1 )

ライセンス: Link先を確認
Lijin Wu, Shanshan Lei, Feilong Liao, Yuanjun Zheng, Yuxin Liu, Wentao Fu, Hao Song, Jiajun Zhou, (参考訳) IoTデバイスの数が増加するにつれて、セキュリティ上の懸念がより顕著になる。 ネットワークトラフィックを監視し、侵入を検出し、発見することで、ネットワーク侵入検知システム(NIDS)をデプロイし、セキュリティ警告を迅速に発行することで、脅威の影響を最小限に抑えることができる。 近年の侵入検知研究のほとんどは、相互関係を考慮せずにトラフィック自体に向けられているため、複雑なIoTネットワーク攻撃イベントの監視が制限されている。 さらに、実際のネットワークにおける異常なトラフィックはごくわずかであり、アルゴリズム学習と予測を極めて困難にするデータセットの深刻な不均衡問題を引き起こす。 本稿では,E-GraphSAGEに基づくEG-ConMix方式を提案する。 さらに,コントラスト学習を取り入れて,正常なトラフィックと悪意のあるトラフィックのサンプルの違いを識別し,重要な特徴の抽出を容易にする。 2つの公開データセットに対する大規模な実験は、最先端の手法と比較して、EG-ConMixの侵入検出性能が優れていることを示した。 注目すべきは、大規模グラフのトレーニング速度と精度において、大きな利点があるということだ。

As the number of IoT devices increases, security concerns become more prominent. The impact of threats can be minimized by deploying Network Intrusion Detection System (NIDS) by monitoring network traffic, detecting and discovering intrusions, and issuing security alerts promptly. Most intrusion detection research in recent years has been directed towards the pair of traffic itself without considering the interrelationships among them, thus limiting the monitoring of complex IoT network attack events. Besides, anomalous traffic in real networks accounts for only a small fraction, which leads to a severe imbalance problem in the dataset that makes algorithmic learning and prediction extremely difficult. In this paper, we propose an EG-ConMix method based on E-GraphSAGE, incorporating a data augmentation module to fix the problem of data imbalance. In addition, we incorporate contrastive learning to discern the difference between normal and malicious traffic samples, facilitating the extraction of key features. Extensive experiments on two publicly available datasets demonstrate the superior intrusion detection performance of EG-ConMix compared to state-of-the-art methods. Remarkably, it exhibits significant advantages in terms of training speed and accuracy for large-scale graphs.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-24
# 心理検査における反応ダイナミクス検査のためのマルコフ連鎖モデル

Markov chain models for inspecting response dynamics in psychological testing ( http://arxiv.org/abs/2403.17982v1 )

ライセンス: Link先を確認
Andrea Bosco, (参考訳) 方法論的文献において広く議論されている順序効果のユビキタスな性質にもかかわらず,心理学的テストにおける応答パターン形成における文脈的確率の考慮の重要性が強調されている。 本研究は, 経路依存性, 1次自己相関, 状態依存性, ヒステリシスといった概念から, これまでの回答が, テスト, サーベイ, アンケートにおけるその後の回答のアンカーとしてどのように機能するかを論じる試みである。 量子物理学から導かれる非可換可観測物質の概念を導入し、心理学的プロセスの特徴付けと測定器が参加者の反応に与える影響を強調した。 我々は,一階目のマルコフ連鎖モデルを用いて,調査およびテスト応答における逐次的依存関係を捕捉し,予測することを提唱する。 1階のマルコフ連鎖モデルの雇用は、個人が先行する反応に部分的に焦点をあてる傾向にあり、近年の項目はその後の反応選択に大きな影響を与える可能性が高い。 本研究は,心理学研究における逐次データに固有のダイナミクスの理解の促進に寄与し,テストおよびアンケートの応答パターンの経時的分析を行うための方法論的枠組みを提供する。

The importance of considering contextual probabilities in shaping response patterns within psychological testing is underscored, despite the ubiquitous nature of order effects discussed extensively in methodological literature. Drawing from concepts such as path-dependency, first-order autocorrelation, state-dependency, and hysteresis, the present study is an attempt to address how earlier responses serve as an anchor for subsequent answers in tests, surveys, and questionnaires. Introducing the notion of non-commuting observables derived from quantum physics, I highlight their role in characterizing psychological processes and the impact of measurement instruments on participants' responses. We advocate for the utilization of first-order Markov chain modeling to capture and forecast sequential dependencies in survey and test responses. The employment of the first-order Markov chain model lies in individuals' propensity to exhibit partial focus to preceding responses, with recent items most likely exerting a substantial influence on subsequent response selection. This study contributes to advancing our understanding of the dynamics inherent in sequential data within psychological research and provides a methodological framework for conducting longitudinal analyses of response patterns of test and questionnaire.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-24
# 透かし LLM 生成コードロバストか?

Is Watermarking LLM-Generated Code Robust? ( http://arxiv.org/abs/2403.17983v1 )

ライセンス: Link先を確認
Tarun Suresh, Shubham Ugare, Gagandeep Singh, Sasa Misailovic, (参考訳) 大規模言語モデルにより生成されたPythonコードに対する既存の透かし手法の堅牢性に関する最初の研究について述べる。 既存の研究は、透かしは自然言語に対して堅牢であることを示したが、意味保存変換によってこれらの透かしをコードから取り除くことは容易であることを示した。

We present the first study of the robustness of existing watermarking techniques on Python code generated by large language models. Although existing works showed that watermarking can be robust for natural language, we show that it is easy to remove these watermarks on code by semantic-preserving transformations.
翻訳日:2024-03-28 21:24:43 公開日:2024-03-24
# マルチビューディープサブスペースクラスタリングネットワーク

Multi-view Deep Subspace Clustering Networks ( http://arxiv.org/abs/1908.01978v2 )

ライセンス: Link先を確認
Pengfei Zhu, Xinjie Yao, Yu Wang, Binyuan Hui, Dawei Du, Qinghua Hu, (参考訳) マルチビューサブスペースクラスタリングは、相補的な情報の複数のビューを融合することによって、データ固有の構造を発見することを目的としている。 既存のほとんどの手法は、まず複数の手作りの特徴を抽出し、次にクラスタリングのための関節親和性行列を学習する。 このアプローチの欠点は2つの側面にある。 1)多視点関係は特徴学習に埋め込まれていない。 2) ディープラーニングのエンドツーエンド学習方式は,マルチビュークラスタリングには適していない。 深い機能が抽出されたとしても、異なるデータセットでクラスタリングする適切なバックボーンを選択するのは、簡単な問題ではありません。 これらの課題に対処するため,マルチビュー・ディープ・サブスペース・クラスタリング・ネットワーク(MvDSCN)を提案する。 MvDSCNは2つのサブネットワーク、Shaie、多様性ネットワーク(Dnet)、普遍ネットワーク(Unet)で構成されている。 潜伏空間は深部畳み込み自己エンコーダを用いて構築され、完全連結層を用いて潜伏空間で自己表現行列が学習される。 Dnetはビュー固有の自己表現行列を学習し、Unetはすべてのビューに対して共通の自己表現行列を学習する。 マルチビュー表現の相補性を活用するために、非線形で高次なビュー間関係をキャプチャする多様性正規化器として、ヒルベルト・シュミット独立基準(HSIC)を導入している。 異なるビューが同じラベル空間を共有するため、各ビューの自己表現行列は普遍性正規化によって共通のビューに整列する。 MvDSCNはまた、クラスタリング性能を向上させるために複数のバックボーンを統一し、モデル選択の必要を回避する。 実験は、MvDSCNの優位性を示す。

Multi-view subspace clustering aims to discover the inherent structure of data by fusing multiple views of complementary information. Most existing methods first extract multiple types of handcrafted features and then learn a joint affinity matrix for clustering. The disadvantage of this approach lies in two aspects: 1) multi-view relations are not embedded into feature learning, and 2) the end-to-end learning manner of deep learning is not suitable for multi-view clustering. Even when deep features have been extracted, it is a nontrivial problem to choose a proper backbone for clustering on different datasets. To address these issues, we propose the Multi-view Deep Subspace Clustering Networks (MvDSCN), which learns a multi-view self-representation matrix in an end-to-end manner. The MvDSCN consists of two sub-networks, \ie, a diversity network (Dnet) and a universality network (Unet). A latent space is built using deep convolutional autoencoders, and a self-representation matrix is learned in the latent space using a fully connected layer. Dnet learns view-specific self-representation matrices, whereas Unet learns a common self-representation matrix for all views. To exploit the complementarity of multi-view representations, the Hilbert--Schmidt independence criterion (HSIC) is introduced as a diversity regularizer that captures the nonlinear, high-order inter-view relations. Because different views share the same label space, the self-representation matrices of each view are aligned to the common one by universality regularization. The MvDSCN also unifies multiple backbones to boost clustering performance and avoid the need for model selection. Experiments demonstrate the superiority of the MvDSCN.
翻訳日:2024-03-28 02:25:02 公開日:2024-03-24
# 産業制御問題におけるオフラインモデルに基づく最適化のためのcGANアンサンブルに基づく不確実性対応サロゲートモデル

A cGAN Ensemble-based Uncertainty-aware Surrogate Model for Offline Model-based Optimization in Industrial Control Problems ( http://arxiv.org/abs/2205.07250v2 )

ライセンス: Link先を確認
Cheng Feng, (参考訳) 本研究では、実世界の産業制御問題に対するオフラインモデルに基づく最適化の適用に関する2つの重要な問題に焦点をあてる。 第一の問題は、ノイズの多い産業データに存在するダイナミクスを正確にキャプチャする信頼性の高い確率モデルを作成する方法である。 第2の問題は、産業システムからのフィードバックを積極的に収集することなく、制御パラメータを確実に最適化する方法である。 具体的には、産業制御問題における信頼性の高いオフラインモデルに基づく最適化のための、新しいcGANアンサンブルに基づく不確実性対応サロゲートモデルを提案する。 提案手法の有効性は, 離散制御ケースと連続制御ケースの2つの代表事例に対して行った広範囲な実験により実証された。 これらの実験結果から,本手法は産業制御のためのオフラインモデルベース最適化の分野で,いくつかの競争的ベースラインを上回っていることがわかった。

This study focuses on two important problems related to applying offline model-based optimization to real-world industrial control problems. The first problem is how to create a reliable probabilistic model that accurately captures the dynamics present in noisy industrial data. The second problem is how to reliably optimize control parameters without actively collecting feedback from industrial systems. Specifically, we introduce a novel cGAN ensemble-based uncertainty-aware surrogate model for reliable offline model-based optimization in industrial control problems. The effectiveness of the proposed method is demonstrated through extensive experiments conducted on two representative cases, namely a discrete control case and a continuous control case. The results of these experiments show that our method outperforms several competitive baselines in the field of offline model-based optimization for industrial control.
翻訳日:2024-03-28 02:09:26 公開日:2024-03-24
# CBSにおける重み付きコスト・ツー・ゴーと競合ヒューリスティックの有効統合

Effective Integration of Weighted Cost-to-go and Conflict Heuristic within Suboptimal CBS ( http://arxiv.org/abs/2205.11624v5 )

ライセンス: Link先を確認
Rishi Veerapaneni, Tushar Kusnur, Maxim Likhachev, (参考訳) Conflict-Based Search (CBS) は、低レベルのシングルエージェントプランナーと高レベルの制約ツリーを用いて競合を解決する、人気のあるマルチエージェントパス探索(MAPF)解決器である。 現代のMAPF解決者の大多数は、低レベルプランナーを変更する手法がほとんどない様々な戦略により、この木のサイズを減らし、CBSを改善することに重点を置いている。 既存のCBS方式の低レベルプランナーは、非重み付けのコスト・ツー・ゴー・ヒューリスティック(英語版)を用いており、CBS方式は競合ヒューリスティック(英語版)を用いてハイレベル検索を支援する。 本稿では,CBSの信条とは対照的に,重み付けされたコスト・ツー・ゴーヒューリスティックは,2つの可能な変種における競合ヒューリスティックと併用して効果的に利用できることを示す。 特に、これらの変種のうちの1つは、いくつかのシナリオと準最適CBS手法で、大きなスピードアップ、2-100xを得ることができる。 重要なのは、性能が重み付けされたコスト・ツー・ゴ・ゴ・ヒューリスティックではなく、低レベルの作業と高レベルの作業とを効果的にバランスさせる相対的な競合ヒューリスティック・ウェイト(英語版)の能力に関連していることである。 さらに,我々の知識を最大限に活用するために,優先計画と有界準最適CBSの理論的関係を初めて示し,本手法がそれらの自然な一般化であることを実証する。 アップデート2024年3月:コンフリクトヒューリスティックの計算方法によって、相対的なスピードアップが1.2-10倍程度に低下することを発見した(詳細は付録を参照)。

Conflict-Based Search (CBS) is a popular multi-agent path finding (MAPF) solver that employs a low-level single agent planner and a high-level constraint tree to resolve conflicts. The vast majority of modern MAPF solvers focus on improving CBS by reducing the size of this tree through various strategies with few methods modifying the low level planner. Typically low level planners in existing CBS methods use an unweighted cost-to-go heuristic, with suboptimal CBS methods also using a conflict heuristic to help the high level search. In this paper, we show that, contrary to prevailing CBS beliefs, a weighted cost-to-go heuristic can be used effectively alongside the conflict heuristic in two possible variants. In particular, one of these variants can obtain large speedups, 2-100x, across several scenarios and suboptimal CBS methods. Importantly, we discover that performance is related not to the weighted cost-to-go heuristic but rather to the relative conflict heuristic weight's ability to effectively balance low-level and high-level work. Additionally, to the best of our knowledge, we show the first theoretical relation of prioritized planning and bounded suboptimal CBS and demonstrate that our methods are their natural generalization. Update March 2024: We found that the relative speedup decreases to around 1.2-10x depending on how the conflict heuristic is computed (see appendix for more details).
翻訳日:2024-03-28 02:09:26 公開日:2024-03-24
# PPOを用いたRLHFのN+実装詳細:TL;DR要約を事例として

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization ( http://arxiv.org/abs/2403.17031v1 )

ライセンス: Link先を確認
Shengyi Huang, Michael Noukhovitch, Arian Hosseini, Kashif Rasul, Weixun Wang, Lewis Tunstall, (参考訳) この研究は、OpenAIのセミナルTL;DR要約作業で報告されたRLHF(Reinforcement Learning from Human Feedback)スケーリングの振る舞いをオープンに再現した最初のものである。 我々は、ゼロからRLHFパイプラインを作成し、20以上の重要な実装の詳細を列挙し、再現の間に重要な洞察を共有します。 RLHFでトレーニングされたPythiaモデルは、モデルサイズに合わせてスケールする応答品質が大幅に向上し、OpenAIがリリースした1.3Bチェックポイントを上回る2.8B、6.9Bモデルです。 トレーニング済みのモデルチェックポイントとコードを公開して、さらなる研究を促進し、フィールドの進捗を加速します(\url{https://github.com/vwxyzjn/summarize_from_feedback_details})。

This work is the first to openly reproduce the Reinforcement Learning from Human Feedback (RLHF) scaling behaviors reported in OpenAI's seminal TL;DR summarization work. We create an RLHF pipeline from scratch, enumerate over 20 key implementation details, and share key insights during the reproduction. Our RLHF-trained Pythia models demonstrate significant gains in response quality that scale with model size, with our 2.8B, 6.9B models outperforming OpenAI's released 1.3B checkpoint. We publicly release the trained model checkpoints and code to facilitate further research and accelerate progress in the field (\url{https://github.com/vwxyzjn/summarize_from_feedback_details}).
翻訳日:2024-03-27 20:05:20 公開日:2024-03-24
# ハイブリッド機械学習アプローチに基づく確率的パラメータ削減次数モデル

Stochastic parameter reduced-order model based on hybrid machine learning approaches ( http://arxiv.org/abs/2403.17032v1 )

ライセンス: Link先を確認
Cheng Fang, Jinqiao Duan, (参考訳) 自然現象における複雑なシステムに対する適切な数学的モデルを確立することは、自然の理解を深めるだけでなく、状態推定や予測にも利用できる。 しかし、自然現象の極端に複雑なため、フルオーダーモデル(FOM)を開発し、多くの関心事の研究に応用することは極めて困難である。 対照的に、高い計算効率と自然現象の重要な力学と統計特性を記述する能力により、適切なリダクションオーダーモデル(ROM)が好まれる。 本稿では, 粘性バーガース方程式を例として, Convolutional Autoencoder-Reservoir Computing-Normalizing Flowアルゴリズムフレームワークを構築し, そこではReservoir Computing-Normalizing Flowフレームワークを用いて潜在状態変数の進化を特徴づける。 このようにして、複雑なシステムとその動的挙動を記述するために、データ駆動確率的パラメータ削減次モデルを構築した。

Establishing appropriate mathematical models for complex systems in natural phenomena not only helps deepen our understanding of nature but can also be used for state estimation and prediction. However, the extreme complexity of natural phenomena makes it extremely challenging to develop full-order models (FOMs) and apply them to studying many quantities of interest. In contrast, appropriate reduced-order models (ROMs) are favored due to their high computational efficiency and ability to describe the key dynamics and statistical characteristics of natural phenomena. Taking the viscous Burgers equation as an example, this paper constructs a Convolutional Autoencoder-Reservoir Computing-Normalizing Flow algorithm framework, where the Convolutional Autoencoder is used to construct latent space representations, and the Reservoir Computing-Normalizing Flow framework is used to characterize the evolution of latent state variables. In this way, a data-driven stochastic parameter reduced-order model is constructed to describe the complex system and its dynamic behavior.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-24
# 操作脳の創発的特性としての数感覚

A Number Sense as an Emergent Property of the Manipulating Brain ( http://arxiv.org/abs/2012.04132v4 )

ライセンス: Link先を確認
Neehar Kondapaneni, Pietro Perona, (参考訳) 幼少期には数と量を理解して操作する能力が出現するが、人間の獲得と発達のメカニズムはいまだに理解されていない。 学習者が小さなオブジェクトを拾い上げ、選択した場所から配置し、自発的にそのような操作を行うことができると仮定して、モデルを通してこの疑問を探求する。 さらに、学習者の視覚システムは、シーン内の物体の配置の変化を監視し、モータシステムからの監視信号と認識を比較して、各動作の効果を予測することを想定する。 我々は,特徴抽出と分類,勾配降下学習のための標準深度ネットワークを用いた知覚をモデル化する。 我々の主な発見は、行動予測のタスクを学習し、予期せぬ画像表現が出現し、数と量の知覚と表現を先導する規則性を示すことである。 これらには、ゼロと最初の数個の自然数の異なるカテゴリ、数字の厳密な順序付け、数量と相関する1次元信号が含まれる。 その結果,本モデルでは,映像中の被写体数,すなわちシーン内の被写体数,サブティゼーション,すなわち小さなシーン内の被写体数を一目で認識する能力が得られた。 注目すべきは、部分化と数奇性の推定は、トレーニング中に使用される3つのオブジェクトをはるかに超えて、多くのオブジェクトを含むシーンに当てはまることだ。 我々は,簡単な事前学習作業から,数と量を持つ施設の重要側面を指導して学ぶことができると結論付けた。 我々の観察は、クロスモーダル学習が人工知能に活用される強力な学習メカニズムであることを示唆している。

The ability to understand and manipulate numbers and quantities emerges during childhood, but the mechanism through which humans acquire and develop this ability is still poorly understood. We explore this question through a model, assuming that the learner is able to pick up and place small objects from, and to, locations of its choosing, and will spontaneously engage in such undirected manipulation. We further assume that the learner's visual system will monitor the changing arrangements of objects in the scene and will learn to predict the effects of each action by comparing perception with a supervisory signal from the motor system. We model perception using standard deep networks for feature extraction and classification, and gradient descent learning. Our main finding is that, from learning the task of action prediction, an unexpected image representation emerges exhibiting regularities that foreshadow the perception and representation of numbers and quantity. These include distinct categories for zero and the first few natural numbers, a strict ordering of the numbers, and a one-dimensional signal that correlates with numerical quantity. As a result, our model acquires the ability to estimate numerosity, i.e. the number of objects in the scene, as well as subitization, i.e. the ability to recognize at a glance the exact number of objects in small scenes. Remarkably, subitization and numerosity estimation extrapolate to scenes containing many objects, far beyond the three objects used during training. We conclude that important aspects of a facility with numbers and quantities may be learned with supervision from a simple pre-training task. Our observations suggest that cross-modal learning is a powerful learning mechanism that may be harnessed in artificial intelligence.
翻訳日:2024-03-27 06:12:57 公開日:2024-03-24
# DGL-GAN:GAN圧縮のための差別化学習

DGL-GAN: Discriminator Guided Learning for GAN Compression ( http://arxiv.org/abs/2112.06502v2 )

ライセンス: Link先を確認
Yuesong Tian, Li Shen, Xiang Tian, Dacheng Tao, Zhifeng Li, Wei Liu, Yaowu Chen, (参考訳) 高計算コストのGAN(Generative Adversarial Networks)やBigGAN(BigGAN)、StyleGAN2(StyleGAN2)は、ランダムノイズから高分解能画像の合成において顕著な成果を上げている。 フォトリアリスティック画像の生成を継続しながらGANの計算コストを削減することは難しい分野である。 本研究では,バニラGANを圧縮する手法として,単純だが簡単な"bf D}iscriminator {\bf G}uided {\bf L}earning"を提案し,これを"bf DGL-GAN}"と呼ぶ。 教師識別器が実像と偽像の両方について有意義な情報を持っているという現象に触発され,教師識別器と学生生成器との対角的相互作用を通じて,教師識別器から知識を伝達するのみとなる。 DGL-GANを用いて2つの代表的な大規模バニラGAN(StyleGAN2とBigGAN)を圧縮する。 実験の結果、DGL-GANはStyleGAN2とBigGANの両方でSOTA(State-of-the-art)の結果が得られることが示された。 さらに、DGL-GANは、オリジナルの非圧縮GANの性能向上にも有効である。 DGL-GANで強化された元々の圧縮されていないStyleGAN2はFFHQでFID 2.65を達成する。 コードとモデルは \url{https://github.com/yuesongtian/DGL-GAN} で入手できる。

Generative Adversarial Networks (GANs) with high computation costs, e.g., BigGAN and StyleGAN2, have achieved remarkable results in synthesizing high-resolution images from random noise. Reducing the computation cost of GANs while keeping generating photo-realistic images is a challenging field. In this work, we propose a novel yet simple {\bf D}iscriminator {\bf G}uided {\bf L}earning approach for compressing vanilla {\bf GAN}, dubbed {\bf DGL-GAN}. Motivated by the phenomenon that the teacher discriminator may contain some meaningful information about both real images and fake images, we merely transfer the knowledge from the teacher discriminator via the adversarial interaction between the teacher discriminator and the student generator. We apply DGL-GAN to compress the two most representative large-scale vanilla GANs, i.e., StyleGAN2 and BigGAN. Experiments show that DGL-GAN achieves state-of-the-art (SOTA) results on both StyleGAN2 and BigGAN. Moreover, DGL-GAN is also effective in boosting the performance of original uncompressed GANs. Original uncompressed StyleGAN2 boosted with DGL-GAN achieves FID 2.65 on FFHQ, which achieves a new state-of-the-art performance. Code and models are available at \url{https://github.com/yuesongtian/DGL-GAN}
翻訳日:2024-03-27 06:12:57 公開日:2024-03-24
# なぜ干渉現象は量子論の本質を捉えないのか?

Comment on "Why interference phenomena do not capture the essence of quantum theory" ( http://arxiv.org/abs/2204.01768v3 )

ライセンス: Link先を確認
Jonte R. Hance, Sabine Hossenfelder, (参考訳) カタニらは最近、決定論的、局所的、古典的なモデル(量子7, 1119 (2023))による二重スリット実験により、量子干渉の現象論を古典的に再現することが可能であると論じている。 彼らの主張の目的は、ファインマン(彼の3冊目の『物理学の講義』において)が主張した量子干渉は「いかなる古典的な方法でも説明できない、絶対不可能」であり、量子力学の「唯一のミステリーを含む」ことである。 ここでは、彼らの議論にいくつかの問題を指摘したいと思います。

It was recently argued by Catani et al that it is possible to reproduce the phenomenology of quantum interference classically, by the double-slit experiment with a deterministic, local, and classical model (Quantum 7, 1119 (2023)). The stated aim of their argument is to falsify the claim made by Feynman (in his third book of Lectures on Physics) that quantum interference is ``impossible, absolutely impossible, to explain in any classical way'' and that it ``contains the only mystery'' of quantum mechanics. We here want to point out some problems with their argument.
翻訳日:2024-03-27 06:12:57 公開日:2024-03-24
# サンプリングによる条件付き非線形最適摂動(CNOP)の随伴自由解法

An adjoint-free algorithm for conditional nonlinear optimal perturbations (CNOPs) via sampling ( http://arxiv.org/abs/2208.00956v5 )

ライセンス: Link先を確認
Bin Shi, Guodong Sun, (参考訳) 本稿では,従来の(決定論的)最適化手法とは異なる条件付き非線形最適摂動(CNOP)を得るための,最先端統計機械学習技術に基づくサンプリングアルゴリズムを提案する。 具体的には、計算コストがかかるように勾配(一階情報)を数値計算する従来の手法は、数値モデルを実行するのに大量の時間を要するため、実際には利用できない。 しかし、サンプリング手法は目的関数値(ゼロ次情報)への勾配を直接低減し、多くの大気モデルや海洋モデルでは使用不可能で大量の貯蔵を必要とする随伴技術の使用を避ける。 さらに,サンプル平均が正確な勾配を確率的に近似する程度を厳密に特徴付けるために,Chernoff型濃度不等式を示す。 実験は、小さな粘度を持つバーガース方程式とロレンツ-96モデルの2つの数値モデルに対するCNOPを得るために実施された。 本研究では, 空間パターン, 目的値, 計算時間, 非線形誤差成長を用いて得られたCNOPを実証する。 CNOPを定量化するための文字は3つの手法と比較してほぼ一貫したものであり、サンプルが少ないサンプリング手法を用いる計算時間ははるかに短い。 言い換えれば、新しいサンプリングアルゴリズムは、ほとんど精度を失うことなく、計算時間を最小限に短縮する。

In this paper, we propose a sampling algorithm based on state-of-the-art statistical machine learning techniques to obtain conditional nonlinear optimal perturbations (CNOPs), which is different from traditional (deterministic) optimization methods.1 Specifically, the traditional approach is unavailable in practice, which requires numerically computing the gradient (first-order information) such that the computation cost is expensive, since it needs a large number of times to run numerical models. However, the sampling approach directly reduces the gradient to the objective function value (zeroth-order information), which also avoids using the adjoint technique that is unusable for many atmosphere and ocean models and requires large amounts of storage. We show an intuitive analysis for the sampling algorithm from the law of large numbers and further present a Chernoff-type concentration inequality to rigorously characterize the degree to which the sample average probabilistically approximates the exact gradient. The experiments are implemented to obtain the CNOPs for two numerical models, the Burgers equation with small viscosity and the Lorenz-96 model. We demonstrate the CNOPs obtained with their spatial patterns, objective values, computation times, and nonlinear error growth. Compared with the performance of the three approaches, all the characters for quantifying the CNOPs are nearly consistent, while the computation time using the sampling approach with fewer samples is much shorter. In other words, the new sampling algorithm shortens the computation time to the utmost at the cost of losing little accuracy.
翻訳日:2024-03-27 06:12:57 公開日:2024-03-24
# 確率近似における指数集中

Exponential Concentration in Stochastic Approximation ( http://arxiv.org/abs/2208.07243v4 )

ライセンス: Link先を確認
Kody Law, Neil Walton, Shangda Yang, (参考訳) 確率近似アルゴリズムの振る舞いを解析し、各ステップで目標に向かって反復的に進行する。 進行がアルゴリズムのステップサイズに比例すると指数集中境界が証明される。 これらのテールバウンドは漸近的正規性の結果と対比し、確率的近似とより頻繁に関連付けられる。 私たちが開発する手法は幾何学的エルゴディディティ証明に依存している。 これはHajek (1982) によるマルコフ連鎖上の結果を確率近似アルゴリズムの領域に拡張する。 本研究では,確率近似アルゴリズム,具体的には確率勾配Descent,Kiefer-Wolfowitz,Stochastic Frank-Wolfeアルゴリズムに適用する。 適用した場合, この結果はより高速な$O(1/t)$と, 非消滅勾配の射影確率勾配の線形収束率を示す。

We analyze the behavior of stochastic approximation algorithms where iterates, in expectation, progress towards an objective at each step. When progress is proportional to the step size of the algorithm, we prove exponential concentration bounds. These tail-bounds contrast asymptotic normality results, which are more frequently associated with stochastic approximation. The methods that we develop rely on a geometric ergodicity proof. This extends a result on Markov chains due to Hajek (1982) to the area of stochastic approximation algorithms. We apply our results to several different Stochastic Approximation algorithms, specifically Projected Stochastic Gradient Descent, Kiefer-Wolfowitz and Stochastic Frank-Wolfe algorithms. When applicable, our results prove faster $O(1/t)$ and linear convergence rates for Projected Stochastic Gradient Descent with a non-vanishing gradient.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-24
# グラフマッチングのための動的ソフトアサインと適応パラメータチューニング

Dynamical softassign and adaptive parameter tuning for graph matching ( http://arxiv.org/abs/2208.08233v3 )

ライセンス: Link先を確認
Binrui Shen, Qiang Niu, Shengxin Zhu, (参考訳) 本稿では,制約勾配法と呼ばれるグラフマッチング問題の統一的枠組みについて検討する。 このフレームワークの一般的なアルゴリズムには、卒業代入(GA)、整数射影固定点法(IPFP)、二重確率射影固定点法(DSPFP)がある。 これらのアルゴリズムは、ステップサイズパラメータと制約演算子とは異なる。 提案する適応的なステップサイズパラメータは,アルゴリズムの収束を保証し,その効率と精度を向上させる。 予備的な分析は、最適ステップサイズパラメータが完全連結グラフマッチングにおいて 1 になる確率が高いことを示唆している。 次に,制約演算子であるソフトアサインの動的戦略を提案し,ノードの濃度とオーバーフローのリスクに対する感度に対処する。 適応的なステップサイズパラメータと動的ソフトアサインを組み合わせることで,ソフトアサイン制約勾配法という新しいグラフマッチングアルゴリズムを提案する。 様々な実験により、精度が向上した制約勾配法に基づく他の最先端アルゴリズムよりもはるかに高速であることが示されている。

This paper studies a unified framework for graph matching problems called the constrained gradient method. Popular algorithms within this framework include graduated assignment (GA), integer projected fixed-point method (IPFP), and doubly stochastic projected fixed-point method (DSPFP). These algorithms differ from the step size parameter and constrained operator. Our contributed adaptive step size parameter can guarantee the underlying algorithms' convergence and enhance their efficiency and accuracy. A preliminary analysis suggests that the optimal step size parameter has a high probability of being 1 in fully connected graph matching. Secondly, we propose a dynamic strategy for softassign, a popular constrained operator, to address its sensitivity concerning nodes' cardinality and risk of overflow. Combining the adaptive step size parameter and the dynamical softassign, we propose a novel graph matching algorithm: the softassign constrained gradient method. Various experiments demonstrate that it is significantly faster than other state-of-the-art algorithms based on the constrained gradient method with improved accuracy.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-24
# 縦断的自己監督学習による糖尿病網膜症の検出

Detection of diabetic retinopathy using longitudinal self-supervised learning ( http://arxiv.org/abs/2209.00915v3 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Ramin Tadayoni, Pascal Massin, Béatrice Cochener, Gwenolé Quellec, Mathieu Lamard, (参考訳) 経時的イメージングは、静的解剖学的構造と疾患進行のダイナミックな変化の両方を、より早く、より優れた患者固有の病理管理へと捉えることができる。 しかし,従来の糖尿病網膜症(DR)検出手法では,経時的情報を利用してDR解析を改善することは稀である。 本研究は,DR診断の目的のために,縦長な性質で自己教師型学習を活用することのメリットについて検討する。 縦型網膜色素眼底写真(CFP)から病状進行をモデル化するための縦型自己教師学習法(LSSL)を比較し,2回の連続試験により早期のDR重症度変化を検出する。 実験は、長手DRスクリーニングデータセットを用いて、訓練されたエンコーダ(LSSL)が長手プレテキストタスクとして機能するか否かを判定した。 その結果、ベースライン(スクラッチから訓練されたモデル)に対して0.875のAUCとp値<2.2e-16でp値の0.96のAUC(95% CI: 0.9593-0.9655 DeLong test)を達成した。

Longitudinal imaging is able to capture both static anatomical structures and dynamic changes in disease progression towards earlier and better patient-specific pathology management. However, conventional approaches for detecting diabetic retinopathy (DR) rarely take advantage of longitudinal information to improve DR analysis. In this work, we investigate the benefit of exploiting self-supervised learning with a longitudinal nature for DR diagnosis purposes. We compare different longitudinal self-supervised learning (LSSL) methods to model the disease progression from longitudinal retinal color fundus photographs (CFP) to detect early DR severity changes using a pair of consecutive exams. The experiments were conducted on a longitudinal DR screening dataset with or without those trained encoders (LSSL) acting as a longitudinal pretext task. Results achieve an AUC of 0.875 for the baseline (model trained from scratch) and an AUC of 0.96 (95% CI: 0.9593-0.9655 DeLong test) with a p-value < 2.2e-16 on early fusion using a simple ResNet alike architecture with frozen LSSL weights, suggesting that the LSSL latent space enables to encode the dynamic of DR progression.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-24
# 非マルコフ確率性による高次符号化の過等性

Superiority in dense coding through non-Markovian stochasticity ( http://arxiv.org/abs/2211.13057v2 )

ライセンス: Link先を確認
Abhishek Muhuri, Rivu Gupta, Srijon Ghosh, Aditi Sen De, (参考訳) 我々は,マルチ送信機と1つまたは2つの受信機を非マルコフ雑音の影響下で有する分散密度符号化(DC)プロトコルについて検討し,送信機から受信機へ送信される符号化量子ビットに作用する。 我々は,非マルコビアン性がDCに与える影響を,デファス化チャネルと脱分極チャネルの両方で比較した。 減音チャネルの場合、ある種の状態に対して、高非マルコフ強度は、雑音を脱分極するために観測されないノイズチャネルの負の影響を根絶することができることを示す。 さらに, パウリ行列をランダムなユニタリに置き換えることにより, 雑音モデルにランダム性を組み込むことにより, 待ち行列の平均密度符号化能力に対する確率的雑音モデルの構成的影響を実証する。 興味深いことに、直流プロトコルにおける非マルコフ脱分極チャネルの有害な効果は、チャネルにランダム性を加えると排除できる。

We investigate the distributed dense coding (DC) protocol, involving multiple senders and a single or two receivers under the influence of non-Markovian noise, acting on the encoded qubits transmitted from senders to the receiver(s). We compare the effects of non-Markovianity on DC both for the dephasing and depolarising channels. In the case of dephasing channels, we illustrate that for some classes of states, high non-Markovian strength can eradicate the negative influence of noisy channels which is not observed for depolarizing noise. Furthermore, we incorporate randomness into the noise models by replacing the Pauli matrices with random unitaries and demonstrate the constructive impact of stochastic noise models on the quenched averaged dense coding capacity. Interestingly, we report that the detrimental effect of non-Markovian depolarising channels in the DC protocol can be eliminated when randomness is added to the channel.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-24
# 共変量を用いたエンティティランク付けにおけるMLEの不確かさの定量化

Uncertainty Quantification of MLE for Entity Ranking with Covariates ( http://arxiv.org/abs/2212.09961v2 )

ライセンス: Link先を確認
Jianqing Fan, Jikai Hou, Mengxin Yu, (参考訳) 本稿では, 比較項目の属性などの余分な共変量情報とのペア比較に基づいて, ランキング問題の統計的推定と推定を行う。 広範な研究にもかかわらず、共変量情報が存在するより現実的な状況下で、この問題を調査する以前の文献はほとんどない。 この問題に対処するために,共変量情報を統合することで,有名なBradley-Terry-Luce(BTL)モデルを拡張した新しいモデルCARE(Covariate-Assisted Ranking Estimation)モデルを提案する。 具体的には、各比較項目が固定潜在スコア$\{\theta_i^*\}_{i=1}^n$を仮定する代わりに、基本スコアが$\{\alpha_i^*+{x}_i^\top\beta^*\}_{i=1}^n$で与えられると仮定する。 自然な識別可能性条件を課し、新しい'leave-one-out'テクニック(Chen et al , 2019)を用いて、$\{\alpha_i^*\}_{i=1}^{n}$および$\beta^*$の最大極大推定器に対して$\ell_{\infty}$-および$\ell_2$-optimal rateを導出する。 統計的推論を行うために、より最小のサンプル複雑性を持つ$\{\alpha_i^*\}_{i=1}^n$および$\beta^*$のMLEに対する漸近分布を導出する。 これにより、ある共変量体が潜在スコアの説明力を持っているかどうかを問うことができ、いくつかのスパースパラメータをしきい値としてランク付け性能を改善することができる。 我々は,BLTモデルにおいて (Gao et al , 2021) で用いられる近似法を改善し, CAREモデルに一般化する。 さらに,大規模数値実験による理論結果の検証と相互資金保有データセットへの適用について検討した。

This paper concerns with statistical estimation and inference for the ranking problems based on pairwise comparisons with additional covariate information such as the attributes of the compared items. Despite extensive studies, few prior literatures investigate this problem under the more realistic setting where covariate information exists. To tackle this issue, we propose a novel model, Covariate-Assisted Ranking Estimation (CARE) model, that extends the well-known Bradley-Terry-Luce (BTL) model, by incorporating the covariate information. Specifically, instead of assuming every compared item has a fixed latent score $\{\theta_i^*\}_{i=1}^n$, we assume the underlying scores are given by $\{\alpha_i^*+{x}_i^\top\beta^*\}_{i=1}^n$, where $\alpha_i^*$ and ${x}_i^\top\beta^*$ represent latent baseline and covariate score of the $i$-th item, respectively. We impose natural identifiability conditions and derive the $\ell_{\infty}$- and $\ell_2$-optimal rates for the maximum likelihood estimator of $\{\alpha_i^*\}_{i=1}^{n}$ and $\beta^*$ under a sparse comparison graph, using a novel `leave-one-out' technique (Chen et al., 2019) . To conduct statistical inferences, we further derive asymptotic distributions for the MLE of $\{\alpha_i^*\}_{i=1}^n$ and $\beta^*$ with minimal sample complexity. This allows us to answer the question whether some covariates have any explanation power for latent scores and to threshold some sparse parameters to improve the ranking performance. We improve the approximation method used in (Gao et al., 2021) for the BLT model and generalize it to the CARE model. Moreover, we validate our theoretical results through large-scale numerical studies and an application to the mutual fund stock holding dataset.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-24
# リアルタイム触覚テクスチャレンダリングのための学習モデルの開発と評価

Development and Evaluation of a Learning-based Model for Real-time Haptic Texture Rendering ( http://arxiv.org/abs/2212.13332v3 )

ライセンス: Link先を確認
Negin Heravi, Heather Culbertson, Allison M. Okamura, Jeannette Bohg, (参考訳) 現在のバーチャルリアリティ(VR)環境は、表面上の横移動中のテクスチャの感覚など、人間が現実世界の相互作用で経験する豊かな触覚信号が欠如している。 VR環境に現実的な触覚テクスチャを追加するには、ユーザのインタラクションのバリエーションや、世界中のさまざまな既存のテクスチャに一般化するモデルが必要です。 触覚テクスチャレンダリングの現在の手法は存在するが、通常はテクスチャ毎に1つのモデルを開発するため、スケーラビリティは低い。 本研究では,触覚テクスチャレンダリングのための深層学習に基づく行動条件モデルを提案する。 このモデルは、すべての材料に統一され、視覚ベースの触覚センサ(GelSight)からのデータを用いて、ユーザの動作に適切な表面をリアルタイムでレンダリングする。 テクスチャのレンダリングには、3Dシステムズタッチデバイスに取り付けられた高帯域幅のビブロタクティルトランスデューサを使用します。 ユーザスタディの結果から,我々の学習に基づく手法は,テクスチャ毎に個別のモデルを学習することなく,最先端の手法と同等あるいは良質の高頻度テクスチャレンダリングを生成することがわかった。 さらに, この手法は, 表面のGelSight画像1枚を用いて, 未確認のテクスチャを描画できることを示す。

Current Virtual Reality (VR) environments lack the rich haptic signals that humans experience during real-life interactions, such as the sensation of texture during lateral movement on a surface. Adding realistic haptic textures to VR environments requires a model that generalizes to variations of a user's interaction and to the wide variety of existing textures in the world. Current methodologies for haptic texture rendering exist, but they usually develop one model per texture, resulting in low scalability. We present a deep learning-based action-conditional model for haptic texture rendering and evaluate its perceptual performance in rendering realistic texture vibrations through a multi part human user study. This model is unified over all materials and uses data from a vision-based tactile sensor (GelSight) to render the appropriate surface conditioned on the user's action in real time. For rendering texture, we use a high-bandwidth vibrotactile transducer attached to a 3D Systems Touch device. The result of our user study shows that our learning-based method creates high-frequency texture renderings with comparable or better quality than state-of-the-art methods without the need for learning a separate model per texture. Furthermore, we show that the method is capable of rendering previously unseen textures using a single GelSight image of their surface.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-24
# ビデオグラウンド用補助カプセルの爆発

Exploiting Auxiliary Caption for Video Grounding ( http://arxiv.org/abs/2301.05997v3 )

ライセンス: Link先を確認
Hongxiang Li, Meng Cao, Xuxin Cheng, Zhihong Zhu, Yaowei Li, Yuexian Zou, (参考訳) ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。 以前の作業ではビデオアノテーションのsparsity dilemmaを無視しており、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗している。 本稿では,一般的な動作,すなわち本論文で定義した補助的なキャプションを手軽に利用できるキャプションを活用すれば,性能が大幅に向上する,と論じる。 この目的のために,ビデオグラウンドのためのAuxiliary Caption Network (ACNet)を提案する。 具体的には,まず,高密度キャプションを生成して,非補助的キャプション抑制(NACS)によって補助的なキャプションを得る。 補助的キャプションにおける潜在的な情報をキャプチャするために,補助的なキャプションとクエリ文間の意味的関係を時間空間に投影し,それらを視覚表現に融合させるCGA(Caption Guided Attention)を提案する。 補助的な字幕と地上の真実のギャップを考慮し、より負のペアを構築し、相互情報を最大化するための非対称なクロスモーダルコントラスト学習(ACCL)を提案する。 3つの公開データセット(例えば、ActivityNet Captions、TACoS、ActivityNet-CG)に対する大規模な実験は、我々の手法が最先端の手法を大幅に上回っていることを示している。

Video grounding aims to locate a moment of interest matching the given query sentence from an untrimmed video. Previous works ignore the {sparsity dilemma} in video annotations, which fails to provide the context information between potential events and query sentences in the dataset. In this paper, we contend that exploiting easily available captions which describe general actions, i.e., auxiliary captions defined in our paper, will significantly boost the performance. To this end, we propose an Auxiliary Caption Network (ACNet) for video grounding. Specifically, we first introduce dense video captioning to generate dense captions and then obtain auxiliary captions by Non-Auxiliary Caption Suppression (NACS). To capture the potential information in auxiliary captions, we propose Caption Guided Attention (CGA) project the semantic relations between auxiliary captions and query sentences into temporal space and fuse them into visual representations. Considering the gap between auxiliary captions and ground truth, we propose Asymmetric Cross-modal Contrastive Learning (ACCL) for constructing more negative pairs to maximize cross-modal mutual information. Extensive experiments on three public datasets (i.e., ActivityNet Captions, TACoS and ActivityNet-CG) demonstrate that our method significantly outperforms state-of-the-art methods.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-24
# FreshGNN: グラフニューラルネットワークトレーニングのための安定した履歴埋め込みによるメモリアクセスの削減

FreshGNN: Reducing Memory Access via Stable Historical Embeddings for Graph Neural Network Training ( http://arxiv.org/abs/2301.07482v3 )

ライセンス: Link先を確認
Kezhao Huang, Haitian Jiang, Minjie Wang, Guangxuan Xiao, David Wipf, Xiang Song, Quan Gan, Zengfeng Huang, Jidong Zhai, Zheng Zhang, (参考訳) 大規模で現実的なグラフ上でグラフニューラルネットワーク(GNN)モデルをトレーニングする際の重要なパフォーマンスボトルネックは、ノード機能をGPUにロードすることだ。 GPUメモリが限られているため、アクセスが遅い代替デバイス(例えばCPUメモリ)でのこれらの機能のストレージを容易にするために、高価なデータムーブメントが必要である。 さらに、グラフ構造の不規則性は、その問題をさらに悪化させるデータ局所性に寄与する。 その結果、大規模なGNNモデルを効率的にトレーニングできる既存のフレームワークでは、現在利用可能なショートカットが関与しているため、大きな精度の低下が発生する。 これらの制限に対処するため,我々は,GNNノードの埋め込みを格納・再利用するための履歴キャッシュを活用する,汎用的なGNNミニバッチトレーニングフレームワークであるFreshGNNを提案する。 その成功のために、対応するキャッシュポリシーは、勾配ベースと安定度基準の組み合わせを使用して、比較的安定してキャッシュ可能な埋め込みを選択的にスクリーニングするように設計されている。 この選択された履歴キャッシュをサポートするための補完的なシステム拡張と組み合わせることで、FreshGNNはogbn-papers100MやMAG240Mといったグラフデータセットのトレーニング速度を3.4倍から20.5倍に高速化し、テスト精度に1%以下でメモリアクセスを59%削減できる。

A key performance bottleneck when training graph neural network (GNN) models on large, real-world graphs is loading node features onto a GPU. Due to limited GPU memory, expensive data movement is necessary to facilitate the storage of these features on alternative devices with slower access (e.g. CPU memory). Moreover, the irregularity of graph structures contributes to poor data locality which further exacerbates the problem. Consequently, existing frameworks capable of efficiently training large GNN models usually incur a significant accuracy degradation because of the currently-available shortcuts involved. To address these limitations, we instead propose FreshGNN, a general-purpose GNN mini-batch training framework that leverages a historical cache for storing and reusing GNN node embeddings instead of re-computing them through fetching raw features at every iteration. Critical to its success, the corresponding cache policy is designed, using a combination of gradient-based and staleness criteria, to selectively screen those embeddings which are relatively stable and can be cached, from those that need to be re-computed to reduce estimation errors and subsequent downstream accuracy loss. When paired with complementary system enhancements to support this selective historical cache, FreshGNN is able to accelerate the training speed on large graph datasets such as ogbn-papers100M and MAG240M by 3.4x up to 20.5x and reduce the memory access by 59%, with less than 1% influence on test accuracy.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-24
# 原則的フェデレーションドメイン適応 - 勾配投影と自動重み付け

Principled Federated Domain Adaptation: Gradient Projection and Auto-Weighting ( http://arxiv.org/abs/2302.05049v4 )

ライセンス: Link先を確認
Enyi Jiang, Yibo Jacky Zhang, Sanmi Koyejo, (参考訳) Federated Domain Adaptation (FDA)は、ソースクライアントとサーバが協調して動作するフェデレート・ラーニング(FL)設定について説明している。 ソースとターゲットドメイン間のドメインシフトとターゲットクライアントの限られたデータの組み合わせは、FDAを困難な問題にしている。 この問題を理論的に理解するために、FDAの設定を特徴付ける新しい指標と、サーバ集約ルールの性能を分析するための新しい定理を持つ理論的枠組みを導入する。 さらに、ドメインシフトとデータ不足による目標性能を大幅に向上させる、新しい軽量アグリゲーションルールであるFederated Gradient Projection(\texttt{FedGP}$)を提案する。 さらに、この理論はソースとターゲット勾配の最適組み合わせを求める$\textit{auto-weighting scheme}$を提案する。 このスキームは$\texttt{FedGP}$とより単純なヒューリスティックアグリゲーションルールの両方を改善している。 大規模な実験は理論的な洞察を検証し、提案手法の有効性を実証するものである。

Federated Domain Adaptation (FDA) describes the federated learning (FL) setting where source clients and a server work collaboratively to improve the performance of a target client where limited data is available. The domain shift between the source and target domains, coupled with limited data of the target client, makes FDA a challenging problem, e.g., common techniques such as federated averaging and fine-tuning fail due to domain shift and data scarcity. To theoretically understand the problem, we introduce new metrics that characterize the FDA setting and a theoretical framework with novel theorems for analyzing the performance of server aggregation rules. Further, we propose a novel lightweight aggregation rule, Federated Gradient Projection ($\texttt{FedGP}$), which significantly improves the target performance with domain shift and data scarcity. Moreover, our theory suggests an $\textit{auto-weighting scheme}$ that finds the optimal combinations of the source and target gradients. This scheme improves both $\texttt{FedGP}$ and a simpler heuristic aggregation rule. Extensive experiments verify the theoretical insights and illustrate the effectiveness of the proposed methods in practice.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-24
# Spacerini:PyseriniとHugging Faceを備えたプラグイン・アンド・プレイ検索エンジン

Spacerini: Plug-and-play Search Engines with Pyserini and Hugging Face ( http://arxiv.org/abs/2302.14534v2 )

ライセンス: Link先を確認
Christopher Akiki, Odunayo Ogundepo, Aleksandra Piktus, Xinyu Zhang, Akintunde Oladipo, Jimmy Lin, Martin Potthast, (参考訳) 本研究では、Hugging Faceと再現可能な情報検索研究のためのPyseriniツールキットを統合し、対話型検索エンジンのシームレスな構築と展開を可能にするツールであるSpaceriniを紹介する。 Spaceriniは、現在最先端のスパースと密集した検索モデルを、展開作業を最小化しながら、非IR実践者にとってよりアクセスしやすくする。 これは、トレーニングコーパスの質的な分析を行うことで研究をよりよく理解し、検証したいNLP研究者、成長するピセリニの生態系に統合された新しい検索モデルを実演したいIR研究者、そして他の研究者の作業を再現したい第三者にとって有用である。 Spaceriniはオープンソースで、ロード、前処理、インデックス作成、検索エンジンのローカルおよびリモート展開のためのユーティリティを含んでいる。 異なるユースケースのために、Spaceriniで作成された13の検索エンジンのポートフォリオをデモします。

We present Spacerini, a tool that integrates the Pyserini toolkit for reproducible information retrieval research with Hugging Face to enable the seamless construction and deployment of interactive search engines. Spacerini makes state-of-the-art sparse and dense retrieval models more accessible to non-IR practitioners while minimizing deployment effort. This is useful for NLP researchers who want to better understand and validate their research by performing qualitative analyses of training corpora, for IR researchers who want to demonstrate new retrieval models integrated into the growing Pyserini ecosystem, and for third parties reproducing the work of other researchers. Spacerini is open source and includes utilities for loading, preprocessing, indexing, and deploying search engines locally and remotely. We demonstrate a portfolio of 13 search engines created with Spacerini for different use cases.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-24
# EHRDiff:拡散モデルによるリアルなEHR合成の探索

EHRDiff: Exploring Realistic EHR Synthesis with Diffusion Models ( http://arxiv.org/abs/2303.05656v3 )

ライセンス: Link先を確認
Hongyi Yuan, Songchi Zhou, Sheng Yu, (参考訳) 電子健康記録(EHR)には、精密医療システムの開発のための貴重な資源として、豊富な生物医学情報が含まれている。 しかしながら、プライバシに関する懸念は、研究者のための高品質で大規模なEHRデータへのアクセスを制限し、方法論の発展を妨げている。 近年の研究では、生成的モデリング技術による現実的なEHRデータの合成が試みられ、提案手法の大半は、生成的敵対的ネットワーク(GAN)とそのEHR合成のバリエーションに依存している。 GANに基づく手法はEHRデータの生成における最先端性能を実現するが、これらの手法は訓練が困難であり、モード崩壊の傾向にある。 近年, 画像生成において拡散モデルにより最先端の性能が確立されているが, EHRデータ合成における有効性は未解明のままである。 本研究では, EHRデータ合成における拡散モデルの可能性について検討し, 新たな手法である EHRDiff を提案する。 広範な実験を通じて、EHRDiffは、合成されたEHRデータのための新しい最先端の品質を確立し、一方でプライベート情報を保護する。

Electronic health records (EHR) contain a wealth of biomedical information, serving as valuable resources for the development of precision medicine systems. However, privacy concerns have resulted in limited access to high-quality and large-scale EHR data for researchers, impeding progress in methodological development. Recent research has delved into synthesizing realistic EHR data through generative modeling techniques, where a majority of proposed methods relied on generative adversarial networks (GAN) and their variants for EHR synthesis. Despite GAN-based methods attaining state-of-the-art performance in generating EHR data, these approaches are difficult to train and prone to mode collapse. Recently introduced in generative modeling, diffusion models have established cutting-edge performance in image generation, but their efficacy in EHR data synthesis remains largely unexplored. In this study, we investigate the potential of diffusion models for EHR data synthesis and introduce a novel method, EHRDiff. Through extensive experiments, EHRDiff establishes new state-of-the-art quality for synthetic EHR data, protecting private information in the meanwhile.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# 金融リスク分析のための量子モンテカルロシミュレーション--エクイティ、レート、信用リスク要因のシナリオ生成

Quantum Monte Carlo simulations for financial risk analytics: scenario generation for equity, rate, and credit risk factors ( http://arxiv.org/abs/2303.09682v2 )

ライセンス: Link先を確認
Titos Matsakos, Stuart Nield, (参考訳) モンテカルロ(MC)シミュレーションは、バリュー・アット・リスク(VaR)の推定から、オーバー・ザ・カウンタデリバティブ(over-the-counter derivatives)の価格まで、金融リスク管理に広く利用されている。 しかし、収束に必要なシナリオの数のため、計算コストがかなり高い。 確率分布が利用可能であれば、量子振幅推定(QAE)アルゴリズムは、その特性を古典的特性と比較して2次的なスピードアップを提供することができる。 近年の研究では、入力量子状態と事前計算された確率分布を初期化することにより、共通リスク尺度の計算とQAEアルゴリズムの最適化が検討されている。 しかしそのような分布が閉形式で利用できない場合、数値的に生成する必要があるため、関連する計算コストは量子的優位性を制限する可能性がある。 本稿では,確率分布を生成するためのリスクファクタの時間的進化のシミュレーションを量子計算に組み込むことにより,この課題を回避し,量子MC(Quantum MC)シミュレーションと呼ぶ。 具体的には、エクイティ(幾何学的ブラウン運動)、利率(平均回帰モデル)、信用(構造、縮小形、レーティングマイグレーション信用モデル)の確率的モデルを実装する量子回路を組み立てる。 そして、これらのモデルをQAEと統合して、市場と信用リスクの両方のユースケースでエンドツーエンドの例を提供します。

Monte Carlo (MC) simulations are widely used in financial risk management, from estimating value-at-risk (VaR) to pricing over-the-counter derivatives. However, they come at a significant computational cost due to the number of scenarios required for convergence. If a probability distribution is available, Quantum Amplitude Estimation (QAE) algorithms can provide a quadratic speed-up in measuring its properties as compared to their classical counterparts. Recent studies have explored the calculation of common risk measures and the optimisation of QAE algorithms by initialising the input quantum states with pre-computed probability distributions. If such distributions are not available in closed form, however, they need to be generated numerically, and the associated computational cost may limit the quantum advantage. In this paper, we bypass this challenge by incorporating scenario generation -- i.e. simulation of the risk factor evolution over time to generate probability distributions -- into the quantum computation; we refer to this process as Quantum MC (QMC) simulations. Specifically, we assemble quantum circuits that implement stochastic models for equity (geometric Brownian motion), interest rate (mean-reversion models), and credit (structural, reduced-form, and rating migration credit models) risk factors. We then integrate these models with QAE to provide end-to-end examples for both market and credit risk use cases.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# セマンティックセグメンテーションに及ぼすインフルエンサーバックドアアタックの影響

Influencer Backdoor Attack on Semantic Segmentation ( http://arxiv.org/abs/2303.12054v3 )

ライセンス: Link先を確認
Haoheng Lan, Jindong Gu, Philip Torr, Hengshuang Zhao, (参考訳) 深層ニューラルネットワークのトレーニングデータセットに少量の有毒なサンプルが注入されると、ネットワークは推論中に悪意のある振る舞いを示すように誘導され、現実世界のアプリケーションに潜在的な脅威をもたらす。 分類学では主に研究されているが、セマンティックセグメンテーションに対するバックドア攻撃はほとんど見過ごされている。 分類とは異なり、セマンティックセグメンテーションは、与えられた画像内のすべてのピクセルを分類することを目的としている。 本研究では,インフルエンサー・バックドア・アタック (IBA) と呼ばれる推論中に,非ビビティ・ピクチャーに特定のトリガーを注入することにより,セグメンテーション・モデルに対するバックドア・アタックを調査し,被害者クラスのすべてのピクセルを誤分類する。 IBAは, 実世界のシーンに容易に適用可能な, 暗黙的でないピクセルの分類精度と, 全ての犠牲者画素の誤字分類の維持が期待されている。 セグメンテーションモデルのコンテキストアグリゲーション能力に基づき, 簡便かつ効果的にニアス・ニーバー・トリガー・インジェクション・ストラテジーを提案した。 また, 危険画素から離れた位置にトリガを配置しても, 最適な性能を維持する, 革新的なPixel Random Labeling戦略も導入する。 大規模な実験により,現在のセグメンテーションモデルがバックドアアタックに悩まされていることが判明し,実世界の適用性を示すとともに,提案手法が攻撃性能をさらに向上することを示す。

When a small number of poisoned samples are injected into the training dataset of a deep neural network, the network can be induced to exhibit malicious behavior during inferences, which poses potential threats to real-world applications. While they have been intensively studied in classification, backdoor attacks on semantic segmentation have been largely overlooked. Unlike classification, semantic segmentation aims to classify every pixel within a given image. In this work, we explore backdoor attacks on segmentation models to misclassify all pixels of a victim class by injecting a specific trigger on non-victim pixels during inferences, which is dubbed Influencer Backdoor Attack (IBA). IBA is expected to maintain the classification accuracy of non-victim pixels and mislead classifications of all victim pixels in every single inference and could be easily applied to real-world scenes. Based on the context aggregation ability of segmentation models, we proposed a simple, yet effective, Nearest-Neighbor trigger injection strategy. We also introduce an innovative Pixel Random Labeling strategy which maintains optimal performance even when the trigger is placed far from the victim pixels. Our extensive experiments reveal that current segmentation models do suffer from backdoor attacks, demonstrate IBA real-world applicability, and show that our proposed techniques can further increase attack performance.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# 長距離相互作用を持つ円導波路における真の多モード絡み合いの生成

Production of genuine multimode entanglement in circular waveguides with long-range interactions ( http://arxiv.org/abs/2303.15137v2 )

ライセンス: Link先を確認
T Anuradha, Ayan Patra, Rivu Gupta, Amit Rai, Aditi Sen De, (参考訳) 生成物の初期状態, スクイーズドコヒーレント状態, 残りは真空状態から始めて, 一般化幾何測度 (GGM) を用いて定量化した実数モードエンタングルメント (GME) を生成できるモードからなる円形導波管を報告した。 その結果, 導波路間の結合範囲が大きくなるにつれてGME含有量が増加するが, GGMは崩壊し, 結合強度と時間の変化とともに回復することがわかった。 長距離結合の利点は、GGM曲線の下での面積を測定することで強調できる。 さらに、長距離結合は、固定結合強度のために高いGGMを生成するのに役立つ。 任意のモード数を含むシステムに対して,すべてのモードが等しく相互作用する場合に,GGMの正確な表現を解析的に決定する。 解析全体は位相空間形式で実行される。 我々は, 結合強度によらず, GMEの安定生産を約束する結合パラメータにおいて, 障害の構成的効果を示す。

Starting with a product initial state, squeezed (squeezed coherent) state in one of the modes, and vacuum in the rest, we report that a circular waveguide comprising modes coupled with varying coupling strength is capable of producing genuine multimode entanglement (GME), quantified via the generalized geometric measure (GGM). We demonstrate that for a fixed coupling and squeezing strength, the GME content of the resulting state increases as the range of couplings between the waveguides increases, although the GGM collapses and revives with the variation of coupling strength and time. The advantage of long-range coupling can be emphasized by measuring the area under the GGM curve, which clearly illustrates the growing trends of GME with the increasing range of couplings. Moreover, long-range couplings help in generating a higher GGM for a fixed coupling strength. We analytically determine the exact expression of GGM for systems involving an arbitrary number of modes, when all the modes interact with each other equally. The entire analysis is performed in the phase-space formalism. We manifest the constructive effect of disorder in the coupling parameter, which promises a steady production of GME, independent of the coupling strength.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# 多分野分類におけるスパースジョイントシフト

Sparse joint shift in multinomial classification ( http://arxiv.org/abs/2303.16971v3 )

ライセンス: Link先を確認
Dirk Tasche, (参考訳) スパースジョイントシフト (SJS) は, 一般データセットシフトの抽出可能なモデルとして提案され, 特徴量やラベルの辺縁分布, 後部確率, クラス条件特徴量の変化を引き起こす可能性がある。 ラベル観察なしでターゲットデータセットにSJSを適用すると、ラベルの有効な予測とクラスの事前確率の推定が生成される可能性がある。 本研究では,特徴集合からより大きな特徴集合へのSJSの伝達,目標分布下でのクラス後部確率の条件補正式,SJSの識別可能性,SJSと共変量シフトの関係について述べる。 さらに,SJSの特徴を推定するために提案されたアルゴリズムの矛盾を指摘する。

Sparse joint shift (SJS) was recently proposed as a tractable model for general dataset shift which may cause changes to the marginal distributions of features and labels as well as the posterior probabilities and the class-conditional feature distributions. Fitting SJS for a target dataset without label observations may produce valid predictions of labels and estimates of class prior probabilities. We present new results on the transmission of SJS from sets of features to larger sets of features, a conditional correction formula for the class posterior probabilities under the target distribution, identifiability of SJS, and the relationship between SJS and covariate shift. In addition, we point out inconsistencies in the algorithms which were proposed for estimating the characteristics of SJS, as they could hamper the search for optimal solutions, and suggest potential improvements.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索

Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v7 )

ライセンス: Link先を確認
Walid Hariri, (参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。 これらのモデルの中で、ChatGPT(Chat Generative Pre-trained Transformer)はOpenAIによって開発され、広く採用されている強力なツールとして注目されている。 ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。 これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応する能力に起因している。 その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。 しかし、ChatGPTにはバイアス応答を生じる傾向や有害な言語パターンを持続させる可能性など、制限がある。 この記事では、ChatGPTとその応用、利点、限界について概観する。 さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。 最後に,人工知能に関する議論と,その視覚領域とNLP領域への影響について考察する。

Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# PWESuite: 話し言葉の埋め込みとタスク

PWESuite: Phonetic Word Embeddings and Tasks They Facilitate ( http://arxiv.org/abs/2304.02541v3 )

ライセンス: Link先を確認
Vilém Zouhar, Kalvin Chang, Chenxuan Cui, Nathaniel Carlson, Nathaniel Robinson, Mrinmaya Sachan, David Mortensen, (参考訳) 単語を固定次元ベクトル空間にマッピングすることは、現代のNLPのバックボーンである。 ほとんどの単語埋め込み手法は意味情報をエンコードすることに成功したが、多くのタスクにおいて重要な音声情報を見落としている。 音声による単語の埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。 既存の音声単語埋め込み手法の不整合性評価に対処するため,過去,現在,未来を正確に評価するためのタスクスイートも提案する。 本研究では,(1)単語検索や音声類似性との相関などの単語埋め込みの本質的な側面と,(2)韻律やコグネート検出,および音響類似性といったタスクにおける外在的性能を評価する。 われわれのタスクスイートは再現性を促進し、将来の音声埋め込み研究を刺激することを期待している。

Mapping words into a fixed-dimensional vector space is the backbone of modern NLP. While most word embedding methods successfully encode semantic information, they overlook phonetic information that is crucial for many tasks. We develop three methods that use articulatory features to build phonetically informed word embeddings. To address the inconsistent evaluation of existing phonetic word embedding methods, we also contribute a task suite to fairly evaluate past, current, and future methods. We evaluate both (1) intrinsic aspects of phonetic word embeddings, such as word retrieval and correlation with sound similarity, and (2) extrinsic performance on tasks such as rhyme and cognate detection and sound analogies. We hope our task suite will promote reproducibility and inspire future phonetic embedding research.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# 新型コロナウイルスワクチン接種におけるスタンス検出の時間性の検討

Examining Temporalities on Stance Detection towards COVID-19 Vaccination ( http://arxiv.org/abs/2304.04806v3 )

ライセンス: Link先を確認
Yida Mu, Mali Jin, Kalina Bontcheva, Xingyi Song, (参考訳) これまでの研究では、新型コロナウイルスの感染を抑える効果的な戦略として、予防接種の重要性が強調されてきた。 政策立案者は、大規模なワクチン接種に対する国民の姿勢を包括的に理解することが不可欠である。 しかし、予防接種やワクチン接種などのワクチン接種に対する態度は、ソーシャルメディア上で時間をかけて変化してきた。 したがって、これらのスタンスを分析する際には、時間的変化の可能性を考慮する必要がある。 本研究の目的は, 時間的コンセプトドリフトがTwitter上での新型コロナウイルスワクチン接種に対する姿勢検出に与える影響を検討することである。 そこで我々は,時系列(トレーニング,検証,テストセットを時間順に分割する)とランダムスプリット(これら3セットをランダムに分割する)を用いて,トランスフォーマーモデルの範囲を評価した。 以上の結果から,いくつかの既存のCOVID-19関連データセットにおいて,ランダム・クロノロジカル・スプリットのモデル性能に有意な差がみられ,特に,時間的スプリットはスタンス分類の精度を著しく低下させることが明らかとなった。 したがって、時間的要因を重要な考慮事項として組み込むためには、現実世界のスタンス検出アプローチをさらに洗練する必要がある。

Previous studies have highlighted the importance of vaccination as an effective strategy to control the transmission of the COVID-19 virus. It is crucial for policymakers to have a comprehensive understanding of the public's stance towards vaccination on a large scale. However, attitudes towards COVID-19 vaccination, such as pro-vaccine or vaccine hesitancy, have evolved over time on social media. Thus, it is necessary to account for possible temporal shifts when analysing these stances. This study aims to examine the impact of temporal concept drift on stance detection towards COVID-19 vaccination on Twitter. To this end, we evaluate a range of transformer-based models using chronological (splitting the training, validation, and test sets in order of time) and random splits (randomly splitting these three sets) of social media data. Our findings reveal significant discrepancies in model performance between random and chronological splits in several existing COVID-19-related datasets; specifically, chronological splits significantly reduce the accuracy of stance classification. Therefore, real-world stance detection approaches need to be further refined to incorporate temporal factors as a key consideration.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# 学習可能な学習率を持つグラディエント・フェデレート・グラディエント・ブースティングツリー

Gradient-less Federated Gradient Boosting Trees with Learnable Learning Rates ( http://arxiv.org/abs/2304.07537v3 )

ライセンス: Link先を確認
Chenyang Ma, Xinchi Qiu, Daniel J. Beutel, Nicholas D. Lane, (参考訳) 分散データセットのプライバシーに敏感な性質と表データ上のeXtreme Gradient Boosting(XGBoost)の堅牢性は、連邦学習(FL)の文脈でXGBoostをトレーニングする必要性を高めます。 従来の分散XGBoostの水平配置での作業は、ノード単位の通信頻度と深刻なプライバシー上の懸念を引き起こす勾配の共有に依存している。 これらの問題を緩和するために、我々は、勾配の共有に依存しない水平連合XGBoostのための革新的なフレームワークを開発し、集約された木の集合の学習率を学習可能にすることにより、プライバシーと通信効率を同時に向上させる。 各種分類・回帰データセットを広範囲に評価し, 現状の手法に匹敵する性能を実現し, 25倍から700倍の範囲で通信ラウンドと通信オーバヘッドを下げることにより, 通信効率を効果的に向上することを示す。 Project Page: https://flower.ai/blog/2023-04-19-xgboost-with-flower/

The privacy-sensitive nature of decentralized datasets and the robustness of eXtreme Gradient Boosting (XGBoost) on tabular data raise the needs to train XGBoost in the context of federated learning (FL). Existing works on federated XGBoost in the horizontal setting rely on the sharing of gradients, which induce per-node level communication frequency and serious privacy concerns. To alleviate these problems, we develop an innovative framework for horizontal federated XGBoost which does not depend on the sharing of gradients and simultaneously boosts privacy and communication efficiency by making the learning rates of the aggregated tree ensembles learnable. We conduct extensive evaluations on various classification and regression datasets, showing our approach achieves performance comparable to the state-of-the-art method and effectively improves communication efficiency by lowering both communication rounds and communication overhead by factors ranging from 25x to 700x. Project Page: https://flower.ai/blog/2023-04-19-xgboost-with-flower/
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# 環境からのデコヒーレンスと情報検索の相補性

Complementarity between decoherence and information retrieval from the environment ( http://arxiv.org/abs/2304.12222v2 )

ライセンス: Link先を確認
Tae-Hun Lee, Jarosław K. Korbicz, (参考訳) オープン量子システムにおける環境からの情報抽出の基本的な制限の問題に対処する。 我々は、環境自由度を含むリコイルレス限界における開力学のモデル非依存のハイブリッド量子古典解を導出する。 熱環境の有名なカルデイラ・レゲットモデルにより、日常的に見られるように、デコヒーレンスを統治するよく知られた熱デブロリー波長とは異なる、識別可能性長と呼ばれる新しい長さスケールの存在を明らかにした。 興味深いことに、量子フィッシャー情報カーネルと呼ばれる新しい積分カーネルが分析に現れる。 これはよく知られた散逸とノイズカーネルを補完し、有名な散逸の関係と同様、外乱情報ゲインタイプの関係を満たす。 本研究は, カルデイラ・レゲットモデル(Caldeira-Legget model)の既存の処理を, 環境における情報力学の非標準的かつ非自明な視点から補完するものである。 これは、システムと環境の観点からのオープンな進化がどのように見えるかの全体像と、間接的な観測の精度の限界に繋がる。

We address the problem of fundamental limitations of information extraction from the environment in open quantum systems. We derive a model-independent, hybrid quantum-classical solution of open dynamics in the recoil-less limit, which includes environmental degrees of freedom. Specifying to the celebrated Caldeira-Leggett model of hot thermal environments, ubiquitous in everyday situations, we reveal the existence of a new lengthscale, called distinguishability length, different from the well-known thermal de Broglie wavelength that governs the decoherence. Interestingly, a new integral kernel, called Quantum Fisher Information kernel, appears in the analysis. It complements the well-known dissipation and noise kernels and satisfies disturbance-information gain type of relations, similar to the famous fluctuation-dissipation relation. Our results complement the existing treatments of the Caldeira-Legget model from a non-standard and highly non-trivial perspective of information dynamics in the environment. This leads to a full picture of how the open evolution looks like from both the system and the environment points of view, as well as sets limits on the precision of indirect observations.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-24
# Pythonのためのスケーラブルで高精度なアプリケーション中心のコールグラフ構築

Scalable and Precise Application-Centered Call Graph Construction for Python ( http://arxiv.org/abs/2305.05949v2 )

ライセンス: Link先を確認
Yixuan Yan, Kaifeng Huang, Bihuan Chen, Zixin Tao, Yulei Sui, Xin Peng, (参考訳) コールグラフ構築は、手続き間静的解析の基礎である。 PYCGはPythonプログラムのコールグラフを構築するための最先端のアプローチである。 残念ながら、PyCGは、アプリケーションと依存ライブラリの両方が解析されるプログラム全体の解析に適応する場合、大規模プログラムにはスケールしない。 さらに、PyCGはフローに敏感であり、Pythonの機能を完全にサポートしていないため、その正確さを妨げている。 このような欠点を克服するために,Pythonプログラム用のアプリケーション中心のコールグラフを構築するためのスケーラブルで正確なアプローチを提案し,プロトタイプツールであるJARVISとして実装する。 JARVISは、型推論を可能にするプログラムの各関数の型グラフ(すなわち、プログラム識別子の型関係)を保持する。 1つの関数を入力として、JARVISはオンザフライでコールグラフを生成し、フローセンシティブなイントラプロデューラル解析とイントラプロデューラル解析を交互に行い、強力な更新を行う。 135個のPythonプログラムのマイクロベンチマークと6個の実世界のPythonアプリケーションのマクロベンチマークによる評価は、JARVISがPYCGを少なくとも67%高速化し、精度が84%向上し、リコール時に少なくとも20%向上できることを示した。

Call graph construction is the foundation of inter-procedural static analysis. PYCG is the state-of-the-art approach for constructing call graphs for Python programs. Unfortunately, PyCG does not scale to large programs when adapted to whole-program analysis where application and dependent libraries are both analyzed. Moreover, PyCG is flow-insensitive and does not fully support Python's features, hindering its accuracy. To overcome these drawbacks, we propose a scalable and precise approach for constructing application-centered call graphs for Python programs, and implement it as a prototype tool JARVIS. JARVIS maintains a type graph (i.e., type relations of program identifiers) for each function in a program to allow type inference. Taking one function as an input, JARVIS generates the call graph on-the-fly, where flow-sensitive intra-procedural analysis and inter-procedural analysis are conducted in turn and strong updates are conducted. Our evaluation on a micro-benchmark of 135 small Python programs and a macro-benchmark of 6 real-world Python applications has demonstrated that JARVIS can significantly improve PYCG by at least 67% faster in time, 84% higher in precision, and at least 20% higher in recall.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-24
# ゼロショット分類のためのプロンプト複雑性のナビゲート:計算社会科学における大規模言語モデルの検討

Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science ( http://arxiv.org/abs/2305.14310v3 )

ライセンス: Link先を確認
Yida Mu, Ben P. Wu, William Thorne, Ambrose Robinson, Nikolaos Aletras, Carolina Scarton, Kalina Bontcheva, Xingyi Song, (参考訳) LLM(Instruction-tuned Large Language Model)は印象的な言語理解と、特定のプロンプトに従う応答を生成する能力を示す。 しかしながら、これらのモデルのトレーニングに関連する計算要求のため、それらのアプリケーションはゼロショット設定を採用することが多い。 本稿では,ChatGPTとOpenAssistantという2つの公開LLMのゼロショット性能を,計算社会科学の6つの分類タスクの文脈で評価するとともに,様々なプロンプト戦略の効果についても検討する。 実験では, ラベル定義をインクルードする効果, ラベル名への同義語の使用, 基礎モデルトレーニングにおける過去の記憶の統合の影響など, 迅速な複雑性の影響について検討した。 その結果、ゼロショット設定では、現在のLLMはより小型で微調整されたベースライントランスモデル(BERT-largeなど)の性能と一致しないことがわかった。 さらに、異なるプロンプト戦略が分類精度に大きく影響し、精度とF1スコアが10倍を超えることが判明した。

Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific prompts. However, due to the computational demands associated with training these models, their applications often adopt a zero-shot setting. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of six Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiments investigate the impact of prompt complexity, including the effect of incorporating label definitions into the prompt; use of synonyms for label names; and the influence of integrating past memories during foundation model training. The findings indicate that in a zero-shot setting, current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT-large). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10\%.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-24
# 著作権はプライバシーに還元できるのか?

Can Copyright be Reduced to Privacy? ( http://arxiv.org/abs/2305.14822v2 )

ライセンス: Link先を確認
Niva Elkin-Koren, Uri Hacohen, Roi Livni, Shay Moran, (参考訳) 生成型AIモデルが、トレーニング対象の著作権素材によく似た出力を生成するのではないかという懸念が高まっている。 この懸念は、生成モデルの品質と複雑さが大幅に改善され、著作権物質を含む広範囲なデータセットが利用可能になったことで強まりつつある。 研究者は、侵害サンプルの生成リスクを軽減する戦略を積極的に検討しており、最近の一連の研究は、侵害コピーの欠如の保証を提供するために、差分プライバシーやその他のアルゴリズムの安定性といった技術を採用することを示唆している。 本研究では,このようなアルゴリズム的安定性技術が,著作権法に不注意に違反することなく,生成モデルの責任ある利用を保証するのに適切かどうかを検討する。 これらの手法はデータセットにおける識別可能な情報の存在を検証することを目的としており、プライバシー指向である著作権法は、保護された表現の無許可使用が起こらないことを前提として、社会全体の利益のためにオリジナル作品の使用を促進することを目的としている。 プライバシーと著作権の根本的な違いは見過ごさなければならない。 特に, アルゴリズムの安定性は, コピーを検出する実用的なツールとして認識されるかもしれないが, このようなコピーは必ずしも著作権侵害を構成するものではないことを実証する。 したがって、著作権侵害の確立の基準として採用された場合、アルゴリズム的安定性は著作権法の意図した目的を損なう可能性がある。

There is a growing concern that generative AI models will generate outputs closely resembling the copyrighted materials for which they are trained. This worry has intensified as the quality and complexity of generative models have immensely improved, and the availability of extensive datasets containing copyrighted material has expanded. Researchers are actively exploring strategies to mitigate the risk of generating infringing samples, with a recent line of work suggesting to employ techniques such as differential privacy and other forms of algorithmic stability to provide guarantees on the lack of infringing copying. In this work, we examine whether such algorithmic stability techniques are suitable to ensure the responsible use of generative models without inadvertently violating copyright laws. We argue that while these techniques aim to verify the presence of identifiable information in datasets, thus being privacy-oriented, copyright law aims to promote the use of original works for the benefit of society as a whole, provided that no unlicensed use of protected expression occurred. These fundamental differences between privacy and copyright must not be overlooked. In particular, we demonstrate that while algorithmic stability may be perceived as a practical tool to detect copying, such copying does not necessarily constitute copyright infringement. Therefore, if adopted as a standard for detecting an establishing copyright infringement, algorithmic stability may undermine the intended objectives of copyright law.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-24
# DiffusionNAG: 拡散モデルを用いた予測誘導型ニューラルネットワーク生成

DiffusionNAG: Predictor-guided Neural Architecture Generation with Diffusion Models ( http://arxiv.org/abs/2305.16943v4 )

ライセンス: Link先を確認
Sohyun An, Hayeon Lee, Jaehyeong Jo, Seanie Lee, Sung Ju Hwang, (参考訳) 既存のNAS手法は、繰り返しサンプリングや多くのタスク非関連アーキテクチャの訓練に過剰な時間を要する。 既存のNAS手法の制限に対処するため,DiffusionNAGと呼ばれる拡散モデルに基づく,NASから新しい条件付きニューラルネットワーク生成(NAG)フレームワークへのパラダイムシフトを提案する。 具体的には、ニューラルネットワークを有向グラフとみなし、それらを生成するためのグラフ拡散モデルを提案する。 さらに、パラメータ化予測器のガイダンスにより、DiffusionNAGは様々なタスクに対して望ましい特性を持つタスク最適化アーキテクチャを柔軟に生成することができる。 この条件付きNAGスキームは、アーキテクチャをサンプリングし、特性予測器を用いてフィルタリングする以前のNASスキームよりもはるかに効率的である。 本研究では,2つの予測型NAS(Transferable NAS)とベイズ最適化(BO)に基づくNAS(Bayesian Optimization)の2つのシナリオにおいて,DiffusionNAGの有効性を検証する。 DiffusionNAGは、Transferable NASベンチマークのベースラインと比較して最大35倍のスピードアップを達成している。 さらに、BOベースのアルゴリズムに統合されると、DiffusionNAGは既存のBOベースのNASアプローチ、特にImageNet 1Kデータセット上の大規模なMobileNetV3検索スペースよりも優れる。 コードはhttps://github.com/CownowAn/DiffusionNAGで入手できる。

Existing NAS methods suffer from either an excessive amount of time for repetitive sampling and training of many task-irrelevant architectures. To tackle such limitations of existing NAS methods, we propose a paradigm shift from NAS to a novel conditional Neural Architecture Generation (NAG) framework based on diffusion models, dubbed DiffusionNAG. Specifically, we consider the neural architectures as directed graphs and propose a graph diffusion model for generating them. Moreover, with the guidance of parameterized predictors, DiffusionNAG can flexibly generate task-optimal architectures with the desired properties for diverse tasks, by sampling from a region that is more likely to satisfy the properties. This conditional NAG scheme is significantly more efficient than previous NAS schemes which sample the architectures and filter them using the property predictors. We validate the effectiveness of DiffusionNAG through extensive experiments in two predictor-based NAS scenarios: Transferable NAS and Bayesian Optimization (BO)-based NAS. DiffusionNAG achieves superior performance with speedups of up to 35 times when compared to the baselines on Transferable NAS benchmarks. Furthermore, when integrated into a BO-based algorithm, DiffusionNAG outperforms existing BO-based NAS approaches, particularly in the large MobileNetV3 search space on the ImageNet 1K dataset. Code is available at https://github.com/CownowAn/DiffusionNAG.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-24
# DGC-GNN:ビジュアルディスクリプタフリー2D-3Dマッチングのための幾何学とカラーキューの活用

DGC-GNN: Leveraging Geometry and Color Cues for Visual Descriptor-Free 2D-3D Matching ( http://arxiv.org/abs/2306.12547v2 )

ライセンス: Link先を確認
Shuzhe Wang, Juho Kannala, Daniel Barath, (参考訳) 画像中の2Dキーポイントを、視覚ディスクリプタを必要としないスパース3Dポイントクラウドにマッチさせることは、メモリ要件の低さ、固有のプライバシ保護、視覚ディスクリプタベースの方法に比べて高価な3Dモデルメンテナンスの必要性の低減など、関心の高まりを招いている。 しかし、既存のアルゴリズムはしばしば性能を損なうため、記述子ベースのアルゴリズムに比べて大幅に劣化する。 本稿では,グローバル・ローカルなグラフニューラルネットワーク(GNN)を用いた新しいアルゴリズムであるDGC-GNNを紹介する。 我々の手順はユークリッドと角の関係を粗いレベルでエンコードし、幾何学的埋め込みを形成して点マッチングを導く。 我々は、DGC-GNNを屋内と屋外の両方のデータセットで評価し、最先端のビジュアルディスクリプタフリーアルゴリズムの精度を2倍にするだけでなく、ディスクリプタベースとディスクリプタフリー手法のパフォーマンスギャップを大幅に狭めることを示した。

Matching 2D keypoints in an image to a sparse 3D point cloud of the scene without requiring visual descriptors has garnered increased interest due to its low memory requirements, inherent privacy preservation, and reduced need for expensive 3D model maintenance compared to visual descriptor-based methods. However, existing algorithms often compromise on performance, resulting in a significant deterioration compared to their descriptor-based counterparts. In this paper, we introduce DGC-GNN, a novel algorithm that employs a global-to-local Graph Neural Network (GNN) that progressively exploits geometric and color cues to represent keypoints, thereby improving matching accuracy. Our procedure encodes both Euclidean and angular relations at a coarse level, forming the geometric embedding to guide the point matching. We evaluate DGC-GNN on both indoor and outdoor datasets, demonstrating that it not only doubles the accuracy of the state-of-the-art visual descriptor-free algorithm but also substantially narrows the performance gap between descriptor-based and descriptor-free methods.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-24
# 偽発見率制御のための等角的リンク予測

Conformal link prediction for false discovery rate control ( http://arxiv.org/abs/2306.14693v2 )

ライセンス: Link先を確認
Ariane Marandon, (参考訳) ほとんどのリンク予測手法は、グラフの欠落したエッジの接続確率を推定する。 このような出力は、欠落したエッジが真のエッジである可能性が最も高いものから最も低いものまでランク付けするために用いられるが、直接真で存在しないものへの分類は提供されない。 本研究では,偽発見率(FDR)を制御した真のエッジの集合を同定する問題を考察する。 共形推論に基づく文献からの高レベルなアイデアに基づく新しい手法を提案する。 グラフ構造はデータへの複雑な依存を誘導するが、これはデータ交換性が仮定される共形推論における通常の設定と異なるためである。 FDR制御はシミュレーションデータと実データの両方に対して実証的に実証される。

Most link prediction methods return estimates of the connection probability of missing edges in a graph. Such output can be used to rank the missing edges from most to least likely to be a true edge, but does not directly provide a classification into true and non-existent. In this work, we consider the problem of identifying a set of true edges with a control of the false discovery rate (FDR). We propose a novel method based on high-level ideas from the literature on conformal inference. The graph structure induces intricate dependence in the data, which we carefully take into account, as this makes the setup different from the usual setup in conformal inference, where data exchangeability is assumed. The FDR control is empirically demonstrated for both simulated and real data.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-24
# SAM-DA: SAM-Powered Domain Adaptationで夜のあらゆるものを追跡するUAV

SAM-DA: UAV Tracks Anything at Night with SAM-Powered Domain Adaptation ( http://arxiv.org/abs/2307.01024v2 )

ライセンス: Link先を確認
Changhong Fu, Liangliang Yao, Haobo Zuo, Guangze Zheng, Jia Pan, (参考訳) ドメイン適応(DA)は、リアルタイム夜間無人航空機(UAV)の追跡に重要な可能性を証明している。 しかし、最先端(SOTA)DAは、高品質な目標ドメイントレーニングサンプルを生成するために、正確なピクセルレベルの位置と境界を持つ潜在的なオブジェクトをいまだに欠いている。 この鍵となる課題は、夜間のUAV追跡に挑戦するために、リアルタイムのSOTAトラッカーの転送学習を制限することである。 最近、SAM(Segment Anything Model)は、巨大なデータ駆動トレーニングアプローチにより、豊富な潜在的なオブジェクトを発見するという、目覚ましいゼロショットの一般化能力を達成した。 上記の課題を解決するために,実時間夜間UAV追跡のためのSAM-DAフレームワーク,すなわちSAM-DAを提案する。 具体的には、SAMを用いたターゲットドメイントレーニングサンプル膨らみを改良し、各生の夜間画像から高品質なターゲットドメイントレーニングサンプルを抽出する。 この新規な1対多世代は、DAのための高品質なターゲットドメイントレーニングサンプルを著しく拡張する。 大規模な夜間UAVビデオに関する総合実験は、夜間UAV追跡のためのSAM-DAの堅牢性とドメイン適応性を証明する。 特に、SOTA DAと比較して、SAM-DAは夜間の生画像が少ない、つまりベタートレーニングが少ない、より優れたパフォーマンスを実現することができる。 このエコノマイズドトレーニングアプローチは、UAVのためのアルゴリズムの迅速な検証とデプロイを容易にする。 コードはhttps://github.com/vision4robotics/SAM-DAで公開されている。

Domain adaptation (DA) has demonstrated significant promise for real-time nighttime unmanned aerial vehicle (UAV) tracking. However, the state-of-the-art (SOTA) DA still lacks the potential object with accurate pixel-level location and boundary to generate the high-quality target domain training sample. This key issue constrains the transfer learning of the real-time daytime SOTA trackers for challenging nighttime UAV tracking. Recently, the notable Segment Anything Model (SAM) has achieved a remarkable zero-shot generalization ability to discover abundant potential objects due to its huge data-driven training approach. To solve the aforementioned issue, this work proposes a novel SAM-powered DA framework for real-time nighttime UAV tracking, i.e., SAM-DA. Specifically, an innovative SAM-powered target domain training sample swelling is designed to determine enormous high-quality target domain training samples from every single raw nighttime image. This novel one-to-many generation significantly expands the high-quality target domain training sample for DA. Comprehensive experiments on extensive nighttime UAV videos prove the robustness and domain adaptability of SAM-DA for nighttime UAV tracking. Especially, compared to the SOTA DA, SAM-DA can achieve better performance with fewer raw nighttime images, i.e., the fewer-better training. This economized training approach facilitates the quick validation and deployment of algorithms for UAVs. The code is available at https://github.com/vision4robotics/SAM-DA.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-24
# Think-on-Graph:知識グラフに基づく大規模言語モデルの深くて責任ある推論

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph ( http://arxiv.org/abs/2307.07697v6 )

ライセンス: Link先を確認
Jiashuo Sun, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Lionel M. Ni, Heung-Yeung Shum, Jian Guo, (参考訳) 大きな言語モデル(LLM)は様々なタスクで大きな成功を収めているが、幻覚の問題に悩まされることが多い。 これらの問題は、LLM推論に外部知識グラフ(KG)を導入することで部分的に解決できる。 本稿では,新たなLLM-KG統合パラダイム ``$\hbox{LLM}\otimes\hbox{KG}$'' を提案する。 我々は、このパラダイムを、LLMエージェントがKG上でビームサーチを反復的に実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す、Think-on-Graph(ToG)と呼ばれる新しいアプローチを導入することで、さらに実装する。 私たちは、ToGの次の利点を検証し、説明するために、よく設計された多くの実験を使用します。 1) LLMと比較して、ToGはより深い推論能力を有する。 2)ToGは,LSMの推論と専門家のフィードバックを活用することにより,知識のトレーサビリティと知識の正当性を有する。 3)ToGは、異なるLLM、KG、および追加のトレーニングコストなしで戦略を推進するための柔軟なプラグアンドプレイフレームワークを提供する。 4) 小型LLMモデルによるToGの性能は, 特定のシナリオにおいて GPT-4 などの大型 LLM を超える可能性があり, これにより, LLM の展開・適用コストを低減できる。 ToGは、計算コストが低く、より汎用性の高いトレーニングフリーの方法として、以前のSOTAが追加のトレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。

Although large language models (LLMs) have achieved significant success in various tasks, they often struggle with hallucination problems, especially in scenarios requiring deep and responsible reasoning. These issues could be partially addressed by introducing external knowledge graphs (KG) in LLM reasoning. In this paper, we propose a new LLM-KG integrating paradigm ``$\hbox{LLM}\otimes\hbox{KG}$'' which treats the LLM as an agent to interactively explore related entities and relations on KGs and perform reasoning based on the retrieved knowledge. We further implement this paradigm by introducing a new approach called Think-on-Graph (ToG), in which the LLM agent iteratively executes beam search on KG, discovers the most promising reasoning paths, and returns the most likely reasoning results. We use a number of well-designed experiments to examine and illustrate the following advantages of ToG: 1) compared with LLMs, ToG has better deep reasoning power; 2) ToG has the ability of knowledge traceability and knowledge correctability by leveraging LLMs reasoning and expert feedback; 3) ToG provides a flexible plug-and-play framework for different LLMs, KGs and prompting strategies without any additional training cost; 4) the performance of ToG with small LLM models could exceed large LLM such as GPT-4 in certain scenarios and this reduces the cost of LLM deployment and application. As a training-free method with lower computational cost and better generality, ToG achieves overall SOTA in 6 out of 9 datasets where most previous SOTAs rely on additional training.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-24
# 私たちのモデルはMovieLensの優れたパフォーマンスを実現します。それは何を意味するのか?

Our Model Achieves Excellent Performance on MovieLens: What Does it Mean? ( http://arxiv.org/abs/2307.09985v3 )

ライセンス: Link先を確認
Yu-chen Fan, Yitong Ji, Jie Zhang, Aixin Sun, (参考訳) レコメンデータシステム(RecSys)評価のための典型的なベンチマークデータセットは、時間内にプラットフォーム上で生成されるユーザとテムのインタラクションで構成されている。 インタラクション生成メカニズムは、ユーザがアイテム(例えば、購入、レート)と相互作用する理由と、特定のインタラクションが発生した時のコンテキストを部分的に説明します。 本研究では,MovieLensデータセットの微妙な解析を行い,提案アルゴリズムを用いて推薦アルゴリズムの評価を行う可能性について説明する。 分析からいくつかの主な知見を得た。 まず、ユーザーがMovieLensプラットフォームと対話する場合、異なる段階でのユーザインタラクションには大きな違いがある。 初期のインタラクションは、主にその後のインタラクションに影響を与えるユーザポートレートを定義します。 第2に、ユーザインタラクションは、プラットフォームの内部推奨アルゴリズムによって推奨される候補映画に大きく影響を受ける。 第3に、ユーザインタラクションの順序を変更することで、シーケンシャルアルゴリズムがプログレッシブインタラクションプロセスをキャプチャすることがより困難になる。 さらに、MovieLensシステムで使用されるインタラクション生成機構と、典型的な実世界のレコメンデーションシナリオとの相違についても論じる。 要約すると、MovieLensプラットフォームは、コールドスタートに対処するためにユーザの好みを収集する効率的かつ効果的な方法を示している。 しかし、MovieLensデータセット上で優れたレコメンデーション精度を達成するモデルは、少なくとも2種類の違いがあるため、実際には優れたパフォーマンスを示すことができないかもしれない。 一 ユーザ・イテムインタラクション生成の文脈の違い、及び (2)アイテムコレクションに関するユーザ知識の違い。 MovieLensの結果は参照として有用であるが、レコメンデーションシステムモデルの有効性の第一の正当性としてのみ依存すべきではない。

A typical benchmark dataset for recommender system (RecSys) evaluation consists of user-item interactions generated on a platform within a time period. The interaction generation mechanism partially explains why a user interacts with (e.g., like, purchase, rate) an item, and the context of when a particular interaction happened. In this study, we conduct a meticulous analysis of the MovieLens dataset and explain the potential impact of using the dataset for evaluating recommendation algorithms. We make a few main findings from our analysis. First, there are significant differences in user interactions at the different stages when a user interacts with the MovieLens platform. The early interactions largely define the user portrait which affects the subsequent interactions. Second, user interactions are highly affected by the candidate movies that are recommended by the platform's internal recommendation algorithm(s). Third, changing the order of user interactions makes it more difficult for sequential algorithms to capture the progressive interaction process. We further discuss the discrepancy between the interaction generation mechanism that is employed by the MovieLens system and that of typical real-world recommendation scenarios. In summary, the MovieLens platform demonstrates an efficient and effective way of collecting user preferences to address cold-starts. However, models that achieve excellent recommendation accuracy on the MovieLens dataset may not demonstrate superior performance in practice, for at least two kinds of differences: (i) the differences in the contexts of user-item interaction generation, and (ii) the differences in user knowledge about the item collections. While results on MovieLens can be useful as a reference, they should not be solely relied upon as the primary justification for the effectiveness of a recommendation system model.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-24
# 無線ネットワークにおける階層的フェデレーション学習--タックルバンド幅スカシティとシステム不均一性

Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity ( http://arxiv.org/abs/2308.01562v3 )

ライセンス: Link先を確認
Md Ferdous Pervej, Richeng Jin, Huaiyu Dai, (参考訳) 実際の無線ネットワークは、エンドユーザが中央サーバと直接通信しない層が多数あるが、ユーザのデバイスは計算能力とバッテリ能力に制限があり、サービスベースステーション(BS)は固定帯域幅を持つ。 これらの実用的制約とシステムモデルにより、モデルプルーニングを活用し、ヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型学習(PHFL)を提案する。 まず、モデルプルーニングとクライアントと関連するBS間の無線通信の影響を明確に示す収束率の上限を導出する。 そして、厳密な遅延とエネルギー制約の下での収束の制御可能な項を最小化するために、モデルプルーニング比、中央処理ユニット(CPU)周波数および送信電力を協調的に最適化する。 しかし、元の問題は凸ではないため、連続凸近似(SCA)を行い、緩和凸問題のパラメータを共同最適化する。 提案するPHFLアルゴリズムの有効性を,実験精度,壁面時計時間,エネルギー消費量,帯域幅要求量の観点から検証した。

While a practical wireless network has many tiers where end users do not directly communicate with the central server, the users' devices have limited computation and battery powers, and the serving base station (BS) has a fixed bandwidth. Owing to these practical constraints and system models, this paper leverages model pruning and proposes a pruning-enabled hierarchical federated learning (PHFL) in heterogeneous networks (HetNets). We first derive an upper bound of the convergence rate that clearly demonstrates the impact of the model pruning and wireless communications between the clients and the associated BS. Then we jointly optimize the model pruning ratio, central processing unit (CPU) frequency and transmission power of the clients in order to minimize the controllable terms of the convergence bound under strict delay and energy constraints. However, since the original problem is not convex, we perform successive convex approximation (SCA) and jointly optimize the parameters for the relaxed convex problem. Through extensive simulation, we validate the effectiveness of our proposed PHFL algorithm in terms of test accuracy, wall clock time, energy consumption and bandwidth requirement.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-24
# GNNとルールによる帰納的知識グラフの補完:分析

Inductive Knowledge Graph Completion with GNNs and Rules: An Analysis ( http://arxiv.org/abs/2308.07942v2 )

ライセンス: Link先を確認
Akash Anil, Víctor Gutiérrez-Basulto, Yazmín Ibañéz-García, Steven Schockaert, (参考訳) 帰納的知識グラフ補完のタスクは、トレーニンググラフから推論パターンを学ぶモデルを必要とする。 ルールベースの手法はこのタスクに適しているように見えるが、実際にはNBFNetのようなグラフニューラルネットワーク(GNN)に基づく最先端の手法を著しく過小評価している。 我々はルールベースの手法の過小評価は2つの要因に起因すると仮定する。 (i)不可解な実体が全くランク付けされていないこと 2)所定のリンク予測回答の信頼度を決定する際に、最も情報性の高い経路のみを考慮する。 これらの要因の影響を分析するために,上記の問題に対処することを目的としたルールベースアプローチの多くのバリエーションについて検討する。 その結果,NBFNetに近い性能が得られることがわかった。 重要な点として、考慮されている変種は、NBFNetが依存している証拠のごく一部しか使用していない。 さらに、完全なKGに目を向けたさらなる変種が、一貫してNBFNetを上回っていることを示す。

The task of inductive knowledge graph completion requires models to learn inference patterns from a training graph, which can then be used to make predictions on a disjoint test graph. Rule-based methods seem like a natural fit for this task, but in practice they significantly underperform state-of-the-art methods based on Graph Neural Networks (GNNs), such as NBFNet. We hypothesise that the underperformance of rule-based methods is due to two factors: (i) implausible entities are not ranked at all and (ii) only the most informative path is taken into account when determining the confidence in a given link prediction answer. To analyse the impact of these factors, we study a number of variants of a rule-based approach, which are specifically aimed at addressing the aforementioned issues. We find that the resulting models can achieve a performance which is close to that of NBFNet. Crucially, the considered variants only use a small fraction of the evidence that NBFNet relies on, which means that they largely keep the interpretability advantage of rule-based methods. Moreover, we show that a further variant, which does look at the full KG, consistently outperforms NBFNet.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-24
# ALI-DPFL: 適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v5 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen, (参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することによって、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらのトレーニングパラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推測することができる。 その結果、差分プライバシー(DP)はFLでそのような攻撃を防ぐために広く利用されている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 収束を理論的に解析することにより、2つのシーケンシャルなグローバルな更新の間に、クライアントのローカルDPSGDイテレーションの最適な数を見つけることができる。 そこで我々は,適応的局所反復(ALI-DPFL)を用いた微分プライベート・フェデレーション学習のアルゴリズムを設計した。 我々は,MNIST,FashionMNIST,Cifar10データセットのアルゴリズムを実験し,資源制約シナリオにおけるこれまでの作業よりもはるかに優れた性能を示す。 コードはhttps://github.com/KnightWan/ALI-DPFL.comで入手できる。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication rounds are constrained. By theoretically analyzing the convergence, we can find the optimal number of local DPSGD iterations for clients between any two sequential global updates. Based on this, we design an algorithm of Differentially Private Federated Learning with Adaptive Local Iterations (ALI-DPFL). We experiment our algorithm on the MNIST, FashionMNIST and Cifar10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario. Code is available at https://github.com/KnightWan/ALI-DPFL.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-24
# 摂動相互作用を持つハイゼンベルク制限メロロジー

Heisenberg-limited metrology with perturbing interactions ( http://arxiv.org/abs/2308.10929v2 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas, (参考訳) 本稿では,GHZのような状態において,測定過程中に空間的局所的,おそらく強い相互作用が存在する場合に,ハイゼンベルクに制限されたメロロジーを実行することができることを示す。 多項式時間古典計算に基づく単一量子ビットの測定とフィードバックに依存する明示的プロトコルは、ハイゼンベルク限界を達成する。 一次元では行列積状態法を用いて古典的な計算を行うことができ、高次元ではクラスタ展開が効率的な計算の基盤となる。 後者のアプローチは、短周期量子力学のための効率的な古典的サンプリングアルゴリズムに基づいている。

We show that it is possible to perform Heisenberg-limited metrology on GHZ-like states, in the presence of generic spatially local, possibly strong interactions during the measurement process. An explicit protocol, which relies on single-qubit measurements and feedback based on polynomial-time classical computation, achieves the Heisenberg limit. In one dimension, matrix product state methods can be used to perform this classical calculation, while in higher dimensions the cluster expansion underlies the efficient calculations. The latter approach is based on an efficient classical sampling algorithm for short-time quantum dynamics, which may be of independent interest.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-24
# CEIMVEN: 乳がん検出と超音波画像からの分類のための高効率ネット(V1-V2)アーキテクチャのエッジ実装

CEIMVEN: An Approach of Cutting Edge Implementation of Modified Versions of EfficientNet (V1-V2) Architecture for Breast Cancer Detection and Classification from Ultrasound Images ( http://arxiv.org/abs/2308.13356v2 )

ライセンス: Link先を確認
Sheekar Banerjee, Md. Kamrul Hasan Monir, (参考訳) 間違いなく乳がんは、世界中で最も広範で恐ろしいがんの1つだと自覚している。 毎年何百万という女性が影響を受けています。 乳がんは女性の死亡数の最大の原因となっている。 近年, 超音波画像やマンモグラフィーから乳がんを検出・分類し, 深部神経ネットワークの天体的触覚を解析する上で, 医用画像処理とプロセッシングが重要な役割を担っている。 本研究では,EfficientNet-V1 (b0-b7) とEfficientNet-V2 (b0-b3) を,CEIMVEN と命名された超音波画像で比較した。 我々は、EfficientNetバージョンの事前学習モデルを使用するために、転送学習アプローチを利用した。 我々は、ハイパーパラメータチューニング手順を起動し、完全に接続されたレイヤーを追加し、前例のない異常値を破棄し、カスタム修正されたEfficientNetアーキテクチャの精度を記録した。 我々のディープラーニングモデルトレーニングアプローチは、関心領域(ROI)技術と複数の分類(良性、悪性、正常)で影響を受ける領域を同定することに関連していた。 修正版のEfficientNet-V1(b0-99.15%、b1-98.58%、b2-98.43%、b3-98.01%、b4-98.86%、b5-97.72%、b6-97.72%、b7-98.72%)とEfficientNet-V2(b0-99.29%、b1-99.01%、b2-98.72%、b3-99.43%)から得られた近似的なテスト精度は、超音波画像から乳がんを早期に検出・分類するための非常に明るい未来と強力なディープラーニングアプローチを示している。 https://github.com/ac005sheekar/CEIMVEN-Cutting-Edge-Implementation-of-Modified-EfficientNet-V1-V2-f or-BreastCancer-Detection。

Undoubtedly breast cancer identifies itself as one of the most widespread and terrifying cancers across the globe. Millions of women are getting affected each year from it. Breast cancer remains the major one for being the reason of largest number of demise of women. In the recent time of research, Medical Image Computing and Processing has been playing a significant role for detecting and classifying breast cancers from ultrasound images and mammograms, along with the celestial touch of deep neural networks. In this research, we focused mostly on our rigorous implementations and iterative result analysis of different cutting-edge modified versions of EfficientNet architectures namely EfficientNet-V1 (b0-b7) and EfficientNet-V2 (b0-b3) with ultrasound image, named as CEIMVEN. We utilized transfer learning approach here for using the pre-trained models of EfficientNet versions. We activated the hyper-parameter tuning procedures, added fully connected layers, discarded the unprecedented outliers and recorded the accuracy results from our custom modified EfficientNet architectures. Our deep learning model training approach was related to both identifying the cancer affected areas with region of interest (ROI) techniques and multiple classifications (benign, malignant and normal). The approximate testing accuracies we got from the modified versions of EfficientNet-V1 (b0- 99.15%, b1- 98.58%, b2- 98.43%, b3- 98.01%, b4- 98.86%, b5- 97.72%, b6- 97.72%, b7- 98.72%) and EfficientNet-V2 (b0- 99.29%, b1- 99.01%, b2- 98.72%, b3- 99.43%) are showing very bright future and strong potentials of deep learning approach for the successful detection and classification of breast cancers from the ultrasound images at a very early stage. The code for this research is available here: https://github.com/ac005sheekar/CEIMVEN-Cutting-Edge-Implementation-of-Modified-EfficientNet-V1-V2-f or-BreastCancer-Detection.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-24
# InsertNeRF: HyperNetモジュールによるNeRFへの一般化可能性の注入

InsertNeRF: Instilling Generalizability into NeRF with HyperNet Modules ( http://arxiv.org/abs/2308.13897v2 )

ライセンス: Link先を確認
Yanqi Bao, Tianyu Ding, Jing Huo, Wenbin Li, Yuxin Li, Yang Gao, (参考訳) NeRF(Neural Radiance Fields)を新しいシーンに一般化することは、既存のアプローチがバニラのNeRFフレームワークに広範な変更を加えることなく対処する上で、大きな課題である。 InsertNeRF, INStilling gEneRalizabiliTy into NeRF。 複数のプラグアンドプレイHyperNetモジュールを利用することで、InsertNeRFはNeRFの重みを特定の参照シーンに動的に調整し、マルチスケールのサンプリングアウェア機能をシーン固有の表現に変換する。 この新しい設計により、複雑な外観や幾何学をより正確かつ効率的に表現することができる。 実験により, この手法はより優れた一般化性能を実現するだけでなく, スパース入力設定においても他のNeRF系システムと統合するための柔軟な経路を提供することが示された。 コードはhttps://github.com/bbbbby-99/InsertNeRF.orgで入手できる。

Generalizing Neural Radiance Fields (NeRF) to new scenes is a significant challenge that existing approaches struggle to address without extensive modifications to vanilla NeRF framework. We introduce InsertNeRF, a method for INStilling gEneRalizabiliTy into NeRF. By utilizing multiple plug-and-play HyperNet modules, InsertNeRF dynamically tailors NeRF's weights to specific reference scenes, transforming multi-scale sampling-aware features into scene-specific representations. This novel design allows for more accurate and efficient representations of complex appearances and geometries. Experiments show that this method not only achieves superior generalization performance but also provides a flexible pathway for integration with other NeRF-like systems, even in sparse input settings. Code will be available https://github.com/bbbbby-99/InsertNeRF.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-24
# 自律走行における運動関連モジュールのDRLに基づく軌道追跡

DRL-Based Trajectory Tracking for Motion-Related Modules in Autonomous Driving ( http://arxiv.org/abs/2308.15991v3 )

ライセンス: Link先を確認
Yinda Xu, Lidong Yu, (参考訳) 自律運転システムは、常にプランナーやコントローラのような運動関連モジュール上に構築される。 運動関連モジュールが原始的なルーチンであるためには、正確で堅牢な軌道追跡法が不可欠である。 現在の手法は、コンテキストやダイナミクスのようなモデルについて強い仮定をすることが多いが、現実のシステムの変化するシナリオに対処するのに十分なロバストではない。 本稿では,自律走行システムにおける運動関連モジュールに対する深部強化学習(DRL)に基づく軌道追跡手法を提案する。 DLの表現学習能力とRLの探索特性は強靭性と精度の向上をもたらす。 一方、モデルフリーでデータ駆動の方法で軌道追跡を実行することで、汎用性を向上させる。 実験により,本手法の有効性と有効性について検討した。 コードとドキュメントは、さらなる研究と産業展開を促進するためにリリースされている。

Autonomous driving systems are always built on motion-related modules such as the planner and the controller. An accurate and robust trajectory tracking method is indispensable for these motion-related modules as a primitive routine. Current methods often make strong assumptions about the model such as the context and the dynamics, which are not robust enough to deal with the changing scenarios in a real-world system. In this paper, we propose a Deep Reinforcement Learning (DRL)-based trajectory tracking method for the motion-related modules in autonomous driving systems. The representation learning ability of DL and the exploration nature of RL bring strong robustness and improve accuracy. Meanwhile, it enhances versatility by running the trajectory tracking in a model-free and data-driven manner. Through extensive experiments, we demonstrate both the efficiency and effectiveness of our method compared to current methods. Code and documentation are released to facilitate both further research and industrial deployment.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-24
# 協調拡散回復様相によるエネルギーモデル学習

Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood ( http://arxiv.org/abs/2309.05153v3 )

ライセンス: Link先を確認
Yaxuan Zhu, Jianwen Xie, Yingnian Wu, Ruiqi Gao, (参考訳) 高次元データ上でのエネルギーベースモデル(EBM)の訓練は困難かつ時間を要する可能性がある。 拡散回復率(DRL)を最大化してESMを学習する最近の取り組みに触発されて,このギャップを埋めるため,各ESMの初期化モデルと組み合わせて,ますます騒々しいバージョンのデータセット上で定義された一連のESMから効果的に学習し,サンプルを抽出する,協調拡散回復可能性(CDRL)を提案する。 各ノイズレベルにおいて、2つのモデルが協調的なトレーニングフレームワーク内で共同で推定される:初期化器からのサンプルは、EMMからのいくつかのMCMCサンプリングステップによって洗練される出発点として機能する。 EBMは回収可能性の最大化により最適化され、イニシャライザモデルは精製試料と初期試料の差から学習することで最適化される。 さらに,ESMトレーニングの実践的な設計を行い,サンプルの品質をさらに向上させた。 CIFAR-10 および ImageNet データセット上の既存の EBM 手法と比較して,これらの進歩と組み合わせることで生成性能が大幅に向上する。 また,分類器フリーガイド生成,構成生成,画像インペイント,アウト・オブ・ディストリビューション検出など,下流タスクにおけるモデルの有効性を実証した。

Training energy-based models (EBMs) on high-dimensional data can be both challenging and time-consuming, and there exists a noticeable gap in sample quality between EBMs and other generative frameworks like GANs and diffusion models. To close this gap, inspired by the recent efforts of learning EBMs by maximizing diffusion recovery likelihood (DRL), we propose cooperative diffusion recovery likelihood (CDRL), an effective approach to tractably learn and sample from a series of EBMs defined on increasingly noisy versions of a dataset, paired with an initializer model for each EBM. At each noise level, the two models are jointly estimated within a cooperative training framework: samples from the initializer serve as starting points that are refined by a few MCMC sampling steps from the EBM. The EBM is then optimized by maximizing recovery likelihood, while the initializer model is optimized by learning from the difference between the refined samples and the initial samples. In addition, we made several practical designs for EBM training to further improve the sample quality. Combining these advances, our approach significantly boost the generation performance compared to existing EBM methods on CIFAR-10 and ImageNet datasets. We also demonstrate the effectiveness of our models for several downstream tasks, including classifier-free guided generation, compositional generation, image inpainting and out-of-distribution detection.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-24
# ReverSIM: ハードウェアリバースエンジニアリングにおけるヒューマンアスペクトを研究するゲームベースの環境

REVERSIM: A Game-Based Environment to Study Human Aspects in Hardware Reverse Engineering ( http://arxiv.org/abs/2309.05740v2 )

ライセンス: Link先を確認
Steffen Becker, René Walendy, Markus Weber, Carina Wiesen, Nikol Rummel, Christof Paar, (参考訳) ハードウェアリバースエンジニアリング(英: Hardware Reverse Engineering, HRE)は、集積回路(IC)を解析するための技術である。 専門家は、トロイの木馬の検出や知的財産権侵害など、セキュリティクリティカルなタスクにHREを使用している。 彼らは自身の経験やカスタマイズされたツールだけでなく、認知能力にも依存しています。 HREに関わる認知プロセスを評価するための制御された実験を実施することで、ハードウェア保護のための新たな道を開くことができる。 しかし、HREの専門家は現実世界の環境での実験的な研究には利用できない。 この課題に対処するため、現実的なHREサブプロセスを模倣し、標準化された認知テストを統合するゲームベースの環境であるREVERSIMを開発した。 REVERSIMは、HREに関連する認知的要因を明らかにするために、非専門家を簡単に検索できる定量的研究を可能にし、その後、小さな専門家のサンプルで検証することができる。 まず,REVERSIMが現実のHRE問題と相容れないことを証明したHREドメインの専門家14名を対象に,半構造化インタビューを行った。 第2に,参加者109名を対象にオンラインユーザスタディを行い,ドメイン固有の事前知識の少ないREVERSIMを実践できることを実証した。 本稿では,厳格なスクリーニング基準,詳細な性能指標の導出,REVERSIMにおけるメンタルスピードの認知的テストの実施に成功し,革新的なハードウェア保護機構の開発におけるパズルの重要なピースとなる。

Hardware Reverse Engineering (HRE) is a technique for analyzing Integrated Circuits (ICs). Experts employ HRE for security-critical tasks, such as detecting Trojans or intellectual property violations. They rely not only on their experience and customized tools but also on their cognitive abilities. Conducting controlled experiments to assess the cognitive processes involved in HRE can open new avenues for hardware protection. However, HRE experts are largely unavailable for empirical research in real-world settings. To address this challenge, we have developed REVERSIM, a game-based environment that mimics realistic HRE subprocesses and can integrate standardized cognitive tests. REVERSIM enables quantitative studies with easier-to-recruit non-experts to uncover cognitive factors relevant to HRE, which can subsequently be validated with small expert samples. To evaluate the design of REVERSIM, the minimum requirements for successful participation, and its measurement capabilities, we conducted two studies: First, we performed semi-structured interviews with 14 professionals and researchers from the HRE domain, who attested to the comparability of REVERSIM to real-world HRE problems. Second, we conducted an online user study with 109 participants, demonstrating that they could engage in REVERSIM with low domain-specific prior knowledge. We provide refined screening criteria, derive fine-grained performance metrics, and successfully perform a cognitive test for mental speed in REVERSIM, thus contributing an important piece of the puzzle for the development of innovative hardware protection mechanisms.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-24
# 機械学習とウェアラブルデバイスデータを用いた高齢者の認知機能評価 : 実現可能性調査

Assessing cognitive function among older adults using machine learning and wearable device data: a feasibility study ( http://arxiv.org/abs/2309.07133v2 )

ライセンス: Link先を確認
Collin Sakal, Tingyou Li, Juan Li, Xinyue Li, (参考訳) 高齢者の認知機能低下を遅らせるための介入のタイムリーな実施には、認知機能の変化を検出するための正確なモニタリングが必要である。 認知に関連する要因を継続的に監視できるウェアラブルデバイスを使用して収集されたデータは、機械学習モデルをトレーニングし、ウェアラブルベースの認知監視システムを開発するために使用できる。 NHANES(National Health and Nutrition Examination Survey)の2400人以上の高齢者のデータを用いて、認知機能の異なる領域を測定する3つの認知テストの結果に基づいて、正常な認知力を持つ高齢者と認知力の低い高齢者を区別する予測モデルを開発した。 CatBoost, XGBoost, Random Forest モデルでは, 処理速度, 作業記憶, 注意に基づく認知の予測において, 即時的, 遅延的リコール (中間的 AUCs >0.72) およびカテゴリー的言語流速 (中間的 AUCs >0.68) と比較して, 最適に動作した。 活動と睡眠パラメータは、他の認知サブドメインと比較して、処理速度、作業記憶、注意に強く関連していた。 我々の研究は、ウェアラブルベースの認知モニタリングシステムが、処理速度、作業記憶、注意力を監視する従来の方法の代替となるかもしれないという概念実証を提供する。 さらに、睡眠と活動パラメータが高齢者の認知機能にどのように影響するかをよりよく理解するために、将来の因果研究の標的となる可能性のある新しい指標を特定した。

Timely implementation of interventions to slow cognitive decline among older adults requires accurate monitoring to detect changes in cognitive function. Data gathered using wearable devices that can continuously monitor factors known to be associated with cognition could be used to train machine learning models and develop wearable-based cognitive monitoring systems. Using data from over 2,400 older adults in the National Health and Nutrition Examination Survey (NHANES) we developed prediction models to differentiate older adults with normal cognition from those with poor cognition based on outcomes from three cognitive tests measuring different domains of cognitive function. During repeated cross-validation, CatBoost, XGBoost, and Random Forest models performed best when predicting cognition based on processing speed, working memory, and attention (median AUCs >0.82) compared to immediate and delayed recall (median AUCs >0.72) and categorical verbal fluency (median AUC >0.68). Activity and sleep parameters were also more strongly associated with processing speed, working memory, and attention compared to other cognitive subdomains. Our work provides proof of concept that wearable-based cognitive monitoring systems may be a viable alternative to traditional methods for monitoring processing speeds, working memory, and attention. We further identified novel metrics that could be targets in future causal studies seeking to better understand how sleep and activity parameters influence cognitive function among older adults.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-24
# 指数的に強化された非エルミタン冷却

Exponentially Enhanced non-Hermitian Cooling ( http://arxiv.org/abs/2309.07731v2 )

ライセンス: Link先を確認
Haowei Xu, Uroš Delić, Guoqing Wang, Changhao Li, Paola Cappellaro, Ju Li, (参考訳) ある種の非エルミート系は皮膚効果を示し、そこで波動関数は系の片端で指数関数的に局在する。 このような指数関数的な波動関数の増幅は、古典的、量子センシングなどの応用の可能性から大きな注目を集めている。 しかし、指数的に抑制された波動関数に特徴付けられるシステムの反対側のエッジは、ほとんど探索されていない。 この現象を生かした非エルミタン冷却機構を導入し、従来の冷却技術やレーザー冷却技術と根本的に異なる。 特に、非ハーモニティ性は熱励起を増幅するのではなく、再分配する。 したがって、熱励起は系の一方の端で冷却することができ、その冷却効果は、環境との消散的な相互作用に依存する低い境界を持つにもかかわらず、補助モードの数によって指数関数的に増強することができる。 非エルミート冷却は例外点や非自明な位相のような複雑な性質に依存しず、光子、フォノン、マグノンなど幅広いボソニックモードに適用できる。

Certain non-Hermitian systems exhibit the skin effect, whereby the wavefunctions become exponentially localized at one edge of the system. Such exponential amplification of wavefunction has received significant attention due to its potential applications in e.g., classical and quantum sensing. However, the opposite edge of the system, featured by the exponentially suppressed wavefunctions, remains largely unexplored. Leveraging this phenomenon, we introduce a non-Hermitian cooling mechanism, which is fundamentally distinct from traditional refrigeration or laser cooling techniques. Notably, non-Hermiticity will not amplify thermal excitations, but rather redistribute them. Hence, thermal excitations can be cooled down at one edge of the system, and the cooling effect can be exponentially enhanced by the number of auxiliary modes, albeit with a lower bound that depends on the dissipative interaction with the environment. Non-Hermitian cooling does not rely on intricate properties such as exceptional points or non-trivial topology, and it can apply to a wide range of Bosonic modes such as photons, phonons, magnons, etc.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-24
# 帰納的リンク予測のための関係関係の完全なトポロジ-アウェア相関の学習

Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction ( http://arxiv.org/abs/2309.11528v2 )

ライセンス: Link先を確認
Jie Wang, Hanzhu Chen, Qitan Lv, Zhihao Shi, Jiajun Chen, Huarui He, Hongtao Xie, Yongdong Zhang, Feng Wu, (参考訳) インダクティブリンク予測 -- トレーニング中のエンティティと推論段階が異なる場合 -- は、エンティティに依存しない方法で進化する知識グラフを完了させる大きな可能性を示している。 多くの一般的な手法はグラフレベルの特徴のモデリングに重点を置いているが、エッジレベルの相互作用、特に関係のセマンティックな相関は研究されていない。 しかし、関係間の意味的相関の望ましい性質は、それらが本質的にエッジレベルとエンティティ非依存であることに気付く。 これは、エンティティに依存しない帰納的リンク予測タスクに対する意味的相関の大きな可能性を意味する。 本研究は, グラフ内のトポロジ構造と高い相関関係を持つ関係関係のトポロジ・アウェア・コレーションをモデル化するための, 新たなサブグラフベース手法であるTACOを提案する。 具体的には,2つの関係間の意味的相関を7つのトポロジ的パターンに分類できることを証明し,各パターンの重要性を学習するために関係相関ネットワーク(RCN)を提案する。 RCN のポテンシャルをさらに活用するために,この部分グラフ内の完全なトポロジカルパターンを効果的に保存できる完全コモンニアインダストリアルサブグラフを提案する。 大規模な実験により、TACOはグラフレベル情報とエッジレベル相互作用を効果的に統一し、推論を共同で行うことが示され、帰納的リンク予測タスクの既存の最先端手法よりも優れた性能が得られる。

Inductive link prediction -- where entities during training and inference stages can be different -- has shown great potential for completing evolving knowledge graphs in an entity-independent manner. Many popular methods mainly focus on modeling graph-level features, while the edge-level interactions -- especially the semantic correlations between relations -- have been less explored. However, we notice a desirable property of semantic correlations between relations is that they are inherently edge-level and entity-independent. This implies the great potential of the semantic correlations for the entity-independent inductive link prediction task. Inspired by this observation, we propose a novel subgraph-based method, namely TACO, to model Topology-Aware COrrelations between relations that are highly correlated to their topological structures within subgraphs. Specifically, we prove that semantic correlations between any two relations can be categorized into seven topological patterns, and then proposes Relational Correlation Network (RCN) to learn the importance of each pattern. To further exploit the potential of RCN, we propose Complete Common Neighbor induced subgraph that can effectively preserve complete topological patterns within the subgraph. Extensive experiments demonstrate that TACO effectively unifies the graph-level information and edge-level interactions to jointly perform reasoning, leading to a superior performance over existing state-of-the-art methods for the inductive link prediction task.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-24
# 静的データセットを用いた数値騒音検出モデルの限界の検討

Examining the Limitations of Computational Rumor Detection Models Trained on Static Datasets ( http://arxiv.org/abs/2309.11576v2 )

ライセンス: Link先を確認
Yida Mu, Xingyi Song, Kalina Bontcheva, Nikolaos Aletras, (参考訳) 噂検出モデルの重要な側面は、その一般化能力、特に、以前に未知の噂を検出する能力である。 過去の研究では、コンテンツベース(つまり、入力としてのみソースポストを使用する)の噂検出モデルは、目に見えない噂に対して効果が低い傾向があることが示されている。 同時に、コンテキストベースのモデルの可能性は、ほとんど未解決のままである。 本研究の主な貢献は、コンテンツとコンテキストベースモデル間の性能ギャップの詳細な評価であり、特に新しい未知の噂を検出することである。 我々の経験的知見は、コンテキストベースモデルは、まだ噂のソース投稿から得られた情報に過度に依存しており、文脈情報が果たす重要な役割を見逃す傾向があることを示している。 また,データ分割戦略が分類器の性能に及ぼす影響についても検討した。 実験結果に基づいて,噂検出手法の訓練において,静的データセットにおける時間的概念ドリフトの影響を最小限に抑えるための実用的な提案を行った。

A crucial aspect of a rumor detection model is its ability to generalize, particularly its ability to detect emerging, previously unknown rumors. Past research has indicated that content-based (i.e., using solely source posts as input) rumor detection models tend to perform less effectively on unseen rumors. At the same time, the potential of context-based models remains largely untapped. The main contribution of this paper is in the in-depth evaluation of the performance gap between content and context-based models specifically on detecting new, unseen rumors. Our empirical findings demonstrate that context-based models are still overly dependent on the information derived from the rumors' source post and tend to overlook the significant role that contextual information can play. We also study the effect of data split strategies on classifier performance. Based on our experimental results, the paper also offers practical suggestions on how to minimize the effects of temporal concept drift in static datasets during the training of rumor detection methods.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-24
# SG-Bot: シーングラフ上の粗いロボットイマジネーションによるオブジェクト再構成

SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs ( http://arxiv.org/abs/2309.12188v2 )

ライセンス: Link先を確認
Guangyao Zhai, Xiaoni Cai, Dianye Huang, Yan Di, Fabian Manhardt, Federico Tombari, Nassir Navab, Benjamin Busam, (参考訳) オブジェクトの再配置は、ロボットと環境の相互作用において重要なものであり、AIを具現化する上で重要な能力を示している。 本稿では,シーングラフをシーン表現として用いた粗粒度スキームを用いた新しい再構成フレームワークであるSG-Botを提案する。 SG-Botは、既知のゴール先またはゼロショットの大型モデルに依存する従来の手法とは異なり、軽量でリアルタイムでユーザ制御可能な特性を実証し、コモンセンス知識と自動生成能力をシームレスに組み合わせている。 SG-Botは3倍のプロシージャ – 観察,想像,実行 – を使って,タスクに順応的に対処する。 当初、物体は観察中に散らかったシーンから識別され、抽出される。 これらのオブジェクトはまず、常識またはユーザ定義の基準によってガイドされ、シーングラフ内で粗く整理され、表現される。 その後、このシーングラフは生成モデルに通知し、初期シーンからの形状情報とオブジェクトの意味性を考慮した微粒なゴールシーンを形成する。 最後に、実行のために、初期および想定されたゴールシーンは、ロボットアクションポリシーを定式化するために一致します。 実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。

Object rearrangement is pivotal in robotic-environment interactions, representing a significant capability in embodied AI. In this paper, we present SG-Bot, a novel rearrangement framework that utilizes a coarse-to-fine scheme with a scene graph as the scene representation. Unlike previous methods that rely on either known goal priors or zero-shot large models, SG-Bot exemplifies lightweight, real-time, and user-controllable characteristics, seamlessly blending the consideration of commonsense knowledge with automatic generation capabilities. SG-Bot employs a three-fold procedure--observation, imagination, and execution--to adeptly address the task. Initially, objects are discerned and extracted from a cluttered scene during the observation. These objects are first coarsely organized and depicted within a scene graph, guided by either commonsense or user-defined criteria. Then, this scene graph subsequently informs a generative model, which forms a fine-grained goal scene considering the shape information from the initial scene and object semantics. Finally, for execution, the initial and envisioned goal scenes are matched to formulate robotic action policies. Experimental results demonstrate that SG-Bot outperforms competitors by a large margin.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-24
# 論理による大規模言語モデルにおけるゼロショット・チェーン・オブ・サート推論の強化

Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic ( http://arxiv.org/abs/2309.13339v3 )

ライセンス: Link先を確認
Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter, (参考訳) 大規模言語モデルの最近の進歩は、様々な領域にまたがる顕著な一般化性を示している。 しかしながら、これらの推論能力は、特に多段階の推論を必要とするシナリオに直面した場合には、改善の余地が依然として大きい。 大きな言語モデルは広い知識を持っているが、その推論はしばしば、この知識を効果的に活用して一貫性のある思考パラダイムを確立するのに失敗する。 これらのモデルは、それらの推論手順が論理原理によって制約されないため、幻覚を示すこともある。 大規模言語モデルのゼロショット連鎖推論能力の向上を目的として,記号論理,特にReducetio ad Absurdumに根ざした原理を活用する自己改善促進フレームワークであるLoT (Logical Thoughts)を提案する。 算術,コモンセンス,記号,因果推論,社会問題など多種多様な領域における言語課題に対する実験的評価は,論理学による推論の強化の有効性を実証する。 LoTの実装コードは以下の通りである。

Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their reasoning often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. These models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming at improving the zero-shot chain-of-thought reasoning ability of large language models, we propose LoT (Logical Thoughts), a self-improvement prompting framework that leverages principles rooted in symbolic logic, particularly Reductio ad Absurdum, to systematically verify and rectify the reasoning processes step by step. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of enhanced reasoning by logic. The implementation code for LoT can be accessed at: \url{https://github.com/xf-zhao/LoT}.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-24
# 計測輸送による密度推定:生物科学への応用の展望

Density Estimation via Measure Transport: Outlook for Applications in the Biological Sciences ( http://arxiv.org/abs/2309.15366v3 )

ライセンス: Link先を確認
Vanessa Lopez-Marrero, Patrick R. Johnstone, Gilchan Park, Xihaier Luo, (参考訳) 測度輸送手法のいくつかの利点の1つは、広範囲の確率測度に応じて分散されたデータの処理と分析のための統一されたフレームワークを可能にすることである。 本研究は, 生体科学研究を支援するためのワークフローの一環として, 三角輸送マップの利用について, 計測輸送技術の可能性を評価することを目的とした計算研究の結果を提示する。 放射線生物学などの分野に共通する限られたサンプルデータの入手が特徴のシナリオは特に興味深い。 サンプルデータ量に制限がある分布密度関数を推定すると,適応輸送写像が有利であることがわかった。 特に、利用可能なデータサンプルの集合のランダムに選択された一連のサブセットに基づいて訓練された、一連の適応トランスポートマップから収集された統計は、データに隠された情報を明らかにする。 その結果, 放射線生物応用において, 本手法は, 放射線被曝下での遺伝子関係とその動態に関する仮説を生成するためのツールを提供する。

One among several advantages of measure transport methods is that they allow for a unified framework for processing and analysis of data distributed according to a wide class of probability measures. Within this context, we present results from computational studies aimed at assessing the potential of measure transport techniques, specifically, the use of triangular transport maps, as part of a workflow intended to support research in the biological sciences. Scenarios characterized by the availability of limited amount of sample data, which are common in domains such as radiation biology, are of particular interest. We find that when estimating a distribution density function given limited amount of sample data, adaptive transport maps are advantageous. In particular, statistics gathered from computing series of adaptive transport maps, trained on a series of randomly chosen subsets of the set of available data samples, leads to uncovering information hidden in the data. As a result, in the radiation biology application considered here, this approach provides a tool for generating hypotheses about gene relationships and their dynamics under radiation exposure.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-24
# 大規模言語モデルの低ビット量量子化のためのチャネル次元の再検討

Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models ( http://arxiv.org/abs/2309.15531v2 )

ライセンス: Link先を確認
Jung Hwan Heo, Jeonghoon Kim, Beomseok Kwon, Byeongwook Kim, Se Jung Kwon, Dongsoo Lee, (参考訳) 大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。 しかし、LLMを効率的に提供することは、特に小さなバッチ推論設定(モバイルデバイスなど)において、大きなメモリボトルネックのため、課題となっている。 重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。 まず,従来の出力チャネル(per-OC)ではなく,各入力チャネル(IC)内で量子化グループを生成する,単純かつ効果的な手法であるper-IC量子化を提案する。 本手法は, 活性化降圧器が重み行列の入力次元に影響を及ぼすという観測結果に動機付けられ, 同様にIC方向の重みをグループ内で分離することができる。 また、アクティベーション・アウトリアは量子化の難しさを規定せず、固有の重み感性も存在します。 我々は,IC単位の量子化を新しい外れ値に優しいスキームとして,様々な重み感度パターンに適応できる多元的量子化フレームワークであるAdaptive Dimensions (AdaDim)を提案する。 本稿では,AdaDim の有効性を,ラウンド・トゥ・ナエストや GPTQ などの先行手法を改良し,ベース(MMLU では+4.7%) と命令調整 (HumanEval では+10%) の両方において,様々な言語モデリングベンチマークにおいて有意な改善を示した。 コードはhttps://github.com/johnheo/adadim-llmで入手できる。

Large Language Models (LLMs) have recently demonstrated remarkable success across various tasks. However, efficiently serving LLMs has been a challenge due to the large memory bottleneck, specifically in small batch inference settings (e.g. mobile devices). Weight-only quantization can be a promising approach, but sub-4 bit quantization remains a challenge due to large-magnitude activation outliers. To mitigate the undesirable outlier effect, we first propose per-IC quantization, a simple yet effective method that creates quantization groups within each input channel (IC) rather than the conventional per-output-channel (per-OC). Our method is motivated by the observation that activation outliers affect the input dimension of the weight matrix, so similarly grouping the weights in the IC direction can isolate outliers within a group. We also find that activation outliers do not dictate quantization difficulty, and inherent weight sensitivities also exist. With per-IC quantization as a new outlier-friendly scheme, we propose Adaptive Dimensions (AdaDim), a versatile quantization framework that can adapt to various weight sensitivity patterns. We demonstrate the effectiveness of AdaDim by augmenting prior methods such as Round-To-Nearest and GPTQ, showing significant improvements across various language modeling benchmarks for both base (up to +4.7% on MMLU) and instruction-tuned (up to +10% on HumanEval) LLMs. Code is available at https://github.com/johnheo/adadim-llm
翻訳日:2024-03-27 02:57:27 公開日:2024-03-24
# HyMNet: 基礎写真と心臓メタボリックリスクファクターを用いた高血圧分類のためのマルチモーダルディープラーニングシステム

HyMNet: a Multimodal Deep Learning System for Hypertension Classification using Fundus Photographs and Cardiometabolic Risk Factors ( http://arxiv.org/abs/2310.01099v2 )

ライセンス: Link先を確認
Mohammed Baharoon, Hessa Almatar, Reema Alduhayan, Tariq Aldebasi, Badr Alahmadi, Yahya Bokhari, Mohammed Alawad, Ahmed Almazroa, Abdulrhman Aljouie, (参考訳) 近年、深層学習は、基礎画像から高血圧(HTN)を予測することを約束している。 しかし、これまでのほとんどの研究は、主に単一のタイプのデータを分析することに重点を置いており、これはHTNリスクの完全な複雑さを捉えていないかもしれない。 この制限に対処するために、HyMNetと呼ばれるマルチモーダルディープラーニング(MMDL)システムを導入する。 我々のMMDLシステムは、約1.6万枚の網膜画像に基づいて事前訓練された基礎モデルであるRETFoundを、基底パスと年齢と性別パスのための完全に接続されたニューラルネットワークに使用しています。 2つの経路は、融合ネットワークに供給される各経路から特徴ベクトルを連結することにより共同で訓練される。 このシステムはサウジアラビア国防省から収集された1,243人の網膜画像5,016枚で訓練された。 その結果, 眼底画像と年齢, 性別を併用したマルチモーダルモデルでは, F1スコアが0.771[0.747, 0.796], 0.745[0.719, 0.772], F1スコアが0.771[0.747, 0.796], F1スコアは0.745[0.719, 0.772]であった。 さらに,糖尿病が糖尿病の予測能力に与える影響について検討し,糖尿病が高血圧患者を識別する指標として有用であると結論づけた。 私たちのコードとモデルの重み付けはhttps://github.com/MohammedSB/HyMNet.comで公開されています。

In recent years, deep learning has shown promise in predicting hypertension (HTN) from fundus images. However, most prior research has primarily focused on analyzing a single type of data, which may not capture the full complexity of HTN risk. To address this limitation, this study introduces a multimodal deep learning (MMDL) system, dubbed HyMNet, which combines fundus images and cardiometabolic risk factors, specifically age and gender, to improve hypertension detection capabilities. Our MMDL system uses RETFound, a foundation model pre-trained on 1.6 million retinal images, for the fundus path and a fully connected neural network for the age and gender path. The two paths are jointly trained by concatenating the feature vectors from each path that are then fed into a fusion network. The system was trained on 5,016 retinal images from 1,243 individuals collected from the Saudi Ministry of National Guard Health Affairs. The results show that the multimodal model that integrates fundus images along with age and gender outperforms the unimodal system trained solely on fundus photographs, with an F1 score of 0.771 [0.747, 0.796], and 0.745 [0.719, 0.772] for hypertension detection, respectively. Additionally, we studied the effect underlying diabetes mellitus has on the model's predictive ability, concluding that diabetes is used as a confounding variable for distinguishing hypertensive cases. Our code and model weights are publicly available at https://github.com/MohammedSB/HyMNet.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-24
# 点PEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v6 )

ライセンス: Link先を確認
Yiwen Tang, Ray Zhang, Zoey Guo, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li, (参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。 下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。 しかし,3次元事前学習モデルのPEFT法はまだ未検討である。 そこで本研究では,学習可能な最小限のパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。 具体的には、事前学習された3Dモデルに対して、パラメータのほとんどを凍結し、新たに追加されたPEFTモジュールを下流タスクで調整する。 Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。 Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。 実験結果から, 学習パラメータの5%しか使用せず, 各種下流タスクの完全微調整よりも優れた性能を達成できることが示唆された。 コードはhttps://github.com/Ivan-Tang-3D/Point-PEFTで公開されている。

The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code is released at https://github.com/Ivan-Tang-3D/Point-PEFT.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-24
# Lemur: プログラムの自動検証に大規模言語モデルを統合する

Lemur: Integrating Large Language Models in Automated Program Verification ( http://arxiv.org/abs/2310.04870v3 )

ライセンス: Link先を確認
Haoze Wu, Clark Barrett, Nina Narodytska, (参考訳) LLMの実証されたコード理解能力は、検証ツールで難しいプログラムプロパティに関する高度な抽象的推論を必要とするタスクである自動プログラム検証に使用できるかどうかという問題を提起する。 自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせるための一般的な手法を提案する。 我々は、この方法論を導出規則の集合として公式に記述し、その健全性を証明する。 計算を音響自動検証の手順としてインスタンス化し、一連の合成および競合ベンチマークを実践的に改善した。

The demonstrated code-understanding capability of LLMs raises the question of whether they can be used for automated program verification, a task that demands high-level abstract reasoning about program properties that is challenging for verification tools. We propose a general methodology to combine the power of LLMs and automated reasoners for automated program verification. We formally describe this methodology as a set of derivation rules and prove its soundness. We instantiate the calculus as a sound automated verification procedure, which led to practical improvements on a set of synthetic and competition benchmarks.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-24
# UCM-Net:MLPとCNNを用いた皮膚病変分割のための軽量かつ効率的な解法

UCM-Net: A Lightweight and Efficient Solution for Skin Lesion Segmentation using MLP and CNN ( http://arxiv.org/abs/2310.09457v2 )

ライセンス: Link先を確認
Chunyu Yuan, Dongfang Zhao, Sos S. Agaian, (参考訳) 皮膚がんは公衆衛生上の重要な問題であり、コンピュータ支援による診断はそれを予防し治療するのに役立ちます。 コンピュータ支援診断の重要なステップは、画像中の皮膚の病変を正確に分類することであり、病変の検出、分類、分析を可能にする。 しかし, この課題は, 外観, 形状, 形状, 色, テクスチャ, 位置, およびノイズ, アーティファクト, 閉塞などの画像品質の問題など, 病変の多様な特徴により困難である。 深層学習モデルは、最近、皮膚病変のセグメンテーションに応用されているが、パラメータ数と計算要求が高く、モバイル健康アプリケーションには適さない。 本稿では,MLP(Multi-Layer Perceptions)とCNN(Convolutional Neural Networks)を統合した,新しい,効率的で軽量なソリューションであるUCM-Netを提案する。 従来のUCMNetアーキテクチャとは異なり、UCMNet-Blockはパラメータのオーバーヘッドを減らし、UCM-Netの学習能力を向上し、堅牢なセグメンテーション性能をもたらす。 我々は、PH2、isic2017、isic2018データセットに関する広範な実験を通じて、UCM-Netの競争力を検証した。 注目すべきは、UCM-Netは50KB未満のパラメータと0.05ギガ秒未満のGiga-Operations Per Second (GLOPs)を持ち、皮膚病変のセグメンテーションの効率性のための新しい標準を設定できることである。 ソースコードは公開されます。

Skin cancer is a significant public health problem, and computer-aided diagnosis can help to prevent and treat it. A crucial step for computer-aided diagnosis is accurately segmenting skin lesions in images, which allows for lesion detection, classification, and analysis. However, this task is challenging due to the diverse characteristics of lesions, such as appearance, shape, size, color, texture, and location, as well as image quality issues like noise, artifacts, and occlusions. Deep learning models have recently been applied to skin lesion segmentation, but they have high parameter counts and computational demands, making them unsuitable for mobile health applications. To address this challenge, we propose UCM-Net, a novel, efficient, and lightweight solution that integrates Multi-Layer Perceptions (MLP) and Convolutional Neural Networks (CNN). Unlike conventional UNet architectures, our UCMNet-Block reduces parameter overhead and enhances UCM-Net's learning capabilities, leading to robust segmentation performance. We validate UCM-Net's competitiveness through extensive experiments on PH2, isic2017 and isic2018 datasets. Remarkably, UCM-Net has less than 50KB parameters and less than 0.05 Giga-Operations Per Second (GLOPs), setting a new possible standard for efficiency in skin lesion segmentation. The source code will be publicly available.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-24
# 安全駆動型未学習拡散モデルでは、安全でない画像を簡単に生成できる...今のところ

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now ( http://arxiv.org/abs/2310.11868v2 )

ライセンス: Link先を確認
Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang, Jiancheng Liu, Ke Ding, Sijia Liu, (参考訳) 拡散モデル(DM)の最近の進歩は、現実的で複雑な画像の生成に革命をもたらした。 しかし、これらのモデルは有害なコンテンツを生成し、データ著作権を侵害するなど、潜在的な安全リスクも導入する。 これらの課題に対処する安全駆動のアンラーニング技術が開発されているにもかかわらず、その有効性に疑問が残る。 この問題に対処するため,本稿では,非学習的有害概念のプロセスを経て,これらの安全駆動型DMの信頼性を識別するために,敵対的刺激を活用する評価枠組みを導入する。 具体的には、不要な概念、スタイル、対象を除去する際、敵のプロンプトによって評価されたDMの対向的堅牢性について検討した。 我々は,UnlearnDiffAtk と呼ばれる DM の効率的かつ効率的な対向的プロンプト生成手法を開発した。 本手法は,DMの本質的な分類能力を活用して,敵対的プロンプトの作成を簡素化し,補助的分類や拡散モデルの必要性を解消する。 提案手法の有効性と有効性を示すとともに,DMに適用した場合の現在の安全駆動型アンラーニング手法の堅牢性の欠如を明らかにした。 コードはhttps://github.com/OPTML-Group/Diffusion-MU-Attack.comで公開されている。 WARNING: 本論文は、自然界で攻撃的なモデル出力を含む。

The recent advances in diffusion models (DMs) have revolutionized the generation of realistic and complex images. However, these models also introduce potential safety hazards, such as producing harmful content and infringing data copyrights. Despite the development of safety-driven unlearning techniques to counteract these challenges, doubts about their efficacy persist. To tackle this issue, we introduce an evaluation framework that leverages adversarial prompts to discern the trustworthiness of these safety-driven DMs after they have undergone the process of unlearning harmful concepts. Specifically, we investigated the adversarial robustness of DMs, assessed by adversarial prompts, when eliminating unwanted concepts, styles, and objects. We develop an effective and efficient adversarial prompt generation approach for DMs, termed UnlearnDiffAtk. This method capitalizes on the intrinsic classification abilities of DMs to simplify the creation of adversarial prompts, thereby eliminating the need for auxiliary classification or diffusion models.Through extensive benchmarking, we evaluate the robustness of five widely-used safety-driven unlearned DMs (i.e., DMs after unlearning undesirable concepts, styles, or objects) across a variety of tasks. Our results demonstrate the effectiveness and efficiency merits of UnlearnDiffAtk over the state-of-the-art adversarial prompt generation method and reveal the lack of robustness of current safety-driven unlearning techniques when applied to DMs. Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: This paper contains model outputs that may be offensive in nature.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-24
# 時系列解析のためのマルチスケール分解型MLPミクサ

A Multi-Scale Decomposition MLP-Mixer for Time Series Analysis ( http://arxiv.org/abs/2310.11959v2 )

ライセンス: Link先を確認
Shuhan Zhong, Sizhe Song, Weipeng Zhuo, Guanyao Li, Yang Liu, S. -H. Gary Chan, (参考訳) 単変量および多変量を含む時系列データは、独特な構成と複雑な多スケール時間変動によって特徴づけられる。 分析には分解とマルチスケールモデリングを特に考慮する必要があることが多い。 既存のディープラーニング手法は、一変量時系列のみに最も適しており、サブシリーズモデリングや分解完全性については十分に考慮されていない。 これらの課題に対処するため,MSD-Mixerというマルチスケール分解型MLP-Mixerを提案する。 マルチスケールの時間的パターンと多変量依存を扱うために,時系列をマルチスケールのパッチとしてモデル化するための新しい時間的パッチ手法を提案する。 さらに,分解完全性を向上するために,分解残差の平均と自己相関の両方を制約する新たな損失関数を提案する。 5つの共通時系列解析タスクのための様々な実世界のデータセットに関する広範な実験を通して、MSD-Mixerが、より効率よく他の最先端アルゴリズムよりも一貫して、著しく優れていることを示す。

Time series data, including univariate and multivariate ones, are characterized by unique composition and complex multi-scale temporal variations. They often require special consideration of decomposition and multi-scale modeling to analyze. Existing deep learning methods on this best fit to univariate time series only, and have not sufficiently considered sub-series modeling and decomposition completeness. To address these challenges, we propose MSD-Mixer, a Multi-Scale Decomposition MLP-Mixer, which learns to explicitly decompose and represent the input time series in its different layers. To handle the multi-scale temporal patterns and multivariate dependencies, we propose a novel temporal patching approach to model the time series as multi-scale patches, and employ MLPs to capture intra- and inter-patch variations and channel-wise correlations. In addition, we propose a novel loss function to constrain both the mean and the autocorrelation of the decomposition residual for better decomposition completeness. Through extensive experiments on various real-world datasets for five common time series analysis tasks, we demonstrate that MSD-Mixer consistently and significantly outperforms other state-of-the-art algorithms with better efficiency.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-24
# MAS:2次元拡散を用いた3次元モーション生成のためのマルチビューアンセストラルサンプリング

MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion ( http://arxiv.org/abs/2310.14729v3 )

ライセンス: Link先を確認
Roy Kapon, Guy Tevet, Daniel Cohen-Or, Amit H. Bermano, (参考訳) In-the-wildビデオから得られた動きに基づいて訓練された2次元拡散モデルを用いて、3次元モーション生成の手法であるMulti-view Ancestral Smpling (MAS)を導入する。 そのため、MASは3Dデータが乏しく収集が難しいため、これまで探索されていない、エキサイティングで多様な動きの場に機会を開放する。 MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。 個々の世代を統一された3Dシーケンスに組み合わせ、元のビューに投影することで、各拡散ステップにおけるすべてのビューの一貫性を保証する。 プロバスケットボールの操り方、ボール装置を備えた体操のリズミカルパフォーマンス、競馬の映像から得られた2Dポーズデータを用いてMASを実演する。 それぞれの領域において、3Dモーションキャプチャは困難であるが、MASは多種多様なリアルな3Dシーケンスを生成する。 小修正を繰り返し適用することで各試料を最適化するスコア蒸留法とは異なり,本手法は拡散フレームワークのために構築されたサンプリングプロセスを使用する。 示すように、MASはドメイン外サンプリングやモード崩壊といった一般的な問題を避けます。 https://guytevet.github.io/mas-page/

We introduce Multi-view Ancestral Sampling (MAS), a method for 3D motion generation, using 2D diffusion models that were trained on motions obtained from in-the-wild videos. As such, MAS opens opportunities to exciting and diverse fields of motion previously under-explored as 3D data is scarce and hard to collect. MAS works by simultaneously denoising multiple 2D motion sequences representing different views of the same 3D motion. It ensures consistency across all views at each diffusion step by combining the individual generations into a unified 3D sequence, and projecting it back to the original views. We demonstrate MAS on 2D pose data acquired from videos depicting professional basketball maneuvers, rhythmic gymnastic performances featuring a ball apparatus, and horse races. In each of these domains, 3D motion capture is arduous, and yet, MAS generates diverse and realistic 3D sequences. Unlike the Score Distillation approach, which optimizes each sample by repeatedly applying small fixes, our method uses a sampling process that was constructed for the diffusion framework. As we demonstrate, MAS avoids common issues such as out-of-domain sampling and mode-collapse. https://guytevet.github.io/mas-page/
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# Ghost on the Shell: An Expressive Representation of General 3D Shapes

Ghost on the Shell: An Expressive Representation of General 3D Shapes ( http://arxiv.org/abs/2310.15168v3 )

ライセンス: Link先を確認
Zhen Liu, Yao Feng, Yuliang Xiu, Weiyang Liu, Liam Paull, Michael J. Black, Bernhard Schölkopf, (参考訳) フォトリアリスティックな仮想世界を作るには、幅広い物体の3次元表面形状を正確にモデル化する必要がある。 そのため、メッシュは魅力的です。 1)現実的な物質と照明で高速な物理ベースのレンダリングを可能にする。 2【物理シミュレーション支援】 現代のグラフィックスパイプラインではメモリ効率が良い。 しかし、最近の3次元形状の再構成と統計的モデリングの研究は、メッシュをトポロジカルに非フレキシブルであると批判している。 広い範囲の物体の形状を捉えるためには、どんな3D表現でも、細くオープンな表面だけでなく、固体、水密、形状をモデル化できなければならない。 最近の研究は、前者に焦点を当てており、開放面の再構築方法は、材料や照明や非条件生成モデルによる高速な再構築をサポートしていない。 開放面は水密面に浮かぶ島として見ることができ、水密テンプレート上の多様体符号距離場を定義することにより開面をパラメータ化する。 このパラメータ化により、任意のトポロジーの水密メッシュと非水密メッシュの両方をパラメータ化するグリッドベースで微分可能な表現をさらに発展させる。 我々の新しい表現であるGhost-on-the-Shell(G-Shell)は、2つの重要な応用を可能にする。 我々は,非水密メッシュの再構築および生成作業において,G-Shellが最先端の性能を達成すると同時に,水密メッシュに対して効果的に動作できることを実証的に実証した。

The creation of photorealistic virtual worlds requires the accurate modeling of 3D surface geometry for a wide range of objects. For this, meshes are appealing since they 1) enable fast physics-based rendering with realistic material and lighting, 2) support physical simulation, and 3) are memory-efficient for modern graphics pipelines. Recent work on reconstructing and statistically modeling 3D shape, however, has critiqued meshes as being topologically inflexible. To capture a wide range of object shapes, any 3D representation must be able to model solid, watertight, shapes as well as thin, open, surfaces. Recent work has focused on the former, and methods for reconstructing open surfaces do not support fast reconstruction with material and lighting or unconditional generative modelling. Inspired by the observation that open surfaces can be seen as islands floating on watertight surfaces, we parameterize open surfaces by defining a manifold signed distance field on watertight templates. With this parameterization, we further develop a grid-based and differentiable representation that parameterizes both watertight and non-watertight meshes of arbitrary topology. Our new representation, called Ghost-on-the-Shell (G-Shell), enables two important applications: differentiable rasterization-based reconstruction from multiview images and generative modelling of non-watertight meshes. We empirically demonstrate that G-Shell achieves state-of-the-art performance on non-watertight mesh reconstruction and generation tasks, while also performing effectively for watertight meshes.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# CLEX: 大規模言語モデルのための連続長外挿法

CLEX: Continuous Length Extrapolation for Large Language Models ( http://arxiv.org/abs/2310.16450v3 )

ライセンス: Link先を確認
Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing, (参考訳) Transformer-based Large Language Models (LLM) は、多くの自然言語処理タスクにおいて先駆的な進歩を遂げている。 位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張するのに有効であるが、外挿能力の顕著な制限を示すか、コンテキストウィンドウ内の部分的なパフォーマンスを犠牲にする。 長さ外挿法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張することができるが、実際的なロングコンテキスト応用では性能が劣ることが多い。 これらの課題に対処するため,LLMのためのCLEX(Continuous Length Extrapolation)を提案する。 PEスケーリング手法を一般化し、長さスケーリング係数上の常微分方程式による連続力学をモデル化し、その結果、特定の長さのために設計された現在のPEスケーリング手法の制約を克服する。 さらに、動的をトレーニングシーケンス長を超えて所望のコンテキスト長に拡張することにより、CLEXは、実用的なタスクにおいて印象的なパフォーマンスを持つ長さ外挿を容易にする。 CLEX は LLaMA や GPT-NeoX などのロータリー位置埋め込みを備えた LLM にシームレスに組み込むことができ、トレーニングや推論の遅延には何の影響も与えないことを示した。 実験の結果,CLEXはコンテキストウィンドウを4倍,約8倍のトレーニング長に効果的に拡張でき,性能は劣化しないことがわかった。 さらに,実用的LongBenchベンチマークで評価すると,4k長でトレーニングしたモデルでは,コンテクスト長でトレーニングした最先端のオープンソースモデルに対して,最大32kまでの競合性能を示す。 私たちのコードはhttps://github.com/DAMO-NLP-SG/CLEXで公開されています。

Transformer-based Large Language Models (LLMs) are pioneering advances in many natural language processing tasks, however, their exceptional capabilities are restricted within the preset context window of Transformer. Position Embedding (PE) scaling methods, while effective in extending the context window to a specific length, demonstrate either notable limitations in their extrapolation abilities or sacrificing partial performance within the context window. Length extrapolation methods, although theoretically capable of extending the context window beyond the training sequence length, often underperform in practical long-context applications. To address these challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We generalise the PE scaling approaches to model the continuous dynamics by ordinary differential equations over the length scaling factor, thereby overcoming the constraints of current PE scaling methods designed for specific lengths. Moreover, by extending the dynamics to desired context lengths beyond the training sequence length, CLEX facilitates the length extrapolation with impressive performance in practical tasks. We demonstrate that CLEX can be seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such as LLaMA and GPT-NeoX, with negligible impact on training and inference latency. Experimental results reveal that CLEX can effectively extend the context window to over 4x or almost 8x training length, with no deterioration in performance. Furthermore, when evaluated on the practical LongBench benchmark, our model trained on a 4k length exhibits competitive performance against state-of-the-art open-source models trained on context lengths up to 32k. Our code is available at https://github.com/DAMO-NLP-SG/CLEX.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# UrbanCLIP:Webからのコントラスト言語画像によるテキスト強調都市域プロファイリングの学習

UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web ( http://arxiv.org/abs/2310.18340v2 )

ライセンス: Link先を確認
Yibo Yan, Haomin Wen, Siru Zhong, Wei Chen, Haodong Chen, Qingsong Wen, Roger Zimmermann, Yuxuan Liang, (参考訳) ウェブソースデータからの都市域のプロファイリングは、都市計画と持続可能な開発にとって最も重要である。 特に視覚言語学習などのマルチモーダルデータ研究では,テキストのモダリティが画像の補足情報として機能する。 都市域プロファイリングにおけるモダリティの組み合わせにテキストモダリティは導入されていないので,本論文では2つの基本的疑問に答えることを目指している。 一 テキストモダリティは都市域のプロファイリングを高めることができるか。 ii) もしそうなら、どのような点で、どの面に関して? この疑問に答えるために,我々はLLM(Large Language Models, LLMs)の力を活用し, テキストモダリティの知識を都市画像プロファイリングに統合する初のLLM拡張フレームワーク, LLM拡張都市領域プロファイリング(LLM拡張都市領域プロファイリング, コントラスト言語-画像プレトレーニング(UrbanCLIP)を導入する。 具体的には、まず、オープンソースのImage-to-Text LLMにより、各衛星画像の詳細なテキスト記述を生成する。 そして、画像とテキストのペアに基づいてモデルを訓練し、対照的な損失と言語モデリングの損失を伴って、都市の視覚的表現学習のための自然言語の監督をシームレスに統一する。 中国の4大都市圏における3つの都市指標の予測結果は、最先端の方法と比較して、R^2の平均6.1%向上したことを示す。 私たちのコードと画像言語データセットは、紙の通知でリリースされます。

Urban region profiling from web-sourced data is of utmost importance for urban planning and sustainable development. We are witnessing a rising trend of LLMs for various fields, especially dealing with multi-modal data research such as vision-language learning, where the text modality serves as a supplement information for the image. Since textual modality has never been introduced into modality combinations in urban region profiling, we aim to answer two fundamental questions in this paper: i) Can textual modality enhance urban region profiling? ii) and if so, in what ways and with regard to which aspects? To answer the questions, we leverage the power of Large Language Models (LLMs) and introduce the first-ever LLM-enhanced framework that integrates the knowledge of textual modality into urban imagery profiling, named LLM-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining (UrbanCLIP). Specifically, it first generates a detailed textual description for each satellite image by an open-source Image-to-Text LLM. Then, the model is trained on the image-text pairs, seamlessly unifying natural language supervision for urban visual representation learning, jointly with contrastive loss and language modeling loss. Results on predicting three urban indicators in four major Chinese metropolises demonstrate its superior performance, with an average improvement of 6.1% on R^2 compared to the state-of-the-art methods. Our code and the image-language dataset will be released upon paper notification.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# 教師なしデータ取得によるオブジェクト検出のためのオンラインソースフリードメイン適応の改善

Improving Online Source-free Domain Adaptation for Object Detection by Unsupervised Data Acquisition ( http://arxiv.org/abs/2310.19258v2 )

ライセンス: Link先を確認
Xiangyu Shi, Yanyuan Qiao, Qi Wu, Lingqiao Liu, Feras Dayoub, (参考訳) 移動ロボットにおける効果的な物体検出は、多種多様な不慣れな環境への展開によって挑戦される。 オンラインソースフリードメイン適応(O-SFDA)は、ターゲットドメインからのラベルなしデータのストリームをオンライン形式でモデル適応する。 しかしながら、捕捉された全てのフレームは、特に強いクラス不均衡がある場合、適応に有益な情報を含んでいるわけではない。 本稿では,非教師付きデータ取得による移動ロボットの適応物体検出のためのO-SFDAの改良手法を提案する。 本手法は,オンライントレーニングプロセスに組み込む上で,最も情報に富む未ラベルフレームを優先する。 実世界のデータセットに対する実証的な評価により,我々の手法は既存のO-SFDA技術よりも優れており,モバイルロボットにおける適応オブジェクト検出の改善のための教師なしデータ取得の可能性を実証している。

Effective object detection in mobile robots is challenged by deployment in diverse and unfamiliar environments. Online Source-Free Domain Adaptation (O-SFDA) offers model adaptation using a stream of unlabeled data from a target domain in online manner. However, not all captured frames contain information that is beneficial for adaptation, particularly when there is a strong class imbalance. This paper introduces a novel approach to enhance O-SFDA for adaptive object detection in mobile robots via unsupervised data acquisition. Our methodology prioritizes the most informative unlabeled frames for inclusion in the online training process. Empirical evaluation on a real-world dataset reveals that our method outperforms existing state-of-the-art O-SFDA techniques, demonstrating the viability of unsupervised data acquisition for improving adaptive object detection in mobile robots.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# Smoothed Online Quadratic Optimization における両世界のベストプラクティス

Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization ( http://arxiv.org/abs/2311.00181v2 )

ライセンス: Link先を確認
Neelkamal Bhuyan, Debankur Mukherjee, Adam Wierman, (参考訳) オンライン2次最適化(SOQO)問題について検討し、各ラウンドの$t$において、プレイヤーが2次打込みコストと2次打込みコストに応じてアクション$x_t$をプレイし、さらに2次打込みコストとして$\ell_2$-normを加算する。 この問題クラスは、スイッチング効率の高いアルゴリズムが要求されるスマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインに強く結びついている。 本稿では, 対角的, 確率的双方においてSOQO問題について検討し, このプロセスにおいて, この種の問題の最初の確率論的解析を行う。 本稿では,打撃コスト関数の最小化が一般的な確率過程として進化する際のオンライン最適アルゴリズムについて,マルティンゲール過程の場合,分布に依存しない動的補間アルゴリズム(LAI)の形式を採る。 次に、LAIに関する文献(ROBD)における対向最適アルゴリズムに対する$\Omega(T)$期待の後悔を証明し、対向的な設定におけるLAIの準最適競合比を示す。 最後に,確率的に近い確率的性能を同時に達成しつつ,強健な対角性能を得るベスト・オブ・ザ・ワールドスアルゴリズムを提案する。

We study the smoothed online quadratic optimization (SOQO) problem where, at each round $t$, a player plays an action $x_t$ in response to a quadratic hitting cost and an additional squared $\ell_2$-norm cost for switching actions. This problem class has strong connections to a wide range of application domains including smart grid management, adaptive control, and data center management, where switching-efficient algorithms are highly sought after. We study the SOQO problem in both adversarial and stochastic settings, and in this process, perform the first stochastic analysis of this class of problems. We provide the online optimal algorithm when the minimizers of the hitting cost function evolve as a general stochastic process, which, for the case of martingale process, takes the form of a distribution-agnostic dynamic interpolation algorithm (LAI). Next, we present the stochastic-adversarial trade-off by proving an $\Omega(T)$ expected regret for the adversarial optimal algorithm in the literature (ROBD) with respect to LAI and, a sub-optimal competitive ratio for LAI in the adversarial setting. Finally, we present a best-of-both-worlds algorithm that obtains a robust adversarial performance while simultaneously achieving a near-optimal stochastic performance.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# ツールによるゼロショット変形操作のための階層的EMD空間計画

Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools ( http://arxiv.org/abs/2311.02787v2 )

ライセンス: Link先を確認
Yang You, Bokui Shen, Congyue Deng, Haoran Geng, Songlin Wei, He Wang, Leonidas Guibas, (参考訳) 変形可能な物体の操作は、ロボット工学において最も魅了されがちな課題の1つだ。 従来の技術は、通常粒子または画像として表現されるデモを通して潜伏力学を学習することに大きく依存してきたが、関連する制限がある。 さらに、デモに完全に基づく学習は、実証されたタスクを超えてモデルを一般化する能力を阻害する可能性がある。 本研究では,複雑な長期タスクにトレーニングを必要とせずに対処できる実演自由階層型計画手法を提案する。 我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。 個々のステージ毎に、LLMはツールの名前とPythonコードの両方を提供して、中間のサブゴールポイントクラウドを作成できる。 このツールとサブゴールを用いて, 粒状閉ループモデル予測制御手法を提案する。 これは、地球移動距離(EMD)空間におけるDiffPhysics-P2P(DiffPhysics-P2P)損失を反復的に適用した微分可能な物理を利用する。 実験結果から,本手法は短地平線と長地の両方にまたがる生地操作において,複数のベンチマークを上回ることが確認された。 注目すべきことに,本モデルでは,前例のない複雑なタスクに対して,事前のデモンストレーションを伴わずに,堅牢な一般化能力を示す。 我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。 私たちのプロジェクトページは、https://qq456cvb.github.io/projects/donutです。

Deformable object manipulation stands as one of the most captivating yet formidable challenges in robotics. While previous techniques have predominantly relied on learning latent dynamics through demonstrations, typically represented as either particles or images, there exists a pertinent limitation: acquiring suitable demonstrations, especially for long-horizon tasks, can be elusive. Moreover, basing learning entirely on demonstrations can hamper the model's ability to generalize beyond the demonstrated tasks. In this work, we introduce a demonstration-free hierarchical planning approach capable of tackling intricate long-horizon tasks without necessitating any training. We employ large language models (LLMs) to articulate a high-level, stage-by-stage plan corresponding to a specified task. For every individual stage, the LLM provides both the tool's name and the Python code to craft intermediate subgoal point clouds. With the tool and subgoal for a particular stage at our disposal, we present a granular closed-loop model predictive control strategy. This leverages Differentiable Physics with Point-to-Point correspondence (DiffPhysics-P2P) loss in the earth mover distance (EMD) space, applied iteratively. Experimental findings affirm that our technique surpasses multiple benchmarks in dough manipulation, spanning both short and long horizons. Remarkably, our model demonstrates robust generalization capabilities to novel and previously unencountered complex tasks without any preliminary demonstrations. We further substantiate our approach with experimental trials on real-world robotic platforms. Our project page: https://qq456cvb.github.io/projects/donut.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-24
# グラフニューラルネットワークの近傍説明可能性の評価

Evaluating Neighbor Explainability for Graph Neural Networks ( http://arxiv.org/abs/2311.08118v2 )

ライセンス: Link先を確認
Oscar Llorente Gonzalez, Rana Fawzy, Jared Keown, Michal Horemuz, Péter Vaderna, Sándor Laki, Roland Kotroczó, Rita Csoma, János Márk Szalai-Gindl, (参考訳) グラフニューラルネットワーク(GNN)における説明可能性(Explainability in Graph Neural Networks)は、ここ数年で成長している新しい分野である。 本論文では,ノードの分類において各隣接ノードがどの程度重要か,また,そのタスクのパフォーマンスをいかに測定するか,という課題に対処する。 これを実現するために, 様々な説明可能性法を改訂し, 4つの新しい指標を提示する。 以上の結果から,GNN領域における勾配に基づく手法による説明の相違はほとんどないことが明らかとなった。 さらに、自己ループのないGNNを使用する場合、多くの説明可能性技術は重要な隣人を識別できなかった。

Explainability in Graph Neural Networks (GNNs) is a new field growing in the last few years. In this publication we address the problem of determining how important is each neighbor for the GNN when classifying a node and how to measure the performance for this specific task. To do this, various known explainability methods are reformulated to get the neighbor importance and four new metrics are presented. Our results show that there is almost no difference between the explanations provided by gradient-based techniques in the GNN domain. In addition, many explainability techniques failed to identify important neighbors when GNNs without self-loops are used.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-24
# データ信頼性のアンマキングと改善:無害言語モデルのトレーニングのためのデータセットを用いた研究

Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models ( http://arxiv.org/abs/2311.11202v2 )

ライセンス: Link先を確認
Zhaowei Zhu, Jialu Wang, Hao Cheng, Yang Liu, (参考訳) 言語モデルは様々なタスクにおいて有望であるが、トレーニング、微調整、アライメントの間、望ましくないデータに影響される可能性がある。 例えば、安全でない会話が誤って安全なものとして注釈付けされている場合、これらのサンプルに微調整されたモデルは有害である可能性がある。 したがって、アノテーションの正確性、すなわちデータセットの信頼性が重要である。 本研究は,Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHFなどの一般的なベンチマークを含む,現実世界のデータセットの信頼性に注目したものだ。 ヒトによるこれらのデータセットのクリーニングのコストと難しさを考慮し、データセットの信頼性を評価し、ラベルの誤りを特定し、キュレートされた言語データにおけるノイズの多いラベルの影響を評価するための体系的な枠組みを導入し、特に安全でないコメントと会話分類に焦点を当てた。 このフレームワークでは、上記のベンチマークから構築された11のデータセットで平均6.16%のラベルエラーを発見し、修正する。 データ信頼性と下流学習性能はラベルエラーを直接修正することで著しく改善され、既存の実世界のデータセットをクリーニングすることの重要性が示される。 私たちは、https://github.com/Docta-ai/docta.comでデータクリーニングのためのオープンソースのツールDoctaを提供しています。

Language models have shown promise in various tasks but can be affected by undesired data during training, fine-tuning, or alignment. For example, if some unsafe conversations are wrongly annotated as safe ones, the model fine-tuned on these samples may be harmful. Therefore, the correctness of annotations, i.e., the credibility of the dataset, is important. This study focuses on the credibility of real-world datasets, including the popular benchmarks Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHF, that can be used for training a harmless language model. Given the cost and difficulty of cleaning these datasets by humans, we introduce a systematic framework for evaluating the credibility of datasets, identifying label errors, and evaluating the influence of noisy labels in the curated language data, specifically focusing on unsafe comments and conversation classification. With the framework, we find and fix an average of 6.16% label errors in 11 datasets constructed from the above benchmarks. The data credibility and downstream learning performance can be remarkably improved by directly fixing label errors, indicating the significance of cleaning existing real-world datasets. We provide an open-source tool, Docta, for data cleaning at https://github.com/Docta-ai/docta.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-24
# EnduRL: リアルタイム摂動学習による混在交通の安全性・安定性・効率向上

EnduRL: Enhancing Safety, Stability, and Efficiency of Mixed Traffic Under Real-World Perturbations Via Reinforcement Learning ( http://arxiv.org/abs/2311.12261v2 )

ライセンス: Link先を確認
Bibek Poudel, Weizi Li, Kevin Heaslip, (参考訳) 人力車(HV)は自然に発生する交通渋滞を増幅し、渋滞を招き、燃料消費の増加、衝突リスクの増大、道路容量の削減に寄与する。 以前の研究では、ロボット自動車(RV)がこれらの問題を緩和するために活用できることが示されているが、そのような研究のほとんどは、人間の自動車追従行動の単純化モデルによるシミュレーションに依存している。 本研究では,実世界の走行軌道を解析し,幅広い加速度プロファイルを抽出する。 次に、これらのプロファイルを、混雑を軽減するためにRVをトレーニングするためのシミュレーションに組み込む。 本研究では, 交通密度, 構成, RV浸透率の2つの混合交通環境(リング, ボトルネック)で実施した総合的な実験を通じて, 混合交通の安全性, 効率, 安定性を評価する。 その結果、実世界の摂動下では、従来のRVコントローラは3つの目標(時には100%HV以下)で性能劣化を経験することがわかった。 そこで我々は,混在トラフィックの安全性,効率,安定性を最適化するために,混雑ステージ分類器を用いた強化学習に基づくRVを提案する。 RVの安全性は最大66%向上し、効率は最大54%向上し、安定性は最大97%向上した。

Human-driven vehicles (HVs) amplify naturally occurring perturbations in traffic, leading to congestion--a major contributor to increased fuel consumption, higher collision risks, and reduced road capacity utilization. While previous research demonstrates that Robot Vehicles (RVs) can be leveraged to mitigate these issues, most such studies rely on simulations with simplistic models of human car-following behaviors. In this work, we analyze real-world driving trajectories and extract a wide range of acceleration profiles. We then incorporates these profiles into simulations for training RVs to mitigate congestion. We evaluate the safety, efficiency, and stability of mixed traffic via comprehensive experiments conducted in two mixed traffic environments (Ring and Bottleneck) at various traffic densities, configurations, and RV penetration rates. The results show that under real-world perturbations, prior RV controllers experience performance degradation on all three objectives (sometimes even lower than 100% HVs). To address this, we introduce a reinforcement learning based RV that employs a congestion stage classifier to optimize the safety, efficiency, and stability of mixed traffic. Our RVs demonstrate significant improvements: safety by up to 66%, efficiency by up to 54%, and stability by up to 97%.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-24
# zkTax:ゼロ知識税の開示をサポートする実践的な方法

zkTax: A pragmatic way to support zero-knowledge tax disclosures ( http://arxiv.org/abs/2311.13008v2 )

ライセンス: Link先を確認
Alex Berke, Tobin South, Robert Mahari, Kent Larson, Alex Pentland, (参考訳) 公務員は透明性のために財務データを共有するよう求められ、企業はビジネスパートナーの財務状況を評価し、個人は家主に収入を証明したり、利益を得る必要がある。 税額申告書には、プライバシーを損なうような機密データも含まれている。 我々は,ゼロ知識税開示システム(zkTax)を導入し,個人や組織が,第三者が独自に検証可能な追加情報を公開することなく,税額申告書に選択情報に関する証明可能な主張を行えるようにした。 このシステムは3つの異なるサービスで構成されており、税務当局が公開鍵で署名された税務文書を提供する。 我々は、米国の税制形態と互換性のあるユーザーインターフェースを備えたプロトタイプを実装し、既存の税制インフラに最小限の変更を加えることで、この設計をどのように実装できるかを実証する。 私たちのシステムは、他の文脈や管轄区域に拡張できるように設計されています。 この研究は、暗号を利用した分散ツールが、既存の政府や金融インフラを強化し、システムのオーバーホールなしに、プライバシと同時に即時に透明性を提供する実践的な例を提供する。

Tax returns contain key financial information of interest to third parties: public officials are asked to share financial data for transparency, companies seek to assess the financial status of business partners, and individuals need to prove their income to landlords or to receive benefits. Tax returns also contain sensitive data such that sharing them in their entirety undermines privacy. We introduce a zero-knowledge tax disclosure system (zkTax) that allows individuals and organizations to make provable claims about select information in their tax returns without revealing additional information, which can be independently verified by third parties. The system consists of three distinct services that can be distributed: a tax authority provides tax documents signed with a public key; a Redact & Prove Service enables users to produce a redacted version of the tax documents with a zero-knowledge proof attesting the provenance of the redacted data; a Verify Service enables anyone to verify the proof. We implement a prototype with a user interface, compatible with U.S. tax forms, and demonstrate how this design could be implemented with minimal changes to existing tax infrastructure. Our system is designed to be extensible to other contexts and jurisdictions. This work provides a practical example of how distributed tools leveraging cryptography can enhance existing government or financial infrastructures, providing immediate transparency alongside privacy without system overhauls.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-24
# BEVNeXt:3Dオブジェクト検出のための高密度なBEVフレームワークの復活

BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection ( http://arxiv.org/abs/2312.01696v2 )

ライセンス: Link先を確認
Zhenxin Li, Shiyi Lan, Jose M. Alvarez, Zuxuan Wu, (参考訳) 近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。 これらのクエリベースのデコーダは、従来のBEV(Bird's Eye View)ベースの手法を超越している。 しかし,深度推定や物体位置推定に優れた能力を持つため,高密度なBEVフレームワークは依然として重要であり,正確な3次元シーンを包括的に描いている。 本稿では,CRF変調深度推定モジュール(CRF変調深度推定モジュール),拡張受容場を有する長期時間アグリゲーションモジュール,遠近法とCRF変調深度埋め込みを組み合わせた2段階物体デコーダなど,既存の高密度BEVベースの3次元物体検出器の欠点に対処することを目的とする。 これらの拡張は、BEVNeXtと呼ばれる"近代化された"高密度なBEVフレームワークにつながった。 nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方をさまざまな設定で上回り、nuScenesテストセット上で64.2 NDSの最先端結果を達成する。 コードは \url{https://github.com/woxihuanjiangguo/BEVNeXt} で入手できる。

Recently, the rise of query-based Transformer decoders is reshaping camera-based 3D object detection. These query-based decoders are surpassing the traditional dense BEV (Bird's Eye View)-based methods. However, we argue that dense BEV frameworks remain important due to their outstanding abilities in depth estimation and object localization, depicting 3D scenes accurately and comprehensively. This paper aims to address the drawbacks of the existing dense BEV-based 3D object detectors by introducing our proposed enhanced components, including a CRF-modulated depth estimation module enforcing object-level consistencies, a long-term temporal aggregation module with extended receptive fields, and a two-stage object decoder combining perspective techniques with CRF-modulated depth embedding. These enhancements lead to a "modernized" dense BEV framework dubbed BEVNeXt. On the nuScenes benchmark, BEVNeXt outperforms both BEV-based and query-based frameworks under various settings, achieving a state-of-the-art result of 64.2 NDS on the nuScenes test set. Code will be available at \url{https://github.com/woxihuanjiangguo/BEVNeXt}.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-24
# GPS-Gaussian:リアルタイム新規ビュー合成のための一般化可能な画素ワイド3次元ガウススプラッティング

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis ( http://arxiv.org/abs/2312.02155v2 )

ライセンス: Link先を確認
Shunyuan Zheng, Boyao Zhou, Ruizhi Shao, Boning Liu, Shengping Zhang, Liqiang Nie, Yebin Liu, (参考訳) 我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。 提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。 オブジェクトごとの最適化を必要とする元のガウス的スプティングやニューラル暗黙的レンダリングとは異なり、ソースビューに定義されたガウス的パラメータマップを導入し、直接ガウス的スプティング特性を、微調整や最適化なしに即興的なビュー合成のために導入する。 この目的のために,我々は多量の人間のスキャンデータに基づいてガウスパラメータ回帰モジュールを訓練し,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。 提案するフレームワークは完全に差別化可能であり,提案手法はレンダリング速度を超越しながら最先端の手法より優れていることを示す。

We present a new approach, termed GPS-Gaussian, for synthesizing novel views of a character in a real-time manner. The proposed method enables 2K-resolution rendering under a sparse-view camera setting. Unlike the original Gaussian Splatting or neural implicit rendering methods that necessitate per-subject optimizations, we introduce Gaussian parameter maps defined on the source views and regress directly Gaussian Splatting properties for instant novel view synthesis without any fine-tuning or optimization. To this end, we train our Gaussian parameter regression module on a large amount of human scan data, jointly with a depth estimation module to lift 2D parameter maps to 3D space. The proposed framework is fully differentiable and experiments on several datasets demonstrate that our method outperforms state-of-the-art methods while achieving an exceeding rendering speed.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-24
# 安全・安全のための行動認証

Behavioral Authentication for Security and Safety ( http://arxiv.org/abs/2312.03429v2 )

ライセンス: Link先を確認
Cheng Wang, Hao Tang, Hangyu Zhu, Junhan Zheng, Changjun Jiang, (参考訳) システムのセキュリティと安全性の問題は、行動的な \emph{aptness} の観点から、完全に分離することができる。 すなわち、あるシステムが安全であるか安全かは、あるエージェントの振る舞いが \emph{ appropriate} であるかどうかによって判断できる。 具体的には、いわゆる"emph{ appropriate behavior"は、特定の条件下で適切なタイミングで適切なアクションを実行する適切なエージェントを含む。 そして、適切な度合いと度合いに応じて、行動認証は3つのレベル、すなわち振る舞いの「emph{Identity}」、「emph{Conformity}」、そして「emph{Benignity}」に分類することができる。 広義には、安全性と安全性の問題において、行動認証は、その固有の利点から革新的で有望な手法であるだけでなく、行動生成の普遍性と、あらゆるシステムにおける行動規制の必要性によって、決定的かつ根本的な問題でもある。 本分類では,行動認証の背景と基礎を包括的に検討する。 さらに、それぞれの焦点領域と特徴に基づいて、既存の研究を要約する。 現状の行動認証手法に直面する課題を分析し,行動認証の多様化と統合化を促進するための潜在的研究の方向性について考察する。

The issues of both system security and safety can be dissected integrally from the perspective of behavioral \emph{appropriateness}. That is, a system is secure or safe can be judged by whether the behavior of certain agent(s) is \emph{appropriate} or not. Specifically, a so-called \emph{appropriate behavior} involves the right agent performing the right actions at the right time under certain conditions. Then, according to different levels of appropriateness and degrees of custodies, behavioral authentication can be graded into three levels, i.e., the authentication of behavioral \emph{Identity}, \emph{Conformity}, and \emph{Benignity}. In a broad sense, for the security and safety issue, behavioral authentication is not only an innovative and promising method due to its inherent advantages but also a critical and fundamental problem due to the ubiquity of behavior generation and the necessity of behavior regulation in any system. By this classification, this review provides a comprehensive examination of the background and preliminaries of behavioral authentication. It further summarizes existing research based on their respective focus areas and characteristics. The challenges confronted by current behavioral authentication methods are analyzed, and potential research directions are discussed to promote the diversified and integrated development of behavioral authentication.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-24
# DemoCaricature: 粗いスケッチで画像生成を民主化

DemoCaricature: Democratising Caricature Generation with a Rough Sketch ( http://arxiv.org/abs/2312.04364v2 )

ライセンス: Link先を確認
Dar-Yen Chen, Ayan Kumar Bhunia, Subhadeep Koley, Aneeshan Sain, Pinaki Nath Chowdhury, Yi-Zhe Song, (参考訳) 本稿では,画像と概念的スケッチだけで,個々人が個々人格化された似顔絵を手軽に作ることができるように,似顔絵生成を民主化する。 私たちの目標は、スケッチに固有の創造性と主観性を保ちながら、抽象化とアイデンティティの微妙なバランスを取ることです。 これを実現するために、単画像のパーソナライゼーションと並行して明示的なランク1モデル編集を行い、シームレスなアイデンティティとスタイルのマージのために、ニュアンス付き編集をクロスアテンション層に選択的に適用する。 さらに,ロバスト性を高めるためにランダムマスク再構成を提案する。 重要なことは、アーティストを置き換えるのではなく、アクセシビリティの障壁を取り除くことであり、熱狂的なアーティストが芸術活動に参加できるようにすることです。

In this paper, we democratise caricature generation, empowering individuals to effortlessly craft personalised caricatures with just a photo and a conceptual sketch. Our objective is to strike a delicate balance between abstraction and identity, while preserving the creativity and subjectivity inherent in a sketch. To achieve this, we present Explicit Rank-1 Model Editing alongside single-image personalisation, selectively applying nuanced edits to cross-attention layers for a seamless merge of identity and style. Additionally, we propose Random Mask Reconstruction to enhance robustness, directing the model to focus on distinctive identity and style features. Crucially, our aim is not to replace artists but to eliminate accessibility barriers, allowing enthusiasts to engage in the artistry.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-24
# モノクロ映像から3Dアバターを作る

Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video ( http://arxiv.org/abs/2312.04784v2 )

ライセンス: Link先を確認
Yuchen Rao, Eduardo Perez Pellitero, Benjamin Busam, Yiren Zhou, Jifei Song, (参考訳) フォトリアリスティックモデルのための多視点監視による3次元アバター生成の最近の進歩 しかし、モノラルなものは適用性は広いものの、品質が低下している。 このギャップを埋めるためにReCaLaBを提案する。 ReCaLaBは、単一のRGBビデオから高忠実な3Dアバターを学習する、完全に微分可能なパイプラインである。 ポーズ条件付き変形可能なNeRFは、標準T位置において人間の被写体を体積的に表現するように最適化される。 次に、標準表現を利用して、2D-3D対応を用いて神経テクスチャを効率的に関連付ける。 これにより、RGB予測を共同で構成する拡散色生成と照明補正枝の分離が可能になる。 このデザインは、人間のポーズ、体の形、テクスチャ、そしてテキストプロンプトによる照明の中間結果を制御できる。 これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズがアニメーション化され、これまで見えなかった人間の動きを伴う映像シーケンスが生成される。 大規模な実験により、ReCaLaBは画像合成タスクにおける画像品質の観点から、以前の単分子的アプローチよりも優れていることが示された。 さらに、自然言語は3D人間のアバターを創造的に操作するための直感的なユーザーインタフェースを提供する。

Recent advancements in 3D avatar generation excel with multi-view supervision for photorealistic models. However, monocular counterparts lag in quality despite broader applicability. We propose ReCaLaB to close this gap. ReCaLaB is a fully-differentiable pipeline that learns high-fidelity 3D human avatars from just a single RGB video. A pose-conditioned deformable NeRF is optimized to volumetrically represent a human subject in canonical T-pose. The canonical representation is then leveraged to efficiently associate neural textures using 2D-3D correspondences. This enables the separation of diffused color generation and lighting correction branches that jointly compose an RGB prediction. The design allows to control intermediate results for human pose, body shape, texture, and lighting with text prompts. An image-conditioned diffusion model thereby helps to animate appearance and pose of the 3D avatar to create video sequences with previously unseen human motion. Extensive experiments show that ReCaLaB outperforms previous monocular approaches in terms of image quality for image synthesis tasks. Moreover, natural language offers an intuitive user interface for creative manipulation of 3D human avatars.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-24
# 局所的概念再構成による無訓練ゼロショット合成画像検索

Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking ( http://arxiv.org/abs/2312.08924v2 )

ライセンス: Link先を確認
Shitong Sun, Fanghua Ye, Shaogang Gong, (参考訳) 合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。 近年,対象画像の要求を正確に表現するために,情報量の多い画像と簡潔な言語を連携させることによって注目されている。 現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。 ラベル付き三重項トレーニングデータの取得が困難になるのを避けるため、人ラベル付き三重項を必要とせず、画像テキストペア(自己教師付き三重項)から学習して対象画像を検索することを目的としたゼロショット合成画像検索(ZS-CIR)が導入された。 しかし、この自己教師付き三重項学習アプローチは、明示的な意味論的解釈を伴わずに暗黙的なクエリ埋め込みによって画像とテキストの相互作用を仮定するので、計算的に効果が低く、理解し難い。 本研究では,学習不要なゼロショット合成画像検索手法を提案する。 これにより、モデル学習効率が向上し、基礎モデルの一般化能力が向上する。 さらに,修正命令から抽出した識別的局所情報に焦点をあてるローカルコンセプトリグレード(LCR)機構を導入する。 4つのZS-CIRベンチマークにおいて、我々の手法は最先端の3重項トレーニング手法と同等の性能を発揮するが、オープンドメインデータセット(CIRR、CIRCO、COCO)やファッションドメインデータセット(FashionIQ)では、他のトレーニング不要手法よりも大幅に優れていた。

Composed image retrieval attempts to retrieve an image of interest from gallery images through a composed query of a reference image and its corresponding modified text. It has recently attracted attention due to the collaboration of information-rich images and concise language to precisely express the requirements of target images. Most current composed image retrieval methods follow a supervised learning approach to training on a costly triplet dataset composed of a reference image, modified text, and a corresponding target image. To avoid difficult to-obtain labeled triplet training data, zero-shot composed image retrieval (ZS-CIR) has been introduced, which aims to retrieve the target image by learning from image-text pairs (self-supervised triplets), without the need for human-labeled triplets. However, this self-supervised triplet learning approach is computationally less effective and less understandable as it assumes the interaction between image and text is conducted with implicit query embedding without explicit semantical interpretation. In this work, we present a new training-free zero-shot composed image retrieval method which translates the query into explicit human-understandable text. This helps improve model learning efficiency to enhance the generalization capacity of foundation models. Further, we introduce a Local Concept Re-ranking (LCR) mechanism to focus on discriminative local information extracted from the modified instructions. Extensive experiments on four ZS-CIR benchmarks show that our method achieves comparable performances to that of the state of-the-art triplet training based methods, but significantly outperforms other training-free methods on the open domain datasets (CIRR, CIRCO and COCO), as well as the fashion domain dataset (FashionIQ).
翻訳日:2024-03-27 02:05:37 公開日:2024-03-24
# クープマンモード分解の高性能化

Featurizing Koopman Mode Decomposition ( http://arxiv.org/abs/2312.09146v3 )

ライセンス: Link先を確認
David Aristoff, Jeremy Copperman, Nathan Mankovich, Alexander Davies, (参考訳) 本稿では、時間埋め込みとMahalanobisスケーリングを用いて高次元力学系の解析と予測を強化する、高度なクープマンモード分解(KMD)技術(Featurized Koopman Mode Decomposition(FKMD))を紹介する。 時間埋め込みは観測空間を拡張し、基礎となる多様体構造をよりよく捉え、一方マハラノビスのスケーリングはカーネルやランダムフーリエの特徴に適用され、システムの力学に基づいて観測を調整する。 これにより、優れた特徴が事前に分かっていない場合に、KMDを偉業するのに役立つ。 FKMDから得られたマハラノビススケーリングは,アラニンジペプチドの有効次元化に有効であることがわかった。 また,FKMDは,高次元ロレンツ誘引器の予測と,がん研究からの細胞シグナル伝達の問題を改善することも示している。

This article introduces an advanced Koopman mode decomposition (KMD) technique -- coined Featurized Koopman Mode Decomposition (FKMD) -- that uses time embedding and Mahalanobis scaling to enhance analysis and prediction of high dimensional dynamical systems. The time embedding expands the observation space to better capture underlying manifold structure, while the Mahalanobis scaling, applied to kernel or random Fourier features, adjusts observations based on the system's dynamics. This aids in featurizing KMD in cases where good features are not a priori known. We find that the Mahalanobis scaling from FKMD can be used for effective dimensionality reduction of alanine dipeptide data. We also show that FKMD improves predictions for a high-dimensional Lorenz attractor and a cell signaling problem from cancer research.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-24
# SAI3D:3Dシーンで任意のインスタンスをセグメント化

SAI3D: Segment Any Instance in 3D Scenes ( http://arxiv.org/abs/2312.11557v2 )

ライセンス: Link先を確認
Yingda Yin, Yuzheng Liu, Yang Xiao, Daniel Cohen-Or, Jingwei Huang, Baoquan Chen, (参考訳) 3Dインスタンスセグメンテーションの進歩は、伝統的にアノテーション付きデータセットの可用性に結び付けられており、その適用範囲はオブジェクトカテゴリの狭い範囲に限られている。 最近の試みでは、CLIPのような視覚言語モデルを用いて、オープンセットのセマンティック推論を行っているが、これらの手法は同じカテゴリのオブジェクトを区別し、普遍的に適用できない特定のプロンプトに依存するのに苦労している。 本稿では,SAI3Dを提案する。SAI3Dは,Segment Anything Model (SAM) から得られる幾何学的先行と意味的手がかりを相乗的に活用する,新しいゼロショット3Dインスタンスセグメンテーション手法である。 本手法では, 3次元シーンを幾何学的プリミティブに分割し, 多視点SAMマスクと整合した3次元インスタンスセグメンテーションに段階的にマージする。 ScanNet, Matterport3Dおよびより挑戦的なScanNet++データセットに対する実験的な評価は,我々のアプローチの優位性を示している。 特に、SAI3Dは既存のオープン語彙ベースラインよりも優れており、ScanNet++のクラスに依存しないセグメンテーションにおいて完全に教師されたメソッドよりも優れている。 プロジェクトページはhttps://yd-yin.github.io/SAI3D。

Advancements in 3D instance segmentation have traditionally been tethered to the availability of annotated datasets, limiting their application to a narrow spectrum of object categories. Recent efforts have sought to harness vision-language models like CLIP for open-set semantic reasoning, yet these methods struggle to distinguish between objects of the same categories and rely on specific prompts that are not universally applicable. In this paper, we introduce SAI3D, a novel zero-shot 3D instance segmentation approach that synergistically leverages geometric priors and semantic cues derived from Segment Anything Model (SAM). Our method partitions a 3D scene into geometric primitives, which are then progressively merged into 3D instance segmentations that are consistent with the multi-view SAM masks. Moreover, we design a hierarchical region-growing algorithm with a dynamic thresholding mechanism, which largely improves the robustness of finegrained 3D scene parsing.Empirical evaluations on ScanNet, Matterport3D and the more challenging ScanNet++ datasets demonstrate the superiority of our approach. Notably, SAI3D outperforms existing open-vocabulary baselines and even surpasses fully-supervised methods in class-agnostic segmentation on ScanNet++. Our project page is at https://yd-yin.github.io/SAI3D.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-24
# 吸収分布はコンセンサスにどのように影響するか : ブロックチェーンの分散化の分析

How Does Stake Distribution Influence Consensus? Analyzing Blockchain Decentralization ( http://arxiv.org/abs/2312.13938v2 )

ライセンス: Link先を確認
Shashank Motepalli, Hans-Arno Jacobsen, (参考訳) PoSブロックチェーンの世界では、完全な分散化を実現する上での課題は、少数のバリデータ間でステンドトークンが不均等に集中していることによって、しばしば妨げられます。 本研究では、重み付けされたコンセンサス機構のための分散化指標を最初に定式化することにより、この課題を解析する。 10個の無許可ブロックチェーンに対する実証分析により、バリデータ間のかなりの重量集中が明らかとなり、等価なアプローチの必要性が強調された。 これに対応するために,重み分布を効果的に再検討するSquare Root Stake Weight (SRSW) モデルを提案する。 Gini指数は平均37.16%向上し, 中本指数は平均101.04%, 80.09%向上した。 この研究は、ブロックチェーンのコンセンサスメカニズムにおける分散化を推進し、より公平で公平なステイクウェイト分布に向けた重要なステップである。

In the PoS blockchain landscape, the challenge of achieving full decentralization is often hindered by a disproportionate concentration of staked tokens among a few validators. This study analyses this challenge by first formalizing decentralization metrics for weighted consensus mechanisms. An empirical analysis across ten permissionless blockchains uncovers significant weight concentration among validators, underscoring the need for an equitable approach. To counter this, we introduce the Square Root Stake Weight (SRSW) model, which effectively recalibrates staking weight distribution. Our examination of the SRSW model demonstrates notable improvements in the decentralization metrics: the Gini index improves by 37.16% on average, while Nakamoto coefficients for liveness and safety see mean enhancements of 101.04% and 80.09%, respectively. This research is a pivotal step toward a more fair and equitable distribution of staking weight, advancing the decentralization in blockchain consensus mechanisms.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-24
# CCA-Secure Hybrid Encryption in Correlated Randomness Model and KEM Combiner

CCA-Secure Hybrid Encryption in Correlated Randomness Model and KEM Combiners ( http://arxiv.org/abs/2401.00983v2 )

ライセンス: Link先を確認
Somnath Panja, Setareh Sharifian, Shaoquan Jiang, Reihaneh Safavi-Naini, (参考訳) HE(Hybrid encryption)システムは、任意の長さのメッセージに対する効率的な公開鍵暗号システムである。 HEシステムは、キーカプセル化機構(KEM)と呼ばれる公開鍵コンポーネントと、データカプセル化機構(DEM)と呼ばれる対称鍵コンポーネントで構成される。 HE暗号化アルゴリズムは、KEM生成キーkを用いてDEMを用いてメッセージをカプセル化し、kのカプセル化する復号器にkのカプセル化と共に暗号文を送信する。 KEM/DEM合成定理 (KEM/DEM composition theorem) は、もし KEM と DEM が適切に定義されたセキュリティ概念を満たすなら、HE は適切に定義されたセキュリティで安全であることを証明している。 本稿では,暗号と復号化アルゴリズムが部分的に敵に漏洩した相関確率変数のサンプルを持つような相関ランダム性モデルでHEを導入する。 新しいKEM/DEMパラダイムのセキュリティは、計算的に非有界あるいは多項式的に有界な敵に対して定義される。 我々は,iKEMとcKEMを各情報理論計算セキュリティで定義し,それらの合成定理と計算学的に安全なDEMを証明した。 合成定理の必要なセキュリティ概念を確実に満たす2つのiKEMを構築する。 iKEMは、AESベースのDEMを使用する際に、2つの効率的な量子抵抗型HEを構築するために使用される。 我々はまた、HEの新しいKEM/DEMパラダイムとHEの従来の公開鍵ベースパラダイムを組み合わせた、証明済みのセキュリティを備えたコンバインダーを定義し、構築する。

A hybrid encryption (HE) system is an efficient public key encryption system for arbitrarily long messages. An HE system consists of a public key component called key encapsulation mechanism (KEM), and a symmetric key component called data encapsulation mechanism (DEM). The HE encryption algorithm uses a KEM generated key k to encapsulate the message using DEM, and send the ciphertext together with the encapsulaton of k, to the decryptor who decapsulates k and uses it to decapsulate the message using the corresponding KEM and DEM components. The KEM/DEM composition theorem proves that if KEM and DEM satisfy well-defined security notions, then HE will be secure with well defined security. We introduce HE in correlated randomness model where the encryption and decryption algorithms have samples of correlated random variables that are partially leaked to the adversary. Security of the new KEM/DEM paradigm is defined against computationally unbounded or polynomially bounded adversaries. We define iKEM and cKEM with respective information theoretic computational security, and prove a composition theorem for them and a computationally secure DEM, resulting in secure HEs with proved computational security (CPA and CCA) and without any computational assumption. We construct two iKEMs that provably satisfy the required security notions of the composition theorem. The iKEMs are used to construct two efficient quantum-resistant HEs when used with an AES based DEM. We also define and construct combiners with proved security that combine the new KEM/DEM paradigm of HE with the traditional public key based paradigm of HE.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-24
# 画像分類モデルの公平性向上に関する大規模実証的研究

A Large-Scale Empirical Study on Improving the Fairness of Image Classification Models ( http://arxiv.org/abs/2401.03695v2 )

ライセンス: Link先を確認
Junjie Yang, Jiajun Jiang, Zeyu Sun, Junjie Chen, (参考訳) 公平性は、実際のディープラーニングモデルの採用に影響を与える重要な問題である。 モデルフェアネスを改善するために、既存の多くの手法が提案され、それぞれの文脈で有効であることが評価されている。 しかし、同じ文脈で総合的な比較を行うための体系的な評価はいまだにないため、両者のパフォーマンスの違いを理解することは困難であり、研究の進展や実践的な採用を妨げる。 このギャップを埋めるために,本稿では,既存の最先端の公正性向上技術の性能を総合的に比較する,最初の大規模実証研究を行う。 具体的には、3つの異なるデータセットと5つの一般的なパフォーマンス指標を用いて、さまざまなカテゴリから合計13の手法を評価する。 以上の結果から,各手法の性能は,多くの既存手法で特定のデータセットに過度に適合していることが示唆された。 さらに、異なる公平度評価指標は、それぞれの焦点が異なるため、かなり異なる評価結果が得られる。 全体として,前処理法と内処理法は後処理法より優れ,前処理法は最高の性能を示す。 我々の実証的研究は、ディープラーニングモデルにおける公平性を高めるための包括的な勧告を提供する。 複数の次元からこの問題にアプローチし、一様評価プラットフォームを提供することを目標とし、研究者に一連の意味を通してより効果的な公正解を探求するよう促す。

Fairness has been a critical issue that affects the adoption of deep learning models in real practice. To improve model fairness, many existing methods have been proposed and evaluated to be effective in their own contexts. However, there is still no systematic evaluation among them for a comprehensive comparison under the same context, which makes it hard to understand the performance distinction among them, hindering the research progress and practical adoption of them. To fill this gap, this paper endeavours to conduct the first large-scale empirical study to comprehensively compare the performance of existing state-of-the-art fairness improving techniques. Specifically, we target the widely-used application scenario of image classification, and utilized three different datasets and five commonly-used performance metrics to assess in total 13 methods from diverse categories. Our findings reveal substantial variations in the performance of each method across different datasets and sensitive attributes, indicating over-fitting on specific datasets by many existing methods. Furthermore, different fairness evaluation metrics, due to their distinct focuses, yield significantly different assessment results. Overall, we observe that pre-processing methods and in-processing methods outperform post-processing methods, with pre-processing methods exhibiting the best performance. Our empirical study offers comprehensive recommendations for enhancing fairness in deep learning models. We approach the problem from multiple dimensions, aiming to provide a uniform evaluation platform and inspire researchers to explore more effective fairness solutions via a set of implications.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-24
# 詳細:SemanticベースのFew-Shot Learningを詳しく見てみよう

Less is More: A Closer Look at Semantic-based Few-Shot Learning ( http://arxiv.org/abs/2401.05010v2 )

ライセンス: Link先を確認
Chunpeng Zhou, Haishuai Wang, Xilu Yuan, Zhi Yu, Jiajun Bu, (参考訳) Few-shot Learningは、利用可能な画像の数が非常に限られている新しいカテゴリを学習し、区別することを目的としており、ディープラーニングの領域において大きな課題が提示されている。 近年の研究者は、これらの稀なカテゴリーのテキスト情報や言語情報を事前訓練された言語モデルに活用して学習を容易にし、監視信号の不十分な問題を部分的に緩和しようと試みている。 しかし、テキスト情報と事前訓練された言語モデルの潜在能力は、これまで数ショットの学習で過小評価され、パフォーマンスが制限された。 そこで本研究では,テキスト情報と言語モデルを活用するために,数ショット学習タスクのためのシンプルで効果的なフレームワークを提案する。 より詳しくは、事前訓練された言語モデルのゼロショット能力を学習可能なプロンプトで明示的に活用する。 そして、以前の作業で複雑な設計の融合モジュールを使わずに、直接推論するためのテキスト機能にビジュアル機能を追加するだけです。 さらに, これらの成分をさらに強化するために, 自己アンサンブルと蒸留を適用した。 広く使われている4つの少数ショットデータセットで実施した大規模な実験は、私たちの単純なフレームワークが印象的な結果をもたらすことを示した。 特に注目すべきは、1ショットの学習タスクにおける卓越したパフォーマンスであり、最先端の手法を平均3.0倍の精度で上回っていることである。 提案されたフレームワークのソースコードを受理時に公開します。 と。

Few-shot Learning aims to learn and distinguish new categories with a very limited number of available images, presenting a significant challenge in the realm of deep learning. Recent researchers have sought to leverage the additional textual or linguistic information of these rare categories with a pre-trained language model to facilitate learning, thus partially alleviating the problem of insufficient supervision signals. However, the full potential of the textual information and pre-trained language model have been underestimated in the few-shot learning till now, resulting in limited performance enhancements. To address this, we propose a simple but effective framework for few-shot learning tasks, specifically designed to exploit the textual information and language model. In more detail, we explicitly exploit the zero-shot capability of the pre-trained language model with the learnable prompt. And we just add the visual feature with the textual feature for inference directly without the intricate designed fusion modules in previous works. Additionally, we apply the self-ensemble and distillation to further enhance these components. Our extensive experiments conducted across four widely used few-shot datasets demonstrate that our simple framework achieves impressive results. Particularly noteworthy is its outstanding performance in the 1-shot learning task, surpassing state-of-the-art methods by an average of 3.0\% in classification accuracy. \footnote{We will make the source codes of the proposed framework publicly available upon acceptance. }.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-24
# コードの行間:機械と人間のプログラマの固有のパターンを明らかにする

Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers ( http://arxiv.org/abs/2401.06461v3 )

ライセンス: Link先を確認
Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu, (参考訳) 大規模言語モデルはコード生成において前例のない波を触媒している。 大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。 DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。 したがって、コードに適用された場合、適用性は低下する。 本稿では,機械と人為的なコードの特徴を特徴付ける特定のパターンについて,慎重に検討する。 語彙の多様性、簡潔さ、自然さといったコード属性の厳密な分析を通じて、各ソース固有のユニークなパターンを明らかにする。 特に、コードの構文的セグメンテーションが、その証明を識別する上で重要な要素であることに気付きます。 そこで本研究では, 異なるスタイルのコードパターンを抽出して, 検出精度を向上する, 機械生成コード検出の新しい手法であるDetectCodeGPTを提案する。 摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率を両立させる。 実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。

Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine- and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine- and human-authored code. Through a rigorous analysis of code attributes such as lexical diversity, conciseness, and naturalness, we expose unique patterns inherent to each source. We particularly notice that the syntactic segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose DetectCodeGPT, a novel method for detecting machine-generated code, which improves DetectGPT by capturing the distinct stylized patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-24
# SpecGen: 大規模言語モデルによる形式的プログラム仕様の自動生成

SpecGen: Automated Generation of Formal Program Specifications via Large Language Models ( http://arxiv.org/abs/2401.08807v2 )

ライセンス: Link先を確認
Lezhi Ma, Shangqing Liu, Yi Li, Xiaofei Xie, Lei Bu, (参考訳) 正式なプログラム仕様は、ソフトウェア開発の様々な段階で重要な役割を果たす。 しかし、正式なプログラム仕様を手作業で作成するのは難しいため、仕事の時間と労働集約性は高い。 複雑なプログラムのセマンティクスを正しく包括的に記述する仕様を書くことはさらに困難である。 ソフトウェア開発者の負担を軽減するため、自動仕様生成手法が登場した。 しかし、既存のメソッドは通常事前に定義されたテンプレートや文法に依存しており、複雑な現実世界のプログラムの振る舞いや機能を正確に記述するのに苦労している。 そこで本研究では,大規模言語モデルに基づくプログラム仕様生成手法であるSpecGenを紹介する。 我々の重要な洞察は、LLMのコード理解能力を活用することで、既存のメソッドの限界を克服することである。 SpecGenのプロセスは2つのフェーズから構成される。 第1フェーズでは、LLMが与えられたプログラムの適切な仕様を生成するための対話的なアプローチが採用されている。 LLMが正しい仕様を生成できないように設計された第2フェーズでは、モデル生成仕様に4つの突然変異演算子を適用し、新しいヒューリスティック選択戦略によって変異した仕様から検証可能な仕様を選択する。 SV-COMP Javaカテゴリベンチマークと手作業で構築したデータセットを含む,2つのデータセット上でSpecGenを評価する。 実験の結果、SpecGenは385のプログラムのうち279の検証可能な仕様を生成することに成功し、既存のLLMベースのアプローチやHoudiniやDaikonといった従来の仕様生成ツールよりも優れていた。 生成された仕様の品質に関するさらなる調査は、SpecGenが入力プログラムの振る舞いを包括的に記述できることを示している。

Formal program specifications play a crucial role in various stages of software development. However, manually crafting formal program specifications is rather difficult, making the job time-consuming and labor-intensive. It is even more challenging to write specifications that correctly and comprehensively describe the semantics of complex programs. To reduce the burden on software developers, automated specification generation methods have emerged. However, existing methods usually rely on predefined templates or grammar, making them struggle to accurately describe the behavior and functionality of complex real-world programs. To tackle this challenge, we introduce SpecGen, a novel technique for formal program specification generation based on Large Language Models. Our key insight is to overcome the limitations of existing methods by leveraging the code comprehension capability of LLMs. The process of SpecGen consists of two phases. The first phase employs a conversational approach that guides the LLM to generate appropriate specifications for a given program. The second phase, designed for where the LLM fails to generate correct specifications, applies four mutation operators to the model-generated specifications and selects verifiable specifications from the mutated ones through a novel heuristic selection strategy. We evaluate SpecGen on two datasets, including the SV-COMP Java category benchmark and a manually constructed dataset. Experimental results demonstrate that SpecGen succeeds in generating verifiable specifications for 279 out of 385 programs, outperforming the existing purely LLM-based approaches and conventional specification generation tools like Houdini and Daikon. Further investigations on the quality of generated specifications indicate that SpecGen can comprehensively articulate the behaviors of the input program.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-24
# 風を吹いて風を吹く:言語モデルの編集が与える影響

Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models ( http://arxiv.org/abs/2401.10647v3 )

ライセンス: Link先を確認
Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria, (参考訳) 人工知能の分野では、レッドチームやジェイルブレイクという概念が重要な研究領域として浮上している。 このアプローチは、これらのモデルの安全性と堅牢性の評価と強化において特に重要である。 本稿では,モデル編集による修正の複雑な結果について検討し,モデル精度の向上と倫理的整合性維持の複雑な関係を明らかにする。 正確な情報を注入することはモデルの信頼性にとって重要であるが、モデルの基礎的なフレームワークをパラドックス的に不安定にし、予測不可能で潜在的に安全でない振る舞いをもたらす。 さらに、この安全でない振る舞いを同一領域と横断領域の両方で調査するベンチマークデータセットNicheHazardQAを提案する。 私たちの研究のこの側面は、モデルの安全性指標やガードレールにどのように影響するかに光を当てています。 この結果から,対象の編集を体系的に適用し,結果のモデル行動を評価することで,モデル編集がトピックのリピートに有効なツールであることが示唆された。

In the rapidly advancing field of artificial intelligence, the concept of Red-Teaming or Jailbreaking large language models (LLMs) has emerged as a crucial area of study. This approach is especially significant in terms of assessing and enhancing the safety and robustness of these models. This paper investigates the intricate consequences of such modifications through model editing, uncovering a complex relationship between enhancing model accuracy and preserving its ethical integrity. Our in-depth analysis reveals a striking paradox: while injecting accurate information is crucial for model reliability, it can paradoxically destabilize the model's foundational framework, resulting in unpredictable and potentially unsafe behaviors. Additionally, we propose a benchmark dataset NicheHazardQA to investigate this unsafe behavior both within the same and cross topical domain. This aspect of our research sheds light on how the edits, impact the model's safety metrics and guardrails. Our findings show that model editing serves as a cost-effective tool for topical red-teaming by methodically applying targeted edits and evaluating the resultant model behavior.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-24
# 多変量時系列予測におけるチャネル依存性の再考:先行指標からの学習

Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators ( http://arxiv.org/abs/2401.17548v3 )

ライセンス: Link先を確認
Lifan Zhao, Yanyan Shen, (参考訳) 近年,多変量時系列(MTS)予測において,チャネル非依存の手法により最先端の性能が達成されている。 過度に適合するリスクを減らしたにもかかわらず、これらの手法は正確な予測のためにチャネル依存を利用する機会を逃している。 変数間では局所的に定常的な鉛-ラグ関係が存在する,すなわち,短時間で先頭の指標に従うようなラグ型変数が存在する,と我々は主張する。 先行指標は、ラベル付き変数の予測困難を軽減するために使用できる事前情報を提供するので、そのようなチャネル依存の爆発は有益である。 本稿では,まず,各段階における先行指標とその先行ステップを効率よく推定し,次に,先行指標からの先行情報を活用するためのLIFTという新しい手法を提案する。 LIFTは任意の時系列予測メソッドとシームレスに協調できるプラグインとして機能する。 6つの実世界のデータセットに対する大規模な実験により、LIFTは平均予測性能を5.5%改善することを示した。 私たちのコードはhttps://github.com/SJTU-Quant/LIFT.comで公開されています。

Recently, channel-independent methods have achieved state-of-the-art performance in multivariate time series (MTS) forecasting. Despite reducing overfitting risks, these methods miss potential opportunities in utilizing channel dependence for accurate predictions. We argue that there exist locally stationary lead-lag relationships between variates, i.e., some lagged variates may follow the leading indicators within a short time period. Exploiting such channel dependence is beneficial since leading indicators offer advance information that can be used to reduce the forecasting difficulty of the lagged variates. In this paper, we propose a new method named LIFT that first efficiently estimates leading indicators and their leading steps at each time step and then judiciously allows the lagged variates to utilize the advance information from leading indicators. LIFT plays as a plugin that can be seamlessly collaborated with arbitrary time series forecasting methods. Extensive experiments on six real-world datasets demonstrate that LIFT improves the state-of-the-art methods by 5.5% in average forecasting performance. Our code is available at https://github.com/SJTU-Quant/LIFT.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-24
# グローバーの探索アルゴリズムの強化:良い状態の確率を高めるための改良されたアプローチ

Enhancing Grover's Search Algorithm: A Modified Approach to Increase the Probability of Good States ( http://arxiv.org/abs/2402.00082v4 )

ライセンス: Link先を確認
Ismael Abdulrahman, (参考訳) 本稿では,Groverの探索アルゴリズムを改良し,良好な状態を見つける確率の計算を高速化する。 最初のイテレーション中にモデルの微分から数学的に決定された回転位相角を組み込むことを提案する。 各イテレーションにおいて、拡散演算子のy+z軸周りの回転ゲートに新しい位相角を演算して使用する。 計算された位相角は、連続振幅の推定増加比に基づいて適応調整により最適化される。 その結果、必要なイテレーション数の平均28%が減少し、結果として全体のプロセスが高速化され、量子ゲートの数も減った。 大きな検索スペースでは、この改善は29.58%まで上昇する。 シミュレーションに使用されるコンピュータの計算能力を考えると、最大12キュービットのインスタンスや4096の検索エントリの組み合わせに適用できる。

This article introduces an enhancement to the Grover search algorithm to speed up computing the probability of finding good states. It suggests incorporating a rotation phase angle determined mathematically from the derivative of the model during the initial iteration. At each iteration, a new phase angle is computed and used in a rotation gate around y+z axis in the diffusion operator. The computed phase angles are optimized through an adaptive adjustment based on the estimated increasing ratio of the consecutive amplitudes. The findings indicate an average decrease of 28% in the required number of iterations resulting in a faster overall process and fewer number of quantum gates. For large search space, this improvement rises to 29.58%. Given the computational capabilities of the computer utilized for the simulation, the approach is applied to instances with up to 12 qubits or 4096 possible combination of search entries.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-24
# 長期予測のための自己監督型コントラスト学習

Self-Supervised Contrastive Learning for Long-term Forecasting ( http://arxiv.org/abs/2402.02023v2 )

ライセンス: Link先を確認
Junwoo Park, Daehoon Gwak, Jaegul Choo, Edward Choi, (参考訳) 長期予測は、長いシーケンスを扱う際の時間とメモリの複雑さによって、ユニークな課題を呈する。 ウィンドウをスライドして長いシーケンスを処理している既存の方法は、ショートウィンドウ内で部分的に捕捉される長期の変動(すなわち外ウィンドウの変動)を効果的に捉えるのに苦労している。 本稿では,コントラスト学習と拡張分解アーキテクチャを用いて,この制限を克服する新しいアプローチを提案する。 この目的のために、我々の対照的な損失は、全時系列に保持される大域的自己相関を取り入れ、自己監督的な方法で正対と負対の構築を容易にする。 コントラスト学習は,分解ネットワークと組み合わせることで,長期予測性能を大幅に向上させる。 大規模な実験では,9つの長期ベンチマークにおいて,14のベースラインモデルよりも優れた結果が得られた。 ソースコードはhttps://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsatingで公開されている。

Long-term forecasting presents unique challenges due to the time and memory complexity of handling long sequences. Existing methods, which rely on sliding windows to process long sequences, struggle to effectively capture long-term variations that are partially caught within the short window (i.e., outer-window variations). In this paper, we introduce a novel approach that overcomes this limitation by employing contrastive learning and enhanced decomposition architecture, specifically designed to focus on long-term variations. To this end, our contrastive loss incorporates global autocorrelation held in the whole time series, which facilitates the construction of positive and negative pairs in a self-supervised manner. When combined with our decomposition networks, our contrastive learning significantly improves long-term forecasting performance. Extensive experiments demonstrate that our approach outperforms 14 baseline models in multiple experiments over nine long-term benchmarks, especially in challenging scenarios that require a significantly long output for forecasting. Source code is available at https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-24
# 知識蒸留と最適化学習手法によるNLPタスク性能向上のための大規模言語モデルの活用

Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies ( http://arxiv.org/abs/2402.09282v4 )

ライセンス: Link先を確認
Yining Huang, Keke Tang, Meilian Chen, (参考訳) GPT-4のような新しい大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらし、名前付きエンティティ認識 (NER) のような従来のタスクに潜在的な可能性を示している。 本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略について検討する。 当初、GPT-4はCONLL2003と追加のBBCデータセットのサブセットを微調整なしで注釈付けしていた。 BERT は,従来の LLM アノテーションと LLM アノテーションを混合したデータを用いて学習し,従来の手法に対する LLM アノテーションの有効性を解析する。 第2フェーズでは、異なるトレーニングレギュレータで比較実験を行い、蒸留されたデータと元のデータの相乗効果を評価する。 シーケンシャルな戦略、特に蒸留データとオリジナルデータとを併用した単純な訓練が、パフォーマンスを大幅に向上させるのを観察する。 第3フェーズでは,シグモイドやパワー崩壊関数などの各種データブレンディング技術について検討し,トレーニングプロセスをさらに最適化する。 以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。 提案手法は,手作業によるアノテーションのコスト削減と効率の向上を図り,特にリソース制限やクローズドネットワーク環境において意味のある手法である。 この研究は、"Simple Mix"戦略が最良の結果をもたらす一方で、その基盤となるメカニズムを理解するにはさらなる研究が必要であると結論付けている。 今後の作業は、様々なNLPタスクに方法論を拡張することを目的として、プロンプトデザインの洗練とアノテーション選択プロセスの強化にも焦点をあてる。

Emerging Large Language Models (LLMs) like GPT-4 have revolutionized Natural Language Processing (NLP), showing potential in traditional tasks such as Named Entity Recognition (NER). Our study explores a three-phase training strategy that harnesses GPT-4's capabilities to enhance the BERT model's performance on NER. Initially, GPT-4 annotates a subset of the CONLL2003 and additional BBC dataset without fine-tuning. We then train BERT using a mix of original and LLM-annotated data, analyzing the efficacy of LLM annotations against traditional methods. The second phase involves comparative experiments with different training regimens, assessing the synergy between distilled and original data. We observe that sequential strategies, particularly a simple mix of training first with distilled data followed by original data, significantly boost performance. In the third phase, we investigate various data blending techniques, including sigmoid and power decay functions, to optimize the training process further. Our results indicate that a strategic mix of distilled and original data markedly elevates the NER capabilities of BERT. Our approach presents a scalable methodology that reduces manual annotation costs and increases efficiency, making it especially pertinent in resource-limited and closed-network environments. The study concludes that while the 'Simple Mix' strategy yields the best results, understanding its underlying mechanisms requires further research. Future work will also focus on refining prompt designs and enhancing annotation selection processes, aiming to extend our methodology to diverse NLP tasks.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-24
# リー群上の確率的ヘシアンフィッティング

Stochastic Hessian Fittings on Lie Groups ( http://arxiv.org/abs/2402.11858v2 )

ライセンス: Link先を確認
Xi-Lin Li, (参考訳) 本稿では, 既定の確率勾配勾配勾配法(PSGD)法を用いて, ヘシアンあるいはその逆の確率勾配最適化におけるヘシアンの適合性について検討する。 解析により, 閉形式から反復解まで, ユークリッド空間におけるヘシアン方程式, 対称正定値行列(SPL)多様体, あるいは様々なリー群を用いて, ヘシアンベクトル積あるいは確率勾配のみを用いて, 幅広いプレコンディショナーフィッティング手法の効率性と信頼性の差異を明らかにした。 最も興味深い発見は、Hessian 自身を最適化問題として適合させることが、特定のが一般のリー群に対して穏やかな条件下で強く凸であることである。 この発見により、ヘシアンフィッティングはよく振る舞う最適化問題となり、大規模確率最適化のための高効率でエレガントなリー群スパースプレコンディショナーフィッティング法の設計が容易になる。

This paper studies the fitting of Hessian or its inverse for stochastic optimizations using a Hessian fitting criterion from the preconditioned stochastic gradient descent (PSGD) method, which is intimately related to many commonly used second order and adaptive gradient optimizers, e.g., BFGS, Gaussian-Newton and natural gradient descent, AdaGrad, etc. Our analyses reveal the efficiency and reliability differences among a wide range of preconditioner fitting methods, from closed-form to iterative solutions, using Hessian-vector products or stochastic gradients only, with Hessian fittings in the Euclidean space, the manifold of symmetric positive definite (SPL) matrices, or a variety of Lie groups. The most intriguing discovery is that the Hessian fitting itself as an optimization problem is strongly convex under mild conditions on a specific yet general enough Lie group. This discovery turns Hessian fitting into a well behaved optimization problem, and facilitates the designs of highly efficient and elegant Lie group sparse preconditioner fitting methods for large scale stochastic optimizations.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-24
# パターン分析とマシンインテリジェンスにおける文献レビュー

A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence ( http://arxiv.org/abs/2402.12928v4 )

ライセンス: Link先を確認
Penghai Zhao, Xin Zhang, Ming-Ming Cheng, Jian Yang, Xiang Li, (参考訳) 散在する知識を集約することにより、文献レビューは、調査対象の総合的な理解を提供する。 しかし、読むこと、実行すること、または査読するレビュー論文は一般に研究者による時間と労力のかなりの投資を必要としている。 本稿では,PAMI分野のレビューを多種多様な視点から徹底的にレビューすることを目的としている。 まず、レビューを評価するために、いくつかの記事レベル、フィールド正規化、および大規模言語モデルを用いた書誌指標を提案する。 これを容易にするために、RiPAMIと呼ばれるメタデータデータベースとトピックデータセットを構築する。 第2に、これらの指標に基づいて、各分野、期間、雑誌の出版物の特徴を明らかにする代表レビューの比較分析を行った。 新たなAI生成の文献レビューも評価されており、観察された違いは、ほとんどのAI生成のレビューが、複数の面で人間によるレビューより遅れていることを示唆している。 第3に,PAMI書評を主観的に評価し,文献書評の類型論を紹介する。 このタイポロジーは、レビューの読み書きにおける学者の明快さと有効性を改善しつつ、十分に整理されたレビューを生成するためのAIシステムのガイドとしても機能する。 最後に、この研究は、文献レビューの現在の課題についての洞察を提供し、彼らの開発のための将来の方向性を想定する。

By consolidating scattered knowledge, the literature review provides a comprehensive understanding of the investigated topic. However, reading, conducting, or peer-reviewing review papers generally demands a significant investment of time and effort from researchers. To improve efficiency, this paper aims to provide a thorough review of reviews in the PAMI field from diverse perspectives. First, this paper proposes several article-level, field-normalized, and large language model-empowered bibliometric indicators to evaluate reviews. To facilitate this, a meta-data database dubbed RiPAMI, and a topic dataset are constructed. Second, based on these indicators, the study presents comparative analyses of representative reviews, unveiling the characteristics of publications across various fields, periods, and journals. The newly emerging AI-generated literature reviews are also appraised, and the observed differences suggest that most AI-generated reviews still lag behind human-authored reviews in multiple aspects. Third, we briefly provide a subjective evaluation of representative PAMI reviews and introduce a paper structure-based typology of literature reviews. This typology may improve the clarity and effectiveness for scholars in reading and writing reviews, while also serving as a guide for AI systems in generating well-organized reviews. Finally, this work offers insights into the current challenges of literature reviews and envisions future directions for their development.
翻訳日:2024-03-27 01:25:46 公開日:2024-03-24
# 非構造データから生じる変数による回帰の推論

Inference for Regression with Variables Generated from Unstructured Data ( http://arxiv.org/abs/2402.15585v2 )

ライセンス: Link先を確認
Laura Battaglia, Timothy Christensen, Stephen Hansen, Szymon Sacher, (参考訳) 構造化されていないデータを分析するための主要な戦略は、2つのステップを使用する。 まず、上流情報検索モデルを用いて、経済利害の潜伏変数を推定する。 第二に、推定値は下流の計量モデルで「データ」として扱われる。 この2段階戦略が実験的に実証可能な環境での偏見推論につながる理由を理論的に論じる。 より構成的に、上流モデルと下流モデルとを併用した有効推論のためのワンステップ戦略を提案する。 ワンステップ戦略 i) シミュレーションにおけるバイアスを大幅に減少させる。 (二)CEOのタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を有すること。 (iii) 応用研究者が容易に適用できる。

The leading strategy for analyzing unstructured data uses two steps. First, latent variables of economic interest are estimated with an upstream information retrieval model. Second, the estimates are treated as "data" in a downstream econometric model. We establish theoretical arguments for why this two-step strategy leads to biased inference in empirically plausible settings. More constructively, we propose a one-step strategy for valid inference that uses the upstream and downstream models jointly. The one-step strategy (i) substantially reduces bias in simulations; (ii) has quantitatively important effects in a leading application using CEO time-use data; and (iii) can be readily adapted by applied researchers.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-24
# 強化学習における政策と未知の安全制約の同時学習

Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning ( http://arxiv.org/abs/2402.15893v3 )

ライセンス: Link先を確認
Lunet Yifru, Ali Baheri, (参考訳) 強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。 しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。 従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。 しかし、この事前定義された安全制約への依存は、そのような制約が利用できない、あるいは十分に適応できないような、動的で予測不可能な現実世界の設定に制限をもたらす。 このギャップを埋めて、安全なRL制御ポリシーを同時に学習し、与えられた環境の未知の安全制約パラメータを識別する新しいアプローチを提案する。 パラメトリック信号時間論理(pSTL)の安全性仕様と小さな初期ラベル付きデータセットを初期化して、与えられたpSTLの安全性仕様のパラメータを最適化するためのベイズ最適化を用いて、2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムのラグランジアン変種を用いて、制約付きポリシー最適化を複雑に統合する二段階最適化タスクとする。 包括的ケーススタディにおける実験を通じて, 環境制約の様々な形態にまたがるこのアプローチの有効性を検証する。 さらに, 本研究は, STLの安全性制約パラメータの学習に成功し, 真の環境安全制約と高い適合性を示した。 本モデルの性能は, 安全制約の事前知識を十分に備えた理想的なシナリオを忠実に反映し, 環境安全制約を正確に識別し, それらの制約に準拠した安全ポリシーを学習する能力を示す。

Reinforcement learning (RL) has revolutionized decision-making across a wide range of domains over the past few decades. Yet, deploying RL policies in real-world scenarios presents the crucial challenge of ensuring safety. Traditional safe RL approaches have predominantly focused on incorporating predefined safety constraints into the policy learning process. However, this reliance on predefined safety constraints poses limitations in dynamic and unpredictable real-world settings where such constraints may not be available or sufficiently adaptable. Bridging this gap, we propose a novel approach that concurrently learns a safe RL control policy and identifies the unknown safety constraint parameters of a given environment. Initializing with a parametric signal temporal logic (pSTL) safety specification and a small initial labeled dataset, we frame the problem as a bilevel optimization task, intricately integrating constrained policy optimization, using a Lagrangian-variant of the twin delayed deep deterministic policy gradient (TD3) algorithm, with Bayesian optimization for optimizing parameters for the given pSTL safety specification. Through experimentation in comprehensive case studies, we validate the efficacy of this approach across varying forms of environmental constraints, consistently yielding safe RL policies with high returns. Furthermore, our findings indicate successful learning of STL safety constraint parameters, exhibiting a high degree of conformity with true environmental safety constraints. The performance of our model closely mirrors that of an ideal scenario that possesses complete prior knowledge of safety constraints, demonstrating its proficiency in accurately identifying environmental safety constraints and learning safe policies that adhere to those constraints.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-24
# HumanEval-XL: 言語間自然言語の一般化のための多言語コード生成ベンチマーク

HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization ( http://arxiv.org/abs/2402.16694v2 )

ライセンス: Link先を確認
Qiwei Peng, Yekun Chai, Xuhong Li, (参考訳) 大規模言語モデル(LLM)は、テキストプロンプトからコードを生成することに大きく進歩している。 しかし、既存のベンチマークは主に英語のプロンプトを多言語コードに変換することに集中しており、非常に限定的な自然言語(NL)に制限されている。 これらのベンチマークは、多言語コードに対する膨大な多言語NLの展望を見落とし、多言語LLMの評価において重要なギャップを残している。 これに対しHumanEval-XLは,この欠陥に対処するために開発された多言語コード生成ベンチマークである。 HumanEval-XLは23のNLと12のプログラミング言語(PL)の接続を確立し、平均8.33のテストケースを持つ22,080のプロンプトからなる。 複数のNLとPLの並列データを保証することで、HumanEval-XLは多言語LLMのための総合的な評価プラットフォームを提供し、異なるNLの理解を評価することができる。 我々の研究は、多言語コード生成領域におけるNL一般化の評価において、空白を埋める先駆的なステップとして機能する。 評価コードとデータは \url{https://github.com/FloatAI/ Humaneval-xl} で公開しています。

Large language models (LLMs) have made significant progress in generating codes from textual prompts. However, existing benchmarks have mainly concentrated on translating English prompts to multilingual codes or have been constrained to very limited natural languages (NLs). These benchmarks have overlooked the vast landscape of massively multilingual NL to multilingual code, leaving a critical gap in the evaluation of multilingual LLMs. In response, we introduce HumanEval-XL, a massively multilingual code generation benchmark specifically crafted to address this deficiency. HumanEval-XL establishes connections between 23 NLs and 12 programming languages (PLs), and comprises of a collection of 22,080 prompts with an average of 8.33 test cases. By ensuring parallel data across multiple NLs and PLs, HumanEval-XL offers a comprehensive evaluation platform for multilingual LLMs, allowing the assessment of the understanding of different NLs. Our work serves as a pioneering step towards filling the void in evaluating NL generalization in the area of multilingual code generation. We make our evaluation code and data publicly available at \url{https://github.com/FloatAI/humaneval-xl}.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-24
# CARZero: ゼロショット分類のためのクロスアテンションアライメント

CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification ( http://arxiv.org/abs/2402.17417v2 )

ライセンス: Link先を確認
Haoran Lai, Qingsong Yao, Zihang Jiang, Rongsheng Wang, Zhiyang He, Xiaodong Tao, S. Kevin Zhou, (参考訳) 医用領域におけるゼロショット学習の進歩は、画像テキストアライメントに焦点をあてて、大規模画像テキストペア上で事前訓練されたモデルを使用することによって前進してきた。 しかし、既存の手法は主にコサインの類似性に依存しており、医療画像と報告の間の複雑な関係を完全に捉えることはできない。 このギャップに対処するため、我々はCARZero(Cross-Attention Alignment for Radiology Zero-Shot Classification)と呼ばれる新しいアプローチを導入する。 提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。 この表現は線形に投影され、画像-テキスト類似性行列を形成する。 さらに、ゼロショット学習におけるプロンプト選択の重要な役割を認識し、CARZeroはLarge Language Modelベースのプロンプトアライメント戦略を取り入れている。 この戦略は、多様な診断表現をトレーニングと推論フェーズの両方の統一フォーマットに標準化し、手動のプロンプト設計の課題を克服する。 本手法は単純だが有効であり, 胸部X線写真診断5セットのゼロショット分類において, 稀な疾患の長期分布を示すデータセットの顕著な結果を含む, 最先端の成績を示す。 この成果は、医用画像とレポートの複雑な関係を効果的に扱う新しい画像テキストアライメント戦略によるものである。 コードとモデルはhttps://github.com/laihaoran/CARZero.comで公開されている。

The advancement of Zero-Shot Learning in the medical domain has been driven forward by using pre-trained models on large-scale image-text pairs, focusing on image-text alignment. However, existing methods primarily rely on cosine similarity for alignment, which may not fully capture the complex relationship between medical images and reports. To address this gap, we introduce a novel approach called Cross-Attention Alignment for Radiology Zero-Shot Classification (CARZero). Our approach innovatively leverages cross-attention mechanisms to process image and report features, creating a Similarity Representation that more accurately reflects the intricate relationships in medical semantics. This representation is then linearly projected to form an image-text similarity matrix for cross-modality alignment. Additionally, recognizing the pivotal role of prompt selection in zero-shot learning, CARZero incorporates a Large Language Model-based prompt alignment strategy. This strategy standardizes diverse diagnostic expressions into a unified format for both training and inference phases, overcoming the challenges of manual prompt design. Our approach is simple yet effective, demonstrating state-of-the-art performance in zero-shot classification on five official chest radiograph diagnostic test sets, including remarkable results on datasets with long-tail distributions of rare diseases. This achievement is attributed to our new image-text alignment strategy, which effectively addresses the complex relationship between medical images and reports. Code and models are available at https://github.com/laihaoran/CARZero.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-24
# 原型最適輸送による教師なしクロスドメイン画像検索

Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport ( http://arxiv.org/abs/2402.18411v2 )

ライセンス: Link先を確認
Bin Li, Ye Shi, Qian Yu, Jingya Wang, (参考訳) 非教師なしクロスドメイン画像検索(UCIR)は、ラベル付きデータに頼ることなく、さまざまなドメインで同じカテゴリを共有する画像を検索することを目的としている。 従来のアプローチでは、UCIRの問題をドメイン内表現学習とドメイン間特徴アライメントという2つの異なるタスクに分解していた。 しかし、これらの分離戦略は、これらのタスク間の潜在的なシナジーを見落としている。 本稿では、ドメイン内特徴表現学習とクロスドメインアライメントを統合フレームワークに統合した、UCIR用に明示的に調整された新しい最適輸送定式化であるProtoOTを紹介する。 ProtoOTは、K平均クラスタリング法の強度を利用して、UCIR固有の分布不均衡を効果的に管理する。 初期プロトタイプの生成とクラス境界分布の近似にK-meansを用いることで、最適輸送における制約を修正し、UCIRシナリオにおけるその性能を大幅に向上させる。 さらに,コントラスト学習をProtoOTフレームワークに組み込んで表現学習をさらに改善する。 これにより、類似のセマンティクスを持つ機能間の局所的なセマンティクスの一貫性が促進されると同時に、特徴と未整合プロトタイプの分離を明示的に実施し、グローバルな差別性を高めることができる。 ProtoOTは、既存の最先端メソッドを、ベンチマークデータセット間で顕著なマージンで上回っている。 特にDomainNetでは、ProtoOTは平均24.44%のP@200拡張を実現し、Office-Homeでは12.12%のP@15改善を示している。 コードはhttps://github.com/HCVLAB/ProtoOTで入手できる。

Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images sharing the same category across diverse domains without relying on labeled data. Prior approaches have typically decomposed the UCIR problem into two distinct tasks: intra-domain representation learning and cross-domain feature alignment. However, these segregated strategies overlook the potential synergies between these tasks. This paper introduces ProtoOT, a novel Optimal Transport formulation explicitly tailored for UCIR, which integrates intra-domain feature representation learning and cross-domain alignment into a unified framework. ProtoOT leverages the strengths of the K-means clustering method to effectively manage distribution imbalances inherent in UCIR. By utilizing K-means for generating initial prototypes and approximating class marginal distributions, we modify the constraints in Optimal Transport accordingly, significantly enhancing its performance in UCIR scenarios. Furthermore, we incorporate contrastive learning into the ProtoOT framework to further improve representation learning. This encourages local semantic consistency among features with similar semantics, while also explicitly enforcing separation between features and unmatched prototypes, thereby enhancing global discriminativeness. ProtoOT surpasses existing state-of-the-art methods by a notable margin across benchmark datasets. Notably, on DomainNet, ProtoOT achieves an average P@200 enhancement of 24.44%, and on Office-Home, it demonstrates a P@15 improvement of 12.12%. Code is available at https://github.com/HCVLAB/ProtoOT.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-24
# ダイヤモンド中の窒素空孔中心アンサンブルの閉ループ最適制御のためのゲートセット評価指標

Gate-set evaluation metrics for closed-loop optimal control on nitrogen-vacancy center ensembles in diamond ( http://arxiv.org/abs/2403.00616v2 )

ライセンス: Link先を確認
Philipp J. Vetter, Thomas Reisser, Maximilian G. Hirsch, Tommaso Calarco, Felix Motzoi, Fedor Jelezko, Matthias M. Müller, (参考訳) 量子科学と技術において繰り返される課題は、量子ゲートの集合によってしばしば説明される、所望の量子演算に繋がる基礎となる力学を正確に制御することである。 これらのゲートはアプリケーション固有のエラーを受けやすいため、選択した回路、品質指標、ゲートセット自体に制御が依存する。 自然な解決策は、アプリケーション指向の方法で量子最適制御を適用することである。 言い換えると、これは文脈ゲートセットのパフォーマンスの有意義な尺度を定義する必要がある。 そこで我々は,ダイヤモンド中の窒素空孔中心のマクロアンサンブルを用いて,量子プロセストモグラフィ,線形逆ゲートセットトモグラフィ,ランダム化線形ゲートセットトモグラフィ,ランダム化ベンチマークの適用性をクローズドループ量子最適制御実験の尺度として検討し,比較した。 本研究は,これらの対策の相対的なトレードオフとゲートセット性能の大幅な向上を実証し,すべての調査方法にまたがる改善につながった。

A recurring challenge in quantum science and technology is the precise control of their underlying dynamics that lead to the desired quantum operations, often described by a set of quantum gates. These gates can be subject to application-specific errors, leading to a dependence of their controls on the chosen circuit, the quality measure and the gate-set itself. A natural solution would be to apply quantum optimal control in an application-oriented fashion. In turn, this requires the definition of a meaningful measure of the contextual gate-set performance. Therefore, we explore and compare the applicability of quantum process tomography, linear inversion gate-set tomography, randomized linear gate-set tomography, and randomized benchmarking as measures for closed-loop quantum optimal control experiments, using a macroscopic ensemble of nitrogen-vacancy centers in diamond as a test-bed. Our work demonstrates the relative trade-offs between those measures and how to significantly enhance the gate-set performance, leading to an improvement across all investigated methods.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-24
# 時空間光渦における軌道角運動量の量子理論

Quantum theory of orbital angular momentum in spatiotemporal optical vortices ( http://arxiv.org/abs/2403.01054v2 )

ライセンス: Link先を確認
Pronoy Das, Sathwik Bharadwaj, Zubin Jacob, (参考訳) 時空間光渦(STOVs)は、時空領域における位相特異点を持つ自由空間で伝播する構造電磁場である。 ヘリカルフェイズフロントの傾きによって、STOVは縦方向と横方向の軌道角運動量(OAM)の両方を運ぶことができる。 STOVは近年大きな関心を集めているが、現在の理解は半古典的図形に限られている。 ここでは、任意の傾きを持つSTOVの量子理論を開発し、同軸極限を超えて拡張する。 我々は、フォックやコヒーレントねじれ光子パルスなどの量子STOV状態が、従来の単色ねじれパルスに欠落する非消滅長手OAM変動を示すことを示した。 これらの量子揺らぎは独自のテクスチャ、すなわちこれらの量子効果を実験的に分離するために使用できる空間分布を示す。 本研究は,OAMベースの符号化プロトコルや2次元材料システムにおける新しい光-物質相互作用を探索するプラットフォームなど,構造化光の量子効果の活用に向けた一歩である。

Spatiotemporal Optical Vortices (STOVs) are structured electromagnetic fields propagating in free space with phase singularities in the space-time domain. Depending on the tilt of the helical phase front, STOVs can carry both longitudinal and transverse orbital angular momentum (OAM). Although STOVs have gained significant interest in the recent years, the current understanding is limited to the semi-classical picture. Here, we develop a quantum theory for STOVs with an arbitrary tilt, extending beyond the paraxial limit. We demonstrate that quantum STOV states, such as Fock and coherent twisted photon pulses, display non-vanishing longitudinal OAM fluctuations that are absent in conventional monochromatic twisted pulses. We show that these quantum fluctuations exhibit a unique texture, i.e. a spatial distribution which can be used to experimentally isolate these quantum effects. Our findings represent a step towards the exploitation of quantum effects of structured light for various applications such as OAM-based encoding protocols and platforms to explore novel light-matter interaction in 2D material systems.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-24
# 自律的インテリジェントシステム - 制御のイリュージョンから脱却へ

Autonomous Intelligent Systems: From Illusion of Control to Inescapable Delusion ( http://arxiv.org/abs/2403.01292v2 )

ライセンス: Link先を確認
Stéphane Grumbach, Giorgio Resta, Riccardo Torlone, (参考訳) 生成AIを含む自律システムは、以前のデジタルイノベーションよりも速く採用されている。 社会に対する彼らの影響は、知識経済の急激な再構築と社会的・制度的バランスの劇的な結果により、より深いものとなるかもしれない。 これらの制度を制御するための異なる態度は、古典的な法体系の柱、プロプライエタリな権利、社会的責任に根ざしている。 制御の錯覚が政府や規制当局を導くのに対して、自律的なシステムは我々を逃れられない妄想へと駆り立てているかもしれないことを、私たちは示しています。

Autonomous systems, including generative AI, have been adopted faster than previous digital innovations. Their impact on society might as well be more profound, with a radical restructuring of the economy of knowledge and dramatic consequences for social and institutional balances. Different attitudes to control these systems have emerged rooted in the classical pillars of legal systems, proprietary rights, and social responsibility. We show how an illusion of control might be guiding governments and regulators, while autonomous systems might be driving us to inescapable delusion.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-24
# 音声の信頼:選択性被覆によるコンフォーマル予測

Confidence on the Focal: Conformal Prediction with Selection-Conditional Coverage ( http://arxiv.org/abs/2403.03868v2 )

ライセンス: Link先を確認
Ying Jin, Zhimei Ren, (参考訳) コンフォーマル予測は、ランダムに描画された新しいテストポイントの未知の結果を所定の確率でカバーする、わずかに有効な予測間隔を構築する。 しかし、実際に一般的なシナリオは、データを見た後、実践者がデータ駆動方式でどのテストユニットにフォーカスするかを決め、焦点ユニットの不確実な定量化を求めることである。 そのようなケースでは、選択バイアスによる焦点単位に対する正当性予測間隔は、選択バイアスによる有効なカバレッジを提供できない。 本稿では,与えられた手順で選択された単位に対して,有限サンプルの正確なカバレッジ条件付き予測セットを構築するための一般的な枠組みを提案する。 この手法の一般形式は、キャリブレーション単位の置換に不変な任意の選択規則に作用し、モンドリアン・コンフォーマル予測を複数の検定単位と非同変分類器に一般化する。 次に、トップK選択、最適化に基づく選択、共形 p-値に基づく選択、予備共形予測セットの特性に基づく選択など、多数の現実的な選択ルールに対するフレームワークの計算効率の良い実装について検討する。 本手法の性能は薬物発見と健康リスク予測に応用して実証した。

Conformal prediction builds marginally valid prediction intervals that cover the unknown outcome of a randomly drawn new test point with a prescribed probability. However, a common scenario in practice is that, after seeing the data, practitioners decide which test unit(s) to focus on in a data-driven manner and seek for uncertainty quantification of the focal unit(s). In such cases, marginally valid conformal prediction intervals may not provide valid coverage for the focal unit(s) due to selection bias. This paper presents a general framework for constructing a prediction set with finite-sample exact coverage conditional on the unit being selected by a given procedure. The general form of our method works for arbitrary selection rules that are invariant to the permutation of the calibration units, and generalizes Mondrian Conformal Prediction to multiple test units and non-equivariant classifiers. We then work out the computationally efficient implementation of our framework for a number of realistic selection rules, including top-K selection, optimization-based selection, selection based on conformal p-values, and selection based on properties of preliminary conformal prediction sets. The performance of our methods is demonstrated via applications in drug discovery and health risk prediction.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-24
# 拡散モデルを用いた潜在データセット蒸留

Latent Dataset Distillation with Diffusion Models ( http://arxiv.org/abs/2403.03881v2 )

ライセンス: Link先を確認
Brian B. Moser, Federico Raue, Sebastian Palacio, Stanislav Frolov, Andreas Dengel, (参考訳) 機械学習の有効性は、伝統的に、ますます大きなデータセットの可用性に依存してきた。 しかし、大規模なデータセットはストレージの課題に対処し、非インフルエンシャルなサンプルを含んでいるため、モデルの最終的な精度に影響を与えることなく、トレーニング中に無視することができる。 これらの制限に応えて、データセット上の情報を凝縮した(合成)サンプル、すなわち蒸留データセットに蒸留するという概念が生まれた。 重要な側面の1つは、元のデータセットと合成データセットをリンクするための選択されたアーキテクチャ(通常、ConvNet)である。 しかし, 使用済みモデルアーキテクチャが蒸留時に使用するモデルと異なる場合, 最終的な精度は低い。 もうひとつの課題は、128x128以上の高解像度画像の生成である。 本稿では,遅延空間における拡散とデータセットの蒸留を組み合わせた拡散モデル(LD3M)を提案する。 LD3Mには、データセットの蒸留に適した新しい拡散プロセスが組み込まれており、合成画像の学習の勾配基準を改善している。 拡散段数を調整することで、LD3Mは速度と精度のトレードオフを直感的に制御する方法を提供する。 我々は,複数のImageNetサブセットと高解像度画像(128x128,256x256)にアプローチを評価した。 その結果、LD3Mは1クラスあたり1.8 p.p.と4.2 p.p.で、それぞれ最先端の蒸留技術を上回っている。

The efficacy of machine learning has traditionally relied on the availability of increasingly larger datasets. However, large datasets pose storage challenges and contain non-influential samples, which could be ignored during training without impacting the final accuracy of the model. In response to these limitations, the concept of distilling the information on a dataset into a condensed set of (synthetic) samples, namely a distilled dataset, emerged. One crucial aspect is the selected architecture (usually ConvNet) for linking the original and synthetic datasets. However, the final accuracy is lower if the employed model architecture differs from the model used during distillation. Another challenge is the generation of high-resolution images, e.g., 128x128 and higher. In this paper, we propose Latent Dataset Distillation with Diffusion Models (LD3M) that combine diffusion in latent space with dataset distillation to tackle both challenges. LD3M incorporates a novel diffusion process tailored for dataset distillation, which improves the gradient norms for learning synthetic images. By adjusting the number of diffusion steps, LD3M also offers a straightforward way of controlling the trade-off between speed and accuracy. We evaluate our approach in several ImageNet subsets and for high-resolution images (128x128 and 256x256). As a result, LD3M consistently outperforms state-of-the-art distillation techniques by up to 4.8 p.p. and 4.2 p.p. for 1 and 10 images per class, respectively.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-24
# グラフからワードバッグ: ドメイン知識の導入から電荷予測の混乱

From Graph to Word Bag: Introducing Domain Knowledge to Confusing Charge Prediction ( http://arxiv.org/abs/2403.04369v3 )

ライセンス: Link先を確認
Ang Li, Qiangchao Chen, Yiquan Wu, Ming Cai, Xiang Zhou, Fei Wu, Kun Kuang, (参考訳) 電荷予測の混乱は、事実記述に基づく紛らわしい電荷の予測を含む、法的AIにおける困難なタスクである。 既存のチャージ予測手法は優れたパフォーマンスを示しているが、SnatchやRoberyといった紛らわしいチャージを扱う場合、大きな課題に直面している。 法的領域では、構成要素は紛らわしい電荷を区別する上で重要な役割を果たす。 構成要素は、刑事罰の基礎となる基本的な行動であり、罪状間で微妙に区別される。 本稿では,FWGB(From Graph to Word Bag)アプローチについて紹介する。この手法は,構成要素に関するドメイン知識を導入し,審査員の推論プロセスとよく似た,紛らわしい課金の判断をモデルに導く。 具体的には、まず、各電荷に対するキーワードの選択を支援するために、構成要素を含む法的な知識グラフを構築し、ワードバッグを形成する。 その後、コンテキスト内の各電荷の差分情報に対するモデルの注意を導くために、注意機構を拡張し、単語バッグ内の単語を通して注意を誘導する新たな損失関数を導入する。 現実の司法文書から紛らわしい料金データセットを構築する。 実験により本手法の有効性,特に不均衡ラベル分布における例外的性能の維持が示された。

Confusing charge prediction is a challenging task in legal AI, which involves predicting confusing charges based on fact descriptions. While existing charge prediction methods have shown impressive performance, they face significant challenges when dealing with confusing charges, such as Snatch and Robbery. In the legal domain, constituent elements play a pivotal role in distinguishing confusing charges. Constituent elements are fundamental behaviors underlying criminal punishment and have subtle distinctions among charges. In this paper, we introduce a novel From Graph to Word Bag (FWGB) approach, which introduces domain knowledge regarding constituent elements to guide the model in making judgments on confusing charges, much like a judge's reasoning process. Specifically, we first construct a legal knowledge graph containing constituent elements to help select keywords for each charge, forming a word bag. Subsequently, to guide the model's attention towards the differentiating information for each charge within the context, we expand the attention mechanism and introduce a new loss function with attention supervision through words in the word bag. We construct the confusing charges dataset from real-world judicial documents. Experiments demonstrate the effectiveness of our method, especially in maintaining exceptional performance in imbalanced label distributions.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-24
# BAGS:マルチスケールカーネルモデリングによるBlur Agnostic Gaussian Splatting

BAGS: Blur Agnostic Gaussian Splatting through Multi-Scale Kernel Modeling ( http://arxiv.org/abs/2403.04926v2 )

ライセンス: Link先を確認
Cheng Peng, Yutao Tang, Yifan Zhou, Nengyu Wang, Xijun Liu, Deming Li, Rama Chellappa, (参考訳) 近年,3次元ガウシアンをシーン再構成や新しいビュー合成に活用する試みは,実生活で撮影した画像がぼやけている場合が多い。 本研究では,ガウス・スプティング法を用いて,動きのぼやけ,デフォーカスのぼやけ,ダウンスケーリングのぼやけなど,様々な画像ぼやけに対するロバスト性を解析した。 これらの劣化の下では、ガウス・スプラッティング法はニューラル・ラジオアンス・フィールド法よりも過度に適合し、悪い結果をもたらす傾向にある。 この問題に対処するため,Blur Agnostic Gaussian Splatting (BAGS)を提案する。 BAGSは、画像がぼやけているにもかかわらず、3D一貫性と高品質なシーンを再構築できる2Dモデリング能力を導入している。 具体的には,Blur Proposal Network (BPN) から画素単位の畳み込みカーネルを推定することにより,ボケをモデル化する。 BPNは、モデリング能力を最大化するために、シーンの空間、色、深さの変化を考慮するように設計されている。 さらにBPNは、ぼやけた領域を示す品質評価マスクも提案している。 最後に、粗いカーネル最適化方式を導入する。この最適化方式は高速で、疎点雲の初期化による準最適解を回避し、ぼやけた画像にStructure-from-Motionを適用する際にしばしば発生する。 BAGSは、様々な難解なぼかし条件や画像幾何の下で、フォトリアリスティックなレンダリングを実現し、既存のアプローチでは大幅に改善されていることを実証する。

Recent efforts in using 3D Gaussians for scene reconstruction and novel view synthesis can achieve impressive results on curated benchmarks; however, images captured in real life are often blurry. In this work, we analyze the robustness of Gaussian-Splatting-based methods against various image blur, such as motion blur, defocus blur, downscaling blur, \etc. Under these degradations, Gaussian-Splatting-based methods tend to overfit and produce worse results than Neural-Radiance-Field-based methods. To address this issue, we propose Blur Agnostic Gaussian Splatting (BAGS). BAGS introduces additional 2D modeling capacities such that a 3D-consistent and high quality scene can be reconstructed despite image-wise blur. Specifically, we model blur by estimating per-pixel convolution kernels from a Blur Proposal Network (BPN). BPN is designed to consider spatial, color, and depth variations of the scene to maximize modeling capacity. Additionally, BPN also proposes a quality-assessing mask, which indicates regions where blur occur. Finally, we introduce a coarse-to-fine kernel optimization scheme; this optimization scheme is fast and avoids sub-optimal solutions due to a sparse point cloud initialization, which often occurs when we apply Structure-from-Motion on blurry images. We demonstrate that BAGS achieves photorealistic renderings under various challenging blur conditions and imaging geometry, while significantly improving upon existing approaches.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-24
# ABC-Channel: 高度なブロックチェーンベースのCovertチャネル

ABC-Channel: An Advanced Blockchain-based Covert Channel ( http://arxiv.org/abs/2403.06261v2 )

ライセンス: Link先を確認
Xiaobo Ma, Pengyu Pan, Jianfeng Li, Wei Wang, Weizhi Meng, Xiaohong Guan, (参考訳) 安全でないネットワーク環境におけるセキュアな通信には,効率的で堅牢な隠蔽チャネルの確立が不可欠である。 分散化と匿名化の本来のメリットにより、ブロックチェーンは隠蔽チャネルの開発において大きな注目を集めている。 高度にセキュアな隠蔽チャネルを保証するためには、通信の前にチャンネル交渉は無関係でなければならない。通信中はキャリアトランザクションの特徴が通常のトランザクションと区別できず、通信後に通信IDが追跡不能でなければならない。 このようなフルライフサイクルの隠蔽チャネルは、2つの通信相手(例えば、オンチェーン、オフチェーン)を包括的にインターセプトする多角的敵に対して防御するには不可欠である。 残念なことに、本書では徹底的に調査されていない。 私たちは、ABC-Channelというブロックチェーンベースの新しい隠蔽チャネルである、フルライフサイクルの隠蔽チャネルを達成するための最初の努力をしています。 オフチェーンの接触依存性,トランザクションボリュームの増加に伴うマスクレーディング困難の増加,通信不能かつ追跡不能なIDの出現など,一連の課題に対処し,それぞれ非接触チャネル交渉,識別不能なトランザクション機能,追跡不能な通信IDを実現している。 ABC-Channelを検証するためのプロトタイプを開発し、Bitcoinテストネット上で広範囲なテストを行う。 実験の結果,ABC-Channelは極めて安全なカバート機能を実現することがわかった。 既存の方法と比較して、最先端の伝送効率も示す。

Establishing efficient and robust covert channels is crucial for secure communication within insecure network environments. With its inherent benefits of decentralization and anonymization, blockchain has gained considerable attention in developing covert channels. To guarantee a highly secure covert channel, channel negotiation should be contactless before the communication, carrier transaction features must be indistinguishable from normal transactions during the communication, and communication identities must be untraceable after the communication. Such a full-lifecycle covert channel is indispensable to defend against a versatile adversary who intercepts two communicating parties comprehensively (e.g., on-chain and off-chain). Unfortunately, it has not been thoroughly investigated in the literature. We make the first effort to achieve a full-lifecycle covert channel, a novel blockchain-based covert channel named ABC-Channel. We tackle a series of challenges, such as off-chain contact dependency, increased masquerading difficulties as growing transaction volume, and time-evolving, communicable yet untraceable identities, to achieve contactless channel negotiation, indistinguishable transaction features, and untraceable communication identities, respectively. We develop a working prototype to validate ABC-Channel and conduct extensive tests on the Bitcoin testnet. The experimental results demonstrate that ABC-Channel achieves substantially secure covert capabilities. In comparison to existing methods, it also exhibits state-of-the-art transmission efficiency.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-24
# 室温ハイブリッドナノアンテナにおけるコロイド量子ドットからの超高速で高濃度の放射偏光光子

Ultrafast and highly collimated radially polarized photons from a colloidal quantum dot in a hybrid nanoantenna at room-temperature ( http://arxiv.org/abs/2403.06523v2 )

ライセンス: Link先を確認
Alexander Nazarov, Yuval Bloom, Boaz Lubotzky, Hamza Abudayyeh, Annika Mildner, Lorenzo Baldessarini, Yuval Shemla, Eric G. Bowes, Monika Fleischer, Jennifer A. Hollingsworth, Ronen Rapaport, (参考訳) 高次元量子鍵分布(HD-QKD)や量子通信などの応用における放射偏光単一光子のポテンシャルを活用するために,高方向の放射偏光光子を高速度で生成するオンチップ,室温デバイスを実証した。 これらの光子は、ハイブリッド金属-誘電性ブルゼーアンテナの中に位置する金属ナノコーンの先端に正確に位置決めされた巨大なCdSe/CdSコロイド量子ドット(gQD)から放出される。 我々は、gQDの平面外光双極子に特有なパーセルの大規模かつ選択的拡張により、発光された光子は、定量値に基づいて非常に高い放射偏光(>93%)を持つことができることを示した。 本研究は, ナノ構造デバイスにおける放射偏光の基本的な理解に寄与し, 構造量子光を用いた実用化への道を開くことによる, 広範囲な実験とシミュレーションを通じて, 最適放射偏光純度に対する正確なgQD位置決めの重要性を強調した。

To harness the potential of radially polarized single photons in applications such as high-dimensional quantum key distribution (HD-QKD) and quantum communication, we demonstrate an on-chip, room-temperature device, which generates highly directional radially polarized photons at very high rates. The photons are emitted from a giant CdSe/CdS colloidal quantum dot (gQD) accurately positioned at the tip of a metal nanocone centered inside a hybrid metal-dielectric bullseye antenna. We show that due to the large and selective Purcell enhancement specifically for the out-of-plane optical dipole of the gQD, the emitted photons can have a very high degree of radial polarization (>93%), based on a quantitative metric. Our study emphasizes the importance of accurate gQD positioning for optimal radial polarization purity through extensive experiments and simulations, which contribute to the fundamental understanding of radial polarization in nanostructured devices and pave the way for implementation of such systems in practical applications using structured quantum light.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-24
# DNGaussian:グローバル局所深さ正規化によるスパースビュー3次元ガウス放射場最適化

DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization ( http://arxiv.org/abs/2403.06912v3 )

ライセンス: Link先を確認
Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xin Ning, Jun Zhou, Lin Gu, (参考訳) 放射場は、スパース入力ビューから新しいビューを合成する際、顕著な性能を示してきたが、一般的な方法は、高いトレーニングコストと遅い推論速度に悩まされている。 本稿では,DNGaussianについて紹介する。DNGaussianは3次元ガウス放射場に基づく奥行き規則化フレームワークで,低コストでリアルタイムかつ高品質なノベルショットビュー合成を提供する。 我々のモチベーションは、入力ビューが減少すると幾何劣化に遭遇するにもかかわらず、最近の3次元ガウススプラッティングの非常に効率的な表現と驚くべき品質に起因している。 ガウス放射場において、シーン幾何学におけるこの劣化は主にガウス原始体の位置決めに関係しており、深さ制約によって緩和できる。 その結果,粗い単眼深度監視下での正確なシーン形状を再現し,きめ細かい色調を維持しつつ,ハード・ソフト深度正規化を提案する。 より精細な幾何再構成を実現するため,グローバル・ローカル深度正規化を導入し,小さな局所深度変化に焦点をあてる。 LLFF、DTU、Blenderのデータセットに対する大規模な実験により、DNGaussianは最先端の手法よりも優れており、メモリコストが大幅に削減され、25 \times$トレーニング時間が短縮され、3000 \times$レンダリング速度が向上した。

Radiance fields have demonstrated impressive performance in synthesizing novel views from sparse input views, yet prevailing methods suffer from high training costs and slow inference speed. This paper introduces DNGaussian, a depth-regularized framework based on 3D Gaussian radiance fields, offering real-time and high-quality few-shot novel view synthesis at low costs. Our motivation stems from the highly efficient representation and surprising quality of the recent 3D Gaussian Splatting, despite it will encounter a geometry degradation when input views decrease. In the Gaussian radiance fields, we find this degradation in scene geometry primarily lined to the positioning of Gaussian primitives and can be mitigated by depth constraint. Consequently, we propose a Hard and Soft Depth Regularization to restore accurate scene geometry under coarse monocular depth supervision while maintaining a fine-grained color appearance. To further refine detailed geometry reshaping, we introduce Global-Local Depth Normalization, enhancing the focus on small local depth changes. Extensive experiments on LLFF, DTU, and Blender datasets demonstrate that DNGaussian outperforms state-of-the-art methods, achieving comparable or better results with significantly reduced memory cost, a $25 \times$ reduction in training time, and over $3000 \times$ faster rendering speed.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-24
# 多層アイソモーフィックアーキテクチャによる動き拡大のための周波数デカップリング

Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture ( http://arxiv.org/abs/2403.07347v2 )

ライセンス: Link先を確認
Fei Wang, Dan Guo, Kun Li, Zhun Zhong, Meng Wang, (参考訳) ビデオモーション・マグニフィケーション(VMM)は、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。 前者は、形状とテクスチャを分離する表現学習(Representation Learning)や位相ゆらぎからマルチドメイン学習(Multi- Domain Learning)によって、ユーレリア的な視点から運動場を直接モデル化する。 周波数スペクトルにインスパイアされ、安定エネルギーを持つ低周波成分は、常に空間構造を持ち、ノイズが少なく、微妙な運動場をモデル化するのに適している。 この目的のために、FD4MMは、動画空間における多レベル高周波数の詳細と安定した低周波構造(動き場)を捉えるために、多レベル等化アーキテクチャを用いた動き拡大のための周波数デカップリングの新しいパラダイムである。 周波数の細部と微妙な動きは、その固有な微妙さとノイズからの避けられない外部干渉による情報劣化の影響を受けやすいため、細部と運動構造の整合性を高めるためにスパースハイ/ローパスフィルタと、シームレスな再結合を促進するスパース周波数ミキサーを慎重に設計する。 さらに,非関係な特徴を識別する能力を強化し,望ましくない動きの倍率を抑えるために,このタスクに対する対照的な正規化を革新的に設計する。 FD4MMがSOTA法より優れていることを示す。 一方、FD4MMはFLOPを1.63$\times$、推論速度を1.68$\times$に下げる。 私たちのコードはhttps://github.com/Jiafei127/FD4MMで利用可能です。

Video Motion Magnification (VMM) aims to reveal subtle and imperceptible motion information of objects in the macroscopic world. Prior methods directly model the motion field from the Eulerian perspective by Representation Learning that separates shape and texture or Multi-domain Learning from phase fluctuations. Inspired by the frequency spectrum, we observe that the low-frequency components with stable energy always possess spatial structure and less noise, making them suitable for modeling the subtle motion field. To this end, we present FD4MM, a new paradigm of Frequency Decoupling for Motion Magnification with a Multi-level Isomorphic Architecture to capture multi-level high-frequency details and a stable low-frequency structure (motion field) in video space. Since high-frequency details and subtle motions are susceptible to information degradation due to their inherent subtlety and unavoidable external interference from noise, we carefully design Sparse High/Low-pass Filters to enhance the integrity of details and motion structures, and a Sparse Frequency Mixer to promote seamless recoupling. Besides, we innovatively design a contrastive regularization for this task to strengthen the model's ability to discriminate irrelevant features, reducing undesired motion magnification. Extensive experiments on both Real-world and Synthetic Datasets show that our FD4MM outperforms SOTA methods. Meanwhile, FD4MM reduces FLOPs by 1.63$\times$ and boosts inference speed by 1.68$\times$ than the latest method. Our code is available at https://github.com/Jiafei127/FD4MM.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-24
# Deep Limit Order Book Forecasting

Deep Limit Order Book Forecasting ( http://arxiv.org/abs/2403.09267v2 )

ライセンス: Link先を確認
Antonio Briola, Silvia Bartolucci, Tomaso Aste, (参考訳) 我々は最先端の深層学習手法を利用してNASDAQ取引所で取引された異種株の高頻度リミットオーダーブックの中間価格変動の予測可能性を探る。 そこで我々は,大規模リミットオーダーブックデータを効率的に処理し,最先端のディープラーニングモデルの予測能力を定量的に評価するオープンソースコードベースである 'LOBFrame' をリリースする。 私たちの結果は2倍です。 本研究は,株の微細構造特性が深層学習の有効性に影響を及ぼし,その高い予測能力が必ずしも実行可能な取引信号に対応していないことを実証する。 従来の機械学習のメトリクスは、リミットオーダーブックのコンテキストにおける予測の質を適切に評価できない。 代替として、完全トランザクションを正確に予測する確率に着目して、予測の実用性を評価する革新的な運用フレームワークを提案する。 この研究は、深層学習技術の応用、その範囲と限界について情報的かつ堅牢な決定を行うための、学者や実践者に道のりを与え、限界秩序書の創発的な統計的性質を効果的に活用する。

We exploit cutting-edge deep learning methodologies to explore the predictability of high-frequency Limit Order Book mid-price changes for a heterogeneous set of stocks traded on the NASDAQ exchange. In so doing, we release `LOBFrame', an open-source code base to efficiently process large-scale Limit Order Book data and quantitatively assess state-of-the-art deep learning models' forecasting capabilities. Our results are twofold. We demonstrate that the stocks' microstructural characteristics influence the efficacy of deep learning methods and that their high forecasting power does not necessarily correspond to actionable trading signals. We argue that traditional machine learning metrics fail to adequately assess the quality of forecasts in the Limit Order Book context. As an alternative, we propose an innovative operational framework that evaluates predictions' practicality by focusing on the probability of accurately forecasting complete transactions. This work offers academics and practitioners an avenue to make informed and robust decisions on the application of deep learning techniques, their scope and limitations, effectively exploiting emergent statistical properties of the Limit Order Book.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-24
# 因子化拡散蒸留による映像編集

Video Editing via Factorized Diffusion Distillation ( http://arxiv.org/abs/2403.09334v2 )

ライセンス: Link先を確認
Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman, (参考訳) EVE(Emu Video Edit)は,教師付きビデオ編集データに頼らずに,映像編集における新たな最先端技術を確立するモデルである。 EVEを開発するために、画像編集アダプタとビデオ生成アダプタを別々に訓練し、同じテキスト・画像モデルにアタッチする。 そこで,ビデオ編集に適応する手法としてFactized Diffusion Distillationを提案する。 この手順は、教師データなしで、1つ以上の教師からの知識を同時に蒸留する。 我々は、この手順を利用して、EVEに知識を共同で蒸留することで、ビデオの編集を教える。 一 画像編集アダプタから各フレームを正確に編集し、 (II)映像生成アダプタを用いて編集フレーム間の時間的一貫性を確保する。 最後に、他の機能をアンロックする際のアプローチの可能性を示すために、アダプタのさらなる組み合わせを調整します。

We introduce Emu Video Edit (EVE), a model that establishes a new state-of-the art in video editing without relying on any supervised video editing data. To develop EVE we separately train an image editing adapter and a video generation adapter, and attach both to the same text-to-image model. Then, to align the adapters towards video editing we introduce a new unsupervised distillation procedure, Factorized Diffusion Distillation. This procedure distills knowledge from one or more teachers simultaneously, without any supervised data. We utilize this procedure to teach EVE to edit videos by jointly distilling knowledge to (i) precisely edit each individual frame from the image editing adapter, and (ii) ensure temporal consistency among the edited frames using the video generation adapter. Finally, to demonstrate the potential of our approach in unlocking other capabilities, we align additional combinations of adapters
翻訳日:2024-03-27 00:56:02 公開日:2024-03-24
# マルチモーダル意味理解のためのMixture-of-Prompt-Experts

Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding ( http://arxiv.org/abs/2403.11311v2 )

ライセンス: Link先を確認
Zichen Wu, Hsiu-Yuan Huang, Fanyi Qu, Yunfang Wu, (参考訳) 表面的関係を超越した深いマルチモーダルなセマンティック理解は、人工知能の領域で注目を集めている。 高品質なマルチモーダルデータの収集と注釈付けの課題は、少数ショット学習の重要性を浮き彫りにした。 本稿では,この文脈下での2つの重要な課題であるマルチモーダルサルカズム検出(MSD)とマルチモーダル感情分析(MSA)に焦点を当てる。 そこで本研究では,視覚言語モデル(VLM)に基づく新しいマルチモーダルソフトプロンプトフレームワークであるMoPE-BAF(Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion)を提案する。 具体的には、テキストプロンプトと画像プロンプトという3つのソフトプロンプトの専門家を設計し、単一のモーダル表現を豊かにするモダリティ固有の特徴を抽出し、マルチモーダルインタラクションを支援する統一プロンプトを設計する。 さらに、Transformer層を複数のブロックに再構成し、隣接するブロック間での相互モーダルな注意を促すことで、単一モーダル表現からマルチモーダル融合への移行を円滑にする。 提案手法は,MSDとMSAの両方のデータセットにおいて,パラメータがわずか2%(150M)の8.2BモデルであるInstructBLIPを超えるだけでなく,VLMやタスク固有の手法で広く使われているプロンプト手法よりも大幅に優れている。

Deep multimodal semantic understanding that goes beyond the mere superficial content relation mining has received increasing attention in the realm of artificial intelligence. The challenges of collecting and annotating high-quality multi-modal data have underscored the significance of few-shot learning. In this paper, we focus on two critical tasks under this context: few-shot multi-modal sarcasm detection (MSD) and multi-modal sentiment analysis (MSA). To address them, we propose Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion (MoPE-BAF), a novel multi-modal soft prompt framework based on the unified vision-language model (VLM). Specifically, we design three experts of soft prompts: a text prompt and an image prompt that extract modality-specific features to enrich the single-modal representation, and a unified prompt to assist multi-modal interaction. Additionally, we reorganize Transformer layers into several blocks and introduce cross-modal prompt attention between adjacent blocks, which smoothens the transition from single-modal representation to multi-modal fusion. On both MSD and MSA datasets in few-shot setting, our proposed model not only surpasses the 8.2B model InstructBLIP with merely 2% parameters (150M), but also significantly outperforms other widely-used prompt methods on VLMs or task-specific methods.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-24
# ガウス過程による選好と選択から学ぶチュートリアル

A tutorial on learning from preferences and choices with Gaussian Processes ( http://arxiv.org/abs/2403.11782v2 )

ライセンス: Link先を確認
Alessio Benavoli, Dario Azzimonti, (参考訳) 推奨モデリングは、経済学、決定理論、機械学習、統計学の交差点にある。 個人の好みを理解し、どのように選択するかを理解することで、期待にぴったり合う製品を構築することができ、幅広い領域にわたってより効率的でパーソナライズされたアプリケーションを実現することができます。 本チュートリアルの目的は,ガウス的プロセス(GP)による嗜好学習のための包括的で包括的な枠組みを提示し,理性原理(経済学や意思決定理論など)を学習プロセスにシームレスに組み込む方法を示すことである。 このフレームワークは、確率関数を適切に調整することにより、ランダムなユーティリティモデル、識別の限界、およびオブジェクトとラベルの両方に矛盾する複数のユーティリティを持つシナリオを含む嗜好学習モデルの構築を可能にする。 このチュートリアルは、既存の文献の特定のギャップに対処する新しいGPベースのモデルを同時に導入しながら、確立された研究の上に構築されている。

Preference modelling lies at the intersection of economics, decision theory, machine learning and statistics. By understanding individuals' preferences and how they make choices, we can build products that closely match their expectations, paving the way for more efficient and personalised applications across a wide range of domains. The objective of this tutorial is to present a cohesive and comprehensive framework for preference learning with Gaussian Processes (GPs), demonstrating how to seamlessly incorporate rationality principles (from economics and decision theory) into the learning process. By suitably tailoring the likelihood function, this framework enables the construction of preference learning models that encompass random utility models, limits of discernment, and scenarios with multiple conflicting utilities for both object- and label-preference. This tutorial builds upon established research while simultaneously introducing some novel GP-based models to address specific gaps in the existing literature.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-24
# CBGT-Net: ストリーミングデータのロバスト分類のためのニューロミメティックアーキテクチャ

CBGT-Net: A Neuromimetic Architecture for Robust Classification of Streaming Data ( http://arxiv.org/abs/2403.15974v1 )

ライセンス: Link先を確認
Shreya Sharma, Dana Hughes, Katia Sycara, (参考訳) 本稿では, 哺乳類脳の皮質基底核-視床神経回路(CBGT)にインスパイアされたニューラルネットワークモデルであるCBGT-Netについて述べる。 CBGT-Netは、提供された各入力に対して出力を生成する従来のニューラルネットワークモデルと異なり、観測されたデータのストリームから証拠の十分な基準が得られた後、出力を生成することを学習する。 各観測について、CBGT-Netは、観測が潜在的な決定に対して与える証拠の量を明確に表現したベクトルを生成し、時間とともに証拠を蓄積し、蓄積された証拠が予め定義された閾値を超えたときに決定を生成する。 そこでは,画像から抽出した小さなパッチのストリームに基づいて,画像カテゴリを予測する必要がある。 CBGT-Netは、単一パッチから分類する訓練されたモデルと、LSTM層を利用してパッチの固定シーケンス長から分類するモデルと比較して、精度と堅牢性が改善されていることを示す。

This paper describes CBGT-Net, a neural network model inspired by the cortico-basal ganglia-thalamic (CBGT) circuits found in mammalian brains. Unlike traditional neural network models, which either generate an output for each provided input, or an output after a fixed sequence of inputs, the CBGT-Net learns to produce an output after a sufficient criteria for evidence is achieved from a stream of observed data. For each observation, the CBGT-Net generates a vector that explicitly represents the amount of evidence the observation provides for each potential decision, accumulates the evidence over time, and generates a decision when the accumulated evidence exceeds a pre-defined threshold. We evaluate the proposed model on two image classification tasks, where models need to predict image categories based on a stream of small patches extracted from the image. We show that the CBGT-Net provides improved accuracy and robustness compared to models trained to classify from a single patch, and models leveraging an LSTM layer to classify from a fixed sequence length of patches.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 2ストリームFoveation-based Active Vision Learningに向けて

Towards Two-Stream Foveation-based Active Vision Learning ( http://arxiv.org/abs/2403.15977v1 )

ライセンス: Link先を確認
Timur Ibrayev, Amitangshu Mukherjee, Sai Aparna Aketi, Kaushik Roy, (参考訳) ディープニューラルネットワーク(DNN)ベースのマシン認識フレームワークは、入力全体をワンショットで処理し、"何が観察されているか"と"どこにあるか"の両方に対する回答を提供する。 対照的に、神経科学の「二流仮説」は、人間の視覚野における神経処理を、脳の2つの別々の領域を利用して、何とどこにあるのかを答える能動的視覚システムとして説明している。 本研究では,「二流仮説」にインスパイアされた機械学習フレームワークを提案する。 具体的には、提案するフレームワークが以下のメカニズムをモデル化する。 1)眼底部が知覚する入力領域に着目した腹側流(何) 2 視覚的指導を提供する背後(場所)流路及び 3)2つのストリームの反復処理により、視覚的焦点を調整し、フォーカスされた画像パッチのシーケンスを処理する。 提案するフレームワークのトレーニングは,腹側ストリームモデルのためのラベルベースのDNNトレーニングと背側ストリームモデルのための強化学習によって達成される。 本稿では,2ストリームのファベーションに基づく学習が,訓練データをオブジェクトクラスや属性に限定した弱教師付きオブジェクトローカライゼーション(WSOL)の課題に対して適用可能であることを示す。 このフレームワークは、オブジェクトのプロパティを予測し、バウンディングボックスを予測してそれをローカライズすることができる。 また、この2つのストリームの独立性から、背側モデルを適用することで、異なるデータセットからオブジェクトをローカライズできることを示す。

Deep neural network (DNN) based machine perception frameworks process the entire input in a one-shot manner to provide answers to both "what object is being observed" and "where it is located". In contrast, the "two-stream hypothesis" from neuroscience explains the neural processing in the human visual cortex as an active vision system that utilizes two separate regions of the brain to answer the what and the where questions. In this work, we propose a machine learning framework inspired by the "two-stream hypothesis" and explore the potential benefits that it offers. Specifically, the proposed framework models the following mechanisms: 1) ventral (what) stream focusing on the input regions perceived by the fovea part of an eye (foveation), 2) dorsal (where) stream providing visual guidance, and 3) iterative processing of the two streams to calibrate visual focus and process the sequence of focused image patches. The training of the proposed framework is accomplished by label-based DNN training for the ventral stream model and reinforcement learning for the dorsal stream model. We show that the two-stream foveation-based learning is applicable to the challenging task of weakly-supervised object localization (WSOL), where the training data is limited to the object class or its attributes. The framework is capable of both predicting the properties of an object and successfully localizing it by predicting its bounding box. We also show that, due to the independent nature of the two streams, the dorsal model can be applied on its own to unseen images to localize objects from different datasets.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# ニューラルネットワークによる温室の正確な3次元現象の解明

Exploring Accurate 3D Phenotyping in Greenhouse through Neural Radiance Fields ( http://arxiv.org/abs/2403.15981v1 )

ライセンス: Link先を確認
unhong Zhao, Wei Ying, Yaoqiang Pan, Zhenfeng Yi, Chao Chen, Kewei Hu, Hanwen Kang, (参考訳) 植物表現の正確な収集は、精密農業における持続可能な農業慣行の最適化に不可欠である。 コントロールされた実験室環境における伝統的な表現型付けは、価値はあるものの、実際の環境下での植物の成長を理解するには不十分である。 新たなセンサーとデジタル技術は、農業環境における植物を直接表現するための有望なアプローチを提供する。 本研究では, 温室環境下でのトウガラシの個体内表現の精度を高めるために, ニューラル放射場を用いた学習に基づく表現法について検討した。 本手法の性能を定量的に評価するために,従来の3次元走査データにおける点群登録を行い,比較を行った。 実験結果から,NeRF(Neural Radiance Fields)は3次元走査法と比較して精度が高いことがわかった。 スキャナー法とNeRF法の平均距離誤差は0.865mmである。 本研究では,学習に基づくNeRF法が3次元走査法と類似の精度を実現するが,スケーラビリティと堅牢性は向上することを示した。

Accurate collection of plant phenotyping is critical to optimising sustainable farming practices in precision agriculture. Traditional phenotyping in controlled laboratory environments, while valuable, falls short in understanding plant growth under real-world conditions. Emerging sensor and digital technologies offer a promising approach for direct phenotyping of plants in farm environments. This study investigates a learning-based phenotyping method using the Neural Radiance Field to achieve accurate in-situ phenotyping of pepper plants in greenhouse environments. To quantitatively evaluate the performance of this method, traditional point cloud registration on 3D scanning data is implemented for comparison. Experimental result shows that NeRF(Neural Radiance Fields) achieves competitive accuracy compared to the 3D scanning methods. The mean distance error between the scanner-based method and the NeRF-based method is 0.865mm. This study shows that the learning-based NeRF method achieves similar accuracy to 3D scanning-based methods but with improved scalability and robustness.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 2次元超曲面上のディラックフェルミオンの一般共変幾何運動量と幾何ポテンシャル

Generally covariant geometric momentum and geometric potential for a Dirac fermion on a two-dimensional hypersurface ( http://arxiv.org/abs/2403.15982v1 )

ライセンス: Link先を確認
Z. Li, L. Q. Lai, (参考訳) 幾何学的運動量(geometric momentum)は、外曲率に依存し、観測可能な効果を持つ曲面上の運動粒子の適切な運動量である。 多成分量子状態の文脈では、幾何運動量は一般に共変幾何運動量として書き直すべきである。 2次元超曲面に制約されたディラックフェルミオンに対して、一般共変幾何運動量を与え、擬球面とヘリカル曲面には曲率誘起幾何ポテンシャルが存在しないことを示す。 これらの結果は、動的量子化条件が超曲面上の制約された系を扱うのに有効であることが確認され、また、定値パラメトリック方程式を持つ表面上で制約されたスピン粒子の一般共変幾何運動量と幾何ポテンシャルを得ることができる。

Geometric momentum is the proper momentum for a moving particle constrained on a curved surface, which depends on the outer curvature and has observable effects. In the context of multi-component quantum states, geometric momentum should be rewritten as generally covariant geometric momentum. For a Dirac fermion constrained on a two-dimensional hypersurface, we give the generally covariant geometric momentum, and show that on the pseudosphere and the helical surface there exist no curvature-induced geometric potentials. These results verify that the dynamical quantization conditions are effective in dealing with constrained systems on hypersurfaces, and one could obtain the generally convariant geometric momentum and the geometric potential of a spin particle constrained on surfaces with definite parametric equations.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 知識誘導型機械学習の現状と将来展望

Knowledge-guided Machine Learning: Current Trends and Future Prospects ( http://arxiv.org/abs/2403.15989v1 )

ライセンス: Link先を確認
Anuj Karpatne, Xiaowei Jia, Vipin Kumar, (参考訳) 本稿では,プロセスベースモデルと比較して,科学モデリングにおけるML手法の相補的長所と短所について概説する。 また、科学知識誘導機械学習(KGML)の新興分野における現在の研究状況についても紹介し、MLフレームワークにおける科学知識とデータの両方を使用して、より良い一般化可能性、科学的一貫性、結果の説明可能性を達成することを目標としている。 我々は、KGML研究のさまざまな側面について、使用する科学知識の種類、知識-機械学習統合の形式、そして、科学知識をMLに組み込む方法について論じる。 また,KGML手法が開発されている環境科学におけるユースケースの一般的なカテゴリについても,各カテゴリの例を用いて論じる。

This paper presents an overview of scientific modeling and discusses the complementary strengths and weaknesses of ML methods for scientific modeling in comparison to process-based models. It also provides an introduction to the current state of research in the emerging field of scientific knowledge-guided machine learning (KGML) that aims to use both scientific knowledge and data in ML frameworks to achieve better generalizability, scientific consistency, and explainability of results. We discuss different facets of KGML research in terms of the type of scientific knowledge used, the form of knowledge-ML integration explored, and the method for incorporating scientific knowledge in ML. We also discuss some of the common categories of use cases in environmental sciences where KGML methods are being developed, using illustrative examples in each category.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# Mars Spectrometry 2: Gas Chromatography -- Second place Solution

Mars Spectrometry 2: Gas Chromatography -- Second place solution ( http://arxiv.org/abs/2403.15990v1 )

ライセンス: Link先を確認
Dmitry A. Konovalov, (参考訳) Mars Spectrometry 2: Gas Chromatography ChallengeはNASAが後援し、2022年にDrivenDataコンペティションプラットフォームで運用された。 本報告では,コンペティションのテストデータセットにおいて,2番目に高いスコアを得たソリューションについて述べる。 このソリューションは、コンペティションのクロマトグラフィーデータサンプルの2次元のイメージライクな表現を利用した。 いくつかの異なる畳み込みニューラルネットワークモデルがトレーニングされ、最終的な提出のために組み立てられた。

The Mars Spectrometry 2: Gas Chromatography challenge was sponsored by NASA and run on the DrivenData competition platform in 2022. This report describes the solution which achieved the second-best score on the competition's test dataset. The solution utilized two-dimensional, image-like representations of the competition's chromatography data samples. A number of different Convolutional Neural Network models were trained and ensembled for the final submission.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# BIMCV-R:3次元CTテキスト検索のためのランドマークデータセット

BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval ( http://arxiv.org/abs/2403.15992v1 )

ライセンス: Link先を確認
Yinda Chen, Che Liu, Xiaoyu Liu, Rossella Arcucci, Zhiwei Xiong, (参考訳) 医療分野への3D医療画像の統合は、医療専門家の労働負荷を大幅に増加させた。 臨床医が診断過程を補助し、作業負荷を軽減するために、同様のケーススタディを検索する堅牢なシステムの開発が実現可能なソリューションである。 この概念は大きな可能性を秘めているが、現在、3D医療用テキスト画像検索の分野は、堅牢な評価ベンチマークとキュレートされたデータセットの欠如によって制限されている。 そこで本研究では,BIMCV-R(BIMCV-R)という,200万回以上のスライスを含む8,069個の3DCTボリュームの広範囲なコレクションを,それぞれの放射線学的レポートと組み合わせた,画期的なデータセットを提案する。 データセットの基礎的な作業を拡張することで、検索戦略であるMedFinderを構築します。 このアプローチでは、デュアルストリームネットワークアーキテクチャを採用し、大規模言語モデルの可能性を活用して、既存のテキスト画像検索ソリューションを超えて医療画像検索の分野を前進させる。 これは、テキスト・トゥ・イメージ、画像・トゥ・テキスト、キーワードベースの検索タスクを容易に行えるシステムを開発するための予備的なステップである。

The burgeoning integration of 3D medical imaging into healthcare has led to a substantial increase in the workload of medical professionals. To assist clinicians in their diagnostic processes and alleviate their workload, the development of a robust system for retrieving similar case studies presents a viable solution. While the concept holds great promise, the field of 3D medical text-image retrieval is currently limited by the absence of robust evaluation benchmarks and curated datasets. To remedy this, our study presents a groundbreaking dataset, BIMCV-R (This dataset will be released upon acceptance.), which includes an extensive collection of 8,069 3D CT volumes, encompassing over 2 million slices, paired with their respective radiological reports. Expanding upon the foundational work of our dataset, we craft a retrieval strategy, MedFinder. This approach employs a dual-stream network architecture, harnessing the potential of large language models to advance the field of medical image retrieval beyond existing text-image retrieval solutions. It marks our preliminary step towards developing a system capable of facilitating text-to-image, image-to-text, and keyword-based retrieval tasks.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 顔表情スポッティングのためのマルチスケール時空間グラフ畳み込みネットワーク

Multi-Scale Spatio-Temporal Graph Convolutional Network for Facial Expression Spotting ( http://arxiv.org/abs/2403.15994v1 )

ライセンス: Link先を確認
Yicheng Deng, Hideaki Hayashi, Hajime Nagahara, (参考訳) 表情スポッティングは、表情分析において重要な課題であるが難しい課題である。 表情スポッティングの精度は、無関係な顔の動きだけでなく、微妙な表情の知覚の難しさにも影響される。 本稿では,表情スポッティングのためのマルチスケール時空間グラフ畳み込みネットワーク(SpoT-GCN)を提案する。 よりロバストな動作特徴を抽出するために,窓長がネットワークの時間受容野に適応するコンパクトなスライディングウインドウにおいて,顔の筋肉の短期的および長期的動作を追跡する。 この戦略は受容野適応型スライドウインドウ戦略と呼ばれ、重度頭部運動の問題を緩和しつつ、効果的に運動特徴を拡大する。 次に、微妙な動き特徴を顔グラフ表現に変換し、その時空間グラフパターンをグラフ畳み込みネットワークで学習する。 提案する顔局所グラフプーリング(FLGP)を用いて,複数スケールの顔グラフ構造から局所的特徴とグローバルな特徴を学習する。 さらに、教師付きコントラスト学習を導入し、分類が難しいフレームに対するモデルの識別能力を高める。 SAMM-LVおよびCAS(ME)^2データセットによる実験結果から,本手法が最先端の性能,特にマイクロ圧縮スポッティングにおいて達成できることが確認された。 アブレーション研究により,提案モジュールの有効性がさらに検証された。

Facial expression spotting is a significant but challenging task in facial expression analysis. The accuracy of expression spotting is affected not only by irrelevant facial movements but also by the difficulty of perceiving subtle motions in micro-expressions. In this paper, we propose a Multi-Scale Spatio-Temporal Graph Convolutional Network (SpoT-GCN) for facial expression spotting. To extract more robust motion features, we track both short- and long-term motion of facial muscles in compact sliding windows whose window length adapts to the temporal receptive field of the network. This strategy, termed the receptive field adaptive sliding window strategy, effectively magnifies the motion features while alleviating the problem of severe head movement. The subtle motion features are then converted to a facial graph representation, whose spatio-temporal graph patterns are learned by a graph convolutional network. This network learns both local and global features from multiple scales of facial graph structures using our proposed facial local graph pooling (FLGP). Furthermore, we introduce supervised contrastive learning to enhance the discriminative capability of our model for difficult-to-classify frames. The experimental results on the SAMM-LV and CAS(ME)^2 datasets demonstrate that our method achieves state-of-the-art performance, particularly in micro-expression spotting. Ablation studies further verify the effectiveness of our proposed modules.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# プライベート初期化を保証した準最適個人差分低ランクトレースレグレッション

Near-Optimal differentially private low-rank trace regression with guaranteed private initialization ( http://arxiv.org/abs/2403.15999v1 )

ライセンス: Link先を確認
Mengyue Zha, (参考訳) 我々は、ガウス測度行列を用いたトレース回帰モデルの下で、ランク-r$行列$M \in \RR^{d_1\times d_2}$の微分プライベート(DP)推定について検討した。 理論的には、非プライベートスペクトル初期化の感度を正確に評価し、Schatten-$q$ノルムの下でM$を推定するための差分プライバシー制約されたミニマックス下限を定めている。 提案手法は,DP初期化を計算効率よく行うアルゴリズムであり,サンプルサイズは$n \geq \wt O (r^2 (d_1\vee d_2))$である。 一定の規則性条件の下では、DP初期化はM$を囲む局所球に該当する。 また,DP-初期化とサンプルサイズが$n \geq \wt O(r (d_1 + d_2))$とほぼ最適な収束率が得られるような,リーマン最適化(DP-RGrad)に基づいて$M$を推定する微分プライベートアルゴリズムを提案する。 最後に,ミニマックス下界と低ランク行列推定の上界との非自明なギャップをトレース回帰モデルで論じる。 DP-RGradで与えられる推定器は、微分プライバシーというより弱い概念において最適収束率に達することが示されている。 初期化の感度を分析する強力な手法は、$r$非ゼロ特異値間の固有ギャップ条件を必要としない。

We study differentially private (DP) estimation of a rank-$r$ matrix $M \in \RR^{d_1\times d_2}$ under the trace regression model with Gaussian measurement matrices. Theoretically, the sensitivity of non-private spectral initialization is precisely characterized, and the differential-privacy-constrained minimax lower bound for estimating $M$ under the Schatten-$q$ norm is established. Methodologically, the paper introduces a computationally efficient algorithm for DP-initialization with a sample size of $n \geq \wt O (r^2 (d_1\vee d_2))$. Under certain regularity conditions, the DP-initialization falls within a local ball surrounding $M$. We also propose a differentially private algorithm for estimating $M$ based on Riemannian optimization (DP-RGrad), which achieves a near-optimal convergence rate with the DP-initialization and sample size of $n \geq \wt O(r (d_1 + d_2))$. Finally, the paper discusses the non-trivial gap between the minimax lower bound and the upper bound of low-rank matrix estimation under the trace regression model. It is shown that the estimator given by DP-RGrad attains the optimal convergence rate in a weaker notion of differential privacy. Our powerful technique for analyzing the sensitivity of initialization requires no eigengap condition between $r$ non-zero singular values.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 微粒化アサーションによる試験選択

Fine-Grained Assertion-Based Test Selection ( http://arxiv.org/abs/2403.16001v1 )

ライセンス: Link先を確認
Sijia Gu, Ali Mesbah, (参考訳) 大規模なソフトウェアアプリケーションの場合、各コードの変更後にテストスイート全体を実行するのは時間とリソース集約的です。 回帰テスト選択技術は、コードの変更によって影響を受けるテストのみを選択することで、テスト実行時間を短縮することを目的としている。 しかし、既存の手法では、不正確なテストの選択や影響のないテストの実行を引き起こすテストクラスのような粗い粒度のテストエンティティを選択する。 本稿では,文レベルでのテストコードを分析し,テストアサーションを選択の単位として扱うことによって,選択精度を高める新しい手法を提案する。 我々は、SELERTIONと呼ばれるツールにきめ細かいテスト選択手法を実装し、11のオープンソース被験者を用いて2つの最先端テスト選択手法を比較して評価する。 以上の結果から,SELERTIONは全被験者の選択精度を高めることが示唆された。 私たちのテスト選択は、平均してテスト時間の63%を削減し、回帰テストは他のテクニックよりも23%速くなります。 また, テスト実行時間が長い被験者は, よりきめ細かい選別法により, より有益であることが示唆された。

For large software applications, running the whole test suite after each code change is time- and resource-intensive. Regression test selection techniques aim at reducing test execution time by selecting only the tests that are affected by code changes. However, existing techniques select test entities at coarse granularity levels such as test class, which causes imprecise test selection and executing unaffected tests. We propose a novel approach that increases the selection precision by analyzing test code at statement level and treating test assertions as the unit for selection. We implement our fine-grained test selection approach in a tool called SELERTION and evaluate it by comparing against two state-of-the-art test selection techniques using 11 open-source subjects. Our results show that SELERTION increases selection precision for all the subjects. Our test selection reduces, on average, 63% of the overall test time, making regression testing up to 23% faster than the other techniques. Our results also indicate that subjects with longer test execution time benefit more by our fine-grained selection technique.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# SDSTrack:マルチモーダルビジュアルオブジェクト追跡のための自己拡張対称適応学習

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking ( http://arxiv.org/abs/2403.16002v1 )

ライセンス: Link先を確認
Xiaojun Hou, Jiazheng Xing, Yijie Qian, Yaowei Guo, Shuo Xin, Junhao Chen, Kai Tang, Mengmeng Wang, Zhengkai Jiang, Liang Liu, Yong Liu, (参考訳) VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。 初期の研究では、マルチモーダルデータの不足により非効率で一般化された表現が欠如していたRGBベースの完全微調整トラッカーに焦点が当てられていた。 そのため、近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、即時チューニングを活用している。 しかし、モダリティギャップは事前訓練された知識リコールを制限し、RGBモダリティの優位性は持続し、他のモダリティからの情報の完全利用を妨げている。 これらの問題に対処するために,SDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。 我々は,RGB から他の領域へ少数のトレーニング可能なパラメータで特徴抽出能力を直接転送し,バランスの取れた対称な方法でマルチモーダル特徴を統合する,効率的な微調整のための軽量な適応手法を提案する。 さらに, 異常気象, 撮像不良, センサ故障などの複雑な環境下でのトラッカーの堅牢性を高めるために, 補似マスク型パッチ蒸留方式を設計する。 SDSTrackは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、さまざまなマルチモーダルトラッキングシナリオにおいて最先端の手法よりも優れており、極端な条件下での顕著な結果を示している。 ソースコードはhttps://github.com/hoqolo/SDSTrack.comから入手可能です。

Multimodal Visual Object Tracking (VOT) has recently gained significant attention due to its robustness. Early research focused on fully fine-tuning RGB-based trackers, which was inefficient and lacked generalized representation due to the scarcity of multimodal data. Therefore, recent studies have utilized prompt tuning to transfer pre-trained RGB-based trackers to multimodal data. However, the modality gap limits pre-trained knowledge recall, and the dominance of the RGB modality persists, preventing the full utilization of information from other modalities. To address these issues, we propose a novel symmetric multimodal tracking framework called SDSTrack. We introduce lightweight adaptation for efficient fine-tuning, which directly transfers the feature extraction ability from RGB to other domains with a small number of trainable parameters and integrates multimodal features in a balanced, symmetric manner. Furthermore, we design a complementary masked patch distillation strategy to enhance the robustness of trackers in complex environments, such as extreme weather, poor imaging, and sensor failure. Extensive experiments demonstrate that SDSTrack outperforms state-of-the-art methods in various multimodal tracking scenarios, including RGB+Depth, RGB+Thermal, and RGB+Event tracking, and exhibits impressive results in extreme conditions. Our source code is available at https://github.com/hoqolo/SDSTrack.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 生涯的人物再同定のための多元的表現埋め込み

Diverse Representation Embedding for Lifelong Person Re-Identification ( http://arxiv.org/abs/2403.16003v1 )

ライセンス: Link先を確認
Shiben Liu, Huijie Fan, Qiang Wang, Xiai Chen, Zhi Han, Yandong Tang, (参考訳) Lifelong Person Re-Identification (LReID)は、連続したデータストリームから継続的に学習し、複数のカメラで個人をマッチングすることを目的としている。 LReIDの鍵となる課題は、新しい情報を漸進的に学習しながら、古い知識を効果的に保存する方法である。 タスクレベルのドメインギャップと制限された古いタスクデータセットは、既存のメソッドで見過ごされているReLDの破滅的な忘れに繋がる重要な要因である。 この問題を軽減するために,LReIDのための新しいDRE(Diverse Representation Embedding)フレームワークを提案する。 提案したDREは、インスタンスレベルのレイアウトとタスクレベルのレイアウトに基づいて、新しい情報に適応しながら、古い知識を保存する。 具体的には、ACM(Adaptive Constraint Module)は、複数の表現間の統合と操作をプッシュアウトするために提案され、各インスタンスに密着した埋め込みサブスペースを取得し、制限された古いタスクデータセットのマッチング能力を改善する。 タスクレベルでの知識更新(KU)と知識保存(KP)戦略により,タスクレベルでの調整モデルと学習モデル間の知識の相互作用を行い,従来のタスクと新しいタスクの両方においてタスクのドメインギャップを減らし,従来のタスクから限られたデータセットにおける各インスタンスの多様な表現を活用し,モデル性能を長期にわたって改善する。 大規模な実験は11のRe-IDデータセットで実施され、オーダー1とオーダー2のトレーニング用データセット5つ、推論用データセット6つを含む。 最先端手法と比較して,本手法は全体的,大規模,排他的データセットの性能を著しく向上させる。

Lifelong Person Re-Identification (LReID) aims to continuously learn from successive data streams, matching individuals across multiple cameras. The key challenge for LReID is how to effectively preserve old knowledge while learning new information incrementally. Task-level domain gaps and limited old task datasets are key factors leading to catastrophic forgetting in ReLD, which are overlooked in existing methods. To alleviate this problem, we propose a novel Diverse Representation Embedding (DRE) framework for LReID. The proposed DRE preserves old knowledge while adapting to new information based on instance-level and task-level layout. Concretely, an Adaptive Constraint Module (ACM) is proposed to implement integration and push away operations between multiple representations, obtaining dense embedding subspace for each instance to improve matching ability on limited old task datasets. Based on the processed diverse representation, we interact knowledge between the adjustment model and the learner model through Knowledge Update (KU) and Knowledge Preservation (KP) strategies at the task-level layout, which reduce the task-wise domain gap on both old and new tasks, and exploit diverse representation of each instance in limited datasets from old tasks, improving model performance for extended periods. Extensive experiments were conducted on eleven Re-ID datasets, including five seen datasets for training in order-1 and order-2 orders and six unseen datasets for inference. Compared to state-of-the-art methods, our method achieves significantly improved performance in holistic, large-scale, and occluded datasets.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# グラフネットワーク構造が異なるノード分類タスクに対するフェデレーションパラメータ集約法

A Federated Parameter Aggregation Method for Node Classification Tasks with Different Graph Network Structures ( http://arxiv.org/abs/2403.16004v1 )

ライセンス: Link先を確認
Hao Song, Jiacheng Yao, Zhengxi Li, Shaocong Xu, Shibo Jin, Jiajun Zhou, Chenbo Fu, Qi Xuan, Shanqing Yu, (参考訳) ここ数年、複数のソースからのデータを、プライバシーを損なうことなく、協調的にトレーニングする能力によって、さまざまな古典的な機械学習分野において、フェデレーション学習が広く使われている。 しかし、グラフニューラルネットワークの分野では、クライアントが保持するグラフのノードとネットワーク構造は多くの実践的アプリケーションで異なり、モデル勾配を直接共有する集約手法はこのシナリオに直接適用することはできない。 そこで本研究では,様々なグラフフェデレーションシナリオに適用したフェデレーション集約手法FLGNNを提案し,グラフニューラルネットワークモデルの各層におけるパラメータ共有の集約効果について検討する。 実データを用いた実験により,FLGNNの有効性を検証した。 さらに、FLGNNのプライバシー保護のために、会員推論攻撃実験と差分プライバシー防衛実験を設計する。 その結果, FLGNNは良好なロバスト性を示し, 差分プライバシー保護法を付加することにより, プライバシー盗難の成功率をさらに下げることができた。

Over the past few years, federated learning has become widely used in various classical machine learning fields because of its collaborative ability to train data from multiple sources without compromising privacy. However, in the area of graph neural networks, the nodes and network structures of graphs held by clients are different in many practical applications, and the aggregation method that directly shares model gradients cannot be directly applied to this scenario. Therefore, this work proposes a federated aggregation method FLGNN applied to various graph federation scenarios and investigates the aggregation effect of parameter sharing at each layer of the graph neural network model. The effectiveness of the federated aggregation method FLGNN is verified by experiments on real datasets. Additionally, for the privacy security of FLGNN, this paper designs membership inference attack experiments and differential privacy defense experiments. The results show that FLGNN performs good robustness, and the success rate of privacy theft is further reduced by adding differential privacy defense methods.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# 知識強化型デュアルストリームゼロショット合成画像検索

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval ( http://arxiv.org/abs/2403.16005v1 )

ライセンス: Link先を確認
Yucheng Suo, Fan Ma, Linchao Zhu, Yi Yang, (参考訳) 本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。 従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。 しかし、彼らはグローバルな視覚表現に重点を置いており、例えば、色、オブジェクト番号、レイアウトといった詳細な属性の表現を無視している。 この課題に対処するため,KED(Knowledge-Enhanced Dual-stream zero-shot composition image search framework)を提案する。 KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。 データベースは、関連画像やキャプションを提供し、様々な面で共有属性情報を強調することにより、擬似語トークンを充実させる。 このようにして、KEDは様々な視点から参照画像を認識する。 さらに、KEDは擬似単語トークンをテキストの概念と整合させる余分なストリームを採用し、画像とテキストのペアから抽出された擬似トリップレットを活用する。 このストリームで生成された擬似ワードトークンは、テキスト埋め込み空間におけるきめ細かいセマンティクスと明示的に一致している。 ImageNet-R、COCOオブジェクト、Fashion-IQ、CIRRなど、広く使われているベンチマークの広範な実験により、KEDsは以前のゼロショット合成画像検索法よりも優れていることが示された。

We study the zero-shot Composed Image Retrieval (ZS-CIR) task, which is to retrieve the target image given a reference image and a description without training on the triplet datasets. Previous works generate pseudo-word tokens by projecting the reference image features to the text embedding space. However, they focus on the global visual representation, ignoring the representation of detailed attributes, e.g., color, object number and layout. To address this challenge, we propose a Knowledge-Enhanced Dual-stream zero-shot composed image retrieval framework (KEDs). KEDs implicitly models the attributes of the reference images by incorporating a database. The database enriches the pseudo-word tokens by providing relevant images and captions, emphasizing shared attribute information in various aspects. In this way, KEDs recognizes the reference image from diverse perspectives. Moreover, KEDs adopts an extra stream that aligns pseudo-word tokens with textual concepts, leveraging pseudo-triplets mined from image-text pairs. The pseudo-word tokens generated in this stream are explicitly aligned with fine-grained semantics in the text embedding space. Extensive experiments on widely used benchmarks, i.e. ImageNet-R, COCO object, Fashion-IQ and CIRR, show that KEDs outperforms previous zero-shot composed image retrieval methods.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# CBT-LLM:認知行動療法に基づくメンタルヘルス質問応答のための中国語大言語モデル

CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based Mental Health Question Answering ( http://arxiv.org/abs/2403.16008v1 )

ライセンス: Link先を確認
Hongbin Na, (参考訳) 人工知能の最近の進歩は、心理学的健康支援における言語モデルの可能性を強調している。 メンタルヘルスサービスプラットフォームからのデータに基づいてトレーニングされたモデルは、予備的な成功をおさめているが、データの不足、品質、心理的技法の確立といった領域では課題が続いている。 これらの課題に対処するために,大規模言語モデルによる心理的支援の精度と有効性を高める新しいアプローチを提案する。 具体的には、認知行動療法(CBT)の原則から派生した特定のプロンプトを設計し、CBT構造化介入戦略に基づく中国の心理的健康Q&AのためのCBT QAデータセットを作成した。 従来の手法とは異なり、我々のデータセットは専門的かつ構造化された応答を強調する。 このデータセットを用いて,認知行動療法に特化して設計された大規模言語モデルであるCBT-LLMを生み出した。 経験的評価では, CBT-LLMは, 心理的健康支援タスクにおいて, 構造化された, 専門的で, 極めて関連性の高い応答を生じさせ, 実用性と品質を示す。 Hugging Face: https://huggingface.co/Hongbin37/CBT-LLM.com(英語)

The recent advancements in artificial intelligence highlight the potential of language models in psychological health support. While models trained on data from mental health service platform have achieved preliminary success, challenges persist in areas such as data scarcity, quality, and ensuring a solid foundation in psychological techniques. To address these challenges, this study introduces a novel approach to enhance the precision and efficacy of psychological support through large language models. Specifically, we design a specific prompt derived from principles of Cognitive Behavioral Therapy (CBT) and have generated the CBT QA dataset, specifically for Chinese psychological health Q&A based on CBT structured intervention strategies. Unlike previous methods, our dataset emphasizes professional and structured response. Utilizing this dataset, we fine-tuned the large language model, giving birth to CBT-LLM, the large-scale language model specifically designed for Cognitive Behavioral Therapy techniques. Empirical evaluations demonstrate that CBT-LLM excels in generating structured, professional, and highly relevant responses in psychological health support tasks, showcasing its practicality and quality. The model is available on Hugging Face: https://huggingface.co/Hongbin37/CBT-LLM.
翻訳日:2024-03-26 20:12:47 公開日:2024-03-24
# SM2C:メタ擬似ラベルと混合画像を用いた医用画像の半教師付きセグメンテーションの促進

SM2C: Boost the Semi-supervised Segmentation for Medical Image by using Meta Pseudo Labels and Mixed Images ( http://arxiv.org/abs/2403.16009v1 )

ライセンス: Link先を確認
Yifei Wang, Chuhong Zhu, (参考訳) 近年、機械学習に基づくセマンティックセグメンテーションアルゴリズムは、医療画像の領域や輪郭を正確に分割する可能性を示しており、解剖学的構造や異常の正確な位置を確認できる。 医用画像は取得・注釈が難しいが,ラベル付きデータの不足に対処するためには,半教師付き学習法が効果的である。 しかし、トレーニング用の画像が限られているため、オーバーフィッティングはほぼ避けられない。 さらに、医療画像の臓器や病変の複雑な形状は、異なるケースでさらなる複雑さをもたらし、ネットワークが一般化する強力な能力を得るのを防ぐ。 そこで本研究では,Scaling-up Mix with Multi-Class (SM2C) という新しい手法を提案する。 本手法では,医用画像中の意味的特徴を学習する能力を向上させるために,スケールアップ画像サイズ,マルチクラス混合,オブジェクト形状ジッタリングの3つの手法を用いる。 セグメンテーションオブジェクトの形状を多様化し、各サンプル内の意味情報を豊かにすることにより、SM2Cはその可能性を、特に未ラベルデータのトレーニングにおいて示す。 3つのベンチマーク医用画像セグメンテーションデータセットに対するSM2Cの有効性を示す大規模な実験を行った。 提案したフレームワークは、最先端のフレームワークよりも大幅に改善されている。

Recently, machine learning-based semantic segmentation algorithms have demonstrated their potential to accurately segment regions and contours in medical images, allowing the precise location of anatomical structures and abnormalities. Although medical images are difficult to acquire and annotate, semi-supervised learning methods are efficient in dealing with the scarcity of labeled data. However, overfitting is almost inevitable due to the limited images for training. Furthermore, the intricate shapes of organs and lesions in medical images introduce additional complexity in different cases, preventing networks from acquiring a strong ability to generalize. To this end, we introduce a novel method called Scaling-up Mix with Multi-Class (SM2C). This method uses three strategies - scaling-up image size, multi-class mixing, and object shape jittering - to improve the ability to learn semantic features within medical images. By diversifying the shape of the segmentation objects and enriching the semantic information within each sample, the SM2C demonstrates its potential, especially in the training of unlabelled data. Extensive experiments demonstrate the effectiveness of the SM2C on three benchmark medical image segmentation datasets. The proposed framework shows significant improvements over state-of-the-art counterparts.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# ____(拡散型画像インペインティングパイプライン)の充填

Fill in the ____ (a Diffusion-based Image Inpainting Pipeline) ( http://arxiv.org/abs/2403.16016v1 )

ライセンス: Link先を確認
Eyoel Gebre, Krishna Saxena, Timothy Tran, (参考訳) 画像インペイント(英: image inpainting)とは、画像を取得し、失われた部分または故意に隠された部分を生成する過程である。 Inpaintingには、以前に破損した画像の復元、圧縮によって劣化した画像の品質の回復、不要なオブジェクトやテキストの削除など、数え切れないほどの応用がある。 現代の塗り絵技法は、マスクの閉塞のある画像に対して、感性的な完成物を生成する際、顕著な能力を示している。 本稿では, 塗装技術の進歩を概観するとともに, その長所と短所に焦点をあてて, 現在の先進的アプローチの特定について述べる。 既存のモデルにおける重要なギャップに対処し、何が正確に生成されるのかをプロンプトし制御する能力に焦点を当てる。 我々はまた、これがモデルが取り組まなければならない自然な次の進歩的なステップであると考える理由を正当化し、この機能を実装するための複数のアプローチを提供します。 最後に,提案手法の有効性を定性的に検証し,対象物に正しく塗布された高品質な画像を生成するかどうかを定量的に評価する。

Image inpainting is the process of taking an image and generating lost or intentionally occluded portions. Inpainting has countless applications including restoring previously damaged pictures, restoring the quality of images that have been degraded due to compression, and removing unwanted objects/text. Modern inpainting techniques have shown remarkable ability in generating sensible completions for images with mask occlusions. In our paper, an overview of the progress of inpainting techniques will be provided, along with identifying current leading approaches, focusing on their strengths and weaknesses. A critical gap in these existing models will be addressed, focusing on the ability to prompt and control what exactly is generated. We will additionally justify why we think this is the natural next progressive step that inpainting models must take, and provide multiple approaches to implementing this functionality. Finally, we will evaluate the results of our approaches by qualitatively checking whether they generate high-quality images that correctly inpaint regions with the objects that they are instructed to produce.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# PaPr: 高速推論のための軽量ConvNetによるトレーニングフリーワンステップパッチ実行

PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference ( http://arxiv.org/abs/2403.16020v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Burhaneddin Yaman, Chun-Hao Liu, Diana Marculescu, (参考訳) 深層ニューラルネットワークが畳み込みニューラルネットワーク(ConvNets)から高度なビジョントランスフォーマー(ViTs)へと進化するにつれて、精度を損なうことなく高速な処理のために冗長なデータを除去する必要性が高まっている。 従来のメソッドはアーキテクチャ固有のものや再トレーニングが必要なものが多く、頻繁なモデル更新によって適用性を制限する。 そこで我々はまず,モデルの最終精度やサイズに関わらず,画像中の重要な識別パッチ領域を識別する機能である,軽量なConvNetの新たな特性を紹介する。 完全連結層がConvNetsの性能の第一のボトルネックであることを示し、単純な重み補正による抑制により、識別パッチのローカライゼーション性能が著しく向上することを示した。 この知見を用いて,ViT,ConvNet,ハイブリッドトランスフォーマーなど,さまざまなディープラーニングアーキテクチャを対象とした軽量なConvNetを用いて,最小限の精度で冗長なパッチを実質的に刈り取る手法PaPrを紹介した。 さらに,PaPrを用いたワンステップパッチプルーニングにより,既存のパッチリダクション手法が強化された。 多様なアーキテクチャの広範なテストを通じて、PaPrは、FLOPカウントの削減に類似した、最先端のパッチ削減手法よりもはるかに高い精度を実現している。 より具体的には、PaPrは0.8%未満の精度でビデオの冗長なパッチの約70%を削減し、3.7倍のFLOPを削減し、精度は2.5%向上した。

As deep neural networks evolve from convolutional neural networks (ConvNets) to advanced vision transformers (ViTs), there is an increased need to eliminate redundant data for faster processing without compromising accuracy. Previous methods are often architecture-specific or necessitate re-training, restricting their applicability with frequent model updates. To solve this, we first introduce a novel property of lightweight ConvNets: their ability to identify key discriminative patch regions in images, irrespective of model's final accuracy or size. We demonstrate that fully-connected layers are the primary bottleneck for ConvNets performance, and their suppression with simple weight recalibration markedly enhances discriminative patch localization performance. Using this insight, we introduce PaPr, a method for substantially pruning redundant patches with minimal accuracy loss using lightweight ConvNets across a variety of deep learning architectures, including ViTs, ConvNets, and hybrid transformers, without any re-training. Moreover, the simple early-stage one-step patch pruning with PaPr enhances existing patch reduction methods. Through extensive testing on diverse architectures, PaPr achieves significantly higher accuracy over state-of-the-art patch reduction methods with similar FLOP count reduction. More specifically, PaPr reduces about 70% of redundant patches in videos with less than 0.8% drop in accuracy, and up to 3.7x FLOPs reduction, which is a 15% more reduction with 2.5% higher accuracy.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# RPMArt:人工物体のロバスト知覚と操作に向けて

RPMArt: Towards Robust Perception and Manipulation for Articulated Objects ( http://arxiv.org/abs/2403.16023v1 )

ライセンス: Link先を確認
Junbo Wang, Wenhai Liu, Qiaojun Yu, Yang You, Liu Liu, Weiming Wang, Cewu Lu, (参考訳) 人工物は日常生活で一般的に見られる。 ロボットは、現実世界のロボットアプリケーションにおいて、明瞭な物体に対する堅牢な認識と操作のスキルを発揮できることが不可欠である。 しかし、既存の音声オブジェクトの手法では、点雲のノイズに十分対応できず、シミュレーションと現実のギャップを埋めるのに苦労しているため、現実のシナリオでの実践的な展開が制限される。 これらの課題に対処するため,我々は,音節のパラメータを推定し,雑音の多い点群から調音部分を操作するRPMArt(Robust Perception and Manipulation for Articulated Objects)を提案する。 我々の主な貢献はロバスト・アーティキュレーション・ネットワーク(RoArtNet)であり、局所的な特徴学習と点タプル投票によって、関節パラメータと手頃な点の両方を堅牢に予測できる。 さらに,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。 最後に、推定される安価な点と調音関節制約により、ロボットは、調音物体を操作する堅牢な動作を生成することができる。 合成データのみから学習した後、RPMArtはゼロショットを実世界の音声オブジェクトに転送することができる。 実験により,提案手法の有効性が確認され,ノイズ付加シミュレーションと実環境の両方で最先端の性能が達成された。 コードとデータは、複製のためにオープンソース化される。 さらなる結果はプロジェクトのWebサイトhttps://r-pmart.github.ioで公開されている。

Articulated objects are commonly found in daily life. It is essential that robots can exhibit robust perception and manipulation skills for articulated objects in real-world robotic applications. However, existing methods for articulated objects insufficiently address noise in point clouds and struggle to bridge the gap between simulation and reality, thus limiting the practical deployment in real-world scenarios. To tackle these challenges, we propose a framework towards Robust Perception and Manipulation for Articulated Objects (RPMArt), which learns to estimate the articulation parameters and manipulate the articulation part from the noisy point cloud. Our primary contribution is a Robust Articulation Network (RoArtNet) that is able to predict both joint parameters and affordable points robustly by local feature learning and point tuple voting. Moreover, we introduce an articulation-aware classification scheme to enhance its ability for sim-to-real transfer. Finally, with the estimated affordable point and articulation joint constraint, the robot can generate robust actions to manipulate articulated objects. After learning only from synthetic data, RPMArt is able to transfer zero-shot to real-world articulated objects. Experimental results confirm our approach's effectiveness, with our framework achieving state-of-the-art performance in both noise-added simulation and real-world environments. The code and data will be open-sourced for reproduction. More results are published on the project website at https://r-pmart.github.io .
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# 安定拡散加速モジュール LCM-LORA

A Unified Module for Accelerating STABLE-DIFFUSION: LCM-LORA ( http://arxiv.org/abs/2403.16024v1 )

ライセンス: Link先を確認
Ayush Thakur, Rashmi Vashisth, (参考訳) 本稿では,安定拡散過程を加速するための統一モジュールについて,特にlcm-loraモジュールに着目した包括的研究を行う。 安定拡散過程は様々な科学・工学領域において重要な役割を担い、その加速は効率的な計算性能において最重要となる。 固定ソース離散順序問題を解くための標準的な反復手順は、特に光学的に厚いシナリオにおいて、しばしば緩やかな収束を示す。 この課題に対処するために、輸送方程式の計算効率を高め、離散順序付け問題を改善することを目的として、無条件で安定な拡散加速法を開発した。 本研究では,非定常拡散合成加速法の理論的基礎と数値計算結果について考察し,モデルの離散順序問題に対する安定性と性能について考察する。 さらに,gpu対応最適化による大規模拡散モデルのデバイスアクセラレーションを含む拡散モデル加速の最近の進歩を考察し,推論遅延を大幅に改善する可能性を強調した。 本研究は, 安定拡散過程に関する重要な知見を提供し, 各種計算環境における加速法, 特にlcm-loraモジュールの作成と応用に重要な影響をもたらすものである。

This paper presents a comprehensive study on the unified module for accelerating stable-diffusion processes, specifically focusing on the lcm-lora module. Stable-diffusion processes play a crucial role in various scientific and engineering domains, and their acceleration is of paramount importance for efficient computational performance. The standard iterative procedures for solving fixed-source discrete ordinates problems often exhibit slow convergence, particularly in optically thick scenarios. To address this challenge, unconditionally stable diffusion-acceleration methods have been developed, aiming to enhance the computational efficiency of transport equations and discrete ordinates problems. This study delves into the theoretical foundations and numerical results of unconditionally stable diffusion synthetic acceleration methods, providing insights into their stability and performance for model discrete ordinates problems. Furthermore, the paper explores recent advancements in diffusion model acceleration, including on device acceleration of large diffusion models via gpu aware optimizations, highlighting the potential for significantly improved inference latency. The results and analyses in this study provide important insights into stable diffusion processes and have important ramifications for the creation and application of acceleration methods specifically, the lcm-lora module in a variety of computing environments.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# データセット蒸留におけるデータセットバイアスの影響を探る

Exploring the Impact of Dataset Bias on Dataset Distillation ( http://arxiv.org/abs/2403.16028v1 )

ライセンス: Link先を確認
Yao Lu, Jianyang Gu, Xuguang Chen, Saeed Vahidian, Qi Xuan, (参考訳) Dataset Distillation (DD)は、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するための有望なテクニックである。 この合成データセットは、元々の大規模データセットの代用として機能し、トレーニングワークロードを軽減するのに役立つ。 しかしながら、現在のDDメソッドは通常、データセット自体の潜在的なバイアス問題を見越して、データセットがバイアスのないという仮定の下で動作します。 この空白を埋めるために,DDに対するデータセットバイアスの影響を系統的に検討する。 私たちの知る限りでは、DDドメインにおける最初の探索です。 DDに適切なバイアス付きデータセットがないことを考慮し、まずCMNIST-DDとCCIFAR10-DDという2つのバイアス付きデータセットを構築し、その後の分析の基礎を確立する。 次に,既存のDD法を用いてCMNIST-DDとCCIFAR10-DDの合成データセットを生成し,それらの性能評価を行った。 実験では、元のデータセットに存在するバイアスが、ほとんどのケースで合成データセットのパフォーマンスに大きく影響することを示し、DD中の元のデータセットのバイアスを特定し緩和する必要性を強調している。 最後に、偏りのあるデータセットのコンテキスト内でDDを再構成する。 私たちのコードとバイアス付きデータセットはhttps://github.com/yaolu-zjut/Biased-DD.orgで公開されています。

Dataset Distillation (DD) is a promising technique to synthesize a smaller dataset that preserves essential information from the original dataset. This synthetic dataset can serve as a substitute for the original large-scale one, and help alleviate the training workload. However, current DD methods typically operate under the assumption that the dataset is unbiased, overlooking potential bias issues within the dataset itself. To fill in this blank, we systematically investigate the influence of dataset bias on DD. To the best of our knowledge, this is the first exploration in the DD domain. Given that there are no suitable biased datasets for DD, we first construct two biased datasets, CMNIST-DD and CCIFAR10-DD, to establish a foundation for subsequent analysis. Then we utilize existing DD methods to generate synthetic datasets on CMNIST-DD and CCIFAR10-DD, and evaluate their performance following the standard process. Experiments demonstrate that biases present in the original dataset significantly impact the performance of the synthetic dataset in most cases, which highlights the necessity of identifying and mitigating biases in the original datasets during DD. Finally, we reformulate DD within the context of a biased dataset. Our code along with biased datasets are available at https://github.com/yaolu-zjut/Biased-DD.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# VCR-Graphormer:仮想接続によるミニバッチグラフトランス

VCR-Graphormer: A Mini-batch Graph Transformer via Virtual Connections ( http://arxiv.org/abs/2403.16030v1 )

ライセンス: Link先を確認
Dongqi Fu, Zhigang Hua, Yan Xie, Jin Fang, Si Zhang, Kaan Sancak, Hao Wu, Andrey Malevich, Jingrui He, Bo Long, (参考訳) グラフ変換器は、グラフの複雑なトポロジと特徴情報から表現表現をキャプチャできるアテンションメカニズムを採用するための効果的なグラフ学習法として証明されている。 グラフ変換器は従来,ノード表現ベクトルを学習するために各ノードに対して高密度な注意(あるいは大域的注意)を行うため,大規模グラフデータには不適当な2次計算コストが生じる。 したがって、グラフ変換器のミニバッチトレーニングは有望な方向であるが、各ミニバッチの限られたサンプルは、情報表現を符号化するための効果的な密集性をサポートできない。 このボトルネックに直面すると、(1) 各ノードにパーソナライズされたPageRank(PPR)によってサンプリングされたトークンリストを割り当て、次にこのリストにのみ標準のマルチヘッド自己アテンションを適用してノード表現を計算する。 複雑なグラフトポロジ情報からモデルトレーニングを分離し、各ノードのトークンリストをバッチにロードすることでグラフトランスフォーマーのミニバッチトレーニングを可能にする。 さらに、このPPRトークン化は、固定多項式フィルタとジャンプ知識を備えたグラフ畳み込みネットワークとして有効であることを示す。 しかし、パーソナライズされたPageRankのみを使用すると、トークンリストが保持する情報が制限される可能性がある。 これにより、PPRトークン化により、各ノードのトークンリストにローカルおよびグローバルコンテキスト、長距離インタラクション、異種情報をエンコードし、VCR-Graphormer(Virtual Connection Ranking based Graph Transformer)を形式化する。

Graph transformer has been proven as an effective graph learning method for its adoption of attention mechanism that is capable of capturing expressive representations from complex topological and feature information of graphs. Graph transformer conventionally performs dense attention (or global attention) for every pair of nodes to learn node representation vectors, resulting in quadratic computational costs that are unaffordable for large-scale graph data. Therefore, mini-batch training for graph transformers is a promising direction, but limited samples in each mini-batch can not support effective dense attention to encode informative representations. Facing this bottleneck, (1) we start by assigning each node a token list that is sampled by personalized PageRank (PPR) and then apply standard multi-head self-attention only on this list to compute its node representations. This PPR tokenization method decouples model training from complex graph topological information and makes heavy feature engineering offline and independent, such that mini-batch training of graph transformers is possible by loading each node's token list in batches. We further prove this PPR tokenization is viable as a graph convolution network with a fixed polynomial filter and jumping knowledge. However, only using personalized PageRank may limit information carried by a token list, which could not support different graph inductive biases for model training. To this end, (2) we rewire graphs by introducing multiple types of virtual connections through structure- and content-based super nodes that enable PPR tokenization to encode local and global contexts, long-range interaction, and heterophilous information into each node's token list, and then formalize our Virtual Connection Ranking based Graph Transformer (VCR-Graphormer).
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# 部分順序付けによる非巡回グラフの学習

Learning Directed Acyclic Graphs from Partial Orderings ( http://arxiv.org/abs/2403.16031v1 )

ライセンス: Link先を確認
Ali Shojaie, Wenyu Chen, (参考訳) 直接非巡回グラフ(DAG)は、確率変数間の因果関係をモデル化するために一般的に用いられる。 一般に、DAG構造を学習することは、計算的にも統計的にも困難である。 さらに、追加情報なしでは、観測データからエッジの向きを推定できない場合がある。 対照的に、変数の完全な因果順序が与えられた場合、高次元においても効率的に解ける。 本稿では,変数の部分的因果順序付けが可能である場合のDAG学習の中間的問題について考察する。 低次元および高次元問題に対する部分順序付けと効率的な推定アルゴリズムを活用するための一般的な推定フレームワークを提案する。 提案手法の利点は数値的な研究によって説明される。

Directed acyclic graphs (DAGs) are commonly used to model causal relationships among random variables. In general, learning the DAG structure is both computationally and statistically challenging. Moreover, without additional information, the direction of edges may not be estimable from observational data. In contrast, given a complete causal ordering of the variables, the problem can be solved efficiently, even in high dimensions. In this paper, we consider the intermediate problem of learning DAGs when a partial causal ordering of variables is available. We propose a general estimation framework for leveraging the partial ordering and present efficient estimation algorithms for low- and high-dimensional problems. The advantages of the proposed framework are illustrated via numerical studies.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# FineWAVE: 自動静的解析ツールのためのバグの微粒化警告検証

FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools ( http://arxiv.org/abs/2403.16032v1 )

ライセンス: Link先を確認
Han Liu, Jian Zhang, Cen Zhang, Xiaohan Zhang, Kaixuan Li, Sen Chen, Shang-Wei Lin, Yixiang Chen, Xinhua Li, Yang Liu, (参考訳) ソフトウェアのサイズと複雑さの継続的な拡大は、開発中の欠陥やバグの削減に重点を置きました。 Automated Static Analysis Tools (ASATs)は助けを提供するが、実際には、偽陽性のかなりの数が開発者の生産性とツールへの信頼を妨げる可能性がある。 そのため、過去の研究は、報告された警告を検証するための学習に基づく手法を探求してきた。 それでも、いくつかの制限がある。 1)先行研究の粒度は、広範な開発史を通して実行可能な警告、あるいは機能レベルでの潜在的な真の警告を識別することに焦点を当てているため、粗雑である。 これらのアプローチには、個々のバグや警告に関する特異性がない。 2) 機械学習ベースのアプローチは機能エンジニアリングに多くの手作業を必要とする一方で,既存のディープラーニングベースのアプローチはソースコードと警告の主な意味を無視する。 (3) 少数の選択されたプロジェクトがこれらのアプローチの総合的な評価を妨げている。 本稿では,ASATの結果を改善するためのバグに敏感な,きめ細かい警告検証手法を提案する。 具体的には,ソースコードの細粒度セマンティクスとASATからの警告の両方を捉えるLSTMベースの新しいモデルを構築し,それらの相互注意との関係を強調する。 トレーニングと評価のデータ不足に対処するため,大規模な280,273件の警告データセット,すなわちFineWAを収集した。 既存の最大のデータセットの10倍の大きさです。 次に、FineWAVEを評価するために、データセットに関する広範な実験を行った。 F1スコアは97.79%で誤報を低減し67.06%で実際の警報を確認できた。

The continual expansion of software size and complexity has led to an increased focus on reducing defects and bugs during development. Although Automated Static Analysis Tools (ASATs) offer help, in practice, the significant number of false positives can impede developers' productivity and confidence in the tools. Therefore, previous research efforts have explored learning-based methods to validate the reported warnings. Nevertheless, there are still some limitations. (1) The granularity of prior research is coarse, as it focuses on identifying either actionable warnings throughout extensive development histories or potential true warnings at the function level. These approaches lack specificity regarding individual bugs and warnings. (2) Machine learning-based approaches need much manual effort for feature engineering while existing deep learning-based approaches ignore key semantics between source code and warnings. (3) The small number of selected projects hinders the comprehensive evaluation of these approaches. In this paper, we proposed a fine-grained warning verification approach that is sensitive to bugs for improving the results of ASATs, namely \ourtool. Specifically, we design a novel LSTM-based model that captures both fine-grained semantics of source code and warnings from ASATs and highlights their correlations with cross-attention. To tackle the data scarcity of training and evaluation, we collected a large-scale dataset of 280,273 warnings, namely FineWA. It is ten times larger than the existing largest dataset. Then, we conducted extensive experiments on the dataset to evaluate FineWAVE. The experimental results demonstrate the effectiveness of our approach, with an F1-score of 97.79% for reducing false alarms and 67.06% for confirming actual warnings, which also significantly outperforms all baselines.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# 意味構造的アテンション強化グラフ畳み込みネットワークによるノード分類

Node Classification via Semantic-Structural Attention-Enhanced Graph Convolutional Networks ( http://arxiv.org/abs/2403.16033v1 )

ライセンス: Link先を確認
Hongyin Zhu, (参考訳) グラフデータは複雑なネットワークデータとしても知られ、様々なドメインやアプリケーションにまたがって一様である。 従来のグラフニューラルネットワークモデルは、主に教師付き学習目的を通じてタスク固有の構造的特徴の抽出に重点を置いていたが、グラフ全体の固有の意味的特徴と構造的特徴の取得には至らなかった。 本稿では、グラフ構造をモデル化するだけでなく、頂点分類性能を高めるために一般化された教師なし特徴を抽出する意味構造対応グラフ畳み込みネットワーク(SSA-GCN)を提案する。 SSA-GCNの主な貢献は3つの側面にある: 第一に、知識グラフの観点から教師なし特徴抽出を通して意味情報を導き、第二に、複雑なネットワークの観点から教師なし特徴抽出を通して構造情報を得る。 これらの特徴を活用して、グラフ畳み込みネットワークを強化し、モデルの一般化能力を向上する。 Cora と CiteSeer のデータセットに対する実験により,提案手法による性能改善が実証された。 さらに、プライバシー設定下では優れた精度を示し、グラフデータ解析の堅牢で効果的なソリューションとなる。

Graph data, also known as complex network data, is omnipresent across various domains and applications. Prior graph neural network models primarily focused on extracting task-specific structural features through supervised learning objectives, but they fell short in capturing the inherent semantic and structural features of the entire graph. In this paper, we introduce the semantic-structural attention-enhanced graph convolutional network (SSA-GCN), which not only models the graph structure but also extracts generalized unsupervised features to enhance vertex classification performance. The SSA-GCN's key contributions lie in three aspects: firstly, it derives semantic information through unsupervised feature extraction from a knowledge graph perspective; secondly, it obtains structural information through unsupervised feature extraction from a complex network perspective; and finally, it integrates these features through a cross-attention mechanism. By leveraging these features, we augment the graph convolutional network, thereby enhancing the model's generalization capabilities. Our experiments on the Cora and CiteSeer datasets demonstrate the performance improvements achieved by our proposed method. Furthermore, our approach also exhibits excellent accuracy under privacy settings, making it a robust and effective solution for graph data analysis.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# V2X-Real:車両間協調認識のためのラーグスケールデータセット

V2X-Real: a Largs-Scale Dataset for Vehicle-to-Everything Cooperative Perception ( http://arxiv.org/abs/2403.16034v1 )

ライセンス: Link先を確認
Hao Xiang, Zhaoliang Zheng, Xin Xia, Runsheng Xu, Letian Gao, Zewei Zhou, Xu Han, Xinkai Ji, Mingxi Li, Zonglin Meng, Li Jin, Mingyue Lei, Zhaoyang Ma, Zihang He, Haoxuan Ma, Yunshuang Yuan, Yingqian Zhao, Jiaqi Ma, (参考訳) 近年のV2X技術の進歩により、自動運転車はオクルージョンを通して感知情報を共有できるようになり、認識能力を大幅に向上した。 しかしながら、実際のV2X協調知覚研究を促進する実際のデータセットは存在しない。 本稿では,複数の車両とスマートインフラストラクチャを同時に組み合わせたデータセットを提案する。 私たちのV2X-Realは、2台の自動車両と2台のスマートインフラストラクチャを使って収集されています。 データセット全体は33KのLiDARフレームと171Kのカメラデータを含み、非常に困難な都市シナリオでは10のカテゴリに1.2Mの注釈付きバウンディングボックスがある。 コラボレーション・モードとエゴ・パースペクティブにより,自動車中心,インフラ中心,車両から車両,インフラからインフラへの協調的知覚の4種類のデータセットを導出する。 SOTA協調認識法の総合的マルチクラスマルチエージェントベンチマークを提供する。 V2X-Realデータセットとベンチマークコードがリリースされる。

Recent advancements in Vehicle-to-Everything (V2X) technologies have enabled autonomous vehicles to share sensing information to see through occlusions, greatly boosting the perception capability. However, there are no real-world datasets to facilitate the real V2X cooperative perception research -- existing datasets either only support Vehicle-to-Infrastructure cooperation or Vehicle-to-Vehicle cooperation. In this paper, we propose a dataset that has a mixture of multiple vehicles and smart infrastructure simultaneously to facilitate the V2X cooperative perception development with multi-modality sensing data. Our V2X-Real is collected using two connected automated vehicles and two smart infrastructures, which are all equipped with multi-modal sensors including LiDAR sensors and multi-view cameras. The whole dataset contains 33K LiDAR frames and 171K camera data with over 1.2M annotated bounding boxes of 10 categories in very challenging urban scenarios. According to the collaboration mode and ego perspective, we derive four types of datasets for Vehicle-Centric, Infrastructure-Centric, Vehicle-to-Vehicle, and Infrastructure-to-Infrastructure cooperative perception. Comprehensive multi-class multi-agent benchmarks of SOTA cooperative perception methods are provided. The V2X-Real dataset and benchmark codes will be released.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# モノトニックなパラフレーズが言語モデルプロンプティングの一般化を改善

Monotonic Paraphrasing Improves Generalization of Language Model Prompting ( http://arxiv.org/abs/2403.16038v1 )

ライセンス: Link先を確認
Qin Liu, Fei Wang, Nan Xu, Tianyi Yan, Tao Meng, Muhao Chen, (参考訳) 大きな言語モデル(LLM)の性能は、同じタスクの異なるプロンプトや命令によって異なる場合がある。 この現象の一般的な要因の1つは、モデルが与えられたプロンプトや命令に精通していることであり、典型的にはその難易度によって推定される。 しかし、可能なフレーズの膨大なスペースを考えると、最も難易度が低いプロンプトを見つけることは困難である。 本稿では,プロンプト(あるいは命令)書き換えのためのパラフレーズLMのアンサンブルと,低パープレキシティの生成を制限するターゲットLM(すなわち,プロンプトや命令実行子)に基づいて,プロンプトや命令を下位パープレキシティに付与するエンドツーエンドのデコーディング戦略であるモノトニック・パラフレーズ(MonoPara)を提案する。 アンサンブル復号処理は、ターゲットLMによって計算された各世代を単調に減少させながら、意味的意味を変えることなく、元のプロンプトを効率的にパラフレーズ化することができる。 我々は、MonoParaの2つの代替デコードスキームとして、欲求と検索に基づくデコードの両方を詳細に検討する。 特に、MonoParaはトレーニングを一切必要とせず、パラフレーズのプロンプトや命令の難易度を単調に下げることができる。 さらにMonoParaは、乱れたタスク命令や見えないタスク命令に対するLMの一般化を効果的に改善することが示されている。

Performance of large language models (LLMs) may vary with different prompts or instructions of even the same task. One commonly recognized factor for this phenomenon is the model's familiarity with the given prompt or instruction, which is typically estimated by its perplexity. However, finding the prompt with the lowest perplexity is challenging, given the enormous space of possible prompting phrases. In this paper, we propose monotonic paraphrasing (MonoPara), an end-to-end decoding strategy that paraphrases given prompts or instructions into their lower perplexity counterparts based on an ensemble of a paraphrase LM for prompt (or instruction) rewriting, and a target LM (i.e. the prompt or instruction executor) that constrains the generation for lower perplexity. The ensemble decoding process can efficiently paraphrase the original prompt without altering its semantic meaning, while monotonically decreasing the perplexity of each generation as calculated by the target LM. We explore in detail both greedy and search-based decoding as two alternative decoding schemes of MonoPara. Notably, MonoPara does not require any training and can monotonically lower the perplexity of the paraphrased prompt or instruction, leading to improved performance of zero-shot LM prompting as evaluated on a wide selection of tasks. In addition, MonoPara is also shown to effectively improve LMs' generalization on perturbed and unseen task instructions.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# セマンティック、NeRF再建のためのセマンティック情報のみを公開

Semantic Is Enough: Only Semantic Information For NeRF Reconstruction ( http://arxiv.org/abs/2403.16043v1 )

ライセンス: Link先を確認
Ruibo Wang, Song Zhang, Ping Huang, Donghai Zhang, Wei Yan, (参考訳) Semantic-NeRFのような暗黙的な3D表現と意味情報を組み合わせる最近の研究は、NeRFモデルがセマンティックラベルを用いた3D構造のレンダリングにおいて優れた性能を発揮することを証明している。 本研究の目的は,意味的出力のみに着目し,RGB出力成分を除去することによって,意味的ニューラルラディアンス場(Semantic Neural Radiance Fields, Semantic-NeRF)モデルを拡張することである。 モデルとその訓練手順を再構成し、モデル意味出力と基底真理意味画像の相互エントロピー損失のみを活用できるようにし、従来のセマンティック・ニューラルアプローチで用いられてきた色データを除去する。 次に、元のSemantic-NeRFモデルと修正されたSemantic-NeRFモデルを用いて、一連の同一実験を行う。 我々の主な目的は、シーン理解、オブジェクト検出、セグメンテーションといったタスクに焦点をあて、セマンティック・ネRFによるモデル性能に対するこの修正の影響を覆すことである。 これらの結果は、シーンを描画する新しい方法に関する貴重な洞察を与え、セマンティックに焦点を当てた3Dシーン理解におけるさらなる研究と開発のための道筋を提供する。

Recent research that combines implicit 3D representation with semantic information, like Semantic-NeRF, has proven that NeRF model could perform excellently in rendering 3D structures with semantic labels. This research aims to extend the Semantic Neural Radiance Fields (Semantic-NeRF) model by focusing solely on semantic output and removing the RGB output component. We reformulate the model and its training procedure to leverage only the cross-entropy loss between the model semantic output and the ground truth semantic images, removing the colour data traditionally used in the original Semantic-NeRF approach. We then conduct a series of identical experiments using the original and the modified Semantic-NeRF model. Our primary objective is to obverse the impact of this modification on the model performance by Semantic-NeRF, focusing on tasks such as scene understanding, object detection, and segmentation. The results offer valuable insights into the new way of rendering the scenes and provide an avenue for further research and development in semantic-focused 3D scene understanding.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# 極ウォルシュ基底関数によるハイブリッド古典量子画像処理

Hybrid classical-quantum image processing via polar Walsh basis functions ( http://arxiv.org/abs/2403.16044v1 )

ライセンス: Link先を確認
Mohit Rohida, Alok Shukla, Prakash Vedula, (参考訳) ポーラウォルシュ基底関数に基づく画像処理のためのハイブリッド古典量子アプローチを提案する。 提案手法は,円形帯音(エアリーパターンノイズを含む)とアジムタール帯音(アジムタール帯音)を除去するアルゴリズムである。 このアプローチは、画像表現のための極座標におけるウォルシュ基底関数の定式化に基づいている。 このアプローチはまた、Walsh-Hadamard変換のためのハイブリッド古典量子アルゴリズムに関する初期の研究に基づいている。 我々は、一様面積測度と一様半径測度を用いた2種類の極性表現を提供する。 デジタル画像の文脈における変換の非注入性によって生じる課題を緩和し、カルト座標と極座標の間の変換に効果的なスムーズ化と補間手法が考案された。 ここで提示されるハイブリッド古典量子アプローチはウォルシュ・アダマール変換のアルゴリズムを含み、計算複雑性が$\mathcal{O}(N)$であるのに対し、よく知られた古典的ウォルシュ・アダマール変換は$\mathcal{O}(N \log_2 N)$である。 本研究では,円形帯音(エアリーパターンノイズを含む)とアジムタール帯音(アジムタール帯音)の除去を含む計算例を用いて,本手法の適用性を実証した。

We propose a novel hybrid classical-quantum approach for image processing based on polar Walsh basis functions. Using this approach, we present an algorithm for the removal of the circular banding noise (including Airy pattern noise) and the azimuthal banding noise. This approach is based on a formulation of Walsh basis functions in polar coordinates for image representations. This approach also builds upon an earlier work on a hybrid classical-quantum algorithm for Walsh-Hadamard transforms. We provide two kinds of polar representations using uniform area measure and uniform radial measure. Effective smoothening and interpolating techniques are devised relevant to the transformations between Cartesian and polar coordinates, mitigating the challenges posed by the non-injectivity of the transformation in the context of digital images. The hybrid classical-quantum approach presented here involves an algorithm for Walsh-Hadamard transforms, which has a lower computational complexity of $\mathcal{O}(N)$ compared to the well-known classical Fast Walsh-Hadamard Transform, which has a computational complexity of $\mathcal{O}(N \log_2 N)$. We demonstrated the applicability of our approach through computational examples involving the removal of the circular banding noise (including Airy pattern noise) and the azimuthal banding noise.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# Edit3K:ビデオ編集コンポーネントのためのユニバーサル表現学習

Edit3K: Universal Representation Learning for Video Editing Components ( http://arxiv.org/abs/2403.16048v1 )

ライセンス: Link先を確認
Xin Gu, Libo Zhang, Fan Chen, Longyin Wen, Yufei Wang, Tiejian Luo, Sijie Zhu, (参考訳) 本稿では,ビデオエフェクト,アニメーション,トランジション,フィルタ,ステッカー,テキストなど,主要な6種類の編集コンポーネントを用いた合成ビデオ編集の理解に焦点を当てる。 視覚素材の既存の視覚的表現学習(画像・映像など)とは対照的に,一般的に素材に適用される編集動作・コンポーネントの視覚的表現を学習することを目的としている。 まず、ビデオ作成のコンポーネントを編集するための、最初の大規模なデータセットを提案します。 データセット内の各ビデオは、異なる編集コンポーネントの原子的視覚的理解をサポートする単一の編集コンポーネントで、様々な画像/映像素材によって描画される。 例えば、コンポーネントレコメンデーションの編集、コンポーネント認識/検索の編集などです。 既存の視覚表現法は、原材料から編集部品の視覚的外観を切り離すことが難しいため、性能が良くない。 そこで我々は,一般的な代替ソリューションをベンチマークし,原材料によらず,編集コンポーネントの出現に参画することを学ぶ新しい手法を提案する。 提案手法は,他の手法と比較して,コンポーネントの検索/認識の編集に好適な結果が得られる。 ユーザスタディでは,視覚的に類似した編集部品をクラスタリングする手法が,他の方法よりも優れていることを示す。 さらに、推奨タスクの遷移に使用した学習表現は、AutoTransitionデータセット上で最先端の結果を達成する。 コードとデータセットは学術的利用のためにリリースされる。

This paper focuses on understanding the predominant video creation pipeline, i.e., compositional video editing with six main types of editing components, including video effects, animation, transition, filter, sticker, and text. In contrast to existing visual representation learning of visual materials (i.e., images/videos), we aim to learn visual representations of editing actions/components that are generally applied on raw materials. We start by proposing the first large-scale dataset for editing components of video creation, which covers about $3,094$ editing components with $618,800$ videos. Each video in our dataset is rendered by various image/video materials with a single editing component, which supports atomic visual understanding of different editing components. It can also benefit several downstream tasks, e.g., editing component recommendation, editing component recognition/retrieval, etc. Existing visual representation methods perform poorly because it is difficult to disentangle the visual appearance of editing components from raw materials. To that end, we benchmark popular alternative solutions and propose a novel method that learns to attend to the appearance of editing components regardless of raw materials. Our method achieves favorable results on editing component retrieval/recognition compared to the alternative solutions. A user study is also conducted to show that our representations cluster visually similar editing components better than other alternatives. Furthermore, our learned representations used to transition recommendation tasks achieve state-of-the-art results on the AutoTransition dataset. The code and dataset will be released for academic use.
翻訳日:2024-03-26 17:55:17 公開日:2024-03-24
# カルトグラム支援ディープラーニングによるオープンシステムの需要予測の強化

Enhancing Demand Prediction in Open Systems by Cartogram-aided Deep Learning ( http://arxiv.org/abs/2403.16049v1 )

ライセンス: Link先を確認
Sangjoon Park, Yongsung Kwon, Hyungjoon Soh, Mi Jin Lee, Seung-Woo Son, (参考訳) 様々な領域にまたがる時間的パターンの予測は、そのニュアンスでしばしば非線形な軌道が原因で大きな課題となる。 この課題に対処するため、予測フレームワークは、データ駆動統計手法、数学的モデル、機械学習を用いて、継続的に洗練されてきた。 近年,都市の制約や環境問題から,公営自転車などの共有交通システムの普及が進んでいる。 自転車駅におけるレンタル・リターンパターンの予測は, システムの開放性と駅間の利用パターンの不均衡が原因で, 依然として困難な課題である。 本研究では,カルトグラム手法を用いてレンタル・リターンパターンを予測するためのディープラーニングフレームワークを提案する。 カルトグラム手法は、トレーニングデータのない新設置駅の需要予測と、これまで達成されていない長期予測を容易にする。 本手法を韓国ソウルの自転車レンタル・リターンデータに適用し,空間的・時間的畳み込みグラフアテンションネットワークを用いた。 改良されたアーキテクチャでは、バッチアテンションと修正ノード機能のアップデートが組み込まれ、さまざまな時間スケールでの予測精度が向上します。 時間的パターンの予測におけるフレームワークの有効性とその可能性を示す。

Predicting temporal patterns across various domains poses significant challenges due to their nuanced and often nonlinear trajectories. To address this challenge, prediction frameworks have been continuously refined, employing data-driven statistical methods, mathematical models, and machine learning. Recently, as one of the challenging systems, shared transport systems such as public bicycles have gained prominence due to urban constraints and environmental concerns. Predicting rental and return patterns at bicycle stations remains a formidable task due to the system's openness and imbalanced usage patterns across stations. In this study, we propose a deep learning framework to predict rental and return patterns by leveraging cartogram approaches. The cartogram approach facilitates the prediction of demand for newly installed stations with no training data as well as long-period prediction, which has not been achieved before. We apply this method to public bicycle rental-and-return data in Seoul, South Korea, employing a spatial-temporal convolutional graph attention network. Our improved architecture incorporates batch attention and modified node feature updates for better prediction accuracy across different time scales. We demonstrate the effectiveness of our framework in predicting temporal patterns and its potential applications.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 不均一データのための事前学習型画像変換器を用いた汎用的で効率的なフェデレーション分割学習

A General and Efficient Federated Split Learning with Pre-trained Image Transformers for Heterogeneous Data ( http://arxiv.org/abs/2403.16050v1 )

ライセンス: Link先を確認
Yifan Shi, Yuhui Zhang, Ziyue Huang, Xiaofeng Yang, Li Shen, Wei Chen, Xueqian Wang, (参考訳) フェデレート・スプリット・ラーニング(FSL)は、実際に有望な分散学習パラダイムであり、フェデレート・ラーニング(FL)とスプリット・ラーニング(SL)の両方のパラダイムの長所を集め、モデルプライバシを確保しつつ、クライアントのリソースオーバーヘッドを低減し、特にリソース制約のある環境における大きなトランスフォーマーモデル(IoT)において、モデルのプライバシを確保する。 しかしながら、ほとんどすべての作業は、FSLの単純なニューラルネットワークモデルでの性能を単に調査するだけである。 ビジョントランスフォーマー(ViT)をモデルアーキテクチャとして組み込むことに焦点を絞った小さな努力にもかかわらず、彼らはViTをゼロからトレーニングし、リソースが限られている各デバイスで膨大なトレーニングオーバーヘッドを発生させた。 そこで本稿では,FES-PITと呼ばれる初期モデルとして事前学習画像変換器(PIT)を用い,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。 さらに,FES-PTZOは,特に勾配情報が利用できないブラックボックスのシナリオと互換性のある機能を有するため,勾配反転攻撃を阻害する。 具体的には、FES-PTZOはゼロオーダー(ZO)最適化を利用してサーバ勾配を近似し、後方伝播を1つのプロセスに置き換える。 実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を最初に行った。 我々の実験はアルゴリズムの有効性を検証する。

Federated Split Learning (FSL) is a promising distributed learning paradigm in practice, which gathers the strengths of both Federated Learning (FL) and Split Learning (SL) paradigms, to ensure model privacy while diminishing the resource overhead of each client, especially on large transformer models in a resource-constrained environment, e.g., Internet of Things (IoT). However, almost all works merely investigate the performance with simple neural network models in FSL. Despite the minor efforts focusing on incorporating Vision Transformers (ViT) as model architectures, they train ViT from scratch, thereby leading to enormous training overhead in each device with limited resources. Therefore, in this paper, we harness Pre-trained Image Transformers (PITs) as the initial model, coined FES-PIT, to accelerate the training process and improve model robustness. Furthermore, we propose FES-PTZO to hinder the gradient inversion attack, especially having the capability compatible with black-box scenarios, where the gradient information is unavailable. Concretely, FES-PTZO approximates the server gradient by utilizing a zeroth-order (ZO) optimization, which replaces the backward propagation with just one forward process. Empirically, we are the first to provide a systematic evaluation of FSL methods with PITs in real-world datasets, different partial device participations, and heterogeneous data splits. Our experiments verify the effectiveness of our algorithms.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 道路網グラフ抽出のためのセグメンテーションモデル

Segment Anything Model for Road Network Graph Extraction ( http://arxiv.org/abs/2403.16051v1 )

ライセンス: Link先を確認
Congrui Hetang, Haoru Xue, Cindy Le, Tianwei Yue, Wenping Wang, Yihui He, (参考訳) 衛星画像から大規模でベクトル化された道路網グラフを抽出するためのSAM-Roadを提案する。 グラフ幾何を予測するために、SAMの固有の強みを活用して、密接なセマンティックセマンティックセグメンテーションタスクとして定式化する。 SAMの画像エンコーダは、道路や交差点の確率マスクを生成するように微調整され、そこからグラフ頂点を単純な非最大抑圧によって抽出する。 グラフトポロジを予測するために,SAM画像の埋め込みを利用して頂点間のエッジ存在確率を推定する,軽量なトランスフォーマーベースグラフニューラルネットワークを設計した。 提案手法は,高価で複雑な後処理ヒューリスティックを伴わない大規模領域のグラフ頂点とエッジを直接予測し,数平方キロメートルにまたがる完全な道路網グラフを数秒で構築することができる。 SAM-Roadはシンプルで単純で最小限の設計で、最先端のRNGDet++で同等の精度を実現し、City-scaleデータセットの40倍高速である。 そこで我々は,グラフ学習タスクに適用した場合,基礎的視覚モデルのパワーを実証する。 コードはhttps://github.com/htcr/sam_road.comで公開されている。

We propose SAM-Road, an adaptation of the Segment Anything Model (SAM) for extracting large-scale, vectorized road network graphs from satellite imagery. To predict graph geometry, we formulate it as a dense semantic segmentation task, leveraging the inherent strengths of SAM. The image encoder of SAM is fine-tuned to produce probability masks for roads and intersections, from which the graph vertices are extracted via simple non-maximum suppression. To predict graph topology, we designed a lightweight transformer-based graph neural network, which leverages the SAM image embeddings to estimate the edge existence probabilities between vertices. Our approach directly predicts the graph vertices and edges for large regions without expensive and complex post-processing heuristics, and is capable of building complete road network graphs spanning multiple square kilometers in a matter of seconds. With its simple, straightforward, and minimalist design, SAM-Road achieves comparable accuracy with the state-of-the-art method RNGDet++, while being 40 times faster on the City-scale dataset. We thus demonstrate the power of a foundational vision model when applied to a graph learning task. The code is available at https://github.com/htcr/sam_road.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# many-hypercube codes: High-rate quantum error-correcting codes for high- Performance fault-tolerant quantum computing

Many-hypercube codes: High-rate quantum error-correcting codes for high-performance fault-tolerant quantum computation ( http://arxiv.org/abs/2403.16054v1 )

ライセンス: Link先を確認
Hayato Goto, (参考訳) フォールトトレラント量子計算における量子エラー補正への従来のアプローチは、単一の論理量子ビットを多くの物理量子ビットに符号化することに基づいている。 この問題を解決するために、量子低密度パリティチェック符号のような高速量子符号が過去10年間にわたって研究されてきた。 しかし、そのような符号は複雑な構造を持ち、その利点を犠牲にすることなく論理ゲート操作を並列に実行することは困難である。 本稿では,量子誤り検出符号の単純構造と高速性を考察し,量子誤り検出符号を高次量子符号の新しいファミリとして,連結した高次量子誤り検出符号を提案する。 これらの単純な構造は、ハイパーキューブを用いた幾何学的解釈を可能にし、それぞれが論理キュービットに対応する。 したがって、私たちはそれらを多くのハイパーキューブコードと呼ぶ。 符号化レートは驚くほど高く、例えば、30%(64個の論理量子ビットは216個の物理量子ビットに符号化される)である。 専用高性能デコーダを開発し,回路レベルのノイズモデルにおいても高い誤差閾値を実現する。 論理ゲート操作も並列化可能である。 したがって、マルチハイパーキューブ符号は、高性能なフォールトトレラント量子計算への道を開くことになる。

Conventional approaches to quantum error correction for fault-tolerant quantum computation are based on encoding a single logical qubit into many physical qubits, resulting in asymptotically zero encoding rates and therefore huge resource overheads. To overcome this issue, high-rate quantum codes, such as quantum low-density parity-check codes, have been studied over the past decade. However, such codes have complex structure, making it difficult to perform logical gate operations in parallel without sacrificing their advantage. Observing the simple structure and high rates of quantum error-detecting codes, here we propose concatenated high-rate quantum error-detecting codes as a new family of high-rate quantum codes. Their simple structure allows for a geometrical interpretation using hypercubes, each of which corresponds to a logical qubit. We thus call them many-hypercube codes. The encoding rate is remarkably high, e.g., 30% (64 logical qubits are encoded into 216 physical qubits). Developing a dedicated high-performance decoder, we achieve high error thresholds even in a circuit-level noise model. Logical gate operations are also parallelizable. Thus, the many-hypercube codes will pave the way to high-performance fault-tolerant quantum computation.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# Qibo: 漢方医学における大規模言語モデル

Qibo: A Large Language Model for Traditional Chinese Medicine ( http://arxiv.org/abs/2403.16056v1 )

ライセンス: Link先を確認
Heyi Zhang, Xin Wang, Zhaopeng Meng, Yongzhe Jia, Dawei Xu, (参考訳) 人工知能の分野では、Large Language Models (LLMs) は、医学、法律、金融など、多くの専門分野において、ユーザ意図の理解と応答において大きな進歩を見せている。 しかし、伝統的な漢方医学(TCM)の独自の領域においては、その理論と近代医学の本質的な違いや専門的なコーパス資源の欠如により、LCMの性能向上が課題となっている。 本稿では,TCMの分野におけるプロフェッショナルコーパスの構築と組織化をめざし,TCM理論の特徴である専門知識を持つ大規模モデルの実現と,事前学習から監視ファインチューニング(SFT)までの完全なトレーニングプロセスを実現するための,TCM分野における最初のLLMであるLLaMAに基づくQiboモデルの開発を成功させる。 さらに,本研究では,TLMの性能評価ツールであるQibo-benchmarkを開発した。 本ツールは、漢方医学分野における各種モデルの理解と応用能力の定量化と比較のための重要な基盤を提供するとともに、今後の研究方向や、中国伝統医学におけるインテリジェントアシスタントの実践的応用に関するガイダンスを提供する。 最後に,Qiboが漢方医学の分野で優れていることを示す十分な実験を行った。

In the field of Artificial Intelligence, Large Language Models (LLMs) have demonstrated significant advances in user intent understanding and response in a number of specialized domains, including medicine, law, and finance. However, in the unique domain of traditional Chinese medicine (TCM), the performance enhancement of LLMs is challenged by the essential differences between its theories and modern medicine, as well as the lack of specialized corpus resources. In this paper, we aim to construct and organize a professional corpus in the field of TCM, to endow the large model with professional knowledge that is characteristic of TCM theory, and to successfully develop the Qibo model based on LLaMA, which is the first LLM in the field of TCM to undergo a complete training process from pre-training to Supervised Fine-Tuning (SFT). Furthermore, we develop the Qibo-benchmark, a specialized tool for evaluating the performance of LLMs, which is a specialized tool for evaluating the performance of LLMs in the TCM domain. This tool will provide an important basis for quantifying and comparing the understanding and application capabilities of different models in the field of traditional Chinese medicine, and provide guidance for future research directions and practical applications of intelligent assistants for traditional Chinese medicine. Finally, we conducted sufficient experiments to prove that Qibo has good performance in the field of traditional Chinese medicine.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 改良拡散写像に基づくマニフォールド正規化分類モデル

Manifold Regularization Classification Model Based On Improved Diffusion Map ( http://arxiv.org/abs/2403.16059v1 )

ライセンス: Link先を確認
Hongfu Guo, Wencheng Zou, Zeyu Zhang, Shuishan Zhang, Ruitong Wang, Jintao Zhang, (参考訳) マニフォールド正規化モデル(Manifold regularization model)は、データセットの幾何学的構造を利用する半教師付き学習モデルである。 しかし、元の多様体ノルムは、モデルの性能を局所領域に制限する。 この制限に対処するために,ラベル伝搬モデルに基づく多様体の正規化を改善する手法を提案する。 まず拡散写像アルゴリズムの確率遷移行列を拡張し、ノイマン熱核を推定し、多様体上のラベルの伝播過程を正確に表現できるようにする。 この行列を用いて,ラベルの分布を記述するためのラベル伝搬関数をデータセット上に構築する。 その後、ラベル伝搬関数をデータ多様体全体に拡張する。 拡張ラベル伝搬関数が十分に長い時間後に安定分布に収束し、分類器として考えられることを証明した。 この概念に基づいて、多様体正則化モデルの改善を提案し、実験によりその優越性を検証した。

Manifold regularization model is a semi-supervised learning model that leverages the geometric structure of a dataset, comprising a small number of labeled samples and a large number of unlabeled samples, to generate classifiers. However, the original manifold norm limits the performance of models to local regions. To address this limitation, this paper proposes an approach to improve manifold regularization based on a label propagation model. We initially enhance the probability transition matrix of the diffusion map algorithm, which can be used to estimate the Neumann heat kernel, enabling it to accurately depict the label propagation process on the manifold. Using this matrix, we establish a label propagation function on the dataset to describe the distribution of labels at different time steps. Subsequently, we extend the label propagation function to the entire data manifold. We prove that the extended label propagation function converges to a stable distribution after a sufficiently long time and can be considered as a classifier. Building upon this concept, we propose a viable improvement to the manifold regularization model and validate its superiority through experiments.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# ポートフォワードサービスはセキュリティリスクを抑える

Port Forwarding Services Are Forwarding Security Risks ( http://arxiv.org/abs/2403.16060v1 )

ライセンス: Link先を確認
Haoyuan Wang, Yue Xue, Xuan Feng, Chao Zhou, Xianghang Mi, (参考訳) 近年出現した代表的ポートフォワードサービス(PFS)に関する最初の総合的なセキュリティ研究を行い、インターネット上の内部ネットワークにデプロイされるWebサービスを、従来の技術(NATトラバーサル技術など)と比較して、ユーザビリティは向上するが、複雑さは少なくなる。 本研究は,PFSの技術的メカニズムを明らかにするため,PFSプロトコルの攻撃シナリオを検証し,大規模にポートフォワードされたWebサイト(PFW)を自動検出・スナップショットし,PFWをよく観察されたカテゴリに分類する,という新しい手法によって実現されている。 これらの手法を活用することで、世界中の数万のISPに分散された数百万のPFWによるPFSの普及が観察された。 さらに32.31%のPFWは、産業用制御システム、IoTコントローラ、コードリポジトリ、オフィス自動化システムなどの重要なデータやインフラへのアクセスを支援するウェブサイトカテゴリに分類されている。 18.57%のPFWは外部からの訪問者に対していかなるアクセス制御も行わなかった。 また、Orayのプロトコルに固有の2種類の攻撃(よく登録されたPFSプロバイダ)と、マルウェアの配布、ボットネット操作、フィッシングといった活動において悪意あるアクターによるPFSの悪用が確認されている。

We conduct the first comprehensive security study on representative port forwarding services (PFS), which emerge in recent years and make the web services deployed in internal networks available on the Internet along with better usability but less complexity compared to traditional techniques (e.g., NAT traversal techniques). Our study is made possible through a set of novel methodologies, which are designed to uncover the technical mechanisms of PFS, experiment attack scenarios for PFS protocols, automatically discover and snapshot port-forwarded websites (PFWs) at scale, and classify PFWs into well-observed categories. Leveraging these methodologies, we have observed the widespread adoption of PFS with millions of PFWs distributed across tens of thousands of ISPs worldwide. Furthermore, 32.31% PFWs have been classified into website categories that serve access to critical data or infrastructure, such as, web consoles for industrial control systems, IoT controllers, code repositories, and office automation systems. And 18.57% PFWs didn't enforce any access control for external visitors. Also identified are two types of attacks inherent in the protocols of Oray (one well-adopted PFS provider), and the notable abuse of PFSes by malicious actors in activities such as malware distribution, botnet operation and phishing.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 量子/古典系と量子軌道に対するマルコフ力学

Markovian dynamics for a quantum/classical system and quantum trajectories ( http://arxiv.org/abs/2403.16065v1 )

ライセンス: Link先を確認
Alberto Barchielli, (参考訳) 量子軌道法は、数値計算の出発点としてオープンシステム理論において使われ、連続した時間で量子システムのモニタリングを記述するために用いられる。 ここでは、この手法を拡張して、量子/古典ハイブリッドシステムのダイナミクスに対する一般的なアプローチを開発する。 2つの結合確率微分方程式を用いることで、古典的成分と、それぞれ固有の力学を持ち、互いに相互作用する量子的成分を記述することができる。 数学的に厳密な構成は、マルコフの合同力学を持ち、量子成分のヒルベルト空間上の有界作用素のみを含むという制限の下で与えられる。 重要な特徴は、相互作用が量子成分から古典成分への情報のフローを許容するならば、必然的に力学は散逸的であることである。 また、この理論は、純粋に量子の場合において量子力学半群に還元され、純粋に古典的な場合においてリウヴィル方程式とコルモゴロフ-フォッカー-プランク方程式を含む適切なハイブリッド力学半群とどのように結びついているかを示す。 さらに、この半群は、提案された確率力学をハイブリッドマスター方程式に基づく他の様々な提案と比較することができる。 いくつかの単純な例は、説明できる様々な物理的な振る舞いを示すために構築されており、特に隠れ絡みを示すモデルが導入されている。

Quantum trajectory techniques have been used in the theory of open systems as a starting point for numerical computations and to describe the monitoring of a quantum system in continuous time. Here we extend this technique and use it to develop a general approach to the dynamics of quantum/classical hybrid systems. By using two coupled stochastic differential equations, we can describe a classical component and a quantum one which have their own intrinsic dynamics and which interact with each other. A mathematically rigorous construction is given, under the restriction of having a Markovian joint dynamics and of involving only bounded operators on the Hilbert space of the quantum component. An important feature is that, if the interaction allows for a flow of information from the quantum component to the classical one, necessarily the dynamics is dissipative. We show also how this theory is connected to a suitable hybrid dynamical semigroup, which reduces to a quantum dynamical semigroup in the purely quantum case and includes Liouville and Kolmogorov-Fokker-Plank equations in the purely classical case. Moreover, this semigroup allows to compare the proposed stochastic dynamics with various other proposals based on hybrid master equations. Some simple example are constructed in order to show the variety of physical behaviours which can be described; in particular, a model presenting hidden entanglement is introduced.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 動的レコメンデーションのための時間グラフネットワークフレームワーク

A Temporal Graph Network Framework for Dynamic Recommendation ( http://arxiv.org/abs/2403.16066v1 )

ライセンス: Link先を確認
Yejin Kim, Youngbin Lee, Vincent Yuan, Annika Lee, Yongjae Lee, (参考訳) 電子商取引やストリーミングサービスのようなプラットフォームでのユーザエンゲージメントに不可欠なレコメンダシステムは、静的なデータ依存のため、ユーザの進化する好みに遅れることが多い。 時間グラフネットワーク(TGN)が提案された後、様々な研究により、TGNは時間とともにノードとエッジの特徴が動的に変化する状況を大幅に改善できることが示されている。 しかし、その有望な機能にもかかわらず、これまでは直接レコメンデーションシステムには適用されていない。 本研究は、この分野で初めて推奨システムにTGNを直接実装することで、このギャップを埋めるものである。 実世界のデータセットと、さまざまなグラフと履歴の埋め込み手法を用いて、TGNの適応性を示し、動的レコメンデーションシナリオにおけるその有効性を確認する。

Recommender systems, crucial for user engagement on platforms like e-commerce and streaming services, often lag behind users' evolving preferences due to static data reliance. After Temporal Graph Networks (TGNs) were proposed, various studies have shown that TGN can significantly improve situations where the features of nodes and edges dynamically change over time. However, despite its promising capabilities, it has not been directly applied in recommender systems to date. Our study bridges this gap by directly implementing Temporal Graph Networks (TGN) in recommender systems, a first in this field. Using real-world datasets and a range of graph and history embedding methods, we show TGN's adaptability, confirming its effectiveness in dynamic recommendation scenarios.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 逆浄化のためのロバスト拡散モデル

Robust Diffusion Models for Adversarial Purification ( http://arxiv.org/abs/2403.16067v1 )

ライセンス: Link先を確認
Guang Lin, Zerui Tao, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao, (参考訳) 拡散モデル (DM) に基づく対向的浄化 (AP) は、対向的訓練 (AT) の最も強力な代替手段であることが示されている。 しかし、これらの手法は、事前訓練された拡散モデル自体が敵攻撃に対しても堅牢ではないという事実を無視している。 さらに、拡散処理は意味情報を容易に破壊し、高品質な画像を生成することができるが、逆処理後の元の入力画像とは全く異なるので、標準精度が劣化する。 これらの問題を克服するためには、計算的に禁止されている事前学習拡散モデルを再訓練または微調整するために、敵の訓練戦略を活用することが自然な考えである。 本稿では,従来のDMとは無関係に,DMの再訓練や微調整を回避できる新しい逆過程を提案する。 この堅牢なガイダンスは、より多くのセマンティックコンテンツを保持する精製例を生成するだけでなく、DMの正確さと損耗のトレードオフを初めて緩和すると同時に、DMベースのAPが新たな攻撃に対して効果的な適応能力を提供する。 本研究では,本手法が最先端の結果を達成し,異なる攻撃に対する一般化を示すことを実証するために,大規模な実験を行った。

Diffusion models (DMs) based adversarial purification (AP) has shown to be the most powerful alternative to adversarial training (AT). However, these methods neglect the fact that pre-trained diffusion models themselves are not robust to adversarial attacks as well. Additionally, the diffusion process can easily destroy semantic information and generate a high quality image but totally different from the original input image after the reverse process, leading to degraded standard accuracy. To overcome these issues, a natural idea is to harness adversarial training strategy to retrain or fine-tune the pre-trained diffusion model, which is computationally prohibitive. We propose a novel robust reverse process with adversarial guidance, which is independent of given pre-trained DMs and avoids retraining or fine-tuning the DMs. This robust guidance can not only ensure to generate purified examples retaining more semantic content but also mitigate the accuracy-robustness trade-off of DMs for the first time, which also provides DM-based AP an efficient adaptive ability to new attacks. Extensive experiments are conducted to demonstrate that our method achieves the state-of-the-art results and exhibits generalization against different attacks.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 相互情報規則化によるランドマーク誘導型クロススピーカリップ読解

Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization ( http://arxiv.org/abs/2403.16071v1 )

ライセンス: Link先を確認
Linzhi Wu, Xingyu Zhang, Yakun Zhang, Changyan Zheng, Tiejun Liu, Liang Xie, Ye Yan, Erwei Yin, (参考訳) 視覚的な唇の動きからサイレントスピーチを解釈するプロセスであるリップリーディングは、幅広い現実的な応用において注目を集めている。 深層学習アプローチは、現在の唇読解システムを大幅に改善する。 しかし、話者アイデンティティが変化する話者間シナリオにおける唇読みは、話者間のばらつきによって難しい問題を引き起こす。 十分に訓練された唇読解システムは、真新しい話者を扱う際には、性能が良くない。 話者不自由な唇読解モデルを学ぶために、重要な洞察は、特定の話者に過度に適合するモデルを避けることで、話者間の視覚的変動を減らすことである。 本研究は,ハイブリッドCTC/アテンションアーキテクチャに基づく入力視覚的手がかりと潜時表現の両方の観点から,頻繁に使用される口輪画像の代わりに,唇のランドマーク付ききめ細かな視覚的手がかりを応用し,話者特有の外観特性を低下させる手法を提案する。 さらに、話者不感な潜在表現をキャプチャするために、最大最小の相互情報正規化手法を提案する。 提案手法の有効性を, 話者内および話者間条件下で実験的に評価した。

Lip reading, the process of interpreting silent speech from visual lip movements, has gained rising attention for its wide range of realistic applications. Deep learning approaches greatly improve current lip reading systems. However, lip reading in cross-speaker scenarios where the speaker identity changes, poses a challenging problem due to inter-speaker variability. A well-trained lip reading system may perform poorly when handling a brand new speaker. To learn a speaker-robust lip reading model, a key insight is to reduce visual variations across speakers, avoiding the model overfitting to specific speakers. In this work, in view of both input visual clues and latent representations based on a hybrid CTC/attention architecture, we propose to exploit the lip landmark-guided fine-grained visual clues instead of frequently-used mouth-cropped images as input features, diminishing speaker-specific appearance characteristics. Furthermore, a max-min mutual information regularization approach is proposed to capture speaker-insensitive latent representations. Experimental evaluations on public lip reading datasets demonstrate the effectiveness of the proposed approach under the intra-speaker and inter-speaker conditions.
翻訳日:2024-03-26 17:45:32 公開日:2024-03-24
# 直感的スマートコントラクト監査のためのファインチューニングとLCMベースエージェントの併用

Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications ( http://arxiv.org/abs/2403.16073v1 )

ライセンス: Link先を確認
Wei Ma, Daoyuan Wu, Yuqiang Sun, Tianwen Wang, Shangqing Liu, Jian Zhang, Yue Xue, Yang Liu, (参考訳) スマートコントラクトはEthereumのようなブロックチェーン上に構築された分散アプリケーションである。 近年の研究では、大きな言語モデル(LLM)がスマートコントラクトを監査する可能性があることが示されているが、現状では、GPT-4でさえ30%の精度しか達成できない(決定と正当化が正しければ)。 これは、既製のLLMが主に一般的なテキスト/コードコーパスで事前訓練されており、Solidityスマートコントラクト監査の特定のドメインで微調整されていないためだろう。 本稿では,直感的なスマートコントラクト監査のための微調整エージェントとLLMベースのエージェントを組み合わせた汎用フレームワークであるTrustLLMを提案する。 具体的には、TrustLLMは、専門家の人間監査官がまず何が間違っているかを理解し、その原因を特定するためのコードの詳細な分析を行うという観察にインスパイアされている。 そのため、TrustLLMは2段階の微調整アプローチを採用している。まずはディクタモデルをチューニングし、次にReasonerモデルをチューニングして脆弱性の原因を生成する。 しかし、微調整だけでは、脆弱性の最適な原因を正確に特定することの難しさに直面する。 そこで我々はLLMをベースとした2つのエージェントであるRancherとCricを導入し、微調整されたReasonerモデルの出力に基づいて、脆弱性の最も適切な原因を反復的に選択し、議論する。 TrustLLMを評価するために、TrustLLMに1,734の正と負のサンプル1,810のバランスデータセットを収集した。 次に、従来の微調整モデル(CodeBERT、GraphCodeBERT、CodeT5、UnixCoder)と比較し、学習ベースのLCM(GPT4、GPT-3.5、CodeLlama-13b/34b)と比較した。 263の実際のスマートコントラクトの脆弱性のデータセット上で、TrustLLMはF1スコアが91.21%、精度が91.11%に達する。 TrustLLMが生成した原因は、根本原因と比較して約38%の一貫性を達成した。

Smart contracts are decentralized applications built atop blockchains like Ethereum. Recent research has shown that large language models (LLMs) have potential in auditing smart contracts, but the state-of-the-art indicates that even GPT-4 can achieve only 30% precision (when both decision and justification are correct). This is likely because off-the-shelf LLMs were primarily pre-trained on a general text/code corpus and not fine-tuned on the specific domain of Solidity smart contract auditing. In this paper, we propose TrustLLM, a general framework that combines fine-tuning and LLM-based agents for intuitive smart contract auditing with justifications. Specifically, TrustLLM is inspired by the observation that expert human auditors first perceive what could be wrong and then perform a detailed analysis of the code to identify the cause. As such, TrustLLM employs a two-stage fine-tuning approach: it first tunes a Detector model to make decisions and then tunes a Reasoner model to generate causes of vulnerabilities. However, fine-tuning alone faces challenges in accurately identifying the optimal cause of a vulnerability. Therefore, we introduce two LLM-based agents, the Ranker and Critic, to iteratively select and debate the most suitable cause of vulnerability based on the output of the fine-tuned Reasoner model. To evaluate TrustLLM, we collected a balanced dataset with 1,734 positive and 1,810 negative samples to fine-tune TrustLLM. We then compared it with traditional fine-tuned models (CodeBERT, GraphCodeBERT, CodeT5, and UnixCoder) as well as prompt learning-based LLMs (GPT4, GPT-3.5, and CodeLlama-13b/34b). On a dataset of 263 real smart contract vulnerabilities, TrustLLM achieves an F1 score of 91.21% and an accuracy of 91.11%. The causes generated by TrustLLM achieved a consistency of about 38% compared to the ground truth causes.
翻訳日:2024-03-26 17:45:31 公開日:2024-03-24
# IBCB:行動進化史のための効率的な逆バッチ付きコンテキスト帯域

IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History ( http://arxiv.org/abs/2403.16075v1 )

ライセンス: Link先を確認
Yi Xu, Weiran Shen, Xiao Zhang, Jun Xu, (参考訳) 伝統的な模倣学習は、専門家の行動メカニズムをモデル化することに焦点を当てている。 しかし、ストリーミングレコメンデータシステムのような多くのストリーミングアプリケーションでは、オンライン意思決定者が意思決定プロセス中にオンライン学習を行うのが一般的である。 これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。 本稿では,環境報酬パラメータの推定と,専門家の行動進化史に基づく学習方針を効率的に行うことができる逆バッチコンテキスト帯域(IBCB)フレームワークを提案する。 特に、IBCBは、バッチ化された文脈帯域の振る舞い進化履歴をアクセス不能な報酬で利用することにより、逆問題を単純な二次プログラミング問題に定式化する。 IBCBは決定主義とランダム化の両バンディット政策の統一的な枠組みであることを示す。 実験結果から,IBCBは合成および実世界のデータ上で既存の模倣学習アルゴリズムよりも優れており,実行時間を大幅に短縮することが示された。 さらに, 経験的分析により, IBCBは分布外一般化に優れており, 初心者専門家のインタラクション履歴からバンドイット政策の学習に極めて有効であることが明らかとなった。

Traditional imitation learning focuses on modeling the behavioral mechanisms of experts, which requires a large amount of interaction history generated by some fixed expert. However, in many streaming applications, such as streaming recommender systems, online decision-makers typically engage in online learning during the decision-making process, meaning that the interaction history generated by online decision-makers includes their behavioral evolution from novice expert to experienced expert. This poses a new challenge for existing imitation learning approaches that can only utilize data from experienced experts. To address this issue, this paper proposes an inverse batched contextual bandit (IBCB) framework that can efficiently perform estimations of environment reward parameters and learned policy based on the expert's behavioral evolution history. Specifically, IBCB formulates the inverse problem into a simple quadratic programming problem by utilizing the behavioral evolution history of the batched contextual bandit with inaccessible rewards. We demonstrate that IBCB is a unified framework for both deterministic and randomized bandit policies. The experimental results indicate that IBCB outperforms several existing imitation learning algorithms on synthetic and real-world data and significantly reduces running time. Additionally, empirical analyses reveal that IBCB exhibits better out-of-distribution generalization and is highly effective in learning the bandit policy from the interaction history of novice experts.
翻訳日:2024-03-26 17:45:31 公開日:2024-03-24
# PKU-DyMVHumans:高忠実度ダイナミックヒューマンモデリングのためのマルチビュービデオベンチマーク

PKU-DyMVHumans: A Multi-View Video Benchmark for High-Fidelity Dynamic Human Modeling ( http://arxiv.org/abs/2403.16080v1 )

ライセンス: Link先を確認
Xiaoyun Zheng, Liwei Liao, Xufeng Li, Jianbo Jiao, Rongjie Wang, Feng Gao, Shiqi Wang, Ronggang Wang, (参考訳) ハイクオリティな人間の再構築とダイナミックシーンのフォトリアリスティックレンダリングは、コンピュータビジョンとグラフィックスの長年の問題である。 様々な捕獲システムや再構築アルゴリズムの開発に多大な努力を払っているにもかかわらず、近年の進歩は、ゆるい服や過度に複雑なポーズに苦慮している。 その理由のひとつは、高品質な人間のデータセットを取得することの難しさにある。 本稿では,高忠実度再構成と動的人間シナリオのレンダリングのための多機能な人間中心データセットであるPKU-DyMVHumansを提案する。 フレーム数は820万フレームで、56台以上の同期カメラによって様々なシナリオで撮影されている。 これらのシーケンスは、45のシナリオにまたがって32人の被験者で構成され、それぞれが高精細な外観とリアルな人間の動きを持つ。 ニューラルラジアンスフィールド(NeRF)ベースのシーン表現の最近の進歩に触発されて、我々は、これらの最先端のNeRFベースの実装とベンチマークをPKU-DyMVHumansデータセットで簡単に提供できるオフ・ザ・シェルフ・フレームワークを慎重に構築した。 微粒な前景/背景の分解、高品質な人間の再構築、ダイナミックシーンのフォトリアリスティックなノベルビュー合成など、様々な応用の道を切り開いている。 ベンチマークで大規模な研究が行われ、そのような高忠実度なダイナミックデータから生まれる新しい観察と課題が実証された。 データセットは、https://pku-dymvhumans.github.ioで公開されている。

High-quality human reconstruction and photo-realistic rendering of a dynamic scene is a long-standing problem in computer vision and graphics. Despite considerable efforts invested in developing various capture systems and reconstruction algorithms, recent advancements still struggle with loose or oversized clothing and overly complex poses. In part, this is due to the challenges of acquiring high-quality human datasets. To facilitate the development of these fields, in this paper, we present PKU-DyMVHumans, a versatile human-centric dataset for high-fidelity reconstruction and rendering of dynamic human scenarios from dense multi-view videos. It comprises 8.2 million frames captured by more than 56 synchronized cameras across diverse scenarios. These sequences comprise 32 human subjects across 45 different scenarios, each with a high-detailed appearance and realistic human motion. Inspired by recent advancements in neural radiance field (NeRF)-based scene representations, we carefully set up an off-the-shelf framework that is easy to provide those state-of-the-art NeRF-based implementations and benchmark on PKU-DyMVHumans dataset. It is paving the way for various applications like fine-grained foreground/background decomposition, high-quality human reconstruction and photo-realistic novel view synthesis of a dynamic scene. Extensive studies are performed on the benchmark, demonstrating new observations and challenges that emerge from using such high-fidelity dynamic data. The dataset is available at: https://pku-dymvhumans.github.io.
翻訳日:2024-03-26 17:45:31 公開日:2024-03-24
# 教育における学習・分析・人工知能の相互作用

The Interplay of Learning, Analytics, and Artificial Intelligence in Education ( http://arxiv.org/abs/2403.16081v1 )

ライセンス: Link先を確認
Mutlu Cukurova, (参考訳) 本稿では,AIと分析,学習プロセスの複雑な相互作用を強調し,学習と教育におけるAIの役割を多次元的に考察する。 ここでは、生成型AIで実証されたように、確率的ツールとしてのAIの広く普及している狭義の概念化に挑戦し、AIの代替概念化の重要性を論じる。 人工知能と人工情報処理の違い、AIアルゴリズムに固有の認知的多様性、そしてAIが人間の学習を理解するための道具としても役立つことを強調します。 AIを人間の知能のアナロジーと見なした教育研究における初期の学習科学とAIは、この観点から逸脱し、このつながりを再定義する必要が生じた。 本稿では、人間の認知の外部化、人間の思考プロセスに影響を与えるAIモデルの内部化、密に統合された人間-AIシステムによる人間の認知の拡張という、教育におけるAIのユニークな概念化について述べる。 現在の研究と実践の例は、3つの概念化の例として検討され、教育における各概念化の潜在的な価値と限界、そして、今日の生成型AIツールを取り巻く誇大宣伝で実証されているように、人間の認知の外部化に対する過大評価の危険性を強調している。 この論文は、AIについて人々を教育し、AIを有効にした世界に関係し続けるよう教育システムを革新することを含む、幅広い教育アプローチの擁護で締めくくっている。

This paper presents a multi dimensional view of AI's role in learning and education, emphasizing the intricate interplay between AI, analytics, and the learning processes. Here, I challenge the prevalent narrow conceptualization of AI as stochastic tools, as exemplified in generative AI, and argue for the importance of alternative conceptualisations of AI. I highlight the differences between human intelligence and artificial information processing, the cognitive diversity inherent in AI algorithms, and posit that AI can also serve as an instrument for understanding human learning. Early learning sciences and AI in Education research, which saw AI as an analogy for human intelligence, have diverged from this perspective, prompting a need to rekindle this connection. The paper presents three unique conceptualizations of AI in education: the externalization of human cognition, the internalization of AI models to influence human thought processes, and the extension of human cognition via tightly integrated human-AI systems. Examples from current research and practice are examined as instances of the three conceptualisations, highlighting the potential value and limitations of each conceptualisation for education, as well as the perils of overemphasis on externalising human cognition as exemplified in today's hype surrounding generative AI tools. The paper concludes with an advocacy for a broader educational approach that includes educating people about AI and innovating educational systems to remain relevant in an AI enabled world.
翻訳日:2024-03-26 17:45:31 公開日:2024-03-24
# SoK:DeFiにおけるラグビープル原因・データセット・検出ツールの総合的分析

SoK: Comprehensive Analysis of Rug Pull Causes, Datasets, and Detection Tools in DeFi ( http://arxiv.org/abs/2403.16082v1 )

ライセンス: Link先を確認
Dianxiang Sun, Wei Ma, Liming Nie, Yang Liu, (参考訳) ルーグプルは暗号通貨エコシステムに重大な脅威をもたらし、実質的な金融損失をもたらし、分散金融(DeFi)プロジェクトへの信頼を損なう。 新しいラグプルパターンの出現に伴い、ラグプルの研究は状態から外れている。 このギャップを埋めるために,我々はまず,学術資料と産業資料の両方を含む文献レビューの広範な分析を行った。 既存の学術論文やルーグプルプロジェクトに関する産業議論を通じて,34の根本原因を包含する分類を提示し,業界ソースから着想を得た6つの新しいカテゴリー,すなわち,バーン,隠れ所有者,所有権移転,不検証契約,外部呼び出し,偽LPロックを紹介した。 本研究は,現生のラグプルデータセットを解析し,既存の検出機構の有効性と限界について検討した。 評価の結果、既存のデータセットは2,448のインスタンスで、34のルート原因のうち7つにしか対応せず、たった20%のカバレッジしかありません。 これは、ルーグプルを研究するために、既存のオープンソースデータセットを改善する必要があることを示している。 これに対し、我々は2360のインスタンスを含むより包括的なデータセットを構築し、ベストな努力でカバー範囲を54%に拡大しました。 さらに、14の検出ツールを検査した結果、34の根本原因のうち25が特定でき、73.5%のカバレッジを達成できた。 9つの根本原因(Fake LP Lock, Hidden Fee, Destroy Token, Fake Money Transfer, Ownership Transfer, Liquidity Pool Block, Freeze Account, Wash-Trading, Hedge)は、既存のツールではカバーできない。 我々の研究は、現在の調査ツールと検出ツールの間には大きなギャップがあることと、ラグプルの実際の状況があることを示唆している。

Rug pulls pose a grave threat to the cryptocurrency ecosystem, leading to substantial financial loss and undermining trust in decentralized finance (DeFi) projects. With the emergence of new rug pull patterns, research on rug pull is out of state. To fill this gap, we first conducted an extensive analysis of the literature review, encompassing both scholarly and industry sources. By examining existing academic articles and industrial discussions on rug pull projects, we present a taxonomy inclusive of 34 root causes, introducing six new categories inspired by industry sources: burn, hidden owner, ownership transfer, unverified contract, external call, and fake LP lock. Based on the developed taxonomy, we evaluated current rug pull datasets and explored the effectiveness and limitations of existing detection mechanisms. Our evaluation indicates that the existing datasets, which document 2,448 instances, address only 7 of the 34 root causes, amounting to a mere 20% coverage. It indicates that existing open-source datasets need to be improved to study rug pulls. In response, we have constructed a more comprehensive dataset containing 2,360 instances, expanding the coverage to 54% with the best effort. In addition, the examination of 14 detection tools showed that they can identify 25 of the 34 root causes, achieving a coverage of 73.5%. There are nine root causes (Fake LP Lock, Hidden Fee, and Destroy Token, Fake Money Transfer, Ownership Transfer, Liquidity Pool Block, Freeze Account, Wash-Trading, Hedge) that the existing tools cannot cover. Our work indicates that there is a significant gap between current research and detection tools, and the actual situation of rug pulls.
翻訳日:2024-03-26 17:35:43 公開日:2024-03-24
# 自動市場メーカにおけるArbitrageの定量化 - Ethereum ZKロールアップに関する実証的研究

Quantifying Arbitrage in Automated Market Makers: An Empirical Study of Ethereum ZK Rollups ( http://arxiv.org/abs/2403.16083v1 )

ライセンス: Link先を確認
Krzysztof Gogol, Johnnatan Messias, Deborah Miori, Claudio Tessone, Benjamin Livshits, (参考訳) 価格差から利益を得るために、異なる市場で同じ資産の同時購入と販売から乱用が生じることがある。 この研究は、Ethereum ZKロールアップにおけるAMM(Automated Market Makers)とCEX(Centralized Exchanges)の仲裁の機会を体系的にレビューする。 まず、こうした仲裁の機会を計測し、取引所で利用可能な価格のばらつきと流動性の両方を考慮に入れた、関連する最大任意値(MAV)の式を導出する理論的枠組みを提案する。 そこで我々は,zkSync 時代における AMM である SyncSwap と Binance の歴史的 MAV を実証的に測定し,価格の誤調整が明示的かつ暗黙的な市場コストに対していかに早く修正されるかを検討する。 総合的に見ると、2023年7月から9月にかけてのUSDC-ETH SyncSwapプールの累積MAVは104.96k(取引量の0.24%)である。

Arbitrage can arise from the simultaneous purchase and sale of the same asset in different markets in order to profit from a difference in its price. This work systematically reviews arbitrage opportunities between Automated Market Makers (AMMs) on Ethereum ZK rollups, and Centralised Exchanges (CEXs). First, we propose a theoretical framework to measure such arbitrage opportunities and derive a formula for the related Maximal Arbitrage Value (MAV) that accounts for both price divergences and liquidity available in the trading venues. Then, we empirically measure the historical MAV available between SyncSwap, an AMM on zkSync Era, and Binance, and investigate how quickly misalignments in price are corrected against explicit and implicit market costs. Overall, the cumulative MAV from July to September 2023 on the USDC-ETH SyncSwap pool amounts to $104.96k (0.24% of trading volume).
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 大規模言語モデルを用いた指導期における課題品質評価

Argument Quality Assessment in the Age of Instruction-Following Large Language Models ( http://arxiv.org/abs/2403.16084v1 )

ライセンス: Link先を確認
Henning Wachsmuth, Gabriella Lapesa, Elena Cabrio, Anne Lauscher, Joonsuk Park, Eva Maria Vecchi, Serena Villata, Timon Ziegenbein, (参考訳) 議論を巻き起こす問題に関する議論の計算処理は、意見形成、意思決定、執筆教育などへの影響が想定されているため、広範なNLP研究の対象となっている。 このようなアプリケーションにおいて重要なタスクは、議論の質を評価することです。 本稿では,議論品質評価の実質的な進歩に向けた主要なハードルとして,質概念の多様性と認識の主観性を識別する,議論品質研究の簡単な調査から始める。 インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。 評価タスクを追及するリーダーボードに向けて、LLMを微調整するだけでなく、議論理論やシナリオだけでなく、議論に関連する問題を解決する方法を体系的に指導する必要がある。 そこで現実の機会と倫理的問題を議論する。

The computational treatment of arguments on controversial issues has been subject to extensive NLP research, due to its envisioned impact on opinion formation, decision making, writing education, and the like. A critical task in any such application is the assessment of an argument's quality - but it is also particularly challenging. In this position paper, we start from a brief survey of argument quality research, where we identify the diversity of quality notions and the subjectiveness of their perception as the main hurdles towards substantial progress on argument quality assessment. We argue that the capabilities of instruction-following large language models (LLMs) to leverage knowledge across contexts enable a much more reliable assessment. Rather than just fine-tuning LLMs towards leaderboard chasing on assessment tasks, they need to be instructed systematically with argumentation theories and scenarios as well as with ways to solve argument-related problems. We discuss the real-world opportunities and ethical issues emerging thereby.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# アラビアプログラミング言語のコンパイラとしてのLLM

LLMs as Compiler for Arabic Programming Language ( http://arxiv.org/abs/2403.16087v1 )

ライセンス: Link先を確認
Serry Sibaee, Omar Najar, Lahouri Ghouti, Anis Koubaa, (参考訳) 本稿では,Large Language Model (LLM) を半コンパイラとして用いて,アラビア語のテキストコードをピソンコードに隠蔽し,コードを実行する APL (Arabic Programming Language) を紹介する。 APLテキストの構造から完全なパイプラインを設計し、プロンプト(プロンプトエンジニアリングを使用)し、PyRunnerを使用してプロデュークされたpythonコードを実行する。 このプロジェクトには,3つの部分からなる最初のピソンライブラリ,シンプルなインターフェースを備えた遊び場,研究論文がある。

In this paper we introduce APL (Arabic Programming Language) that uses Large language models (LLM) as semi-compiler to covert Arabic text code to python code then run the code. Designing a full pipeline from the structure of the APL text then a prompt (using prompt engineering) then running the prodcued python code using PyRunner. This project has a three parts first python library, a playground with simple interface and this research paper.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# beSnake: スケーラブルなスピンキュービットアーキテクチャのためのルーティングアルゴリズム

beSnake: A routing algorithm for scalable spin-qubit architectures ( http://arxiv.org/abs/2403.16090v1 )

ライセンス: Link先を確認
N. Paraskevopoulos, C. G. Almudever, S. Feld, (参考訳) 量子コンピューティングデバイスが量子ビットの数に関して大きくなるにつれて、2ビットの相互作用の実現はより困難になり、革新的でスケーラブルな量子ビットルーティングソリューションを必要とする。 本研究では,スケーラブルなスピンキュービットアーキテクチャにおける複雑なキュービットルーティング問題に対処するために設計された,新しいアルゴリズムであるbeSnakeを紹介する。 このアルゴリズムは、クビットを隣接する非占有量子ドットに物理的に移動させるシャトル演算を利用する。 SWAPのみに依存する従来の超伝導アーキテクチャの手法とは異なり、beSnakeはこれらのシャトル演算を組み込んで回路の実行時間を最適化し、ルーティングタスク自体のより高い操作忠実性とより高速な計算時間を達成している。 beSnakeは、幅の広い検索アプローチを採用することで、様々なトポロジやキュービットの位置によって生成される制約を効果的に管理する。 また、複数のキュービットで並列化されたルーティングタスクに動的に取り組み、最適化のレベルを調整するオプションで障害として機能する。 我々のシミュレーションは、1000ドル相当の量子ビットを持つランダム回路と実量子アルゴリズムの既存のルーティングソリューションに対して、beSnakeの利点を実証している。 平均して80 %$と54 %$でゲートのオーバーヘッドと深さのオーバーヘッドが改善され、ルーティング時間が最大で8.33 ドルになる。

As quantum computing devices become larger with respect to the number of qubits, the realization of two-qubit interactions becomes more challenging, necessitating innovative and scalable qubit routing solutions. In this work, we introduce beSnake, a novel algorithm specifically designed to address the intricate qubit routing challenges in scalable spin-qubit architectures. The algorithm utilizes shuttle operations that physically move a qubit to an adjacent, unoccupied quantum dot. Unlike traditional methods in superconducting architectures that solely rely on SWAP operations, beSnake incorporates those shuttle operations to optimize the execution time of the circuits and achieve higher operational fidelity and quicker computation times of the routing task itself. By employing a breadth-first search approach, beSnake effectively manages the restrictions created by diverse topologies and positions of qubits. It also dynamically tackles parallelized routing tasks with multiple qubits that act as obstacles with the option to adjust the level of optimization. Our simulations demonstrate beSnake's advantage over an existing routing solution for random circuits and real quantum algorithms with up to $1,000$ qubits. It shows on average an up to $80\%$ and $54\%$ improvement in gate overhead and depth overhead, respectively, and up to $8.33$ times faster routing time.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# NeRFは自動運転が可能か? : 現実とシミュレーションのギャップを埋めるために

Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap ( http://arxiv.org/abs/2403.16092v1 )

ライセンス: Link先を確認
Carl Lindström, Georg Hess, Adam Lilja, Maryam Fatemi, Lars Hammarstrand, Christoffer Petersson, Lennart Svensson, (参考訳) Neural Radiance Fields(NeRF)は、スケーラブルなクローズドループシミュレーションとデータ拡張機能を提供する、自律走行(AD)研究を進めるための有望なツールとして登場した。 しかし、シミュレーションで得られた結果を信頼するためには、ADシステムが実データやレンダリングデータを同じように知覚することを保証する必要がある。 レンダリング手法の性能は向上しているが、多くのシナリオは本質的に忠実に再構築することが困難である。 そこで本研究では,実際のデータギャップに対処するための新しい視点を提案する。 レンダリングの忠実性の向上にのみ焦点をあてるのではなく、実際のデータの性能を損なうことなく、NeRFアーチファクトに対する知覚モデルロバスト性を高めるための単純かつ効果的な方法を模索する。 さらに、我々は、最先端のニューラルネットワークレンダリング技術を用いて、AD設定における実際のシミュレーションデータギャップについて、初めて大規模な調査を行う。 具体的には、オブジェクト検出器とオンラインマッピングモデルを実データおよびシミュレーションデータ上で評価し、異なる事前学習戦略の効果について検討する。 シミュレーションデータに対するモデルロバスト性は顕著に向上し,実世界の性能も向上した。 最後に,FIDとLPIPSを指標として,実シミュレーションギャップと画像再構成の相関について検討した。

Neural Radiance Fields (NeRFs) have emerged as promising tools for advancing autonomous driving (AD) research, offering scalable closed-loop simulation and data augmentation capabilities. However, to trust the results achieved in simulation, one needs to ensure that AD systems perceive real and rendered data in the same way. Although the performance of rendering methods is increasing, many scenarios will remain inherently challenging to reconstruct faithfully. To this end, we propose a novel perspective for addressing the real-to-simulated data gap. Rather than solely focusing on improving rendering fidelity, we explore simple yet effective methods to enhance perception model robustness to NeRF artifacts without compromising performance on real data. Moreover, we conduct the first large-scale investigation into the real-to-simulated data gap in an AD setting using a state-of-the-art neural rendering technique. Specifically, we evaluate object detectors and an online mapping model on real and simulated data, and study the effects of different pre-training strategies. Our results show notable improvements in model robustness to simulated data, even improving real-world performance in some cases. Last, we delve into the correlation between the real-to-simulated gap and image reconstruction metrics, identifying FID and LPIPS as strong indicators.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# CG-SLAM: 連続不確実性を考慮した3次元ガウス場における高密度RGB-D SLAM

CG-SLAM: Efficient Dense RGB-D SLAM in a Consistent Uncertainty-aware 3D Gaussian Field ( http://arxiv.org/abs/2403.16095v1 )

ライセンス: Link先を確認
Jiarui Hu, Xianhao Chen, Boyin Feng, Guanglin Li, Liangjing Yang, Hujun Bao, Guofeng Zhang, Zhaopeng Cui, (参考訳) 近年,高密度同時局在マッピング(SLAM)のための3次元表現として,ニューラルラジアンス場(NeRF)が広く利用されている。 表面モデリングや新しいビュー合成において顕著な成功を収めたにもかかわらず、既存のNeRFベースの手法は計算集約的で時間を要するボリュームレンダリングパイプラインによって妨げられている。 本稿では,高整合性および幾何安定性を有する新しい不確実性を考慮した3次元ガウス場に基づく高密度RGB-D SLAMシステム,すなわちCG-SLAMを提案する。 ガウススプラッティングの詳細な解析を通じて,追跡とマッピングに適した安定な3次元ガウス場を構築するためのいくつかの手法を提案する。 さらに,最適化中のガウスプリミティブの選択を確実にし,トラッキング効率と精度を向上させるために,新しい深度不確実性モデルを提案する。 各種データセットの実験により、CG-SLAMは、最大15Hzの追尾速度で優れた追尾性能とマッピング性能を達成することが示された。 ソースコードを公開します。 プロジェクトページ: https://zju3dv.github.io/cg-slam。

Recently neural radiance fields (NeRF) have been widely exploited as 3D representations for dense simultaneous localization and mapping (SLAM). Despite their notable successes in surface modeling and novel view synthesis, existing NeRF-based methods are hindered by their computationally intensive and time-consuming volume rendering pipeline. This paper presents an efficient dense RGB-D SLAM system, i.e., CG-SLAM, based on a novel uncertainty-aware 3D Gaussian field with high consistency and geometric stability. Through an in-depth analysis of Gaussian Splatting, we propose several techniques to construct a consistent and stable 3D Gaussian field suitable for tracking and mapping. Additionally, a novel depth uncertainty model is proposed to ensure the selection of valuable Gaussian primitives during optimization, thereby improving tracking efficiency and accuracy. Experiments on various datasets demonstrate that CG-SLAM achieves superior tracking and mapping performance with a notable tracking speed of up to 15 Hz. We will make our source code publicly available. Project page: https://zju3dv.github.io/cg-slam.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 言語モデルは解を前倒しできるか? LLMを用いた論理コードシミュレーション

Can Language Models Pretend Solvers? Logic Code Simulation with LLMs ( http://arxiv.org/abs/2403.16097v1 )

ライセンス: Link先を確認
Minyu Chen, Guoqiang Li, Ling-I Wu, Ruibang Liu, Yuxin Su, Xi Chang, Jianxin Xue, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。 コード関連アクティビティのためのLLMの優れた機能を活用して、論理的推論に論理的解法を利用するいくつかのフレームワークが最近提案されている。 既存の研究は、LLMを自然言語の論理解法や翻訳者と見なすことに重点を置いているが、それらのロジックコードインタプリタや実行者の役割は、あまり注目されていない。 この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。 LLMは論理コードの出力を効率的にシミュレートできるのか? ロジックコードのシミュレーションとともに、どのような強みが生じるのか? 落とし穴は? これらの疑問に対処するため、我々は、論理コードシミュレーションタスクに適した3つの新しいデータセットをキュレートし、コードシミュレーションにおけるLCMのベースライン性能を確立するための徹底的な実験を行った。 次に,LLMに基づくコードシミュレーション手法であるDual Chains of Logic (DCoL)を紹介する。 GPT-4-Turboの精度は7.06%向上した。

Transformer-based large language models (LLMs) have demonstrated significant potential in addressing logic problems. capitalizing on the great capabilities of LLMs for code-related activities, several frameworks leveraging logical solvers for logic reasoning have been proposed recently. While existing research predominantly focuses on viewing LLMs as natural language logic solvers or translators, their roles as logic code interpreters and executors have received limited attention. This study delves into a novel aspect, namely logic code simulation, which forces LLMs to emulate logical solvers in predicting the results of logical programs. To further investigate this novel task, we formulate our three research questions: Can LLMs efficiently simulate the outputs of logic codes? What strength arises along with logic code simulation? And what pitfalls? To address these inquiries, we curate three novel datasets tailored for the logic code simulation task and undertake thorough experiments to establish the baseline performance of LLMs in code simulation. Subsequently, we introduce a pioneering LLM-based code simulation technique, Dual Chains of Logic (DCoL). This technique advocates a dual-path thinking approach for LLMs, which has demonstrated state-of-the-art performance compared to other LLM prompt strategies, achieving a notable improvement in accuracy by 7.06% with GPT-4-Turbo.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# フレンチフェイクニュースのマルチラベルデータセット:人間とマシンインサイト

A Multi-Label Dataset of French Fake News: Human and Machine Insights ( http://arxiv.org/abs/2403.16099v1 )

ライセンス: Link先を確認
Benjamin Icard, François Maine, Morgane Casanova, Géraud Faye, Julien Chanson, Guillaume Gadek, Ghislain Atemezing, François Bancilhon, Paul Égré, (参考訳) 専門機関が信頼できないとみなす17の報道機関から選抜された100の文書のコーパスであるOBSINFOXを8のアノテーションで11のラベルで注釈付けした。 通常よりも多くのラベルを集め、通常よりも多くのアノテータによって、人間が偽ニュースの特徴と見なす特徴を特定し、それらを自動分類器の予測と比較することができる。 コーパスにおける風刺文の有病率を示すGate Cloudを用いたトピックスとジャンル分析について述べる。 次に、主観分析器VAGOと、そのニューラルバージョンを用いて、ラベルの主観的記述とラベルのFake Newsの属性の関連を明らかにする。 注釈付きデータセットは以下のURLでオンラインで公開されている。 https://github.com/obs-info/obsinfox Keywords: Fake News, Multi-Labels, Subjectivity, Vagueness, Detail, Opinion, Exaggeration, French Press

We present a corpus of 100 documents, OBSINFOX, selected from 17 sources of French press considered unreliable by expert agencies, annotated using 11 labels by 8 annotators. By collecting more labels than usual, by more annotators than is typically done, we can identify features that humans consider as characteristic of fake news, and compare them to the predictions of automated classifiers. We present a topic and genre analysis using Gate Cloud, indicative of the prevalence of satire-like text in the corpus. We then use the subjectivity analyzer VAGO, and a neural version of it, to clarify the link between ascriptions of the label Subjective and ascriptions of the label Fake News. The annotated dataset is available online at the following url: https://github.com/obs-info/obsinfox Keywords: Fake News, Multi-Labels, Subjectivity, Vagueness, Detail, Opinion, Exaggeration, French Press
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# エージェント倫理の特定(青空思想)

Specifying Agent Ethics (Blue Sky Ideas) ( http://arxiv.org/abs/2403.16100v1 )

ライセンス: Link先を確認
Louise A. Dennis, Michael Fisher, (参考訳) 我々は、機械倫理システムが持つべき特性について考察する。 この問題は、解決に合意しない倫理的ジレンマの存在によって複雑である。 このようなシステムの正しさを保証するのに、利害関係者からの価値を引き出すことが十分だと信じていない理由を、モチベーションの例として挙げる。 続いて、我々の研究で生じた倫理的特性の2つの幅広いカテゴリを定義し、より体系的な方法でこの問題にアプローチするためのコミュニティへの挑戦を示す。

We consider the question of what properties a Machine Ethics system should have. This question is complicated by the existence of ethical dilemmas with no agreed upon solution. We provide an example to motivate why we do not believe falling back on the elicitation of values from stakeholders is sufficient to guarantee correctness of such systems. We go on to define two broad categories of ethical property that have arisen in our own work and present a challenge to the community to approach this question in a more systematic way.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 人間の知覚による国境を越えての公正度尺度の評価

Evaluating Fairness Metrics Across Borders from Human Perceptions ( http://arxiv.org/abs/2403.16101v1 )

ライセンス: Link先を確認
Yuya Sasaki, Sohei Tokuno, Haruka Maeda, Osamu Sakura, (参考訳) どのフェアネス指標があなたのコンテキストに適切に適用できますか? 結果が確立された公正度基準に適合している場合でも、公正感に関する不一致の事例があるかもしれない。 フェアネスの人間の知覚によるフェアネスの指標を評価するために、いくつかの調査が実施されている。 しかし、これらの調査は対象範囲が限られており、1つの国に数百人しか参加していない。 本研究では,意思決定シナリオにおける様々な公正度指標の妥当性を評価するための国際調査を行う。 我々は,中国,フランス,日本,アメリカ各地の1000人の参加者の回答を収集し,4000件の回答を集め,公正度指標の嗜好を分析した。 調査は,4つのフェアネス指標と組み合わせた3つのシナリオで構成され,各参加者は各ケースにおけるフェアネス指標の好みに答える。 本研究は,個人属性と公正度指標の選択との関係を考察し,これらの嗜好に対する国家的文脈の影響を明らかにする。

Which fairness metrics are appropriately applicable in your contexts? There may be instances of discordance regarding the perception of fairness, even when the outcomes comply with established fairness metrics. Several surveys have been conducted to evaluate fairness metrics with human perceptions of fairness. However, these surveys were limited in scope, including only a few hundred participants within a single country. In this study, we conduct an international survey to evaluate the appropriateness of various fairness metrics in decision-making scenarios. We collected responses from 1,000 participants in each of China, France, Japan, and the United States, amassing a total of 4,000 responses, to analyze the preferences of fairness metrics. Our survey consists of three distinct scenarios paired with four fairness metrics, and each participant answers their preference for the fairness metric in each case. This investigation explores the relationship between personal attributes and the choice of fairness metrics, uncovering a significant influence of national context on these preferences.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 電子と核の量子場論

Quantum Field Theory of Electrons and Nuclei ( http://arxiv.org/abs/2403.16103v1 )

ライセンス: Link先を確認
Ville J. Härkönen, (参考訳) 我々は、クーロン・ハミルトニアンに基づく電子と核の非相対論的量子場理論を開発する。 我々は、運動の正確な方程式を導出し、これらの方程式を、関連するすべての同一粒子の種に対するヘディン方程式の形で記述する。 理論の導出により、正確な可観測物の計算が可能となり、体系的な方法で近似を導出するための厳密な出発点を提供する。

We develop a non-relativistic quantum field theory of electrons and nuclei based on the Coulomb Hamiltonian. We derive the exact equations of motion and write these equations in the form of Hedin's equations for all species of identical particles involved. Theory derived allows the computation of exact observables and provides a rigorous starting point to derive approximations in a systematic way.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 電力価格予測のための変圧器アプローチ

A Transformer approach for Electricity Price Forecasting ( http://arxiv.org/abs/2403.16108v1 )

ライセンス: Link先を確認
Oscar Llorente Gonzalez, Jose Portela, (参考訳) 本稿では、純粋なトランスフォーマーモデルを用いた電力価格予測(EPF)に対する新しいアプローチを提案する。 他の選択肢とは対照的に、アテンション機構と組み合わせて他のリカレントネットワークは使用されない。 したがって、注意層は時間的パターンを捉えるのに十分であることを示す。 また、オープンソースのEPFツールボックスを用いたモデルの比較を行い、EPF研究における再現性と透明性を高めるためのコードを提供する。 その結果、トランスフォーマーモデルは従来の手法よりも優れており、信頼性と持続可能な電力系統運用のための有望なソリューションを提供することがわかった。

This paper presents a novel approach to electricity price forecasting (EPF) using a pure Transformer model. As opposed to other alternatives, no other recurrent network is used in combination to the attention mechanism. Hence, showing that the attention layer is enough for capturing the temporal patterns. The paper also provides fair comparison of the models using the open-source EPF toolbox and provide the code to enhance reproducibility and transparency in EPF research. The results show that the Transformer model outperforms traditional methods, offering a promising solution for reliable and sustainable power system operation.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# EVA: ゼロショット精度属性とマルチオブジェクトビデオ編集

EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing ( http://arxiv.org/abs/2403.16111v1 )

ライセンス: Link先を確認
Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang, (参考訳) 現在の拡散ベースのビデオ編集は、主に局所的な編集(\textit{e g ,} オブジェクト/バックグラウンド編集)や、様々な密接な対応を利用してグローバルなスタイルの編集に焦点を当てている。 しかし、これらの手法は、元のレイアウトを維持しながら、前景と背景を同時に正確に編集することができないことが多い。 問題の原因は,不正確なテキスト・ツー・アトリビュート制御やアテンション・リークなど,特定領域にまたがる注意重みの不正確な分布に起因する。 この問題に対処するために,複雑な動きを持つ人間中心ビデオに適した,EVA, \textbf{zero-shot} および \textbf{multi-attribute} ビデオ編集フレームワークを紹介する。 クロスフレーム拡散特性の固有正および負の対応性を利用する空間時間レイアウト誘導注意機構を組み込んだ。 注意漏洩を避けるため,これらの対応を利用して,すべてのビデオフレームにまたがる同一属性内のトークンの注意スコアを向上するとともに,自己注意層内の異なる属性のトークン間の相互作用を制限する。 正確にテキスト・ツー・アトリビュート操作を行うには、クロスアテンション層内の特定のレイアウト領域に焦点を当てた個別のテキスト埋め込みを使用する。 EVAは、正確な注意重み分布から、多目的編集シナリオに容易に一般化でき、正確なIDマッピングを実現することができる。 大規模な実験は、EVAが現実世界のシナリオで最先端の結果を達成することを実証している。 完全な結果はhttps://knightyxp.github.io/EVA/で提供される。

Current diffusion-based video editing primarily focuses on local editing (\textit{e.g.,} object/background editing) or global style editing by utilizing various dense correspondences. However, these methods often fail to accurately edit the foreground and background simultaneously while preserving the original layout. We find that the crux of the issue stems from the imprecise distribution of attention weights across designated regions, including inaccurate text-to-attribute control and attention leakage. To tackle this issue, we introduce EVA, a \textbf{zero-shot} and \textbf{multi-attribute} video editing framework tailored for human-centric videos with complex motions. We incorporate a Spatial-Temporal Layout-Guided Attention mechanism that leverages the intrinsic positive and negative correspondences of cross-frame diffusion features. To avoid attention leakage, we utilize these correspondences to boost the attention scores of tokens within the same attribute across all video frames while limiting interactions between tokens of different attributes in the self-attention layer. For precise text-to-attribute manipulation, we use discrete text embeddings focused on specific layout areas within the cross-attention layer. Benefiting from the precise attention weight distribution, EVA can be easily generalized to multi-object editing scenarios and achieves accurate identity mapping. Extensive experiments demonstrate EVA achieves state-of-the-art results in real-world scenarios. Full results are provided at https://knightyxp.github.io/EVA/
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 放射線学における大規模人工知能モデルの応用の可能性と課題

Opportunities and challenges in the application of large artificial intelligence models in radiology ( http://arxiv.org/abs/2403.16112v1 )

ライセンス: Link先を確認
Liangrui Pan, Zhenyu Zhao, Ying Lu, Kewei Tang, Liyong Fu, Qingchun Liang, Shaoliang Peng, (参考訳) ChatGPTの影響を受けて、人工知能(AI)の大規模モデルは、大規模なモデル研究と開発における世界的な増加を目撃している。 このAI大規模モデルによる利便性を享受する人々によって、細分化された分野におけるより大規模なモデルが徐々に提案され、特に放射線画像分野における大きなモデルが提案されている。 本稿ではまず,大規模モデルの開発史,技術詳細,ワークフロー,マルチモーダル大規模モデルの動作原理,ビデオ生成大型モデルの動作原理について紹介する。 第2に, 放射線学教育におけるAI大規模モデルの最新の研究動向, 放射線学レポート生成, 非モダル・マルチモーダル放射線学の応用について概説する。 最後に,放射線学における大規模AIモデルの課題を要約し,放射線学分野の急速な革命を促進することを目的とした。

Influenced by ChatGPT, artificial intelligence (AI) large models have witnessed a global upsurge in large model research and development. As people enjoy the convenience by this AI large model, more and more large models in subdivided fields are gradually being proposed, especially large models in radiology imaging field. This article first introduces the development history of large models, technical details, workflow, working principles of multimodal large models and working principles of video generation large models. Secondly, we summarize the latest research progress of AI large models in radiology education, radiology report generation, applications of unimodal and multimodal radiology. Finally, this paper also summarizes some of the challenges of large AI models in radiology, with the aim of better promoting the rapid revolution in the field of radiography.
翻訳日:2024-03-26 17:35:42 公開日:2024-03-24
# 自己監督型マルチフレームニューラルシーンフロー

Self-Supervised Multi-Frame Neural Scene Flow ( http://arxiv.org/abs/2403.16116v1 )

ライセンス: Link先を確認
Dongrui Liu, Daqi Liu, Xueqian Li, Sihao Lin, Hongwei xie, Bing Wang, Xiaojun Chang, Lei Chu, (参考訳) ニューラル・シーン・フロー・プライオリ(NSFP)とファスト・ニューラル・シーン・フロー(FNSF)は、大きなアウト・オブ・ディストリビューション・自律運転の文脈において顕著な適応性を示した。 彼らの成功にもかかわらず、その驚くべき一般化能力の根底にある理由はいまだ不明である。 本研究は,NSFPの均一安定レンズによる一般化能力について検討し,その性能が入力点雲の数に逆比例していることを明らかにする。 この発見は、大規模クラウドシーンフロー推定タスクの処理におけるNSFPの有効性に光を当てている。 このような理論的な知見により,複数のフレームにまたがる歴史的点雲を利用して,自然に点雲の数を増やすことにより,シーンフロー推定の改善について検討する。 そこで本研究では,その一般化能力の理論的評価とともに,複数フレームのクラウドシーンフロー推定を簡便かつ効果的に行う方法を提案する。 解析により,提案手法は限定的な一般化誤差を保ち,シーンフロー最適化プロセスに複数のフレームを追加することは,その一般化可能性から逸脱しないことが示唆された。 大規模自動運転におけるWaymo OpenとArgoverse lidarデータセットの大規模な実験結果から,提案手法が最先端性能を実現することを示す。

Neural Scene Flow Prior (NSFP) and Fast Neural Scene Flow (FNSF) have shown remarkable adaptability in the context of large out-of-distribution autonomous driving. Despite their success, the underlying reasons for their astonishing generalization capabilities remain unclear. Our research addresses this gap by examining the generalization capabilities of NSFP through the lens of uniform stability, revealing that its performance is inversely proportional to the number of input point clouds. This finding sheds light on NSFP's effectiveness in handling large-scale point cloud scene flow estimation tasks. Motivated by such theoretical insights, we further explore the improvement of scene flow estimation by leveraging historical point clouds across multiple frames, which inherently increases the number of point clouds. Consequently, we propose a simple and effective method for multi-frame point cloud scene flow estimation, along with a theoretical evaluation of its generalization abilities. Our analysis confirms that the proposed method maintains a limited generalization error, suggesting that adding multiple frames to the scene flow optimization process does not detract from its generalizability. Extensive experimental results on large-scale autonomous driving Waymo Open and Argoverse lidar datasets demonstrate that the proposed method achieves state-of-the-art performance.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# 言語誘導型スーパービジョンによる視覚連続学習の強化

Enhancing Visual Continual Learning with Language-Guided Supervision ( http://arxiv.org/abs/2403.16124v1 )

ライセンス: Link先を確認
Bolin Ni, Hongbo Zhao, Chenghao Zhang, Ke Hu, Gaofeng Meng, Zhaoxiang Zhang, Shiming Xiang, (参考訳) 継続学習(CL)は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。 それまでの作業のほとんどは、アーキテクチャのテクニック、データ再生、正規化、および \etcに重点を置いていた。 しかし、各クラスの分類名は概ね無視されている。 既存の手法では1ホットラベルを使い、ランダムにクラシファイアヘッドを初期化する。 ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。 本稿では,CLパラダイムにおけるクラシファイアヘッドの役割を再考し,事前学習された言語モデル(PLM)からのセマンティック知識で分類器を置き換える。 具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 訓練中の監視信号として機能する。 そのようなターゲットはタスク間のすべてのクラス間の意味的相関を完全に考慮する。 実証実験により,本手法は,タスク間の知識伝達を緩和し,表現の漂流を緩和することにより,忘れを緩和することを示した。 提案手法は実装が簡単で,既存の手法にシームレスにプラグインできる。 11の主流ベースラインに基づく大規模な実験は、様々なプロトコルに対する我々のアプローチの有効性と一般化性を実証する。 例えば、ImageNet-100のクラスインクリメンタル・ラーニング・セッティングにおいて、この手法はTop-1の精度を3.2\%から6.1\%に大幅に改善し、忘れる確率を2.6\%から13.1\%に下げる。

Continual learning (CL) aims to empower models to learn new tasks without forgetting previously acquired knowledge. Most prior works concentrate on the techniques of architectures, replay data, regularization, \etc. However, the category name of each class is largely neglected. Existing methods commonly utilize the one-hot labels and randomly initialize the classifier head. We argue that the scarce semantic information conveyed by the one-hot labels hampers the effective knowledge transfer across tasks. In this paper, we revisit the role of the classifier head within the CL paradigm and replace the classifier with semantic knowledge from pretrained language models (PLMs). Specifically, we use PLMs to generate semantic targets for each class, which are frozen and serve as supervision signals during training. Such targets fully consider the semantic correlation between all classes across tasks. Empirical studies show that our approach mitigates forgetting by alleviating representation drifting and facilitating knowledge transfer across tasks. The proposed method is simple to implement and can seamlessly be plugged into existing methods with negligible adjustments. Extensive experiments based on eleven mainstream baselines demonstrate the effectiveness and generalizability of our approach to various protocols. For example, under the class-incremental learning setting on ImageNet-100, our method significantly improves the Top-1 accuracy by 3.2\% to 6.1\% while reducing the forgetting rate by 2.6\% to 13.1\%.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# 不均一クラスタにおける大規模モデル学習のためのスケジューリングと並列化の符号

A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters ( http://arxiv.org/abs/2403.16125v1 )

ライセンス: Link先を確認
Chunyu Xue, Weihao Cui, Han Zhao, Quan Chen, Shulai Zhang, Pengyu Yang, Jing Yang, Shaobo Li, Minyi Guo, (参考訳) スケジューリングと適応並列性の併用は、異種GPUクラスタ上の大規模モデルのトレーニング効率を向上させる大きな機会となる。 しかし、クラスタスケジューラに適応並列性を統合することで、クラスタスケジューリングスペースが拡張される。 新しい空間は、元のスケジューリング空間と適応並列性(パイプライン、データ、テンソル並列性の積でもある)の並列性探索空間の積である。 適応並列性から指数関数的に拡大したスケジューリング空間と、常に変化する最適並列性プランは、高いオーバヘッドと効率的なクラスタスケジューリングのための正確なパフォーマンスデータ取得の矛盾をもたらす。 本稿では、異種クラスタにおける適応並列性を持つ複数の大規模モデルを効率的にスケジューリングする訓練システムであるCriusについて述べる。 CriusはCellと呼ばれる新しいスケジューリングの粒度を提案している。 これは決定論的リソースとパイプラインステージを持つ仕事を表している。 セルの探索空間はデータとテンソル並列性のみの積に縮小され、精度と低オーバーヘッド性能の推定の可能性が露呈する。 CriusはCellsを正確に見積もり、トレーニングジョブを効率的にスケジュールする。 セルがスケジューリング選択として選択されると、その代表されるジョブは最適な並列化計画によって実行される。 実験の結果、Criusはジョブ完了時間を最大48.9%削減し、クラスタスループットを最大1.49倍改善した大規模モデルをスケジュールしている。

Joint consideration of scheduling and adaptive parallelism offers great opportunities for improving the training efficiency of large models on heterogeneous GPU clusters. However, integrating adaptive parallelism into a cluster scheduler expands the cluster scheduling space. The new space is the product of the original scheduling space and the parallelism exploration space of adaptive parallelism (also a product of pipeline, data, and tensor parallelism). The exponentially enlarged scheduling space and ever-changing optimal parallelism plan from adaptive parallelism together result in the contradiction between low-overhead and accurate performance data acquisition for efficient cluster scheduling. This paper presents Crius, a training system for efficiently scheduling multiple large models with adaptive parallelism in a heterogeneous cluster. Crius proposes a novel scheduling granularity called Cell. It represents a job with deterministic resources and pipeline stages. The exploration space of Cell is shrunk to the product of only data and tensor parallelism, thus exposing the potential for accurate and low-overhead performance estimation. Crius then accurately estimates Cells and efficiently schedules training jobs. When a Cell is selected as a scheduling choice, its represented job runs with the optimal parallelism plan explored. Experimental results show that Crius reduces job completion time by up to 48.9% and schedules large models with up to 1.49x cluster throughput improvement.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# WangchanLionとWangchanX MRC Eval

WangchanLion and WangchanX MRC Eval ( http://arxiv.org/abs/2403.16127v1 )

ライセンス: Link先を確認
Wannaphong Phatthiyaphaibun, Surapon Nonesung, Patomporn Payoungkhamdee, Peerat Limkonchotiwat, Can Udomcharoenchaikit, Ekapol Chuangsuwanich, Sarana Nutanong, (参考訳) 本技術報告では,タイ語における機械読解(MRC)に着目した微調整モデルであるWangchanLionの開発について述べる。 本モデルは,SEA-LIONとデータセットに基づく命令の集合に基づく。 オープンな研究と再現性を促進するため、Apache-2ライセンスの下で、トレーニングデータ、コード、最終的なモデルの重み付けをすべて公開しています。 文脈理解能力を評価するために,タイの2つのMRCデータセットであるXQuADとIapp_wiki_qa_squadを用いて広範な実験を行った。 実験の結果、モデルがコンテキストを理解し、0ショットと1ショットの設定で参照に忠実な回答を生成する能力を示す。 さらに、我々の評価は従来のMRCを超えています。 本稿では,回答の正確性,有用性,簡潔性,文脈性を評価する新しい評価手法を提案する。 評価結果は、将来モデルを改善する方法についての洞察を与えてくれる。 私たちのコードはhttps://github.com/vistec-AI/WangchanLion.comで公開されています。

This technical report describes the development of WangchanLion, an instruction fine-tuned model focusing on Machine Reading Comprehension (MRC) in the Thai language. Our model is based on SEA-LION and a collection of instruction following datasets. To promote open research and reproducibility, we publically release all training data, code, and the final model weights under the Apache-2 license. To assess the contextual understanding capability, we conducted extensive experimental studies using two Thai MRC datasets, XQuAD and Iapp_wiki_qa_squad. Experimental results demonstrate the model's ability to comprehend the context and produce an answer faithful to the reference one in 0-shot and 1-shot settings. In addition, our evaluation goes beyond the traditional MRC. We propose a new evaluation scheme assessing the answer's correctness, helpfulness, conciseness, and contextuality. Evaluation results provide insight into how we can improve our model in the future. Our code is public at https://github.com/vistec-AI/WangchanLion.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# VLM支援訓練による行動理解のための映像変換器の強化

Enhancing Video Transformers for Action Understanding with VLM-aided Training ( http://arxiv.org/abs/2403.16128v1 )

ライセンス: Link先を確認
Hui Lu, Hu Jian, Ronald Poppe, Albert Ali Salah, (参考訳) 関連する時空間ビデオ埋め込みを抽出する能力のため、ViT(Vision Transformer)は現在、ビデオアクション理解において最高のパフォーマンスモデルである。 しかし、ドメインやデータセットに対する一般化は、多少制限されている。 対照的に、Visual Language Models (VLM) は例外的な一般化性能を示しているが、現在はビデオの処理ができない。 そのため、行動理解に不可欠な時空間パターンを抽出することはできない。 本稿では,VTとVLMの相補的な長所を生かした4層プロンプト(FTP)フレームワークを提案する。 我々は、VLM出力に合わせることで、VTsの強い時空間表現能力を保ちながら、視覚的エンコーディングをより包括的かつ汎用的に改善する。 FTPフレームワークには、アクションカテゴリ、アクションコンポーネント、アクション記述、コンテキスト情報という、人間のアクションの特定の側面に焦点を当てた4つの機能プロセッサが追加されている。 VLMはトレーニング時にのみ使用され、推論は最小の計算コストを発生させる。 私たちのアプローチは一貫して最先端のパフォーマンスをもたらします。 例えば、Kineetics-400で93.8%、Something V2で83.4%、VideoMAEv2で2.8%、そして2.6%という驚くべきトップ1の精度を達成した。

Owing to their ability to extract relevant spatio-temporal video embeddings, Vision Transformers (ViTs) are currently the best performing models in video action understanding. However, their generalization over domains or datasets is somewhat limited. In contrast, Visual Language Models (VLMs) have demonstrated exceptional generalization performance, but are currently unable to process videos. Consequently, they cannot extract spatio-temporal patterns that are crucial for action understanding. In this paper, we propose the Four-tiered Prompts (FTP) framework that takes advantage of the complementary strengths of ViTs and VLMs. We retain ViTs' strong spatio-temporal representation ability but improve the visual encodings to be more comprehensive and general by aligning them with VLM outputs. The FTP framework adds four feature processors that focus on specific aspects of human action in videos: action category, action components, action description, and context information. The VLMs are only employed during training, and inference incurs a minimal computation cost. Our approach consistently yields state-of-the-art performance. For instance, we achieve remarkable top-1 accuracy of 93.8% on Kinetics-400 and 83.4% on Something-Something V2, surpassing VideoMAEv2 by 2.8% and 2.6%, respectively.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# 語彙の曖昧さ検出と単語センスの曖昧さに関する調査

A Survey on Lexical Ambiguity Detection and Word Sense Disambiguation ( http://arxiv.org/abs/2403.16129v1 )

ライセンス: Link先を確認
Miuru Abeysiriwardana, Deshan Sumanathilaka, (参考訳) 本稿では,自然言語処理(NLP)分野における言語間のあいまいさの理解と解決に焦点をあて,多義語やホモニミーなどの言語現象の複雑さと,その計算モデルへの影響を明らかにする。 Word Sense Disambiguation (WSD) を中心に、ディープラーニング技術からWordNetのような語彙資源や知識グラフの活用まで、さまざまなアプローチを概説している。 本稿では,単語感覚拡張(WSE)やニューロミオトニックアプローチなどの最先端手法を導入し,新しい単語感覚を予測することによって曖昧さの精度を高める。 バイオメディカルな曖昧さと言語固有の最適化における特定の応用について検討し、談話分析における認知的メタファーの重要性について論じる。 本研究は, 感覚アノテートコーパスの不足, 非公式な臨床テキストの複雑さなど, この分野における永続的な課題を明らかにした。 これは、大きな言語モデル、視覚的なWSD、多言語WSDシステムの使用を含む将来の方向性を提案し、NLPの語彙複雑性に対処する上で進行中の進化を強調している。 この考え方は、コンピュータが言語をより正確に理解できるように、この分野の進歩を浮き彫りにしている。

This paper explores techniques that focus on understanding and resolving ambiguity in language within the field of natural language processing (NLP), highlighting the complexity of linguistic phenomena such as polysemy and homonymy and their implications for computational models. Focusing extensively on Word Sense Disambiguation (WSD), it outlines diverse approaches ranging from deep learning techniques to leveraging lexical resources and knowledge graphs like WordNet. The paper introduces cutting-edge methodologies like word sense extension (WSE) and neuromyotonic approaches, enhancing disambiguation accuracy by predicting new word senses. It examines specific applications in biomedical disambiguation and language specific optimisation and discusses the significance of cognitive metaphors in discourse analysis. The research identifies persistent challenges in the field, such as the scarcity of sense annotated corpora and the complexity of informal clinical texts. It concludes by suggesting future directions, including using large language models, visual WSD, and multilingual WSD systems, emphasising the ongoing evolution in addressing lexical complexities in NLP. This thinking perspective highlights the advancement in this field to enable computers to understand language more accurately.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# AKBR:グラフ分類のための適応カーネルベース表現の学習

AKBR: Learning Adaptive Kernel-based Representations for Graph Classification ( http://arxiv.org/abs/2403.16130v1 )

ライセンス: Link先を確認
Feifei Qian, Lixin Cui, Yue Wang, Hangyuan Du, Lu Bai, Edwin R. Hancock, (参考訳) 本稿では,グラフ分類のための適応カーネルベース表現(AKBR)を学習するための新しいモデルを提案する。 グラフ間の一対の同型部分構造を単に数えるだけで定義される最先端のR-畳み込みグラフカーネルとは異なり、AKBRアプローチは、グラフの適応的なカーネル行列を構築するためのエンドツーエンドの表現学習モデルを定義することを目的としている。 この目的のために、我々は新しい特徴チャネルアテンション機構を活用して、原グラフの異なる部分構造不変量間の相互依存性を捉える。 提案したAKBRモデルは、異なるサブストラクチャの構造的重要性を効果的に識別し、それらの構造的注意によって指定されたより重要なサブストラクチャに関連付けられたペアワイズグラフ間のR-畳み込みカーネルを計算することができる。 得られたカーネル行列の各行は、理論上はサンプルグラフの埋め込みベクトルと見なすことができるので、提案されたAKBRモデルは、結果のカーネル行列をグラフ特徴行列として直接使用し、分類のための分類器(SoftMax層)に入力し、カーネル計算と分類器の間にエンド・ツー・エンドの学習アーキテクチャを提供する。 実験結果から,提案したAKBRモデルは,標準グラフベンチマークにおいて,既存の最先端グラフカーネルやディープラーニング手法よりも優れていることがわかった。

In this paper, we propose a new model to learn Adaptive Kernel-based Representations (AKBR) for graph classification. Unlike state-of-the-art R-convolution graph kernels that are defined by merely counting any pair of isomorphic substructures between graphs and cannot provide an end-to-end learning mechanism for the classifier, the proposed AKBR approach aims to define an end-to-end representation learning model to construct an adaptive kernel matrix for graphs. To this end, we commence by leveraging a novel feature-channel attention mechanism to capture the interdependencies between different substructure invariants of original graphs. The proposed AKBR model can thus effectively identify the structural importance of different substructures, and compute the R-convolution kernel between pairwise graphs associated with the more significant substructures specified by their structural attentions. Since each row of the resulting kernel matrix can be theoretically seen as the embedding vector of a sample graph, the proposed AKBR model is able to directly employ the resulting kernel matrix as the graph feature matrix and input it into the classifier for classification (i.e., the SoftMax layer), naturally providing an end-to-end learning architecture between the kernel computation as well as the classifier. Experimental results show that the proposed AKBR model outperforms existing state-of-the-art graph kernels and deep learning methods on standard graph benchmarks.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# サリエンスDETR:階層型サリエンスフィルタリファインメントによる検出変換器の強化

Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement ( http://arxiv.org/abs/2403.16131v1 )

ライセンス: Link先を確認
Xiuquan Hou, Meiqin Liu, Senlin Zhang, Ping Wei, Badong Chen, (参考訳) DETRライクな手法は、エンドツーエンドで検出性能を大幅に向上させた。 メインストリームの2段階のフレームワークは、密集した自己アテンションを実行し、スパースなクロスアテンションのためのクエリを少数選択する。 本稿では,2段階初期化において,選択したクエリとオブジェクトのミスマッチにより,最適二段階選択戦略がスケールバイアスと冗長性をもたらすことを示す。 これらの問題に対処するため,フィルタリングされた識別クエリのみにトランスフォーマを符号化し,計算効率と精度のトレードオフを改善する階層型サリエンスフィルタリング精細化を提案する。 フィルタリングプロセスは、新しいスケール非依存のサリエンス監視を通じてスケールバイアスを克服する。 クエリ間のセマンティックなミスアライメントを補うために、安定な2段階初期化のための精巧なクエリリファインメントモジュールを導入する。 上記の改善に基づいて、提案されたSalience DETRは、課題固有の3つのデータセットに対して、+4.0% AP、+0.2% AP、+4.4% APの大幅な改善を実現している。 コードはhttps://github.com/xiuqhou/Salience-DETRで公開されている。

DETR-like methods have significantly increased detection performance in an end-to-end manner. The mainstream two-stage frameworks of them perform dense self-attention and select a fraction of queries for sparse cross-attention, which is proven effective for improving performance but also introduces a heavy computational burden and high dependence on stable query selection. This paper demonstrates that suboptimal two-stage selection strategies result in scale bias and redundancy due to the mismatch between selected queries and objects in two-stage initialization. To address these issues, we propose hierarchical salience filtering refinement, which performs transformer encoding only on filtered discriminative queries, for a better trade-off between computational efficiency and precision. The filtering process overcomes scale bias through a novel scale-independent salience supervision. To compensate for the semantic misalignment among queries, we introduce elaborate query refinement modules for stable two-stage initialization. Based on above improvements, the proposed Salience DETR achieves significant improvements of +4.0% AP, +0.2% AP, +4.4% AP on three challenging task-specific detection datasets, as well as 49.2% AP on COCO 2017 with less FLOPs. The code is available at https://github.com/xiuqhou/Salience-DETR.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# ニューラルネットワーク制御システムの実行時モニタリングと故障検出

Runtime Monitoring and Fault Detection for Neural Network-Controlled Systems ( http://arxiv.org/abs/2403.16132v1 )

ライセンス: Link先を確認
Jianglin Lan, Siyuan Zhan, Ron Patton, Xianxian Zhao, (参考訳) 複雑な非線形システムを制御するために深層学習法を適用する傾向が浮上している。 本稿では, ニューラルネットワークが制御する非線形システムの, 乱れや測定ノイズの存在下での実行時の安全性の向上について考察する。 頑健に安定な間隔オブザーバは、ニューラルネットワーク、非線形関数、システム状態に対して、音と正確な下限と上限を生成するように設計されている。 得られた間隔を利用して、リアルタイムシステムの安全性を監視し、システム出力またはアクチュエータの故障を検出する。 適応型クルーズ制御車両システムのシミュレーションを行い,提案設計の有効性を実証した。

There is an emerging trend in applying deep learning methods to control complex nonlinear systems. This paper considers enhancing the runtime safety of nonlinear systems controlled by neural networks in the presence of disturbance and measurement noise. A robustly stable interval observer is designed to generate sound and precise lower and upper bounds for the neural network, nonlinear function, and system state. The obtained interval is utilised to monitor the real-time system safety and detect faults in the system outputs or actuators. An adaptive cruise control vehicular system is simulated to demonstrate effectiveness of the proposed design.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# SSHPool: 分離したサブグラフベースの階層型プール

SSHPool: The Separated Subgraph-based Hierarchical Pooling ( http://arxiv.org/abs/2403.16133v1 )

ライセンス: Link先を確認
Zhuo Xu, Lixin Cui, Yue Wang, Hangyuan Du, Lu Bai, Edwin R. Hancock, (参考訳) 本稿では,グラフ分類のための新しい局所グラフプーリング法,すなわち分離部分グラフに基づく階層プール法(SSHPool)を提案する。 この目的のために、サンプルグラフのノードを異なるクラスタに割り当てることで開始する。 局所グラフ畳み込み単位を局所構造として個別に使用し、各部分グラフをさらに粗いノードに圧縮し、元のグラフを粗いグラフに変換する。 これらの部分グラフは異なるクラスタで分離され、構造情報はそれらの間に伝播できないため、局所的な畳み込み操作は、既存のグラフニューラルネットワーク(GNN)で発生する過度に平滑な問題を著しく回避することができる。 提案手法を階層的に実行することにより,提案したSSHPoolは,豊富な固有構造特性をカプセル化して,元のグラフ構造の階層的大域的特徴を効果的に抽出することができる。 さらに、グラフ分類のためのSSHPoolモジュールに関連付けられたエンドツーエンドのGNNフレームワークを開発する。 実験により,提案モデルが実世界のデータセット上での優れた性能を示し,分類精度の点で最先端のGNN法よりも優れていた。

In this paper, we develop a novel local graph pooling method, namely the Separated Subgraph-based Hierarchical Pooling (SSHPool), for graph classification. To this end, we commence by assigning the nodes of a sample graph into different clusters, resulting in a family of separated subgraphs. We individually employ a local graph convolution units as the local structure to further compress each subgraph into a coarsened node, transforming the original graph into a coarsened graph. Since these subgraphs are separated by different clusters and the structural information cannot be propagated between them, the local convolution operation can significantly avoid the over-smoothing problem arising in most existing Graph Neural Networks (GNNs). By hierarchically performing the proposed procedures on the resulting coarsened graph, the proposed SSHPool can effectively extract the hierarchical global feature of the original graph structure, encapsulating rich intrinsic structural characteristics. Furthermore, we develop an end-to-end GNN framework associated with the proposed SSHPool module for graph classification. Experimental results demonstrate the superior performance of the proposed model on real-world datasets, significantly outperforming state-of-the-art GNN methods in terms of the classification accuracies.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# 電子商取引における補完的勧告--定義・アプローチ・今後の方向性

Complementary Recommendation in E-commerce: Definition, Approaches, and Future Directions ( http://arxiv.org/abs/2403.16135v1 )

ライセンス: Link先を確認
Linyue Li, Zhijuan Du, (参考訳) 近年,eコマース分野では補完的な推薦が盛んに行われている。 本稿では,2009年から2024年にかけて実施された34の代表的な研究を総合的に要約し,比較する。 まず, 製品間の相補的関係をモデル化するためのデータと手法を比較し, 単純な相補性や非対称的相補性, 相補的関係の共存, 製品間の相補性関係の相補性, 製品間の相補性の違いなど, 複雑なシナリオについて述べる。 次に、多様性、パーソナライゼーション、コールドスタートといった相補的勧告の研究課題に基づいて、モデルを分類・比較する。 さらに、同じデータセット上で行った異なる研究からの実験結果の比較分析を行い、研究の強みと弱みの同定に役立てる。 これまでの調査と比較して,本論文は,より更新された総合的な研究概要を提供し,今後の研究方向性について論じ,この分野の進展に寄与する。

In recent years, complementary recommendation has received extensive attention in the e-commerce domain. In this paper, we comprehensively summarize and compare 34 representative studies conducted between 2009 and 2024. Firstly, we compare the data and methods used for modeling complementary relationships between products, including simple complementarity and more complex scenarios such as asymmetric complementarity, the coexistence of substitution and complementarity relationships between products, and varying degrees of complementarity between different pairs of products. Next, we classify and compare the models based on the research problems of complementary recommendation, such as diversity, personalization, and cold-start. Furthermore, we provide a comparative analysis of experimental results from different studies conducted on the same dataset, which helps identify the strengths and weaknesses of the research. Compared to previous surveys, this paper provides a more updated and comprehensive summary of the research, discusses future research directions, and contributes to the advancement of this field.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# グラフ基礎モデルの自己監督事前学習に関する調査:知識に基づく視点

A Survey on Self-Supervised Pre-Training of Graph Foundation Models: A Knowledge-Based Perspective ( http://arxiv.org/abs/2403.16137v1 )

ライセンス: Link先を確認
Ziwen Zhao, Yuhua Li, Yixiong Zou, Ruixuan Li, Rui Zhang, (参考訳) グラフ自己教師型学習は、グラフニューラルネットワーク、グラフトランスフォーマー、より最近の大規模言語モデル(LLM)ベースのグラフモデルを含む、グラフ基盤モデルを事前学習するためのゴーツーメソッドになった。 グラフの構造や特性に様々な知識パターンが組み込まれており、事前学習に使用することができるが、グラフ知識の観点から自己指導型事前学習タスクの体系的な概要を欠いている。 本稿では,微視的(ノード,リンクなど)とマクロ的知識(クラスタ,グローバル構造など)からなる知識ベースの観点から,グラフ基盤モデルの事前学習タスクを包括的に調査,分析する。 9つの知識カテゴリと25の事前訓練タスク、および下流タスク適応戦略をカバーしている。 さらに、詳細なメタデータを持つ関連論文の広範なリストがhttps://github.com/Newiz430/Pretext.comで公開されている。

Graph self-supervised learning is now a go-to method for pre-training graph foundation models, including graph neural networks, graph transformers, and more recent large language model (LLM)-based graph models. There is a wide variety of knowledge patterns embedded in the structure and properties of graphs which may be used for pre-training, but we lack a systematic overview of self-supervised pre-training tasks from the perspective of graph knowledge. In this paper, we comprehensively survey and analyze the pre-training tasks of graph foundation models from a knowledge-based perspective, consisting of microscopic (nodes, links, etc) and macroscopic knowledge (clusters, global structure, etc). It covers a total of 9 knowledge categories and 25 pre-training tasks, as well as various downstream task adaptation strategies. Furthermore, an extensive list of the related papers with detailed metadata is provided at https://github.com/Newiz430/Pretext.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# 小さなリークで大船が沈む: スタートから終了までの大規模言語モデルの透明性調査

A Little Leak Will Sink a Great Ship: Survey of Transparency for Large Language Models from Start to Finish ( http://arxiv.org/abs/2403.16139v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Timothy Baldwin, (参考訳) 大規模言語モデル(LLM)は、大規模なウェブクローリングコーパスで訓練されている。 これは個人情報、著作権付きテキスト、ベンチマークデータセットなどの漏洩のリスクを引き起こす。 このようなリークは、不正なコンテンツの生成やパフォーマンスの過大評価によって、AIに対する人間の信頼を損なう。 1)リーク率:トレーニングデータにおける漏洩データの比率、(2)出力率:漏洩データ生成の容易性、(3)検出率:漏洩データと非リークデータの検出性能。 漏洩率がデータ漏洩問題の起源であるにもかかわらず、それが出力率と検出率にどのように影響するかは分かっていない。 本稿では, 個人情報, 著作権テキスト, ベンチマークデータの漏洩率と出力率, 検出率の関係を明らかにするための実験的調査を行う。 さらに,LLMが学習データにインスタンスが存在するか存在しないかを,明示的な学習を使わずに検出する自己検出手法を提案する。 漏洩情報生成の容易性を探るため、LLMから個人情報、著作権付きテキスト、ベンチマークを抽出するプロンプトのデータセットを作成する。 実験の結果,LLMはトレーニングセットのそのようなデータが少ないにもかかわらず,ほとんどの場合,漏洩した情報を生成することがわかった。 これは、少量の漏洩データがアウトプットに大きな影響を与えることを示している。 我々の自己検出法は既存の検出法と比較して優れた性能を示した。

Large Language Models (LLMs) are trained on massive web-crawled corpora. This poses risks of leakage, including personal information, copyrighted texts, and benchmark datasets. Such leakage leads to undermining human trust in AI due to potential unauthorized generation of content or overestimation of performance. We establish the following three criteria concerning the leakage issues: (1) leakage rate: the proportion of leaked data in training data, (2) output rate: the ease of generating leaked data, and (3) detection rate: the detection performance of leaked versus non-leaked data. Despite the leakage rate being the origin of data leakage issues, it is not understood how it affects the output rate and detection rate. In this paper, we conduct an experimental survey to elucidate the relationship between the leakage rate and both the output rate and detection rate for personal information, copyrighted texts, and benchmark data. Additionally, we propose a self-detection approach that uses few-shot learning in which LLMs detect whether instances are present or absent in their training data, in contrast to previous methods that do not employ explicit learning. To explore the ease of generating leaked information, we create a dataset of prompts designed to elicit personal information, copyrighted text, and benchmarks from LLMs. Our experiments reveal that LLMs produce leaked information in most cases despite less such data in their training set. This indicates even small amounts of leaked data can greatly affect outputs. Our self-detection method showed superior performance compared to existing detection methods.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# Entity-NeRF:都市景観における移動体の検出と除去

Entity-NeRF: Detecting and Removing Moving Entities in Urban Scenes ( http://arxiv.org/abs/2403.16141v1 )

ライセンス: Link先を確認
Takashi Otonari, Satoshi Ikehata, Kiyoharu Aizawa, (参考訳) 動的シーンに対するニューラルラジアンス場(NeRF)の研究の最近の進歩は、しばしばシーンダイナミックスの明示的なモデリングを含む。 しかし, 様々なカテゴリーやスケールの移動物体が存在する都市環境において, シーンダイナミクスをモデル化する上で, このアプローチは課題に直面している。 このような設定では、移動対象を効果的に排除し、静的な背景を正確に再構築することが重要となる。 本研究は,知識ベースと統計戦略の強みを組み合わせた,Entity-NeRFと呼ばれる革新的な手法を紹介する。 このアプローチは、エンティティのセグメンテーションと定性エンティティの分類をモノ/スタッフのセグメンテーションを通じて活用する。 提案手法を評価するため,移動物体をマスキングした都市景観データセットを構築した。 我々の総合的な実験により, Entity-NeRFは移動物体の除去や静的な都市背景の再構築において, 定量的かつ定性的に, 既存の技術よりも優れていることが示された。

Recent advancements in the study of Neural Radiance Fields (NeRF) for dynamic scenes often involve explicit modeling of scene dynamics. However, this approach faces challenges in modeling scene dynamics in urban environments, where moving objects of various categories and scales are present. In such settings, it becomes crucial to effectively eliminate moving objects to accurately reconstruct static backgrounds. Our research introduces an innovative method, termed here as Entity-NeRF, which combines the strengths of knowledge-based and statistical strategies. This approach utilizes entity-wise statistics, leveraging entity segmentation and stationary entity classification through thing/stuff segmentation. To assess our methodology, we created an urban scene dataset masked with moving objects. Our comprehensive experiments demonstrate that Entity-NeRF notably outperforms existing techniques in removing moving objects and reconstructing static urban backgrounds, both quantitatively and qualitatively.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# 投影型概念除去法で変換されたデータセットに何が起こるか

What Happens to a Dataset Transformed by a Projection-based Concept Removal Method? ( http://arxiv.org/abs/2403.16142v1 )

ライセンス: Link先を確認
Richard Johansson, (参考訳) 本稿では,線形射影を用いて概念に関する情報を言語表現から除去する手法の振る舞いについて検討し,そのような手法によって変換されたデータセットに何が起こるかという問題を考察する。 実世界のデータと合成データの理論的解析と実験により、これらの手法は変換されたデータセットに強い統計的依存関係を注入することを示した。 このような方法を適用すると、表現空間は高度に構造化され、変換された空間では、インスタンスは反対ラベルのインスタンスの近くに置かれる傾向がある。 結果として、元のラベル付けは、場合によっては、アンチクラスタリング法を適用して再構成することができる。

We investigate the behavior of methods that use linear projections to remove information about a concept from a language representation, and we consider the question of what happens to a dataset transformed by such a method. A theoretical analysis and experiments on real-world and synthetic data show that these methods inject strong statistical dependencies into the transformed datasets. After applying such a method, the representation space is highly structured: in the transformed space, an instance tends to be located near instances of the opposite label. As a consequence, the original labeling can in some cases be reconstructed by applying an anti-clustering method.
翻訳日:2024-03-26 17:25:57 公開日:2024-03-24
# CFAT:画像の超高解像度化のために三角形のWindowsを開放

CFAT: Unleashing TriangularWindows for Image Super-resolution ( http://arxiv.org/abs/2403.16143v1 )

ライセンス: Link先を確認
Abhisek Ray, Gaurav Kumar, Maheshkumar H. Kolekar, (参考訳) トランスフォーマーベースのモデルは、複雑なコンテキスト特徴をキャプチャする固有の能力を活用することで、画像超解像(SR)の分野に革命をもたらした。 現在、トランスアーキテクチャで使用される重なり合う長方形シフトウインドウ技術は、画像アップスケーリングの品質と堅牢性を改善するための超解像モデルにおいて一般的な方法である。 しかし、境界の歪みに悩まされ、ユニークなシフトモードが制限されている。 これらの欠点を克服するため、矩形窓と同期して機能し、境界レベルの歪みを緩和し、モデルがよりユニークなシフティングモードにアクセスできるような、重なり合っていない三角形ウィンドウ手法を提案する。 本稿では,三角長方形窓面に基づく局所的な注意と,チャネルに基づくグローバルな注意を超解像に組み込んだ複合核融合注意変換器(CFAT)を提案する。 その結果、CFATは、より多くの画像ピクセル上でアテンションメカニズムを活性化し、長期のマルチスケール機能をキャプチャしてSR性能を向上させることができる。 SR領域におけるCFATの有効性について検討した。 提案モデルでは,他の最先端SRアーキテクチャと比較して0.7dB性能が向上した。

Transformer-based models have revolutionized the field of image super-resolution (SR) by harnessing their inherent ability to capture complex contextual features. The overlapping rectangular shifted window technique used in transformer architecture nowadays is a common practice in super-resolution models to improve the quality and robustness of image upscaling. However, it suffers from distortion at the boundaries and has limited unique shifting modes. To overcome these weaknesses, we propose a non-overlapping triangular window technique that synchronously works with the rectangular one to mitigate boundary-level distortion and allows the model to access more unique sifting modes. In this paper, we propose a Composite Fusion Attention Transformer (CFAT) that incorporates triangular-rectangular window-based local attention with a channel-based global attention technique in image super-resolution. As a result, CFAT enables attention mechanisms to be activated on more image pixels and captures long-range, multi-scale features to improve SR performance. The extensive experimental results and ablation study demonstrate the effectiveness of CFAT in the SR domain. Our proposed model shows a significant 0.7 dB performance improvement over other state-of-the-art SR architectures.
翻訳日:2024-03-26 17:15:58 公開日:2024-03-24
# 液滴力学におけるエネルギー収支予測 : リカレントニューラルネットワークによるアプローチ

Predicting Energy Budgets in Droplet Dynamics: A Recurrent Neural Network Approach ( http://arxiv.org/abs/2403.16144v1 )

ライセンス: Link先を確認
Diego A. de Aguiar, Hugo L. França, Cassio M. Oishi, (参考訳) 流体力学におけるニューラルネットワークは、多相流や自由表面流を含む複雑な流れを探索するための効率的なアプローチを提供する。 リカレントニューラルネットワーク、特にLong Short-Term Memory(LSTM)モデルは、過渡入力から動的出力へのマッピングを学習するのに魅力的なものである。 本研究ではLSTMを用いて表面張力効果下での流体の過渡的および静的な出力を予測する。 具体的には、固体表面に衝突する様々な初期形状の液滴と、衝突後の2つの液滴の合体という、2つの異なる液滴ダイナミックシナリオについて検討する。 LSTMは、数値シミュレーションによる無次元数と幾何学的時系列データのみを用いて、エネルギー予算を予測する。 マーカ・アンド・セルのフロントトラッキング手法とマーカー・アンド・セルの有限差分戦略を組み合わせることで, 液滴ダイナミクスをシミュレーションする。 幾何学的パラメータから導出される時系列データ,例えば液滴径の変動から導かれる時系列データを連系ニューラルネットワーク (RNN) アーキテクチャを用いて, 液滴の動的問題におけるレイノルズ数およびウェーバー数の範囲における運動量, 散逸量, 表面エネルギーの傾向など, エネルギー予算の予測における我々のアプローチの正確性を示す。 最後に、幾何学的データのみを用いた二相逐次ニューラルネットワークを用いて、実験環境で容易に利用でき、エネルギーを予測し、レイノルズ数やウェーバー数などの静的パラメータを推定する。 提案手法は主にシミュレーションデータを用いて検証されているが,実験データセットへの適応性は今後の探索の道筋として有望である。 私たちの戦略は、インクジェット印刷から燃焼エンジンまで、エネルギー予算や散逸エネルギーの予測が不可欠である様々な用途に有効であることを期待しています。

Neural networks in fluid mechanics offer an efficient approach for exploring complex flows, including multiphase and free surface flows. The recurrent neural network, particularly the Long Short-Term Memory (LSTM) model, proves attractive for learning mappings from transient inputs to dynamic outputs. This study applies LSTM to predict transient and static outputs for fluid flows under surface tension effects. Specifically, we explore two distinct droplet dynamic scenarios: droplets with diverse initial shapes impacting with solid surfaces, as well as the coalescence of two droplets following collision. Using only dimensionless numbers and geometric time series data from numerical simulations, LSTM predicts the energy budget. The marker-and-cell front-tracking methodology combined with a marker-and-cell finite-difference strategy is adopted for simulating the droplet dynamics. Using a recurrent neural network (RNN) architecture fed with time series data derived from geometrical parameters, as for example droplet diameter variation, our study shows the accuracy of our approach in predicting energy budgets, as for instance the kinetic, dissipation, and surface energy trends, across a range of Reynolds and Weber numbers in droplet dynamic problems. Finally, a two-phase sequential neural network using only geometric data, which is readily available in experimental settings, is employed to predict the energies and then use them to estimate static parameters, such as the Reynolds and Weber numbers. While our methodology has been primarily validated with simulation data, its adaptability to experimental datasets is a promising avenue for future exploration. We hope that our strategy can be useful for diverse applications, spanning from inkjet printing to combustion engines, where the prediction of energy budgets or dissipation energies is crucial.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 変形可能な線形物体のリアルタイムロバスト形状推定

Realtime Robust Shape Estimation of Deformable Linear Object ( http://arxiv.org/abs/2403.16146v1 )

ライセンス: Link先を確認
Jiaming Zhang, Zhaomeng Zhang, Yihao Liu, Yaqian Chen, Amir Kheradmand, Mehran Armand, (参考訳) 連続体とマニピュレータのリアルタイム形状推定は,正確な計画・制御パラダイムの開発に不可欠である。 カメラ画像から高密度点雲を生成したり、変形可能な物体上で識別可能なマーカーを使用する既存の方法は、大きな連続体/マニピュレータのリアルタイム追跡に制限がある。 マーカーの物理的閉塞は、しばしば正確な形状推定を損なうことがある。 本研究では, 線形変形可能な物体の形状を, 分散鍵点と非順序鍵点を用いてリアルタイムで推定するロバストな手法を提案する。 確率に基づくロバストなラベリングアルゴリズムを用いて,検出したキーポイントの真の順序を特定し,断片的なスプライン補間を用いて形状を再構成する。 アプローチは、キーポイントの数と隣り合う2つのポイント間の間隔を知ることのみに依存する。 鍵点が部分的に無視されている場合の手法のロバスト性を示す。 提案手法は,長さ1m,半径5mmのケーブルの形状を追跡するためのUnityのシミュレーションにも組み込まれている。 シミュレーションの結果,提案手法は連続体の中心線平均長誤差が1.07%,断面積平均誤差が2.11mmであることがわかった。 重荷ケーブルの追跡と推定の現実的な実験は、提案手法が閉塞および複雑な絡み合いのシナリオ下で堅牢であることを証明する。

Realtime shape estimation of continuum objects and manipulators is essential for developing accurate planning and control paradigms. The existing methods that create dense point clouds from camera images, and/or use distinguishable markers on a deformable body have limitations in realtime tracking of large continuum objects/manipulators. The physical occlusion of markers can often compromise accurate shape estimation. We propose a robust method to estimate the shape of linear deformable objects in realtime using scattered and unordered key points. By utilizing a robust probability-based labeling algorithm, our approach identifies the true order of the detected key points and then reconstructs the shape using piecewise spline interpolation. The approach only relies on knowing the number of the key points and the interval between two neighboring points. We demonstrate the robustness of the method when key points are partially occluded. The proposed method is also integrated into a simulation in Unity for tracking the shape of a cable with a length of 1m and a radius of 5mm. The simulation results show that our proposed approach achieves an average length error of 1.07% over the continuum's centerline and an average cross-section error of 2.11mm. The real-world experiments of tracking and estimating a heavy-load cable prove that the proposed approach is robust under occlusion and complex entanglement scenarios.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# コンシューマIoTトラフィックに関する調査 - セキュリティとプライバシ

A Survey on Consumer IoT Traffic: Security and Privacy ( http://arxiv.org/abs/2403.16149v1 )

ライセンス: Link先を確認
Yan Jia, Yuxin Song, Zihou Liu, Qingyin Tan, Fangming Wang, Yu Zhang, Zheli Liu, (参考訳) 過去数年間、Consumer Internet of Things(CIoT)が世に出た。 CIoTは人々の日常生活の利便性を改善したが、新たなセキュリティとプライバシの懸念ももたらした。 本調査では,CIoTのセキュリティとプライバシについて,セキュリティコミュニティで人気のある手法であるトラフィック分析を用いて,研究者が学べるものについて検討する。 セキュリティとプライバシの観点から、この調査では、CIoTトラフィック分析の新たな特徴、CIoTトラフィック分析の最先端の進展、未解決の課題について調べる。 2018年1月から2023年12月までに,セキュリティとプライバシの観点からCIoTトラフィック分析に関する310の論文を収集し,CIoTの新たな特徴を識別するCIoTトラフィック分析のプロセスを要約した。 次に、デバイスフィンガープリント、ユーザアクティビティの推測、悪意のあるトラフィック分析、セキュリティ分析、測定という5つのアプリケーション目標に基づいて、既存の作業について詳述する。 最後に,新たな課題と今後の研究方向性について論じる。

For the past few years, the Consumer Internet of Things (CIoT) has entered public lives. While CIoT has improved the convenience of people's daily lives, it has also brought new security and privacy concerns. In this survey, we try to figure out what researchers can learn about the security and privacy of CIoT by traffic analysis, a popular method in the security community. From the security and privacy perspective, this survey seeks out the new characteristics in CIoT traffic analysis, the state-of-the-art progress in CIoT traffic analysis, and the challenges yet to be solved. We collected 310 papers from January 2018 to December 2023 related to CIoT traffic analysis from the security and privacy perspective and summarized the process of CIoT traffic analysis in which the new characteristics of CIoT are identified. Then, we detail existing works based on five application goals: device fingerprinting, user activity inference, malicious traffic analysis, security analysis, and measurement. At last, we discuss the new challenges and future research directions.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# センサ故障検出, 隔離, 調整に必要な1つのマスクモデル

One Masked Model is All You Need for Sensor Fault Detection, Isolation and Accommodation ( http://arxiv.org/abs/2403.16153v1 )

ライセンス: Link先を確認
Yiwei Fu, Weizhong Yan, (参考訳) 高精度で信頼性の高いセンサ測定は、風力タービンのような複雑な工学システムの安全性と寿命を確保するために重要である。 本稿では,マスクモデルと自己教師型学習を用いたセンサ故障検出・隔離・宿泊(FDIA)のための新しいフレームワークを提案する。 提案手法は、シーケンスモデリングが可能な任意のニューラルネットワーク(NN)モデルに適用可能な汎用時系列モデリング手法であり、異なるセンサ間の複雑な時空間関係をキャプチャする。 トレーニング中、提案されたマスク付きアプローチは、1つ以上のセンサーの障害のように振る舞うランダムマスクを生成し、トレーニングと推論タスクを統一する。 本手法は,GEオフショア風力タービンのパブリックデータセットと実世界のデータセットの両方で検証し,センサ故障の検出,診断,修正に有効であることを示す。 マスクされたモデルは、全体的なFDIAパイプラインを単純化するだけでなく、既存のアプローチよりも優れています。 提案手法は,複雑な工学系におけるセンサ計測の精度と信頼性をリアルタイムに向上する可能性があり,将来は他の種類のセンサや工学系にも適用できる可能性がある。 提案するフレームワークは,より効率的かつ効率的なFDIA技術の開発に,幅広い応用に寄与できると考えている。

Accurate and reliable sensor measurements are critical for ensuring the safety and longevity of complex engineering systems such as wind turbines. In this paper, we propose a novel framework for sensor fault detection, isolation, and accommodation (FDIA) using masked models and self-supervised learning. Our proposed approach is a general time series modeling approach that can be applied to any neural network (NN) model capable of sequence modeling, and captures the complex spatio-temporal relationships among different sensors. During training, the proposed masked approach creates a random mask, which acts like a fault, for one or more sensors, making the training and inference task unified: finding the faulty sensors and correcting them. We validate our proposed technique on both a public dataset and a real-world dataset from GE offshore wind turbines, and demonstrate its effectiveness in detecting, diagnosing and correcting sensor faults. The masked model not only simplifies the overall FDIA pipeline, but also outperforms existing approaches. Our proposed technique has the potential to significantly improve the accuracy and reliability of sensor measurements in complex engineering systems in real-time, and could be applied to other types of sensors and engineering systems in the future. We believe that our proposed framework can contribute to the development of more efficient and effective FDIA techniques for a wide range of applications.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 超電導量子ビットによるスケーラブル量子誤差補正のためのカプラ支援漏洩低減

Coupler-Assisted Leakage Reduction for Scalable Quantum Error Correction with Superconducting Qubits ( http://arxiv.org/abs/2403.16155v1 )

ライセンス: Link先を確認
Xiaohan Yang, Ji Chu, Zechen Guo, Wenhui Huang, Yongqi Liang, Jiawei Liu, Jiawei Qiu, Xuandong Sun, Ziyu Tao, Jiawei Zhang, Jiajian Zhang, Libo Zhang, Yuxuan Zhou, Weijie Guo, Ling Hu, Ji Jiang, Yang Liu, Xiayu Linpeng, Tingyong Chen, Yuanzhen Chen, Jingjing Niu, Song Liu, Youpeng Zhong, Dapeng Yu, (参考訳) 超伝導量子ビットは、フォールトトレラントな量子コンピュータを構築するための有望なプラットフォームであり、コードサイズの増加に伴う論理エラーの抑制を示す最近の成果である。 しかし、超伝導回路を含む実用的な量子システムにおいて一般的な問題である非計算状態へのリークは、QECスケーラビリティを損なう相関誤差を導入している。 本稿では,大規模超伝導量子プロセッサにおいて広く採用されているチューナブルカプラを用いた漏れ低減手法を提案し,実証する。 共振器とリードアウト共振器の共振器と共振器の強い周波数調整性を活用し, 共振器の状態漏洩を排除し, 共振器間の共振による空間関連誤差を抑制する。 また, カプラの補助により, 高効率98.1%, 計算部分空間0.58%の低誤差率で高い量子ビットレベルへのリークを低減し, QECサイクル中の時間関連エラーを抑制する。 提案手法の性能は,超伝導量子ビットを用いたスケーラブルQECにおいて,必要不可欠なビルディングブロックとしての可能性を示している。

Superconducting qubits are a promising platform for building fault-tolerant quantum computers, with recent achievement showing the suppression of logical error with increasing code size. However, leakage into non-computational states, a common issue in practical quantum systems including superconducting circuits, introduces correlated errors that undermine QEC scalability. Here, we propose and demonstrate a leakage reduction scheme utilizing tunable couplers, a widely adopted ingredient in large-scale superconducting quantum processors. Leveraging the strong frequency tunability of the couplers and stray interaction between the couplers and readout resonators, we eliminate state leakage on the couplers, thus suppressing space-correlated errors caused by population propagation among the couplers. Assisted by the couplers, we further reduce leakage to higher qubit levels with high efficiency (98.1%) and low error rate on the computational subspace (0.58%), suppressing time-correlated errors during QEC cycles. The performance of our scheme demonstrates its potential as an indispensable building block for scalable QEC with superconducting qubits.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 医療名義認識のための韓国バイオメディカルコーパス(KBMC)

Korean Bio-Medical Corpus (KBMC) for Medical Named Entity Recognition ( http://arxiv.org/abs/2403.16158v1 )

ライセンス: Link先を確認
Sungjoo Byun, Jiseung Hong, Sumin Park, Dongjun Jang, Jean Seo, Minseok Kim, Chaeyoung Oh, Hyopil Shin, (参考訳) 名前付きエンティティ認識(NER)は、医学自然言語処理(NLP)において重要な役割を果たす。 しかし、韓国語専用のオープンソース医療用NERデータセットは存在しない。 そこで我々はChatGPTを用いてKBMC (Korean Bio-Medical Corpus) の構築を支援した。 KBMCデータセットでは、一般的な韓国のNERデータセットでトレーニングされたモデルと比較して、医療NERのパフォーマンスが20%向上した。 この研究は、医療などの専門分野における言語処理を強化するために、ChatGPTのような特殊なツールやデータセットを使用することの、大きなメリットと重要性を強調している。

Named Entity Recognition (NER) plays a pivotal role in medical Natural Language Processing (NLP). Yet, there has not been an open-source medical NER dataset specifically for the Korean language. To address this, we utilized ChatGPT to assist in constructing the KBMC (Korean Bio-Medical Corpus), which we are now presenting to the public. With the KBMC dataset, we noticed an impressive 20% increase in medical NER performance compared to models trained on general Korean NER datasets. This research underscores the significant benefits and importance of using specialized tools and datasets, like ChatGPT, to enhance language processing in specialized fields such as healthcare.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# リアルタイムビデオインペインティングトランスの実現に向けて

Towards Online Real-Time Memory-based Video Inpainting Transformers ( http://arxiv.org/abs/2403.16161v1 )

ライセンス: Link先を確認
Guillaume Thiry, Hao Tang, Radu Timofte, Luc Van Gool, (参考訳) 近年、ディープニューラルネットワーク、特にビジョントランスフォーマーの台頭により、ビデオインペイントタスクは大幅に改善されている。 これらのモデルは、有望な復元品質と時間的整合性を示しているが、ライブビデオには相変わらず適していない。 主な制限は、これらの最先端モデルがビデオ全体(オフライン処理)を使用し、フレームレートが不十分であることである。 提案手法では,従来のインペインティング・トランスフォーマーをこれらの制約に適応させ,冗長な計算を記憶・精算し,良好なインペインティング・品質を維持しながら適用する枠組みを提案する。 最新のインペイントモデルでこのフレームワークを使用することで、毎秒20フレームを超える一貫したスループットで、優れたオンライン結果が得られます。 コードと事前訓練されたモデルは、受け入れ次第利用可能になる。

Video inpainting tasks have seen significant improvements in recent years with the rise of deep neural networks and, in particular, vision transformers. Although these models show promising reconstruction quality and temporal consistency, they are still unsuitable for live videos, one of the last steps to make them completely convincing and usable. The main limitations are that these state-of-the-art models inpaint using the whole video (offline processing) and show an insufficient frame rate. In our approach, we propose a framework to adapt existing inpainting transformers to these constraints by memorizing and refining redundant computations while maintaining a decent inpainting quality. Using this framework with some of the most recent inpainting models, we show great online results with a consistent throughput above 20 frames per second. The code and pretrained models will be made available upon acceptance.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# マルチタスク最適化によるマルチタスク学習

Multi-Task Learning with Multi-Task Optimization ( http://arxiv.org/abs/2403.16162v1 )

ライセンス: Link先を確認
Lu Bai, Abhishek Gupta, Yew-Soon Ong, (参考訳) マルチタスク学習は複数の相関タスクを解決する。 しかし、両者の間には対立が存在する可能性がある。 このような状況下では、単一のソリューションがすべてのタスクを最適化することは滅多になく、パフォーマンスのトレードオフにつながる。 本稿では,1つのアルゴリズムパスで異なるトレードオフを包括的に具現化する,最適化されているがよく分散されたモデルのセットに到達するために,マルチタスク最適化のレンズを通して,Paretoマルチタスク学習を見ることを提案する。 マルチタスク学習は、まず多目的最適化問題としてキャストされ、次に制約のないスカラー値のサブプロブレムの多種多様な集合に分解される。 これらのサブプロブレムは、最適化の過程でサブプロブレム間のモデルパラメータの反復移動に固有の、新しいマルチタスク勾配降下法を用いて共同で解決される。 そのような転移を包含することでより高速な収束を証明した定理が提示される。 画像分類,シーン理解,マルチターゲット回帰といった様々な問題設定を解決するために,マルチタスク最適化を用いたマルチタスク学習を提案する。 包括的実験により,提案手法がパレート最適化モデルの探索における最先端性を著しく向上することが確認された。 特に、我々がテストした大規模な画像データセット、すなわちNYUv2では、我々の方法で達成された超体積収束は、最先端技術の中での次のベストの約2倍高速であることが判明した。

Multi-task learning solves multiple correlated tasks. However, conflicts may exist between them. In such circumstances, a single solution can rarely optimize all the tasks, leading to performance trade-offs. To arrive at a set of optimized yet well-distributed models that collectively embody different trade-offs in one algorithmic pass, this paper proposes to view Pareto multi-task learning through the lens of multi-task optimization. Multi-task learning is first cast as a multi-objective optimization problem, which is then decomposed into a diverse set of unconstrained scalar-valued subproblems. These subproblems are solved jointly using a novel multi-task gradient descent method, whose uniqueness lies in the iterative transfer of model parameters among the subproblems during the course of optimization. A theorem proving faster convergence through the inclusion of such transfers is presented. We investigate the proposed multi-task learning with multi-task optimization for solving various problem settings including image classification, scene understanding, and multi-target regression. Comprehensive experiments confirm that the proposed method significantly advances the state-of-the-art in discovering sets of Pareto-optimized models. Notably, on the large image dataset we tested on, namely NYUv2, the hypervolume convergence achieved by our method was found to be nearly two times faster than the next-best among the state-of-the-art.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# ニューラルネットワークにおける共分散伝播の解析解

An Analytic Solution to Covariance Propagation in Neural Networks ( http://arxiv.org/abs/2403.16163v1 )

ライセンス: Link先を確認
Oren Wright, Yorie Nakahira, José M. F. Moura, (参考訳) ニューラルネットワークの不確かさの定量化は、ディープラーニングシステムの信頼性と堅牢性を測定する上で重要である。 しかし、これはしばしば費用がかかるか不正確なサンプリング方法や近似を伴う。 本稿では,ニューラルネットワークの入出力分布を正確に特徴付けるために,平均ベクトルと共分散行列をネットワーク全体に伝播するサンプルフリーモーメント伝搬手法を提案する。 本手法の重要な有効性は,Heaviside,ReLU,GELUなどの非線形活性化関数を経由した確率変数の共分散の解析解である。 学習ニューラルネットワークの入力出力分布を分析し,ベイズニューラルネットワークを訓練する実験において,提案手法の適用性およびメリットを示す。

Uncertainty quantification of neural networks is critical to measuring the reliability and robustness of deep learning systems. However, this often involves costly or inaccurate sampling methods and approximations. This paper presents a sample-free moment propagation technique that propagates mean vectors and covariance matrices across a network to accurately characterize the input-output distributions of neural networks. A key enabler of our technique is an analytic solution for the covariance of random variables passed through nonlinear activation functions, such as Heaviside, ReLU, and GELU. The wide applicability and merits of the proposed technique are shown in experiments analyzing the input-output distributions of trained neural networks and training Bayesian neural networks.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 視覚・言語モデルにおける幻覚緩和のための意味的再構築

Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models ( http://arxiv.org/abs/2403.16167v1 )

ライセンス: Link先を確認
Minchan Kim, Minyeong Kim, Junik Bae, Suhwan Choi, Sungkyung Kim, Buru Chang, (参考訳) 視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。 現在の方法では、これらの幻覚を正確に識別し緩和することができない。 この問題に対処するためESREALは,幻覚の発生を抑制するために,幻覚トークンの正確な位置化と罰則化によって設計された,新しい教師なし学習フレームワークである。 当初、ESREALは生成されたキャプションに基づいて再構成画像を作成し、対応する領域を元の画像と整列させる。 この意味再構成は、生成されたキャプション内のトークンレベルの幻覚の存在とタイプの両方を識別するのに役立つ。 その後、ESREALは、幻覚の種類に基づいて整列領域の意味的類似性を評価することにより、トークンレベルの幻覚スコアを算出する。 最後に、ESREALは近似ポリシー最適化アルゴリズムを採用し、トークンレベルの幻覚スコアに応じて幻覚トークンを選択的にペナルティ化する。 LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。 この改善は画像自体から派生した信号によってのみ達成され、画像とテキストのペアは不要である。

Hallucinations in vision-language models pose a significant challenge to their reliability, particularly in the generation of long captions. Current methods fall short of accurately identifying and mitigating these hallucinations. To address this issue, we introduce ESREAL, a novel unsupervised learning framework designed to suppress the generation of hallucinations through accurate localization and penalization of hallucinated tokens. Initially, ESREAL creates a reconstructed image based on the generated caption and aligns its corresponding regions with those of the original image. This semantic reconstruction aids in identifying both the presence and type of token-level hallucinations within the generated caption. Subsequently, ESREAL computes token-level hallucination scores by assessing the semantic similarity of aligned regions based on the type of hallucination. Finally, ESREAL employs a proximal policy optimization algorithm, where it selectively penalizes hallucinated tokens according to their token-level hallucination scores. Our framework notably reduces hallucinations in LLaVA, InstructBLIP, and mPLUG-Owl2 by 32.81%, 27.08%, and 7.46% on the CHAIR metric. This improvement is achieved solely through signals derived from the image itself, without the need for any image-text pairs.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 注視誘導型手動物体相互作用合成 : ベンチマークと方法

Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method ( http://arxiv.org/abs/2403.16169v1 )

ライセンス: Link先を確認
Jie Tian, Lingxiao Yang, Ran Ji, Yuexin Ma, Lan Xu, Jingyi Yu, Ye Shi, Jingya Wang, (参考訳) 迷路は人間の注意と意図を明らかにする上で重要な役割を担い、人間の行動の背後にある認知過程に光を当てる。 視線誘導と手動物体相互作用のダイナミクスを統合することにより、人間の動作予測の精度が向上する。 しかし、視線、手、物体の動きの間の複雑な関係と一貫性を捉えるデータセットの欠如は、依然としてかなりのハードルとなっている。 本稿では,第1回 Gaze-Guided Hand-Object Interaction データセットである GazeHOI について紹介する。 我々のデータセットであるGazeHOIは、平均時間19.1秒、サブシーケンス812、さまざまなサイズの33のオブジェクトを含む479のシーケンスからなる、視線、手、オブジェクトの相互作用を同時に3Dモデリングする。 本稿では,GHO拡散(GHO-Diffusion)という,視線誘導型手オブジェクト相互作用拡散モデルを中心とした階層型フレームワークを提案する。 拡散前段階では、視線条件を空間的時間的特徴に分離し、目標が情報粒度の異なるレベルに提示する。 拡散相の間、2つの視線条件付き拡散モデルが積み重なり、手対象運動の複雑な合成を単純化する。 ここでは、物体の動き拡散モデルが視線条件に基づいて物体の動きのシーケンスを生成し、手の動き拡散モデルが生成された物体の動きに基づいて手の動きを生成する。 細粒度のゴールポーズアライメントを改善するために,デノナイジングステップを導く球状ガウス制約を導入する。 その後の拡散段階において,接触整合性を用いて生成された手の動きを最適化する。 我々の広範な実験は、我々のデータセットのユニークさと、我々のアプローチの有効性を強調している。

Gaze plays a crucial role in revealing human attention and intention, shedding light on the cognitive processes behind human actions. The integration of gaze guidance with the dynamics of hand-object interactions boosts the accuracy of human motion prediction. However, the lack of datasets that capture the intricate relationship and consistency among gaze, hand, and object movements remains a substantial hurdle. In this paper, we introduce the first Gaze-guided Hand-Object Interaction dataset, GazeHOI, and present a novel task for synthesizing gaze-guided hand-object interactions. Our dataset, GazeHOI, features simultaneous 3D modeling of gaze, hand, and object interactions, comprising 479 sequences with an average duration of 19.1 seconds, 812 sub-sequences, and 33 objects of various sizes. We propose a hierarchical framework centered on a gaze-guided hand-object interaction diffusion model, named GHO-Diffusion. In the pre-diffusion phase, we separate gaze conditions into spatial-temporal features and goal pose conditions at different levels of information granularity. During the diffusion phase, two gaze-conditioned diffusion models are stacked to simplify the complex synthesis of hand-object motions. Here, the object motion diffusion model generates sequences of object motions based on gaze conditions, while the hand motion diffusion model produces hand motions based on the generated object motion. To improve fine-grained goal pose alignment, we introduce a Spherical Gaussian constraint to guide the denoising step. In the subsequent post-diffusion phase, we optimize the generated hand motions using contact consistency. Our extensive experiments highlight the uniqueness of our dataset and the effectiveness of our approach.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 潜時指紋認識のためのMinutia Cylinder CodesとMinutia Patch Embeddingsの融合

Fusion of Minutia Cylinder Codes and Minutia Patch Embeddings for Latent Fingerprint Recognition ( http://arxiv.org/abs/2403.16172v1 )

ライセンス: Link先を確認
Yusuf Artan, Bensu Alkan Semiz, (参考訳) 潜伏指紋は、法執行機関によって最も広く使われている法医学的証拠の1つである。 しかし,画像中の変形やアーチファクトによるセンサ指紋認識の模範的性能は,潜時認識性能には程遠い。 本研究では,潜伏指紋認識に対する融合型局所マッチング手法を提案する。 近年の潜伏認識研究は、潜伏認識プロセスにおいて、手作りミナミジア特徴または深層ニューラルネットワーク特徴のいずれかがミナミリアの周辺で抽出される局所的な記述子生成法に依存している。 提案されたアプローチは、これらの手作りの機能を、最近提案された深層ニューラルネットワークの埋め込み機能と多段階融合アプローチに統合し、潜在認識結果を著しく改善する。 提案手法の有効性は、いくつかのパブリックデータセットとプライベートデータセットで示されている。 実験結果に示すように,提案手法は,これらの特徴の単一使用法や文献における既存の最先端手法と比較して,実世界のデータセットに対してかなり高い精度でランク1同定精度を向上する。

Latent fingerprints are one of the most widely used forensic evidence by law enforcement agencies. However, latent recognition performance is far from the exemplary performance of sensor fingerprint recognition due to deformations and artifacts within these images. In this study, we propose a fusion based local matching approach towards latent fingerprint recognition. Recent latent recognition studies typically relied on local descriptor generation methods, in which either handcrafted minutiae features or deep neural network features are extracted around a minutia of interest, in the latent recognition process. Proposed approach would integrate these handcrafted features with a recently proposed deep neural network embedding features in a multi-stage fusion approach to significantly improve latent recognition results. Effectiveness of the proposed approach has been shown on several public and private data sets. As demonstrated in our experimental results, proposed method improves rank-1 identification accuracy by considerably for real-world datasets when compared to either the single usage of these features or existing state-of-the-art methods in the literature.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# 説明可能な3次元ハイブリッドコンボリューション変換器を用いたMRIによるアルツハイマー病の分類

Enhancing MRI-Based Classification of Alzheimer's Disease with Explainable 3D Hybrid Compact Convolutional Transformers ( http://arxiv.org/abs/2403.16175v1 )

ライセンス: Link先を確認
Arindam Majee, Avisek Gupta, Sourav Raha, Swagatam Das, (参考訳) 進行性認知機能低下と記憶喪失を特徴とするアルツハイマー病(AD)は、早期かつ正確な診断の重要性と、患者の症状の増大を物語っている。 MRIスキャンは脳の構造に関する貴重な洞察を提供するが、従来の分析手法ではAD識別に不可欠な複雑な3Dパターンの識別に苦慮することが多い。 この課題に対処するために,3D Hybrid Compact Convolutional Transformers 3D (HCCT) という,エンド・ツー・エンドのディープラーニングモデルを導入する。 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を相乗的に組み合わせることで、3D HCCTは3D MRIスキャン内の局所的特徴と長距離的関係の両方を順応的にキャプチャする。 ADベンチマークデータセットであるADNIの大規模な評価は、3D HCCTの優れた性能を示し、最先端のCNNとトランスフォーマーに基づく分類精度を上回っている。 その堅牢な一般化能力と解釈性は、3次元MRIスキャンからのAD分類において重要な進歩であり、より正確で信頼性の高い診断が患者ケアの改善と優れた臨床結果をもたらすことを約束している。

Alzheimer's disease (AD), characterized by progressive cognitive decline and memory loss, presents a formidable global health challenge, underscoring the critical importance of early and precise diagnosis for timely interventions and enhanced patient outcomes. While MRI scans provide valuable insights into brain structures, traditional analysis methods often struggle to discern intricate 3D patterns crucial for AD identification. Addressing this challenge, we introduce an alternative end-to-end deep learning model, the 3D Hybrid Compact Convolutional Transformers 3D (HCCT). By synergistically combining convolutional neural networks (CNNs) and vision transformers (ViTs), the 3D HCCT adeptly captures both local features and long-range relationships within 3D MRI scans. Extensive evaluations on prominent AD benchmark dataset, ADNI, demonstrate the 3D HCCT's superior performance, surpassing state of the art CNN and transformer-based methods in classification accuracy. Its robust generalization capability and interpretability marks a significant stride in AD classification from 3D MRI scans, promising more accurate and reliable diagnoses for improved patient care and superior clinical outcomes.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# サブスペースディフェンス:クリーン信号のサブスペース学習による対向的摂動の認識

Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals ( http://arxiv.org/abs/2403.16176v1 )

ライセンス: Link先を確認
Rui Zheng, Yuhao Zhou, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、DNNを騙すために通常の例に対して注意深く摂動を発生させる敵の攻撃に弱いことで知られている。 このような攻撃をよりよく理解するためには、敵の例による特徴のキャラクタリゼーションが必要である。 本稿では,スペクトル分析によりサンプル特徴のサブスペースを検査することで,この問題に対処する。 まず, 従来の低次元部分空間投影は, クリーン信号のサブ空間内における摂動特性を抑制できることを示す。 これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができ、敵の例の区別を容易にすることができる。 サブスペース学習において避けられない残差摂動を防止するため,摂動から清浄な信号を引き離す独立基準を提案する。 実験結果から,提案手法は,モデルの堅牢性を向上するだけでなく,効果的な対人防御の新たな方向性を動機付ける。

Deep neural networks (DNNs) are notoriously vulnerable to adversarial attacks that place carefully crafted perturbations on normal examples to fool DNNs. To better understand such attacks, a characterization of the features carried by adversarial examples is needed. In this paper, we tackle this challenge by inspecting the subspaces of sample features through spectral analysis. We first empirically show that the features of either clean signals or adversarial perturbations are redundant and span in low-dimensional linear subspaces respectively with minimal overlap, and the classical low-dimensional subspace projection can suppress perturbation features out of the subspace of clean signals. This makes it possible for DNNs to learn a subspace where only features of clean signals exist while those of perturbations are discarded, which can facilitate the distinction of adversarial examples. To prevent the residual perturbations that is inevitable in subspace learning, we propose an independence criterion to disentangle clean signals from perturbations. Experimental results show that the proposed strategy enables the model to inherently suppress adversaries, which not only boosts model robustness but also motivates new directions of effective adversarial defense.
翻訳日:2024-03-26 17:15:57 公開日:2024-03-24
# オンラインベイズ適応による準最適条件下での混合開始型人間ロボットチーム

Mixed-Initiative Human-Robot Teaming under Suboptimality with Online Bayesian Adaptation ( http://arxiv.org/abs/2403.16178v1 )

ライセンス: Link先を確認
Manisha Natarajan, Chunyue Xue, Sanne van Waveren, Karen Feigh, Matthew Gombolay, (参考訳) 効果的な人間エージェントチームを作るには、ロボットや他の人工知能(AI)エージェントは、人間のパートナーの能力と行動応答パターンを推論し、それに応じて適応しなければならない。 以前の作業のほとんどは、1つ以上のチームメイトがほぼ最適に行動できるという非現実的な仮定を立てています。 現実世界のコラボレーションでは、人間と自律的なエージェントは、特に各エージェントが部分的なドメイン知識しか持たない場合、最適ではない。 本研究では,人間とエージェントが非対称な能力を持ち,不完全な環境知識のために非対称に行動する,最適な人-エージェントチームの性能を向上させるための計算モデルと最適化手法を開発する。 我々は,ロボットが逐次意思決定ゲームにおいて,その支援に従おうとする人々の意思を推測できるオンラインベイズアプローチを採用する。 ユーザの好みやチームのパフォーマンスは、ロボットの介入スタイルによって明らかに異なり、混合開始型コラボレーションは、ユーザの信頼(p<.001$)やロボットの類似性(p<.001$)など、客観的なチームパフォーマンス(p<.001$)と主観的な尺度(p<.001$)を高める。

For effective human-agent teaming, robots and other artificial intelligence (AI) agents must infer their human partner's abilities and behavioral response patterns and adapt accordingly. Most prior works make the unrealistic assumption that one or more teammates can act near-optimally. In real-world collaboration, humans and autonomous agents can be suboptimal, especially when each only has partial domain knowledge. In this work, we develop computational modeling and optimization techniques for enhancing the performance of suboptimal human-agent teams, where the human and the agent have asymmetric capabilities and act suboptimally due to incomplete environmental knowledge. We adopt an online Bayesian approach that enables a robot to infer people's willingness to comply with its assistance in a sequential decision-making game. Our user studies show that user preferences and team performance indeed vary with robot intervention styles, and our approach for mixed-initiative collaborations enhances objective team performance ($p<.001$) and subjective measures, such as user's trust ($p<.001$) and perceived likeability of the robot ($p<.001$).
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# 近容量CV-QKD再接続への道-FEC非依存設計-

The Road to Near-Capacity CV-QKD Reconciliation: An FEC-Agnostic Design ( http://arxiv.org/abs/2403.16180v1 )

ライセンス: Link先を確認
Xin Liu, Chao Xu, Yasir Noori, Soon Xin Ng, Lajos Hanzo, (参考訳) そこでは, 認証された古典チャネル (ClC) とQKDのための量子チャネル (QuC) の両方を, 別個の前方誤り訂正 (FEC) 符号化スキームで保護する。 より具体的には、シンドロームベースではなく、新しいコードワードベースのQKD和解スキームが提案されており、アリスはClCを介してFECで保護されたコードワードをボブに送信し、一方ボブは別のFECで保護されたコードワードをQuCを介してアリスに送信する。 他方から受信したコードワードを復号すると、ローカルコードワードと復号されたリモートコードワードに単純なModulo-2操作を適用することにより、最終キーが得られる。 その結果、まず、提案したコードワードベースのQKD調停システムにより、QuCとClCの両方の保護が保証された。 次に,FECエンコーダとFECデコーダを持つAliceとBobの両システムに類似した複雑性がある。 第3に、提案方式は、極符号、CC、不規則畳み込み符号(IRCC)を含む広範囲なFEC方式とQKDの整合性を両立させ、QuCとClCの両方のシミュレーション結果から、QuCとClCの性能改善が相互に有益であることを示す。

New near-capacity continuous-variable quantum key distribution (CV-QKD) reconciliation schemes are proposed, where both the authenticated classical channel (ClC) and the quantum channel (QuC) for QKD are protected by separate forward error correction (FEC) coding schemes. More explicitly, a new codeword-based - rather than syndrome-based - QKD reconciliation scheme is proposed, where Alice sends an FEC-protected codeword to Bob through a ClC, while Bob sends a separate FEC protected codeword to Alice through a QuC. Upon decoding the codeword received from the other side, the final key is obtained by applying a simple modulo-2 operation to the local codeword and the decoded remote codeword. As a result, first of all, the proposed codeword-based QKD reconciliation system ensures protection of both the QuC and of the ClC. Secondly, the proposed system has a similar complexity at both sides, where both Alice and Bob have an FEC encoder and an FEC decoder. Thirdly, the proposed system makes QKD reconciliation compatible with a wide range of FEC schemes, including polar codes, CCs and irregular convolutional codes (IRCCs), where a near-capacity performance can be achieved for both the QuC and for the ClC.Our simulation results demonstrate that thanks to the proposed regime, the performance improvements of the QuC and of the ClC benefit each other, hence leading to an improved secret key rate (SKR) that inches closer to both the Pirandola-Laurenza-Ottaviani-Banchi (PLOB) bound and to the maximum achieveable rate bound.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# EgoExoLearn: 実世界の手続き活動の非同期的エゴとエクソ中心の視点をブリッジするデータセット

EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World ( http://arxiv.org/abs/2403.16182v1 )

ライセンス: Link先を確認
Yifei Huang, Guo Chen, Jilan Xu, Mingfang Zhang, Lijin Yang, Baoqi Pei, Hongjie Zhang, Lu Dong, Yali Wang, Limin Wang, Yu Qiao, (参考訳) 他人の活動を自分の視点にマッピングできることは、非常に若い頃からの基本的な人間のスキルである。 EgoExoLearnは、デモビデオによってガイドされたタスクを実行する際に、個人がエゴセントリックなビデオを記録するプロセスに続く人間のデモをエミュレートする大規模なデータセットである。 EgoExoLearnは、日常生活のシナリオや専門的な研究室で捉えた120時間にわたる、エゴセントリックでデモ的なビデオデータを含んでいる。 ビデオとともに、高品質な視線データを記録し、より詳細なマルチモーダルアノテーションを提供し、異なる視点から非同期手続きアクションをブリッジする人間の能力をモデル化するための遊び場を定式化します。 この目的のために、クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを詳細な分析とともに提示する。 EgoExoLearnは、ビューをまたいでアクションをブリッジするための重要なリソースとして機能し、現実世界で人間を観察してシームレスに学習できるAIエージェントを作るための道を開くことができると期待している。 コードとデータは、https://github.com/OpenGVLab/EgoExoLearnで参照できる。

Being able to map the activities of others into one's own point of view is one fundamental human skill even from a very early age. Taking a step toward understanding this human ability, we introduce EgoExoLearn, a large-scale dataset that emulates the human demonstration following process, in which individuals record egocentric videos as they execute tasks guided by demonstration videos. Focusing on the potential applications in daily assistance and professional support, EgoExoLearn contains egocentric and demonstration video data spanning 120 hours captured in daily life scenarios and specialized laboratories. Along with the videos we record high-quality gaze data and provide detailed multimodal annotations, formulating a playground for modeling the human ability to bridge asynchronous procedural actions from different viewpoints. To this end, we present benchmarks such as cross-view association, cross-view action planning, and cross-view referenced skill assessment, along with detailed analysis. We expect EgoExoLearn can serve as an important resource for bridging the actions across views, thus paving the way for creating AI agents capable of seamlessly learning by observing humans in the real world. Code and data can be found at: https://github.com/OpenGVLab/EgoExoLearn
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# ラマン駆動原子をドープしたスラブによる波長可変超光反射と透過

Tunable superluminal reflection and transmission through a slab doped with Raman driven atoms ( http://arxiv.org/abs/2403.16183v1 )

ライセンス: Link先を確認
Yasir Ali, (参考訳) 4レベル原子系をドープしたスラブを通した電磁パルスの反射と透過について検討した。 ドープ原子はポンプ場と弱いプローブ場を持つN配位にあると考えられている。 また、原子媒体のラマンゲインを操作するために追加の制御フィールドが適用される。 異なる制御磁場強度と異なるスラブ厚の透過パルスと反射パルスの伝搬について検討した。 送信パルスと反射パルスは同時にサブルミナルまたはスーパールミナルとなる。 これらのパルスは、制御場の強度を調整することにより、サブルミナルからスーパールミナルに制御できる

A study about the reflection and transmission of an electromagnetic pulse through a slab doped with four-level atomic system has been presented. The doped atoms are considered to be in N-configuration with a pump field and a weak probe field. An additional control field is also applied to manipulate the Raman gain of the atomic medium. The propagation of transmitted and reflected pulses at different control field strengths and different slab thickness has been studied. It is found that the transmitted and reflected pulses can be simultaneously subluminal or superluminal. These pulses can be controlled from subluminal to superluminal by adjusting the strength of the control field
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# 視覚言語モデルにおける関係単語のデバイアスによるシーングラフ生成の改善

Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models ( http://arxiv.org/abs/2403.16184v1 )

ライセンス: Link先を確認
Yuxuan Wang, Xiaoyuan Liu, (参考訳) シーングラフ生成(SGG)は視覚シーンの基本的な言語表現を提供し、モデルが様々なオブジェクト間の複雑で多様な意味を把握する必要がある。 しかし、このSGGの複雑さと多様性は、トレーニング中にテスト三重項の一部が稀または見つからないという、過度な表現につながる。 そこで本研究では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現の強化を提案する。 しかしながら、事前学習とSGGのギャップのため、事前学習されたVLMを直接アンサンブルすることは、関係語間で深刻なバイアスをもたらす。 そこで本研究では,事前学習言語セットにおける単語の分布アンダーリーを近似するためにLM推定を導入し,その分布をデバイアスとして利用する。 その後、VLMをSGGモデルとアンサンブルして表現を強化する。 それぞれのモデルが異なるサンプルでより良く表現できることを考えると,各サンプルをスコアリングし,アンサンブル重みを動的に調整するために,確実な認識指標を用いる。 提案手法は,単語のバイアスを効果的に処理し,SGGの表現を向上し,マーク可能な性能向上を実現する。 トレーニングフリーで、既存のSGGモデルとうまく統合されている。

Scene Graph Generation (SGG) provides basic language representation of visual scenes, requiring models to grasp complex and diverse semantics between various objects. However, this complexity and diversity in SGG also leads to underrepresentation, where part of test triplets are rare or even unseen during training, resulting in imprecise predictions. To tackle this, we propose using the SGG models with pretrained vision-language models (VLMs) to enhance representation. However, due to the gap between the pretraining and SGG, directly ensembling the pretrained VLMs leads to severe biases across relation words. Thus, we introduce LM Estimation to approximate the words' distribution underlies in the pretraining language sets, and then use the distribution for debiasing. After that, we ensemble VLMs with SGG models to enhance representation. Considering that each model may represent better at different samples, we use a certainty-aware indicator to score each sample and dynamically adjust the ensemble weights. Our method effectively addresses the words biases, enhances SGG's representation, and achieve markable performance enhancements. It is training-free and integrates well with existing SGG models.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# ALoRA: 微調整型大規模言語モデルのための低ランク適応

ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models ( http://arxiv.org/abs/2403.16187v1 )

ライセンス: Link先を確認
Zequan Liu, Jiawen Lyn, Wei Zhu, Xing Tian, Yvette Graham, (参考訳) パラメータ効率の良い微細チューニング(PEFT)は,大規模言語モデルの時代において,その有効性と効率性について広く研究されている。 低ランク適応(LoRA)は、人気で代表的な手法として、賞賛できる性能を示している。 しかし、下流タスクの理想的な設定ではないかもしれない固定固有のランクで実装されている。 より柔軟な下流タスク適応の必要性を認識し、我々はLoRAの方法論をアロケートローランク適応 (ALoRA) と呼ぶ革新的なアプローチに拡張し、適応プロセス中に本質的なランクを動的に調整できるようにする。 まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。 第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。 各種タスクについて実験を行い,ALoRA法が最近のベースラインに匹敵するチューナブルパラメータで性能を向上できることを実験的に示す。

Parameter-efficient fine-tuning (PEFT) is widely studied for its effectiveness and efficiency in the era of large language models. Low-rank adaptation (LoRA) has demonstrated commendable performance as a popular and representative method. However, it is implemented with a fixed intrinsic rank that might not be the ideal setting for the downstream tasks. Recognizing the need for more flexible downstream task adaptation, we extend the methodology of LoRA to an innovative approach we call allocating low-rank adaptation (ALoRA) that enables dynamic adjustments to the intrinsic rank during the adaptation process. First, we propose a novel method, AB-LoRA, that can effectively estimate the importance score of each LoRA rank. Second, guided by AB-LoRA, we gradually prune abundant and negatively impacting LoRA ranks and allocate the pruned LoRA budgets to important Transformer modules needing higher ranks. We have conducted experiments on various tasks, and the experimental results demonstrate that our ALoRA method can outperform the recent baselines with comparable tunable parameters.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# リッチテキストによるクロスドメイン多モードFew-shotオブジェクト検出

Cross-domain Multi-modal Few-shot Object Detection via Rich Text ( http://arxiv.org/abs/2403.16188v1 )

ライセンス: Link先を確認
Zeyu Shangguan, Daniel Seita, Mohammad Rostami, (参考訳) クロスモーダルな機能抽出と統合により、よりリッチな機能を生成するため、数ショットの学習タスクのパフォーマンスが着実に向上した。 しかし、既存のマルチモーダルオブジェクト検出(MM-OD)法は、重要なドメインシフトに直面すると劣化し、サンプルが不十分である。 我々は、リッチテキスト情報により、ビジョンインスタンスとその言語記述間の知識関係を構築し、ドメインシフトを緩和するのに役立つと仮定する。 具体的には,MM-OD(CDMM-FSOD)のクロスドメイン・ショット一般化について検討し,リッチテキストセマンティック情報を利用したメタラーニングに基づくマルチモーダル・ショットオブジェクト検出手法を提案し,FSODの文脈におけるドメイン適応を実現する。 提案するネットワークには i) 視覚と言語サポート機能を組み込んだマルチモーダル機能アグリゲーションモジュール。 (II)双方向テキスト特徴生成を利用したリッチテキストセマンティクス修正モジュールにより,マルチモーダルな特徴アライメントが強化され,モデルの言語理解能力が向上する。 我々は、標準のクロスドメインオブジェクト検出データセットでモデルを評価し、既存のFSOD法よりもかなり優れていることを示す。

Cross-modal feature extraction and integration have led to steady performance improvements in few-shot learning tasks due to generating richer features. However, existing multi-modal object detection (MM-OD) methods degrade when facing significant domain-shift and are sample insufficient. We hypothesize that rich text information could more effectively help the model to build a knowledge relationship between the vision instance and its language description and can help mitigate domain shift. Specifically, we study the Cross-Domain few-shot generalization of MM-OD (CDMM-FSOD) and propose a meta-learning based multi-modal few-shot object detection method that utilizes rich text semantic information as an auxiliary modality to achieve domain adaptation in the context of FSOD. Our proposed network contains (i) a multi-modal feature aggregation module that aligns the vision and language support feature embeddings and (ii) a rich text semantic rectify module that utilizes bidirectional text feature generation to reinforce multi-modal feature alignment and thus to enhance the model's language understanding capability. We evaluate our model on common standard cross-domain object detection datasets and demonstrate that our approach considerably outperforms existing FSOD methods.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# リジェクションオプション付き線形サポートベクトル分類器の論理的記述法

Logic-based Explanations for Linear Support Vector Classifiers with Reject Option ( http://arxiv.org/abs/2403.16190v1 )

ライセンス: Link先を確認
Francisco Mateus Rocha Filho, Thiago Alves Rocha, Reginaldo Pereira Fernandes Ribeiro, Ajalmar Rêgo da Rocha Neto, (参考訳) サポートベクトル分類器(SVC)は線形分類問題に対する機械学習(ML)モデルとしてよく知られている。 正しく分類し、スペシャリストに委譲することが難しいインスタンスを拒否する、リジェクションオプション戦略と組み合わせて使用することができる。 これによりモデルの信頼性はさらに向上する。 これを考えると、拒絶の原因の説明を得ることは、その結果を盲目的に信用しないことが重要である。 関連する研究の多くは、機械学習モデルにそのような説明を与える手段を開発したが、私たちの知る限りでは、拒否オプションが存在する場合の最良の知識は得られなかった。 本稿では、リジェクションオプション付き線形SVCに対する説明の正確性と最小性に関する形式的保証付き論理ベースのアプローチを提案する。 提案手法を,説明文を生成するヒューリスティックアルゴリズムであるAnchorsと比較することで評価する。 得られた結果から,提案手法は時間的コストを低減し,より短い説明を与えることがわかった。

Support Vector Classifier (SVC) is a well-known Machine Learning (ML) model for linear classification problems. It can be used in conjunction with a reject option strategy to reject instances that are hard to correctly classify and delegate them to a specialist. This further increases the confidence of the model. Given this, obtaining an explanation of the cause of rejection is important to not blindly trust the obtained results. While most of the related work has developed means to give such explanations for machine learning models, to the best of our knowledge none have done so for when reject option is present. We propose a logic-based approach with formal guarantees on the correctness and minimality of explanations for linear SVCs with reject option. We evaluate our approach by comparing it to Anchors, which is a heuristic algorithm for generating explanations. Obtained results show that our proposed method gives shorter explanations with reduced time cost.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# 教師なしランドマーク発見のための2段階クラスタリングによるPose-Guided Self-Training

Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark Discovery ( http://arxiv.org/abs/2403.16194v1 )

ライセンス: Link先を確認
Siddharth Tourani, Ahmed Alwheibi, Arif Mahmood, Muhammad Haris Khan, (参考訳) オブジェクトカテゴリの教師なしランドマーク発見(ULD)は、コンピュータビジョンの問題である。 堅牢な ULD フレームワークの開発を追求するために,拡散モデルとして知られる,近年の自己教師型学習アルゴリズムの可能性を探る。 近年の研究では、これらのモデルに重要な対応手段が暗黙的に含まれていることが示されている。 ULDタスクの拡散モデルの可能性を活用するため、以下のコアコントリビューションを行う。 まず,近接する近傍マッチングを持つランダムな画素位置の単純なクラスタリングに基づくZeroShot ULDベースラインを提案する。 既存のUDDメソッドよりも優れた結果を提供する。 第2に、ZeroShotのパフォーマンスを動機として、自己学習とクラスタリングによる拡散特性に基づくUDDアルゴリズムを開発し、先行手法を顕著なマージンで上回っている。 第3に、潜在ポーズコードの生成に基づく新しいプロキシタスクを導入し、効果的な擬似ラベル作成を容易にするための2段階クラスタリング機構を提案する。 全体として、我々のアプローチはAFLW、MAFL、CatHeads、LS3Dの4つの挑戦的なベンチマークにおいて、最先端の手法よりも大幅に優れています。

Unsupervised landmarks discovery (ULD) for an object category is a challenging computer vision problem. In pursuit of developing a robust ULD framework, we explore the potential of a recent paradigm of self-supervised learning algorithms, known as diffusion models. Some recent works have shown that these models implicitly contain important correspondence cues. Towards harnessing the potential of diffusion models for the ULD task, we make the following core contributions. First, we propose a ZeroShot ULD baseline based on simple clustering of random pixel locations with nearest neighbour matching. It delivers better results than existing ULD methods. Second, motivated by the ZeroShot performance, we develop a ULD algorithm based on diffusion features using self-training and clustering which also outperforms prior methods by notable margins. Third, we introduce a new proxy task based on generating latent pose codes and also propose a two-stage clustering mechanism to facilitate effective pseudo-labeling, resulting in a significant performance improvement. Overall, our approach consistently outperforms state-of-the-art methods on four challenging benchmarks AFLW, MAFL, CatHeads and LS3D by significant margins.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# デジタル犯罪シーンの裏側:MSCモデル

Behind the (Digital Crime) Scenes: An MSC Model ( http://arxiv.org/abs/2403.16196v1 )

ライセンス: Link先を確認
Mario Raciti, Giampaolo Bella, (参考訳) 刑事捜査は本質的に複雑であり、捜査員、検察官、被告など様々なアクター間の相互作用が一般的である。 日常生活におけるテクノロジーの広範な統合は、特にデジタル要素を含む犯罪において、余分な複雑さを増す。 デジタルの証拠を抽出する基礎分野としてのデジタル法医学の確立は、刑事捜査の複雑な性質をさらに悪化させ、複数のシナリオの拡散につながった。 デジタルエビデンスを扱うための標準的な操作手順を構築する必要性を認識し、プロトコルとしてのデジタル法医学の表現は、セキュリティとプライバシの脅威を特定する貴重な機会として現れます。 本稿では,刑事事件におけるディジタル法医学を構成するプロトコルを記述し,それらをメッセージシーケンスチャート(MSC)として定式化し,それらの機能要件を特定する。

Criminal investigations are inherently complex as they typically involve interactions among various actors like investigators, prosecutors, and defendants. The pervasive integration of technology in daily life adds an extra layer of complexity, especially in crimes that involve a digital element. The establishment of digital forensics as a foundational discipline for extracting digital evidence further exacerbates the complex nature of criminal investigations, leading to the proliferation of multiple scenarios. Recognising the need to structure standard operating procedures for the handling of digital evidence, the representation of digital forensics as a protocol emerges as a valuable opportunity to identify security and privacy threats. In this paper, we delineate the protocols that compose digital forensics within a criminal case, formalise them as message sequence charts (MSCs), and identify their functional requirements.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# 拡散モデルによる3次元RF-Visionからの優れた電位推定

Diffusion Model is a Good Pose Estimator from 3D RF-Vision ( http://arxiv.org/abs/2403.16198v1 )

ライセンス: Link先を確認
Junqiao Fan, Jianfei Yang, Yuecong Xu, Lihua Xie, (参考訳) RFビジョン(Radio Frequency Vision)からのヒューマンポーズ推定(HPE)は、プライバシーを明かさずに障害物を貫通するRF信号(顔情報など)を用いて人間のセンシングを行う。 近年、mWaveレーダーは有望なRFビジョンセンサとして登場し、RF信号を処理してレーダー点雲を提供する。 しかし、mmWaveレーダはノイズの多い解像度が限られており、不正確で一貫性のない人間のポーズ推定に繋がる。 本研究は,ノイズレーダデータに適した拡散型ポーズ推定器mmDiffを提案する。 提案手法は拡散モデルの条件として信頼性の高いガイダンスを提供することを目的としている。 mmDiffでは,(1)異なる身体部位から特徴抽出を分離するモジュールによる人体の一部のミス検出,(2)環境干渉による信号の不整合,という2つの課題に対処する。 いくつかのモジュールはこれらの目標を達成するために設計されており、その特徴はその後の拡散モデルの条件として機能し、RFビジョンに基づくHPEのミス検出と不安定性を排除している。 大規模な実験により、mmDiffは既存の手法を著しく上回り、公開データセット上で最先端のパフォーマンスを達成している。

Human pose estimation (HPE) from Radio Frequency vision (RF-vision) performs human sensing using RF signals that penetrate obstacles without revealing privacy (e.g., facial information). Recently, mmWave radar has emerged as a promising RF-vision sensor, providing radar point clouds by processing RF signals. However, the mmWave radar has a limited resolution with severe noise, leading to inaccurate and inconsistent human pose estimation. This work proposes mmDiff, a novel diffusion-based pose estimator tailored for noisy radar data. Our approach aims to provide reliable guidance as conditions to diffusion models. Two key challenges are addressed by mmDiff: (1) miss-detection of parts of human bodies, which is addressed by a module that isolates feature extraction from different body parts, and (2) signal inconsistency due to environmental interference, which is tackled by incorporating prior knowledge of body structure and motion. Several modules are designed to achieve these goals, whose features work as the conditions for the subsequent diffusion model, eliminating the miss-detection and instability of HPE based on RF-vision. Extensive experiments demonstrate that mmDiff outperforms existing methods significantly, achieving state-of-the-art performances on public datasets.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# 離散から連続へ:転送可能な表現によるディープフェアクラスタリング

From Discrete to Continuous: Deep Fair Clustering With Transferable Representations ( http://arxiv.org/abs/2403.16201v1 )

ライセンス: Link先を確認
Xiang Zhang, (参考訳) 我々は、機密データ属性を隠蔽しながら、ディープニューラルネットワークによって抽出された表現を通じてデータをクラスタに分割するディープフェアクラスタリングの問題を考察する。 フェアネスを達成するために,既存手法では,グループフェアネス基準に基づく様々なフェアネス関連目的関数を提示する。 しかしながら、これらの研究は通常、感度特性は離散的であり、ある地域での女性の人口の割合のような連続的な感度変数には効かないと仮定する。 さらに、クラスタリングタスクから学んだ表現が、他のタスクのパフォーマンスを改善する可能性も、既存の作業によって無視される。 これらの制約を考慮して、離散的かつ連続的な属性を同時に処理できるフレキシブルなディープ・フェア・クラスタリング法を提案する。 具体的には、公平でクラスタリングに優しい表現を学習するために、情報ボトルネックスタイルの客観的関数を設計する。 さらに,抽出した表現を他の下流タスクに転送する可能性についても検討した。 既存の作業とは異なり、クラスタリング結果に関係なく、転送されたタスクに対して公平性を保証できる表現レベルに公平性を課す。 提案手法の有効性を検証するため,離散的かつ連続的な属性を持つデータセットに対して広範な実験を行い,最先端の手法と比較して,本手法の利点を実証した。

We consider the problem of deep fair clustering, which partitions data into clusters via the representations extracted by deep neural networks while hiding sensitive data attributes. To achieve fairness, existing methods present a variety of fairness-related objective functions based on the group fairness criterion. However, these works typically assume that the sensitive attributes are discrete and do not work for continuous sensitive variables, such as the proportion of the female population in an area. Besides, the potential of the representations learned from clustering tasks to improve performance on other tasks is ignored by existing works. In light of these limitations, we propose a flexible deep fair clustering method that can handle discrete and continuous sensitive attributes simultaneously. Specifically, we design an information bottleneck style objective function to learn fair and clustering-friendly representations. Furthermore, we explore for the first time the transferability of the extracted representations to other downstream tasks. Unlike existing works, we impose fairness at the representation level, which could guarantee fairness for the transferred task regardless of clustering results. To verify the effectiveness of the proposed method, we perform extensive experiments on datasets with discrete and continuous sensitive attributes, demonstrating the advantage of our method in comparison with state-of-the-art methods.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# FH-SSTNet:spatio-Spatial Temporal Networkを用いたフォアヘッド生成に基づくユーザ検証

FH-SSTNet: Forehead Creases based User Verification using Spatio-Spatial Temporal Network ( http://arxiv.org/abs/2403.16202v1 )

ライセンス: Link先を確認
Geetanjali Sharma, Gaurav Jaswal, Aditya Nigam, Raghavendra Ramachandra, (参考訳) フォアヘッドパターンなどの非接触機能を利用する生体認証は、識別認証やアクセス管理においてますます重要になっている。 提案手法は,3次元空間空間的時間的畳み込みを学習し,頭部パターンの詳細な画像を作成する。 本稿では,3次元CNNアーキテクチャを用いて特徴の識別を行う,フォアヘッド時空間ネットワーク(FH-SSTNet)と呼ばれる新しいCNNモデルを提案する。 我々は,ネットワークの頭上でArclossを用いてモデルの識別能力を向上する。 Forehead Creasesバージョン1(FH-V1)データセットの実験では、FH-SSTNetが既存のメソッドやResNet50のようなトレーニング済みCNN、特にフォアヘッドベースのユーザ検証よりも優れていることが示されている。 その結果,FH-SSTNetのユーザ認証性能が向上し,識別認証の有効性が確認された。

Biometric authentication, which utilizes contactless features, such as forehead patterns, has become increasingly important for identity verification and access management. The proposed method is based on learning a 3D spatio-spatial temporal convolution to create detailed pictures of forehead patterns. We introduce a new CNN model called the Forehead Spatio-Spatial Temporal Network (FH-SSTNet), which utilizes a 3D CNN architecture with triplet loss to capture distinguishing features. We enhance the model's discrimination capability using Arcloss in the network's head. Experimentation on the Forehead Creases version 1 (FH-V1) dataset, containing 247 unique subjects, demonstrates the superior performance of FH-SSTNet compared to existing methods and pre-trained CNNs like ResNet50, especially for forehead-based user verification. The results demonstrate the superior performance of FH-SSTNet for forehead-based user verification, confirming its effectiveness in identity authentication.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# SQL-Encoder: コンテキスト認識エンコーダによるNL2SQLインコンテキスト学習の改善

SQL-Encoder: Improving NL2SQL In-Context Learning Through a Context-Aware Encoder ( http://arxiv.org/abs/2403.16204v1 )

ライセンス: Link先を確認
Mohammadreza Pourreza, Davood Rafiei, Yuxi Feng, Raymond Li, Zhenan Fan, Weiwei Zhang, (参考訳) クエリ間の構造的類似性の検出は、コンテキスト内学習モデルにおける例の選択に不可欠である。 しかし、SQLクエリを考慮せずに、クエリの自然言語表現のみに基づく構造的類似性を評価することは、重大な課題である。 本稿では,この類似度測定の意義を考察し,正確に推定するモデルを提案する。 そこで我々は170の質問対からなるデータセットを活用して,類似度予測モデルのトレーニングを行う。 包括的評価により,提案モデルでは,Kendall-Tau 距離と精度@k 測定値の改善により,質問間の構造的類似性を十分に捉えることができた。 特に、私たちのモデルは、OpenAIとCohereの強力な競争力のある埋め込みモデルよりも優れています。 さらに,これらの競合モデルと比較して,提案するエンコーダは,GPT-3.5-turboでは1-2\%,CodeLlama-7Bでは4-8\%,CodeLlama-13Bでは2-3\%の1ショットインコンテキスト学習シナリオにおいて,NL2SQLモデルのダウンストリーム性能を向上させる。

Detecting structural similarity between queries is essential for selecting examples in in-context learning models. However, assessing structural similarity based solely on the natural language expressions of queries, without considering SQL queries, presents a significant challenge. This paper explores the significance of this similarity metric and proposes a model for accurately estimating it. To achieve this, we leverage a dataset comprising 170k question pairs, meticulously curated to train a similarity prediction model. Our comprehensive evaluation demonstrates that the proposed model adeptly captures the structural similarity between questions, as evidenced by improvements in Kendall-Tau distance and precision@k metrics. Notably, our model outperforms strong competitive embedding models from OpenAI and Cohere. Furthermore, compared to these competitive models, our proposed encoder enhances the downstream performance of NL2SQL models in 1-shot in-context learning scenarios by 1-2\% for GPT-3.5-turbo, 4-8\% for CodeLlama-7B, and 2-3\% for CodeLlama-13B.
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# Blur2Blur:未知領域における教師なし画像のBlur変換

Blur2Blur: Blur Conversion for Unsupervised Image Deblurring on Unknown Domains ( http://arxiv.org/abs/2403.16205v1 )

ライセンス: Link先を確認
Bang-Dang Pham, Phong Tran, Anh Tran, Cuong Pham, Rang Nguyen, Minh Hoai, (参考訳) 本稿では,特定のカメラ装置に適した画像分解アルゴリズムを訓練するための革新的なフレームワークを提案する。 このアルゴリズムは、ぼやけた入力画像を、デブロワーが難しい別のぼやけた画像に変換することで機能する。 あるぼやけた状態から別の状態への変換プロセスは、ターゲットカメラ装置が捉えたシャープでぼやけた画像からなる未ペアデータを活用する。 このぼかしから青への変換の学習は、画像の細部を再構築する複雑な作業よりも、ぼかしパターンの修正を主眼とするので、直接ぼかしからシャープ変換よりも本質的に単純である。 提案手法の有効性は、様々なベンチマークによる総合的な実験を通じて実証され、定量および定性の両方で最先端の手法を著しく上回っている。 私たちのコードとデータはhttps://zero1778.github.io/blur2blur/で公開されています。

This paper presents an innovative framework designed to train an image deblurring algorithm tailored to a specific camera device. This algorithm works by transforming a blurry input image, which is challenging to deblur, into another blurry image that is more amenable to deblurring. The transformation process, from one blurry state to another, leverages unpaired data consisting of sharp and blurry images captured by the target camera device. Learning this blur-to-blur transformation is inherently simpler than direct blur-to-sharp conversion, as it primarily involves modifying blur patterns rather than the intricate task of reconstructing fine image details. The efficacy of the proposed approach has been demonstrated through comprehensive experiments on various benchmarks, where it significantly outperforms state-of-the-art methods both quantitatively and qualitatively. Our code and data are available at https://zero1778.github.io/blur2blur/
翻訳日:2024-03-26 17:06:13 公開日:2024-03-24
# 新たなグラフニューラルネットワークによる地震検出

Rumor Detection with a novel graph neural network approach ( http://arxiv.org/abs/2403.16206v1 )

ライセンス: Link先を確認
Tianrui Liu, Qi Cai, Changxin Xu, Zhanxin Zhou, Fanghao Ni, Yuxin Qiao, Tsungwei Yang, (参考訳) ソーシャルメディアの噂が広まれば、人々の日常生活に悪影響を及ぼし、パニックや恐怖、精神的な健康問題を引き起こしている。 噂をできるだけ早く消し去る方法はまだ難しい問題だ。 既存の研究は主に情報伝達構造を利用して噂を検知するが、ユーザ間の相関に注目する研究はほとんどない。 本稿では,ソーシャルメディア上でのうわさを検出するために,ユーザ相関と情報伝達の両表現を共同で学習する新しい検出モデルを提案する。 具体的には、グラフニューラルネットワークを利用して、ユーザとソースツイートの相関関係を記述する二部グラフと、ツリー構造による情報伝達の表現から、ユーザ相関の表現を学習する。 次に、これらの2つのモジュールから得られた表現を組み合わせて、噂を分類する。 悪意のあるユーザはデプロイ後に我々のモデルを覆すつもりなので、グラフ攻撃、コメント攻撃、共同攻撃という3つの敵攻撃のコストを分析するための欲張り攻撃スキームをさらに発展させます。 2つの公開データセットの評価結果は、提案したMODELが最先端の噂検出モデルより優れていることを示している。 また,本手法は早期のうわさ検出にも有効であることを示す。 さらに,提案手法は,既存手法と比較して,敵攻撃に対してより堅牢である。 重要なことは、攻撃者がユーザ相関パターンを覆すのに高いコストが必要であることを示し、うわさ検出のためにユーザ相関を考慮することが重要であることを示す。

The wide spread of rumors on social media has caused a negative impact on people's daily life, leading to potential panic, fear, and mental health problems for the public. How to debunk rumors as early as possible remains a challenging problem. Existing studies mainly leverage information propagation structure to detect rumors, while very few works focus on correlation among users that they may coordinate to spread rumors in order to gain large popularity. In this paper, we propose a new detection model, that jointly learns both the representations of user correlation and information propagation to detect rumors on social media. Specifically, we leverage graph neural networks to learn the representations of user correlation from a bipartite graph that describes the correlations between users and source tweets, and the representations of information propagation with a tree structure. Then we combine the learned representations from these two modules to classify the rumors. Since malicious users intend to subvert our model after deployment, we further develop a greedy attack scheme to analyze the cost of three adversarial attacks: graph attack, comment attack, and joint attack. Evaluation results on two public datasets illustrate that the proposed MODEL outperforms the state-of-the-art rumor detection models. We also demonstrate our method performs well for early rumor detection. Moreover, the proposed detection method is more robust to adversarial attacks compared to the best existing method. Importantly, we show that it requires a high cost for attackers to subvert user correlation pattern, demonstrating the importance of considering user correlation for rumor detection.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# Skull-to-Face:解剖学的ガイドによる顔面再建と編集

Skull-to-Face: Anatomy-Guided 3D Facial Reconstruction and Editing ( http://arxiv.org/abs/2403.16207v1 )

ライセンス: Link先を確認
Yongqing Liang, Congyi Zhang, Junli Zhao, Wenping Wang, Xin Li, (参考訳) 頭蓋骨から3D顔を引き出すことは、法科学と考古学において不可欠だが難しい課題である。 組織深度の粗い頭蓋骨が皮膚の顔を完全に決定できないという問題の非決定性に苦しむ既存の顔面再建法では、不正確な結果が得られる。 さらに、テクスチャレスの結果は、フォトリアリスティックな外観を達成するために、さらに後処理の段階を必要とする。 本稿では,3次元顔のテクスチャを基準として,エンドツーエンドの3次元顔再構成・探索ツールを提案する。 最先端のテキスト・画像拡散モデルと画像に基づく顔再構成技術を用いて、生体プロファイルが与えられた頭蓋骨と一致した初期参照3D顔を生成する。 そして、これらの初期顔は、最適化プロセスを通じて頭蓋骨の解剖学的特徴の統計的期待を満たすように適応する。 組織深度の統計的共同分布は、頭蓋骨上の小さな解剖学的ランドマークのセットで学習される。 そこで本稿では,組織深度の調整を支援するために,組織深度を世界あるいは地域,かつ可視的な視覚的フィードバックを観察しながら支援する,効率的な顔適応ツールを提案する。 実際の頭蓋顔面データセットを用いて行った実験は、再建精度、多様性、安定性の観点から、提案したパイプラインの有効性を実証した。

Deducing the 3D face from a skull is an essential but challenging task in forensic science and archaeology. Existing methods for automated facial reconstruction yield inaccurate results, suffering from the non-determinative nature of the problem that a skull with a sparse set of tissue depth cannot fully determine the skinned face. Additionally, their texture-less results require further post-processing stages to achieve a photo-realistic appearance. This paper proposes an end-to-end 3D face reconstruction and exploration tool, providing textured 3D faces for reference. With the help of state-of-the-art text-to-image diffusion models and image-based facial reconstruction techniques, we generate an initial reference 3D face, whose biological profile aligns with the given skull. We then adapt these initial faces to meet the statistical expectations of extruded anatomical landmarks on the skull through an optimization process. The joint statistical distribution of tissue depths is learned on a small set of anatomical landmarks on the skull. To support further adjustment, we propose an efficient face adaptation tool to assist users in tuning tissue depths, either globally or at local regions, while observing plausible visual feedback. Experiments conducted on a real skull-face dataset demonstrated the effectiveness of our proposed pipeline in terms of reconstruction accuracy, diversity, and stability.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 試料生成のためのOT流の収束解析

Convergence analysis of OT-Flow for sample generation ( http://arxiv.org/abs/2403.16208v1 )

ライセンス: Link先を確認
Yang Jing, Lei Li, (参考訳) 深層生成モデルは、基礎となるデータの分布を学習し、新しいデータを生成することを目的としている。 生成モデルの多様性と実際の高品質な生成性能にもかかわらず、そのほとんどは厳密な理論的収束証明を欠いている。 本研究では,深層生成モデルの1つであるOT-Flowの収束結果を確立することを目的としている。 まず、OT-Flowモデルの枠組みを再構築することにより、対応する最適輸送(OT)問題に対するOT-フローの定式化の$\Gamma$-convergenceを、正規化項パラメータ$\alpha$が無限に進むものとして確立する。 第二に、損失関数はモンテカルロ法によって訓練中に近似されるので、サンプル数$N$が無限大となるとき、離散損失関数と連続損失関数との収束性を確立した。 一方、ニューラルネットワークの近似能力は、最小化器の離散損失関数の上限を与える。 両方の面での証明は、OT-Flowの説得力のある保証を提供する。

Deep generative models aim to learn the underlying distribution of data and generate new ones. Despite the diversity of generative models and their high-quality generation performance in practice, most of them lack rigorous theoretical convergence proofs. In this work, we aim to establish some convergence results for OT-Flow, one of the deep generative models. First, by reformulating the framework of OT-Flow model, we establish the $\Gamma$-convergence of the formulation of OT-flow to the corresponding optimal transport (OT) problem as the regularization term parameter $\alpha$ goes to infinity. Second, since the loss function will be approximated by Monte Carlo method in training, we established the convergence between the discrete loss function and the continuous one when the sample number $N$ goes to infinity as well. Meanwhile, the approximation capability of the neural network provides an upper bound for the discrete loss function of the minimizers. The proofs in both aspects provide convincing assurances for OT-Flow.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# ニュースレポーティングシナリオにおける画像キャプション

Image Captioning in news report scenario ( http://arxiv.org/abs/2403.16209v1 )

ライセンス: Link先を確認
Tianrui Liu, Qi Cai, Changxin Xu, Zhanxin Zhou, Jize Xiong, Yuxin Qiao, Tsungwei Yang, (参考訳) 画像キャプションは、特定の画像に対して関連するキャプションを生成し、コンピュータビジョン(CV)と自然言語処理(NLP)の交差点に自分自身を配置する。 この取り組みは、レコメンデーションシステム、ニュースメディア、ソーシャルメディアなどにおける広範囲の応用において、最重要事項である。 特にニュース報道の領域では、キャプションには、画像に写っている有名人の身元などの詳細な情報が含まれることが期待されている。 しかし、既存の作品の多くは、主に場面や行動を理解することに焦点を当てている。 本稿では,有名人の写真に特化された画像キャプションの領域を探求し,ニュース産業の実践強化の可能性について考察する。 この調査は、自動ニュースコンテンツ生成を強化し、より曖昧な情報発信を容易にすることを目的としている。 私たちの取り組みは、より直感的な画像キャプションフレームワークを通じて、ニュースレポートの物語を豊かにする、より広い視野を示している。

Image captioning strives to generate pertinent captions for specified images, situating itself at the crossroads of Computer Vision (CV) and Natural Language Processing (NLP). This endeavor is of paramount importance with far-reaching applications in recommendation systems, news outlets, social media, and beyond. Particularly within the realm of news reporting, captions are expected to encompass detailed information, such as the identities of celebrities captured in the images. However, much of the existing body of work primarily centers around understanding scenes and actions. In this paper, we explore the realm of image captioning specifically tailored for celebrity photographs, illustrating its broad potential for enhancing news industry practices. This exploration aims to augment automated news content generation, thereby facilitating a more nuanced dissemination of information. Our endeavor shows a broader horizon, enriching the narrative in news reporting through a more intuitive image captioning framework.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# Frankenstein: セマンティック・コメンデーショナルな3Dシーンを1つのトリプレーンで生成する

Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane ( http://arxiv.org/abs/2403.16210v1 )

ライセンス: Link先を確認
Han Yan, Yang Li, Zhennan Wu, Shenzhou Chen, Weixuan Sun, Taizhang Shang, Weizhe Liu, Tian Chen, Xiaqiang Dai, Chao Ma, Hongdong Li, Pan Ji, (参考訳) 拡散に基づくフレームワークであるFrankensteinについて述べる。 単一の統一された3次元形状を出力する既存の方法とは異なり、フランケンシュタインは同時に複数の分離された形状を生成し、それぞれが意味的に意味のある部分に対応する。 3Dシーン情報を1つの3平面テンソルに符号化し、そこから複数のSDFフィールドをデコードして構成形状を表現する。 トレーニング中、オートエンコーダは三面体を潜在空間に圧縮し、次に、合成シーンの分布を近似するために偏極拡散過程を用いる。 フランケンシュタインは、部屋の内部と、自動的に分離された部分を持つ人間のアバターを生成するという有望な結果を実証している。 生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。

We present Frankenstein, a diffusion-based framework that can generate semantic-compositional 3D scenes in a single pass. Unlike existing methods that output a single, unified 3D shape, Frankenstein simultaneously generates multiple separated shapes, each corresponding to a semantically meaningful part. The 3D scene information is encoded in one single tri-plane tensor, from which multiple Singed Distance Function (SDF) fields can be decoded to represent the compositional shapes. During training, an auto-encoder compresses tri-planes into a latent space, and then the denoising diffusion process is employed to approximate the distribution of the compositional scenes. Frankenstein demonstrates promising results in generating room interiors as well as human avatars with automatically separated parts. The generated scenes facilitate many downstream applications, such as part-wise re-texturing, object rearrangement in the room or avatar cloth re-targeting.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# アルツハイマー診断における高精度MRI分類のための深層学習とXception Architectureの活用

Leveraging Deep Learning and Xception Architecture for High-Accuracy MRI Classification in Alzheimer Diagnosis ( http://arxiv.org/abs/2403.16212v1 )

ライセンス: Link先を確認
Shaojie Li, Haichen Qu, Xinqi Dong, Bo Dang, Hengyi Zang, Yulu Gong, (参考訳) 医学診断分野におけるディープラーニング技術の応用を探求するMRI(Magnetic Resonance Imaging)は、アルツハイマー病(AD)のような複雑な神経変性疾患の観察と診断にユニークな視点を提供する。 ディープラーニング,特に畳み込みニューラルネットワーク(CNN)とXceptionネットワークアーキテクチャの進歩により,大量のMRIデータを前例のない精度で分析・分類することが可能になった。 この技術の進歩は、脳構造の変化に対する理解を深めるだけでなく、非侵襲的な方法で疾患の進行をモニタリングするための新たな道を開く。 本研究では、深層学習モデルを用いてMRI画像の分類を行い、一連の革新的なデータ処理とモデル構築手順を通じてアルツハイマー病の異なるステージを特定することを目的とする。 実験の結果,Xceptionモデルに基づくディープラーニングフレームワークは,多クラスMRI画像分類タスクにおいて99.6%の精度を達成し,支援診断における潜在的な適用価値を示した。 今後の研究は、より早期の診断とパーソナライズされた治療計画をアルツハイマー病患者にもたらすことを目的として、データセットの拡大、モデル解釈可能性の向上、医療分野におけるディープラーニング技術のさらなる適用を促進するための臨床検証に焦点を当てる。

Exploring the application of deep learning technologies in the field of medical diagnostics, Magnetic Resonance Imaging (MRI) provides a unique perspective for observing and diagnosing complex neurodegenerative diseases such as Alzheimer Disease (AD). With advancements in deep learning, particularly in Convolutional Neural Networks (CNNs) and the Xception network architecture, we are now able to analyze and classify vast amounts of MRI data with unprecedented accuracy. The progress of this technology not only enhances our understanding of brain structural changes but also opens up new avenues for monitoring disease progression through non-invasive means and potentially allows for precise diagnosis in the early stages of the disease. This study aims to classify MRI images using deep learning models to identify different stages of Alzheimer Disease through a series of innovative data processing and model construction steps. Our experimental results show that the deep learning framework based on the Xception model achieved a 99.6% accuracy rate in the multi-class MRI image classification task, demonstrating its potential application value in assistive diagnosis. Future research will focus on expanding the dataset, improving model interpretability, and clinical validation to further promote the application of deep learning technology in the medical field, with the hope of bringing earlier diagnosis and more personalized treatment plans to Alzheimer Disease patients.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 線形力学系のための連続時間ニューラルネットワークの体系的構築

Systematic construction of continuous-time neural networks for linear dynamical systems ( http://arxiv.org/abs/2403.16215v1 )

ライセンス: Link先を確認
Chinmay Datar, Adwait Datar, Felix Dietrich, Wil Schilders, (参考訳) 複雑な力学系のモデリングに適したニューラルネットワークアーキテクチャを発見することは、しばしば大規模な試行錯誤と高次元ハイパーパラメータ空間でのナビゲーションを含む、重大な課題となる。 本稿では,動的システムのサブクラス,すなわち線形時間不変系(LTI)をモデル化するためのニューラルネットワーク構築の体系的アプローチについて議論する。 我々は、各ニューロンの出力が1次または2次正規微分方程式(ODE)の解として連続的に進化する連続時間ニューラルネットワークの変種を用いる。 データからネットワークアーキテクチャとパラメータを導出する代わりに、与えられたLTIシステムから直接スパースアーキテクチャとネットワークパラメータを計算し、その特性を利用する勾配のないアルゴリズムを提案する。 水平に隠された層を特徴とする新しいニューラルアーキテクチャパラダイムを導入し、垂直に隠された層を持つ従来のニューラルアーキテクチャを採用することが、なぜ好ましくないのかを考察する。 また、ニューラルネットワークの数値誤差の上限も提供します。 最後に,3つの数値例で構築したネットワークの高精度性を実証する。

Discovering a suitable neural network architecture for modeling complex dynamical systems poses a formidable challenge, often involving extensive trial and error and navigation through a high-dimensional hyper-parameter space. In this paper, we discuss a systematic approach to constructing neural architectures for modeling a subclass of dynamical systems, namely, Linear Time-Invariant (LTI) systems. We use a variant of continuous-time neural networks in which the output of each neuron evolves continuously as a solution of a first-order or second-order Ordinary Differential Equation (ODE). Instead of deriving the network architecture and parameters from data, we propose a gradient-free algorithm to compute sparse architecture and network parameters directly from the given LTI system, leveraging its properties. We bring forth a novel neural architecture paradigm featuring horizontal hidden layers and provide insights into why employing conventional neural architectures with vertical hidden layers may not be favorable. We also provide an upper bound on the numerical errors of our neural networks. Finally, we demonstrate the high accuracy of our constructed networks on three numerical examples.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# CoverUp:Coverage-Guided LLMベースのテスト生成

CoverUp: Coverage-Guided LLM-Based Test Generation ( http://arxiv.org/abs/2403.16218v1 )

ライセンス: Link先を確認
Juan Altmayer Pizzorno, Emery D. Berger, (参考訳) 本稿では,カバレッジ分析と大規模言語モデル(LLM)を組み合わせることで,ハイカバレッジPython回帰テストを生成する新しいシステムであるCoverUpを提案する。 CoverUpはカバレッジを反復的に改善し、カバー分析とLDMとのダイアログをインターリーブして、まだ発見されていない行やブランチに集中する。 ハイブリッドLLM/検索ベースのソフトウェアテスティングシステムであるCodaMosaと比較して、CoverUpはボード全体のカバレッジを大幅に改善します。 モジュール単位では、CoverUpは81%(vs. 62%)、ブランチカバレッジは53%(vs. 35%)、行+ブランチカバレッジは78%(vs. 55%)である。 CoverUpの反復的なカバレッジ誘導アプローチが、その効果に不可欠であることを示し、その成功のほぼ半分に寄与している。

This paper presents CoverUp, a novel system that drives the generation of high-coverage Python regression tests via a combination of coverage analysis and large-language models (LLMs). CoverUp iteratively improves coverage, interleaving coverage analysis with dialogs with the LLM to focus its attention on as yet uncovered lines and branches. The resulting test suites significantly improve coverage over the current state of the art: compared to CodaMosa, a hybrid LLM / search-based software testing system, CoverUp substantially improves coverage across the board. On a per-module basis, CoverUp achieves median line coverage of 81% (vs. 62%), branch coverage of 53% (vs. 35%) and line+branch coverage of 78% (vs. 55%). We show that CoverUp's iterative, coverage-guided approach is crucial to its effectiveness, contributing to nearly half of its successes.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# インクリメンタル表現による経験的自由クラスインクリメンタルラーニング

Exemplar-Free Class Incremental Learning via Incremental Representation ( http://arxiv.org/abs/2403.16221v1 )

ライセンス: Link先を確認
Libo Huang, Zhulin An, Yan Zeng, Chuanguang Yang, Xinqiang Yu, Yongjun Xu, (参考訳) Exemplar-Free Class Incremental Learning (efCIL) は、新しいクラスからの知識を継続的に取り入れつつ、以前の学習情報を保持しながら、古いクラスの例(例題:サンプル)を保存することを目的としている。 この目的のために、様々なefCIL法がここ数年にわたって提案され、一般的には精巧に構築された古い擬似機能により、モデル開発と解釈の難しさが増している。 対照的に、古い擬似機能を構築することなく、efCIL のための \textbf{simple Incremental Representation (IR) フレームワークを提案する。 IRはデータセット拡張を利用して、適切な特徴空間をカバーし、単一のL2スペースメンテナンス損失を使用することでモデルを忘れないようにしている。 我々はシーケンスタスクのそれぞれで訓練された過渡的分類器を破棄し、代わりに1近傍の分類器に置き換えて推論し、CIL中にその表現が漸進的に更新されることを保証する。 CIFAR100, TinyImageNet, ImageNetSubsetデータセットにおいて, 提案したIRは, モデルが無視することを著しく防ぎながら, 同等の性能を発揮することを示した。

Exemplar-Free Class Incremental Learning (efCIL) aims to continuously incorporate the knowledge from new classes while retaining previously learned information, without storing any old-class exemplars (i.e., samples). For this purpose, various efCIL methods have been proposed over the past few years, generally with elaborately constructed old pseudo-features, increasing the difficulty of model development and interpretation. In contrast, we propose a \textbf{simple Incremental Representation (IR) framework} for efCIL without constructing old pseudo-features. IR utilizes dataset augmentation to cover a suitable feature space and prevents the model from forgetting by using a single L2 space maintenance loss. We discard the transient classifier trained on each one of the sequence tasks and instead replace it with a 1-near-neighbor classifier for inference, ensuring the representation is incrementally updated during CIL. Extensive experiments demonstrate that our proposed IR achieves comparable performance while significantly preventing the model from forgetting on CIFAR100, TinyImageNet, and ImageNetSubset datasets.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 階層的非負行列分解によるサイバーセキュリティ知識グラフ生成

Cyber-Security Knowledge Graph Generation by Hierarchical Nonnegative Matrix Factorization ( http://arxiv.org/abs/2403.16222v1 )

ライセンス: Link先を確認
Ryan Barron, Maksim E. Eren, Manish Bhattarai, Nicholas Solovyev, Kim Rasmussen, Boian S. Alexandrov, Charles Nicholas, Cynthia Matuszek, (参考訳) サイバーセキュリティに関する人間の知識の多くは、増え続ける科学論文の中にカプセル化されている。 このテキストデータの拡大が進むにつれて、大規模なテキストデータセットに隠された実行可能な洞察を抽出する上で、ドキュメント組織手法の重要性がますます重要になっている。 知識グラフ(英: Knowledge Graphs、略称:KG)は、知識グラフ(英: Knowledge Graphs、略称:KG)は、知識グラフ(英: Knowledge Graphs、略称:KG)とは、知識グラフ(英: Knowledge Graphs、略称:KG)と、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG 科学文献からKGを構築する際の課題の1つは、構造化されていないテキストからオントロジーを抽出することである。 本稿では, 論文から構造オントロジーを抽出し, マルチモーダルKGを構築する手法を提案する。 我々はこの概念をサイバーセキュリティ領域で実証する。 KGの1つのモダリティは、出版されたカテゴリや著者などの論文から得られる観測可能な情報を表している。 第2のモダリティは、名前付きエンティティ、トピック、クラスタ、キーワードなどの階層的および意味論的非負の行列分解(NMF)によって抽出されたテキストの潜在(隠れ)パターンを明らかにする。 我々は、arXivにアップロードされた200万件以上の科学論文をサイバードメインに集約し、階層的および意味的なNMFを使用して、サイバードメイン固有のKGを構築することで、この概念を説明する。

Much of human knowledge in cybersecurity is encapsulated within the ever-growing volume of scientific papers. As this textual data continues to expand, the importance of document organization methods becomes increasingly crucial for extracting actionable insights hidden within large text datasets. Knowledge Graphs (KGs) serve as a means to store factual information in a structured manner, providing explicit, interpretable knowledge that includes domain-specific information from the cybersecurity scientific literature. One of the challenges in constructing a KG from scientific literature is the extraction of ontology from unstructured text. In this paper, we address this topic and introduce a method for building a multi-modal KG by extracting structured ontology from scientific papers. We demonstrate this concept in the cybersecurity domain. One modality of the KG represents observable information from the papers, such as the categories in which they were published or the authors. The second modality uncovers latent (hidden) patterns of text extracted through hierarchical and semantic non-negative matrix factorization (NMF), such as named entities, topics or clusters, and keywords. We illustrate this concept by consolidating more than two million scientific papers uploaded to arXiv into the cyber-domain, using hierarchical and semantic NMF, and by building a cyber-domain-specific KG.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# ニューラル・プレノプティカル・ファンクションと放射場を用いた光沢物体の逆レンダリング

Inverse Rendering of Glossy Objects via the Neural Plenoptic Function and Radiance Fields ( http://arxiv.org/abs/2403.16224v1 )

ライセンス: Link先を確認
Haoyuan Wang, Wenbo Hu, Lei Zhu, Rynson W. H. Lau, (参考訳) 逆レンダリングは、オブジェクトの幾何学と材料の両方を復元することを目的としている。 従来のレンダリングエンジンに対して、NeRF(Neural Radiance Field)と比較して、より互換性のある再構築を提供する。 一方、既存のNeRFベースの逆レンダリング手法では、局所的な光相互作用を持つ光沢のある物体も扱えない。 放射界回復におけるNeRFの優位性を考察し,より正確な光・物体相互作用をレンダリング方程式により定式化できるように,NeRFとレイトレーシングに基づく新しい5次元ニューラルプレノプティクス関数(NeP)を提案する。 また, BRDFローブ内部の光を, 予めフィルターした放射界の助けを借りて効率的に統合するための材料対応コーンサンプリング戦略を設計した。 提案手法は, 対象物体の幾何と, 予めフィルタした環境放射界の形状を第1段階で再構成し, 提案したNePおよび物質対応コーンサンプリング戦略を用いて, 対象物体の材料を第2段階で推定する。 提案した実世界および合成データセットの大規模な実験により, 近辺の物体からの複雑な光相互作用を伴う難解な光沢のある物体の高忠実な形状・材料を再構成できることが実証された。 プロジェクトのWebページ: https://whyy.site/paper/nep

Inverse rendering aims at recovering both geometry and materials of objects. It provides a more compatible reconstruction for conventional rendering engines, compared with the neural radiance fields (NeRFs). On the other hand, existing NeRF-based inverse rendering methods cannot handle glossy objects with local light interactions well, as they typically oversimplify the illumination as a 2D environmental map, which assumes infinite lights only. Observing the superiority of NeRFs in recovering radiance fields, we propose a novel 5D Neural Plenoptic Function (NeP) based on NeRFs and ray tracing, such that more accurate lighting-object interactions can be formulated via the rendering equation. We also design a material-aware cone sampling strategy to efficiently integrate lights inside the BRDF lobes with the help of pre-filtered radiance fields. Our method has two stages: the geometry of the target object and the pre-filtered environmental radiance fields are reconstructed in the first stage, and materials of the target object are estimated in the second stage with the proposed NeP and material-aware cone sampling strategy. Extensive experiments on the proposed real-world and synthetic datasets demonstrate that our method can reconstruct high-fidelity geometry/materials of challenging glossy objects with complex lighting interactions from nearby objects. Project webpage: https://whyy.site/paper/nep
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# インテリジェントトランスポートシステムのためのデュアルモーダル事前セマンティック誘導赤外・可視画像融合

Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System ( http://arxiv.org/abs/2403.16227v1 )

ライセンス: Link先を確認
Jing Li, Lu Bai, Bin Yang, Chang Li, Lingfei Ma, Lixin Cui, Edwin R. Hancock, (参考訳) 近赤外・可視画像融合(IVF)は知的輸送システム(ITS)において重要な役割を担っている。 初期の研究は主に融合した結果の視覚的魅力を高めることに重点を置いており、近年では高レベルの視覚タスクとIVFを組み合わせるためのいくつかのアプローチが試みられている。 しかし、それらは、統一された特徴を求め、異なるタスクに適合するように、カスケード構造の設計を優先する。 したがって、それらは通常、意味的特徴の重要さを考慮せずに、生のピクセルを再構成する傾向にある。 そこで本研究では,2つのモダリティ戦略に基づく従来型セマンティックガイド画像融合手法を提案し,ITSにおけるIVFの性能を向上する。 具体的には、各モダリティの独立的な意味論を探求するため、まず2つの並列セマンティックセマンティックセマンティクス分岐を改良された特徴適応変調(RFaM)機構で設計する。 RFaMは、各セマンティックセグメンテーションブランチで十分なセマンティックな特徴を認識することができる。 次に、2つの枝に基づく2つの実験実験を行い、2つの画像の有意な先行的意味を捉え、その後、意味分割枝と融合枝の統合において融合タスクを導く。 さらに,ハイレベルなセマンティクスと印象的な視覚効果の両方を集約するために,先行セマンティクスの周波数応答をさらに検討し,低頻度な事前セマンティクスと高頻度の詳細を明示的に統合する多レベル表現適応融合(MRaF)モジュールを提案する。 2つの公開データセットに対する大規模な実験は、視覚的魅力と高レベルのセマンティクスの両方の観点から、最先端の画像融合アプローチよりも、我々の手法が優れていることを示す。

Infrared and visible image fusion (IVF) plays an important role in intelligent transportation system (ITS). The early works predominantly focus on boosting the visual appeal of the fused result, and only several recent approaches have tried to combine the high-level vision task with IVF. However, they prioritize the design of cascaded structure to seek unified suitable features and fit different tasks. Thus, they tend to typically bias toward to reconstructing raw pixels without considering the significance of semantic features. Therefore, we propose a novel prior semantic guided image fusion method based on the dual-modality strategy, improving the performance of IVF in ITS. Specifically, to explore the independent significant semantic of each modality, we first design two parallel semantic segmentation branches with a refined feature adaptive-modulation (RFaM) mechanism. RFaM can perceive the features that are semantically distinct enough in each semantic segmentation branch. Then, two pilot experiments based on the two branches are conducted to capture the significant prior semantic of two images, which then is applied to guide the fusion task in the integration of semantic segmentation branches and fusion branches. In addition, to aggregate both high-level semantics and impressive visual effects, we further investigate the frequency response of the prior semantics, and propose a multi-level representation-adaptive fusion (MRaF) module to explicitly integrate the low-frequent prior semantic with the high-frequent details. Extensive experiments on two public datasets demonstrate the superiority of our method over the state-of-the-art image fusion approaches, in terms of either the visual appeal or the high-level semantics.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 原子間力顕微鏡による画像分類・試料表面認識のための機械学習解析

On machine learning analysis of atomic force microscopy images for image classification, sample surface recognition ( http://arxiv.org/abs/2403.16230v1 )

ライセンス: Link先を確認
Igor Sokolov, (参考訳) 原子間力顕微鏡(AFMまたはSPM)イメージングは、顕微鏡技術の中でも機械学習(ML)分析に最適である。 AFM画像のデジタルフォーマットは、追加処理を必要とせずにMLアルゴリズムで直接利用することができる。 さらに、AFMはサンプル表面の12以上の異なる物理化学的性質の分布を同時に撮像することができる。 この豊富な情報は従来の手法で分析することは難しいが、MLはこのタスクに対してシームレスなアプローチを提供する。 しかし、AFM画像の比較的遅い速度は、画像認識に広く使われているディープラーニング手法を適用する上での課題となっている。 このProspectiveは、比較的少数のAFMイメージ、小さなデータベースを使用する場合、ML認識/分類に重点を置いている。 本稿では,一般的なディープラーニングニューラルネットワーク以外のML手法について論じる。 説明されたアプローチは、すでに生物学的細胞の表面の分析と分類に成功している。 医学的画像、特定の材料処理、法医学的な研究、さらには芸術の真正性を識別するために応用することができる。 AFMに特異的なML解析のための一般的なテンプレートが提案されている。 得られた結果の統計的意義の分析には特に注意が払われるが、これは機械学習を扱う論文でしばしば見過ごされる重要な特徴である。 統計的意義を見出すための簡単な方法についても述べる。

Atomic force microscopy (AFM or SPM) imaging is one of the best matches with machine learning (ML) analysis among microscopy techniques. The digital format of AFM images allows for direct utilization in ML algorithms without the need for additional processing. Additionally, AFM enables the simultaneous imaging of distributions of over a dozen different physicochemical properties of sample surfaces, a process known as multidimensional imaging. While this wealth of information can be challenging to analyze using traditional methods, ML provides a seamless approach to this task. However, the relatively slow speed of AFM imaging poses a challenge in applying deep learning methods broadly used in image recognition. This Prospective is focused on ML recognition/classification when using a relatively small number of AFM images, small database. We discuss ML methods other than popular deep-learning neural networks. The described approach has already been successfully used to analyze and classify the surfaces of biological cells. It can be applied to recognize medical images, specific material processing, in forensic studies, even to identify the authenticity of arts. A general template for ML analysis specific to AFM is suggested, with a specific example of the identification of cell phenotype. Special attention is given to the analysis of the statistical significance of the obtained results, an important feature that is often overlooked in papers dealing with machine learning. A simple method for finding statistical significance is also described.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 雑音の異なる確率的疾患拡散モデルに基づく早期警戒指標

An early warning indicator trained on stochastic disease-spreading models with different noises ( http://arxiv.org/abs/2403.16233v1 )

ライセンス: Link先を確認
Amit K. Chakraborty, Shan Gao, Reza Miry, Pouria Ramazi, Russell Greiner, Mark A. Lewis, Hao Wang, (参考訳) 早期警戒信号(EWS)による流行のタイムリーな検出は、公衆衛生の効果的な緩和戦略に不可欠である。 それにもかかわらず、様々なノイズ源や限られたデータの影響を受けやすい現実世界の病気の複雑なダイナミクスは、既存の指標の性能が外生的・内生的なノイズによって異なるため、信頼性の高いEWSを開発する上で大きな課題となる。 ここでは, 付加的な白色雑音, 乗算的環境騒音, 人口統計ノイズによって測定値が劣化した場合に, 疾患をモデル化することの課題に対処する。 これらのノイズ源によって引き起こされる複雑さをナビゲートするために、ノイズ誘発疾患拡散モデルのトレーニングにより、感染症発生におけるEWSを提供するディープラーニングアルゴリズムを用いる。 この指標の有効性は、Edmontonの現実のCOVID-19患者への応用と、ノイズに影響された様々な疾患の拡散モデルから導かれるシミュレーション時系列によって実証される。 特に、この指標は、一連の病気の流行で差し迫った変化を捉え、既存の指標よりも優れています。 本研究は, 現実世界の病原体の複雑な動態に対処し, 公衆衛生の充実と対応への道筋を示すことにより, 早期警戒能力の向上に寄与する。

The timely detection of disease outbreaks through reliable early warning signals (EWSs) is indispensable for effective public health mitigation strategies. Nevertheless, the intricate dynamics of real-world disease spread, often influenced by diverse sources of noise and limited data in the early stages of outbreaks, pose a significant challenge in developing reliable EWSs, as the performance of existing indicators varies with extrinsic and intrinsic noises. Here, we address the challenge of modeling disease when the measurements are corrupted by additive white noise, multiplicative environmental noise, and demographic noise into a standard epidemic mathematical model. To navigate the complexities introduced by these noise sources, we employ a deep learning algorithm that provides EWS in infectious disease outbreak by training on noise-induced disease-spreading models. The indicator's effectiveness is demonstrated through its application to real-world COVID-19 cases in Edmonton and simulated time series derived from diverse disease spread models affected by noise. Notably, the indicator captures an impending transition in a time series of disease outbreaks and outperforms existing indicators. This study contributes to advancing early warning capabilities by addressing the intricate dynamics inherent in real-world disease spread, presenting a promising avenue for enhancing public health preparedness and response efforts.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 心内膜MRIにおける運動追跡のための低位群変形

Low Rank Groupwise Deformations for Motion Tracking in Cardiac Cine MRI ( http://arxiv.org/abs/2403.16240v1 )

ライセンス: Link先を確認
Sean Rendell, Jinming Duan, (参考訳) 拡散型画像登録は、ある画像が他の画像と類似するように変形する一般的な方法である。 一つの画像を別の画像にワープすることは有用であるが、複数の画像を同時にワープすることが有利である。 本稿では,対象画像にグループや画像列を登録できる新しい手法を提案する。 さらに,これらの登録画像は,対象画像と密接に類似することを目標としている。 実験により,本手法の低ランク群方向変形に対する優れた効果を,他の最先端手法と比較して実証する。

Diffeomorphic image registration is a commonly used method to deform one image to resemble another. While warping a single image to another is useful, it can be advantageous to warp multiple images simultaneously, such as in tracking the motion of the heart across a sequence of images. In this paper, our objective is to propose a novel method capable of registering a group or sequence of images to a target image, resulting in registered images that appear identical and therefore have a low rank. Moreover, we aim for these registered images to closely resemble the target image. Through experimental evidence, we will demonstrate our method's superior efficacy in producing low-rank groupwise deformations compared to other state-of-the-art approaches.
翻訳日:2024-03-26 16:56:25 公開日:2024-03-24
# 教師なし領域適応のための逆マスク映像整合性

Adversarially Masked Video Consistency for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.16242v1 )

ライセンス: Link先を確認
Xiaoyu Zhu, Junwei Liang, Po-Yao Huang, Alex Hauptmann, (参考訳) 自己中心型ビデオにおける教師なしドメイン適応の問題について検討する。 本稿では,クラス識別的特徴表現とドメイン不変特徴表現を学習するトランスフォーマーモデルを提案する。 2つの新しいデザインで構成されている。 最初のモジュールはGenerative Adversarial Domain Alignment Networkと呼ばれ、ドメイン不変表現の学習を目的としている。 マスクジェネレータとドメイン不変エンコーダを対角的に同時に学習する。 ドメイン不変エンコーダは、ソースとターゲットドメイン間の距離を最小限に抑えるために訓練される。 逆にマスク生成器は、ドメイン距離を最大化し、挑戦的なマスクを生成することを目的としている。 2つ目は、クラス識別表現を学習するMasked Consistency Learningモジュールである。 マスクされたターゲットビデオとそのフルフォーム間の予測一貫性を強制する。 ドメイン適応手法の有効性をよりよく評価するために,エゴセントリックビデオのより困難なベンチマークであるU-Ego4Dを構築した。 提案手法は,Epic-Kitchenと提案したU-Ego4Dベンチマークの最先端性能を実現する。

We study the problem of unsupervised domain adaptation for egocentric videos. We propose a transformer-based model to learn class-discriminative and domain-invariant feature representations. It consists of two novel designs. The first module is called Generative Adversarial Domain Alignment Network with the aim of learning domain-invariant representations. It simultaneously learns a mask generator and a domain-invariant encoder in an adversarial way. The domain-invariant encoder is trained to minimize the distance between the source and target domain. The masking generator, conversely, aims at producing challenging masks by maximizing the domain distance. The second is a Masked Consistency Learning module to learn class-discriminative representations. It enforces the prediction consistency between the masked target videos and their full forms. To better evaluate the effectiveness of domain adaptation methods, we construct a more challenging benchmark for egocentric videos, U-Ego4D. Our method achieves state-of-the-art performance on the Epic-Kitchen and the proposed U-Ego4D benchmark.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 合成データの等価性,置換性,柔軟性について

On the Equivalency, Substitutability, and Flexibility of Synthetic Data ( http://arxiv.org/abs/2403.16244v1 )

ライセンス: Link先を確認
Che-Jui Chang, Danrui Li, Seonghyeon Moon, Mubbasir Kapadia, (参考訳) 実証的な観点から,実世界のシナリオにおける合成データの有効性について検討した。 知覚モデルをトレーニングするための合成データを活用することは、その効率性、スケーラビリティ、完璧なアノテーション、低コストのためにコミュニティが受け入れる重要な戦略となっている。 証明された優位性にもかかわらず、現実の問題を解決するために合成データセットを効率的に生成する方法や、人工データによって実際のデータ収集の労力がどれだけ削減されるかに重点を置く研究はほとんどない。 そこで本研究では,合成データの実際のデータに対する等価性,実データに対する合成データの置換性,ドメインギャップを埋めるための合成データ生成装置の柔軟性など,合成データの興味深い性質について,系統的に検討する。 M3Act合成データジェネレータを活用し,DanceTrackとMOT17の実験を行った。 以上の結果から, 合成データによりモデル性能が向上するだけでなく, 実データへの置換性も向上し, 性能損失の60%から80%が置換可能であることが示唆された。 さらに, 合成データ分布が下流性能に与える影響について検討した結果, モデル適応性の向上のために, 領域ギャップを狭めることにおけるフレキシブルデータ生成器の重要性が明らかになった。

We study, from an empirical standpoint, the efficacy of synthetic data in real-world scenarios. Leveraging synthetic data for training perception models has become a key strategy embraced by the community due to its efficiency, scalability, perfect annotations, and low costs. Despite proven advantages, few studies put their stress on how to efficiently generate synthetic datasets to solve real-world problems and to what extent synthetic data can reduce the effort for real-world data collection. To answer the questions, we systematically investigate several interesting properties of synthetic data -- the equivalency of synthetic data to real-world data, the substitutability of synthetic data for real data, and the flexibility of synthetic data generators to close up domain gaps. Leveraging the M3Act synthetic data generator, we conduct experiments on DanceTrack and MOT17. Our results suggest that synthetic data not only enhances model performance but also demonstrates substitutability for real data, with 60% to 80% replacement without performance loss. In addition, our study of the impact of synthetic data distributions on downstream performance reveals the importance of flexible data generators in narrowing domain gaps for improved model adaptability.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 「人々はどう決めるのか?」:ソフトウェアライブラリの選択モデル

"How do people decide?": A Model for Software Library Selection ( http://arxiv.org/abs/2403.16245v1 )

ライセンス: Link先を確認
Minaoar Hossain Tanzil, Gias Uddin, Ann Barcomb, (参考訳) 現代のソフトウェア開発は、しばしばサードパーティのソフトウェアライブラリの再利用によって促進される。 ライブラリの選択に寄与する要因を理解するための大きな努力にもかかわらず、ライブラリをどのように選択するか、どのツールが選択プロセスをサポートするために必要なのかは、比較的不明である。 シュトラウス的基礎理論を用いて、世界中の24人の専門家のインタビューを調査、分析し、6つの選択パターン(すなわちルール)によって支配される図書館選択プロセスのモデルを構築した。 このモデルはマーケティング理論から派生したもので、開発者が考える技術的・非技術的側面を捉えるライブラリ選択ツールの開発の基礎を成している。

Modern-day software development is often facilitated by the reuse of third-party software libraries. Despite the significant effort to understand the factors contributing to library selection, it is relatively unknown how the libraries are selected and what tools are still needed to support the selection process. Using Straussian grounded theory, we conducted and analyzed the interviews of 24 professionals across the world and derived a model of library selection process which is governed by six selection patterns (i.e., rules). The model draws from marketing theory and lays the groundwork for the development of a library selection tool which captures the technical and non-technical aspects developers consider.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 部分的盲点未学習:ベイズ的視点によるディープ・ネットワークのための授業未学習

Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective ( http://arxiv.org/abs/2403.16246v1 )

ライセンス: Link先を確認
Subhodip Panda, Shashwat Sourav, Prathosh A. P, (参考訳) 個々のデータのプライバシと安全性を管理する規制基準に従うために、機械学習モデルは、もはや利用できないユーザーのトレーニングデータの特定のサブセットから派生した情報を体系的に排除する必要がある。 マシン・アンラーニング(Machine Unlearning)の新たな分野は、特定のデータセットやクラスのデータに指定された情報を、事前訓練されたモデルから選択的に排除し、スクラッチから広範なリトレーニングの必要性を排除し、研究の重要な領域として生まれてきた。 本研究の主な目的は,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報を意図的に除去するための方法論を定式化することである。 この意図的な除去は、未学習のデータクラスに関するモデルの性能を低下させると同時に、他のクラスにおけるモデルのパフォーマンスに対する有害な影響を同時に最小化するために行われる。 この目的を達成するために,パラメータ空間における安定正規化を伴う未学習データに付随するログ類似度を最小化する損失関数をベイズ的視点からクラス未学習問題に設定する。 この安定正規化は、フィッシャー情報行列に対するモハラノビス距離と、事前訓練されたモデルパラメータからの$l_2$距離を含む。 我々の新しいアプローチは、既存の最先端の未学習手法を超越し、優れた効果を示す。 特に、PBUはトレーニングデータセット全体の認識を必要とせずに、未学習のデータポイントのみにこの効果を達成し、そのパフォーマンスの特徴的な特徴を示す。

In order to adhere to regulatory standards governing individual data privacy and safety, machine learning models must systematically eliminate information derived from specific subsets of a user's training data that can no longer be utilized. The emerging discipline of Machine Unlearning has arisen as a pivotal area of research, facilitating the process of selectively discarding information designated to specific sets or classes of data from a pre-trained model, thereby eliminating the necessity for extensive retraining from scratch. The principal aim of this study is to formulate a methodology tailored for the purposeful elimination of information linked to a specific class of data from a pre-trained classification network. This intentional removal is crafted to degrade the model's performance specifically concerning the unlearned data class while concurrently minimizing any detrimental impacts on the model's performance in other classes. To achieve this goal, we frame the class unlearning problem from a Bayesian perspective, which yields a loss function that minimizes the log-likelihood associated with the unlearned data with a stability regularization in parameter space. This stability regularization incorporates Mohalanobis distance with respect to the Fisher Information matrix and $l_2$ distance from the pre-trained model parameters. Our novel approach, termed \textbf{Partially-Blinded Unlearning (PBU)}, surpasses existing state-of-the-art class unlearning methods, demonstrating superior effectiveness. Notably, PBU achieves this efficacy without requiring awareness of the entire training dataset but only to the unlearned data points, marking a distinctive feature of its performance.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# メタヒューリスティックアプローチによる抽象テキスト要約におけるシーケンス・ツー・シーケンスモデルの改善

Improving Sequence-to-Sequence Models for Abstractive Text Summarization Using Meta Heuristic Approaches ( http://arxiv.org/abs/2403.16247v1 )

ライセンス: Link先を確認
Aditya Saxena, Ashutosh Ranjan, (参考訳) 人的社会が情報時代へと移行するにつれ,注目度が低下する傾向にあり,長いニュース記事を読んでいる人は急速に減少し,簡潔な情報の必要性もこれまで以上に高まっている。 したがって、トップニュース記事と最も直感的な見出しを簡潔に要約することで、重要なニュースを素早く概観することが不可欠である。 人間が要約をしようとすると、ソースから必須情報を抽出し、元の抽出から有用なフレーズや文法アノテーションを追加する。 人間には抽象的な能力がある。 しかし、自動要約は解決が難しい問題である。 ニューラルネットワークの抽象的テキスト要約にSequence-to-Sequence(seq2seq)モデルを使用することは、流行まで上昇している。 現在のSeq2seqモデルをさらに発展させるための多くの革新的な戦略が提案されている。 本稿では,抽象的なテキスト要約のためのアーキテクチャとモデルを改良することを目的としている。 この修正は、特定のエンコーダとデコーダの組み合わせを試して、微調整されたハイパーパラメータをターゲットにしている。 そこで我々は,CNN/DailyMailデータセットを多用した実験を行い,各種モデルの有効性を確認した。

As human society transitions into the information age, reduction in our attention span is a contingency, and people who spend time reading lengthy news articles are decreasing rapidly and the need for succinct information is higher than ever before. Therefore, it is essential to provide a quick overview of important news by concisely summarizing the top news article and the most intuitive headline. When humans try to make summaries, they extract the essential information from the source and add useful phrases and grammatical annotations from the original extract. Humans have a unique ability to create abstractions. However, automatic summarization is a complicated problem to solve. The use of sequence-to-sequence (seq2seq) models for neural abstractive text summarization has been ascending as far as prevalence. Numerous innovative strategies have been proposed to develop the current seq2seq models further, permitting them to handle different issues like saliency, familiarity, and human lucidness and create excellent synopses. In this article, we aimed toward enhancing the present architectures and models for abstractive text summarization. The modifications have been aimed at fine-tuning hyper-parameters, attempting specific encoder-decoder combinations. We examined many experiments on an extensively used CNN/DailyMail dataset to check the effectiveness of various models.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 大規模言語モデルはトピックモデリングの伝統的なアプローチに代わるものを提供する

Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling ( http://arxiv.org/abs/2403.16248v1 )

ライセンス: Link先を確認
Yida Mu, Chun Dong, Kalina Bontcheva, Xingyi Song, (参考訳) トピックモデリングは、よく確立された教師なしの技術であり、文書のコーパス内の重要なトピックを自動的に検出するのに広く利用されている。 しかし、古典的なトピックモデリングアプローチ(例えばLDA)には、意味的理解の欠如や重複するトピックの存在など、何らかの欠点がある。 本研究では,大言語モデル (LLM) の未解決の可能性について検討する。 そこで本稿では, LLM に与えられた文書集合からトピックを生成するよう促すフレームワークを導入し, LLM のクラスタリングの有効性を評価するための評価プロトコルを確立する。 本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。 詳細な実験と評価を通じて,トピック抽出にLLMを用いることの利点と制約を要約する。

Topic modelling, as a well-established unsupervised technique, has found extensive use in automatically detecting significant topics within a corpus of documents. However, classic topic modelling approaches (e.g., LDA) have certain drawbacks, such as the lack of semantic understanding and the presence of overlapping topics. In this work, we investigate the untapped potential of large language models (LLMs) as an alternative for uncovering the underlying topics within extensive text corpora. To this end, we introduce a framework that prompts LLMs to generate topics from a given set of documents and establish evaluation protocols to assess the clustering efficacy of LLMs. Our findings indicate that LLMs with appropriate prompts can stand out as a viable alternative, capable of generating relevant topic titles and adhering to human guidelines to refine and merge topics. Through in-depth experiments and evaluation, we summarise the advantages and constraints of employing LLMs in topic extraction.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# Unlearning Backdoor Threats:ローカルトークンアンラーニングによるマルチモーダルコントラスト学習におけるバックドアディフェンスの強化

Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning ( http://arxiv.org/abs/2403.16257v1 )

ライセンス: Link先を確認
Siyuan Liang, Kuanrong Liu, Jiajun Gong, Jiawei Liang, Yuan Xun, Ee-Chien Chang, Xiaochun Cao, (参考訳) マルチモーダルコントラスト学習は、様々なデータモダリティの相補的強度を用いて高品質な特徴を構築するための強力なパラダイムとして登場した。 しかし、そのようなシステムのオープンな性質は、必然的にバックドア攻撃の可能性を高めている。 これらの攻撃は、トレーニング中にモデル内に悪意ある振る舞いを微妙に埋め込み、推論フェーズの特定のトリガーによって起動され、重大なセキュリティリスクを生じさせる。 このような攻撃の悪影響を軽減するための微調整による既存の対策にもかかわらず、これらの防御は、しばしばクリーンな精度を低下させ、広範囲なクリーンな訓練ペアを構築する必要がある。 本稿では, モデルアンラーニングの観点から, 低コスト防衛の可能性について検討する。すなわち, 少量の有毒サンプルのセットを構築することにより, モデルが迅速に \textbf{u}nlearn \textbf{b}ackdoor \textbf{t}hreats (UBT) を作成できるかどうかを考察する。 具体的には,バックドアショートカットを強化し,弱い類似性サンプルが優先する過度なトレーニングによって不審なサンプルを発見する。 疑わしいサンプルを初期同定し,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。 この技術は、特に毒性のあるモデルの側面をターゲットとしており、バックドア関連を解き放つ努力と、全体モデルの完全性を損なわない努力に焦点をあてている。 実験結果から,本手法は攻撃の成功率を最小限に抑えるだけでなく,モデルのクリーンな精度も確保できることがわかった。

Multimodal contrastive learning has emerged as a powerful paradigm for building high-quality features using the complementary strengths of various data modalities. However, the open nature of such systems inadvertently increases the possibility of backdoor attacks. These attacks subtly embed malicious behaviors within the model during training, which can be activated by specific triggers in the inference phase, posing significant security risks. Despite existing countermeasures through fine-tuning that reduce the adverse impacts of such attacks, these defenses often degrade the clean accuracy and necessitate the construction of extensive clean training pairs. In this paper, we explore the possibility of a less-cost defense from the perspective of model unlearning, that is, whether the model can be made to quickly \textbf{u}nlearn \textbf{b}ackdoor \textbf{t}hreats (UBT) by constructing a small set of poisoned samples. Specifically, we strengthen the backdoor shortcuts to discover suspicious samples through overfitting training prioritized by weak similarity samples. Building on the initial identification of suspicious samples, we introduce an innovative token-based localized forgetting training regime. This technique specifically targets the poisoned aspects of the model, applying a focused effort to unlearn the backdoor associations and trying not to damage the integrity of the overall model. Experimental results show that our method not only ensures a minimal success rate for attacks, but also preserves the model's high clean accuracy.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# ブラ散逸合成を用いたニューラルコーデックにおけるラプラシアン誘導エントロピーモデル

Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated Synthesis ( http://arxiv.org/abs/2403.16258v1 )

ライセンス: Link先を確認
Atefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Nasser M. Nasrabadi, (参考訳) ガウスデコーダを条件付き拡散モデルに置き換えることで、ニューラル画像圧縮における再構成の知覚品質が向上する一方、画像データに対する誘導バイアスの欠如は、最先端の知覚レベルを達成する能力を制限する。 この制限に対処するために、デコーダ側の非等方拡散モデルを採用する。 このモデルは、周波数内容の区別を目的とした誘導バイアスを課し、高品質な画像の生成を容易にする。 さらに,提案手法は,エントロピー復号を高速化しつつ,潜時空間における時空間の時空間相関を利用して,潜時表現の確率分布を正確にモデル化する新しいエントロピーモデルを備えている。 このチャネルワイドエントロピーモデルは、各チャネルチャンク内の局所的および大域的空間的コンテキストの両方を活用する。 グローバル空間コンテキストは、画像圧縮タスク用に特別に設計されたTransformer上に構築されている。 設計されたTransformerはラプラシアン型の位置符号化を採用しており、学習可能なパラメータは各チャネルクラスタに対して適応的に調整される。 提案手法は, 最先端生成コーデックに比べて知覚品質が向上し, エントロピーモデルが顕著なビットレート保存に寄与することを示した。

While replacing Gaussian decoders with a conditional diffusion model enhances the perceptual quality of reconstructions in neural image compression, their lack of inductive bias for image data restricts their ability to achieve state-of-the-art perceptual levels. To address this limitation, we adopt a non-isotropic diffusion model at the decoder side. This model imposes an inductive bias aimed at distinguishing between frequency contents, thereby facilitating the generation of high-quality images. Moreover, our framework is equipped with a novel entropy model that accurately models the probability distribution of latent representation by exploiting spatio-channel correlations in latent space, while accelerating the entropy decoding step. This channel-wise entropy model leverages both local and global spatial contexts within each channel chunk. The global spatial context is built upon the Transformer, which is specifically designed for image compression tasks. The designed Transformer employs a Laplacian-shaped positional encoding, the learnable parameters of which are adaptively adjusted for each channel cluster. Our experiments demonstrate that our proposed framework yields better perceptual quality compared to cutting-edge generative-based codecs, and the proposed entropy model contributes to notable bitrate savings.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# ディープ・マルチ・コングリジョン・アンサンブルによる分布外検出

Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble ( http://arxiv.org/abs/2403.16260v1 )

ライセンス: Link先を確認
Chenhui Xu, Fuxun Yu, Zirui Xu, Nathan Inkawhich, Xiang Chen, (参考訳) 近年の研究では、OOD検出におけるモデルの有効性を決定する上で、OOD(Out-of-Distribution)特徴表現の尺度が重要な役割を担っていることが述べられている。 その結果、モデルアンサンブルの採用は、予想されるモデルの多様性を生かして、この特徴表現を拡大するための顕著な戦略として現れてきた。 しかし,新たな定性的,定量的なモデルアンサンブル評価手法,特にロス盆地・バリア可視化と自己結合指数の導入は,既存のアンサンブル手法に重大な欠点を生じさせる。 これらの手法にはアフィン変換可能な重みが組み込まれており、可変性に限界があり、特徴表現における所望の多様性を達成できないことが判明した。 この制限に対処するため、従来のモデルアンサンブルの寸法を拡大し、異なるウェイト初期化、データホールドアウトなどの様々な要因を異なる監視タスクに組み込む。 この革新的なアプローチは、MC(Multi-Comprehension) Ensembleと呼ばれ、多様なトレーニングタスクを活用して、データとラベルの異なる理解を生成し、特徴表現場を拡張する。 実験の結果,OOD検出におけるMC Ensemble法は,本手法と同等の大きさのスタンドアロンモデルの両方と比較して優れた性能を示した。 これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。

Recent research underscores the pivotal role of the Out-of-Distribution (OOD) feature representation field scale in determining the efficacy of models in OOD detection. Consequently, the adoption of model ensembles has emerged as a prominent strategy to augment this feature representation field, capitalizing on anticipated model diversity. However, our introduction of novel qualitative and quantitative model ensemble evaluation methods, specifically Loss Basin/Barrier Visualization and the Self-Coupling Index, reveals a critical drawback in existing ensemble methods. We find that these methods incorporate weights that are affine-transformable, exhibiting limited variability and thus failing to achieve the desired diversity in feature representation. To address this limitation, we elevate the dimensions of traditional model ensembles, incorporating various factors such as different weight initializations, data holdout, etc., into distinct supervision tasks. This innovative approach, termed Multi-Comprehension (MC) Ensemble, leverages diverse training tasks to generate distinct comprehensions of the data and labels, thereby extending the feature representation field. Our experimental results demonstrate the superior performance of the MC Ensemble strategy in OOD detection compared to both the naive Deep Ensemble method and a standalone model of comparable size. This underscores the effectiveness of our proposed approach in enhancing the model's capability to detect instances outside its training distribution.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 活動認識の観点からの感情認識

Emotion Recognition from the perspective of Activity Recognition ( http://arxiv.org/abs/2403.16263v1 )

ライセンス: Link先を確認
Savinay Nagendra, Prapti Panigrahi, (参考訳) 効率的な感情認識システムの応用は、医療、運転者の疲労監視、社会ロボティクス、人間とコンピュータの相互作用など、いくつかの領域で見られる。 人間の感情状態、行動、反応を現実世界の環境に適応させることは、潜伏した連続した次元を用いて達成できる。 原子価や覚醒に基づく人間の感情の連続的な次元モデルは、離散的なステレオタイプ感情カテゴリー(例えば、幸福、驚き)の伝統的なモデルよりも、広範囲の自然の感情を記述する上でより正確である。 精度と覚醒を推定する以前の研究のほとんどは、実験室の設定を考慮し、データを処理した。 しかし、感情認識システムが現実世界のモバイルおよびコンピューティングデバイスにデプロイされ、統合されるためには、世界中に収集されたデータを考慮する必要がある。 アクション認識はコンピュータビジョンの領域であり、静止フレームからの外観とフレーム間の動きの相補的な情報をキャプチャする。 本稿では,行動認識に特化して設計された深層学習アーキテクチャを探索し,行動認識の観点から感情認識を扱う。 本稿では,複数の動作認識システムのサブモジュールをベースとしたアンサンブル設計であるアテンション機構を備えた,新しい3ストリームエンドツーエンドのディープラーニング回帰パイプラインを提案する。 パイプラインは、キーフレームを抽出する空間的自己アテンション機構を備えた、新しいデータ前処理アプローチを構成する。 顔の高アテンション領域の光学的流れを抽出し、時間的文脈を捉える。 AFEW-VA in-the-wildデータセットは比較実験に使われている。 定量的分析により,提案モデルが感情認識モデルと行動認識モデルの両方の標準ベースラインより優れていることが示された。

Applications of an efficient emotion recognition system can be found in several domains such as medicine, driver fatigue surveillance, social robotics, and human-computer interaction. Appraising human emotional states, behaviors, and reactions displayed in real-world settings can be accomplished using latent continuous dimensions. Continuous dimensional models of human affect, such as those based on valence and arousal are more accurate in describing a broad range of spontaneous everyday emotions than more traditional models of discrete stereotypical emotion categories (e.g. happiness, surprise). Most of the prior work on estimating valence and arousal considers laboratory settings and acted data. But, for emotion recognition systems to be deployed and integrated into real-world mobile and computing devices, we need to consider data collected in the world. Action recognition is a domain of Computer Vision that involves capturing complementary information on appearance from still frames and motion between frames. In this paper, we treat emotion recognition from the perspective of action recognition by exploring the application of deep learning architectures specifically designed for action recognition, for continuous affect recognition. We propose a novel three-stream end-to-end deep learning regression pipeline with an attention mechanism, which is an ensemble design based on sub-modules of multiple state-of-the-art action recognition systems. The pipeline constitutes a novel data pre-processing approach with a spatial self-attention mechanism to extract keyframes. The optical flow of high-attention regions of the face is extracted to capture temporal context. AFEW-VA in-the-wild dataset has been used to conduct comparative experiments. Quantitative analysis shows that the proposed model outperforms multiple standard baselines of both emotion recognition and action recognition models.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# Dotsの接続: 検索したPhraseグラフと特許Phrase類似性の推定

Connecting the Dots: Inferring Patent Phrase Similarity with Retrieved Phrase Graphs ( http://arxiv.org/abs/2403.16265v1 )

ライセンス: Link先を確認
Zhuoyi Peng, Yi Yang, (参考訳) 本稿では,2つの特許句間の意味的類似度を測定する特許フレーズ類似性推論タスクについて検討する。 特許文書は法律的かつ高度に専門的な言語を用いるため、局所的な文脈情報を用いた既存の意味的テキスト類似性手法は、特許句の類似性を推測しても十分には機能しない。 これを解決するために,特許フレーズのグローバルな文脈情報を増幅するグラフ拡張手法を提案する。 それぞれの特許フレーズに対して、その焦点特許にリンクするフレーズグラフと、これらの焦点特許によって引用されるか引用される特許のリストを構築します。 次に、拡張されたフレーズ埋め込みは、その局所的なコンテキスト埋め込みと、そのグローバルなフレーズグラフへの埋め込みを組み合わせたものである。 さらに,検索したトポロジを利用して,文脈的埋め込みとグラフパラメータの両方をエンドツーエンドで洗練する自己教師型学習目標を提案する。 特許語句類似度データセットによる実験結果から,本手法は特許語句の表現を著しく向上させ,自己管理方式による類似度推論の顕著な改善をもたらすことが示された。 また、教師付きセッティングにおいても実質的な改善が観察され、検索されたフレーズグラフの増大による潜在的利益を裏付けている。

We study the patent phrase similarity inference task, which measures the semantic similarity between two patent phrases. As patent documents employ legal and highly technical language, existing semantic textual similarity methods that use localized contextual information do not perform satisfactorily in inferring patent phrase similarity. To address this, we introduce a graph-augmented approach to amplify the global contextual information of the patent phrases. For each patent phrase, we construct a phrase graph that links to its focal patents and a list of patents that are either cited by or cite these focal patents. The augmented phrase embedding is then derived from combining its localized contextual embedding with its global embedding within the phrase graph. We further propose a self-supervised learning objective that capitalizes on the retrieved topology to refine both the contextualized embedding and the graph parameters in an end-to-end manner. Experimental results from a unique patent phrase similarity dataset demonstrate that our approach significantly enhances the representation of patent phrases, resulting in marked improvements in similarity inference in a self-supervised fashion. Substantial improvements are also observed in the supervised setting, underscoring the potential benefits of leveraging retrieved phrase graph augmentation.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 光の全角運動量に対する量子可換関係について

What are the quantum commutation relations for the total angular momentum of light? ( http://arxiv.org/abs/2403.16266v1 )

ライセンス: Link先を確認
Pronoy Das, Li-Ping Yang, Zubin Jacob, (参考訳) 光の角運動量は、光通信、光力、センシングなど様々な現象に応用されている。 しかし、通勤関係を含む量子的挙動は比較的研究されていない。 ここでは、相対論的および非相対論的アプローチの両方を用いて、光の全角運動量に対する正しい可換関係を導出する。 我々の研究の重要な成果は、光の全可観測角運動量に対する広く仮定された量子可換関係が根本的に間違っていることの証明である。 我々の研究は実験を動機付け、光の角運動量の量子的挙動に関する新たな洞察をもたらすだろう。

The total angular momentum of light has received attention for its application in a variety of phenomena such as optical communication, optical forces and sensing. However, the quantum behavior including the commutation relations have been relatively less explored. Here, we derive the correct commutation relation for the total angular momentum of light using both relativistic and non-relativistic approaches. An important outcome of our work is the proof that the widely-assumed quantum commutation relation for the total observable angular momentum of light is fundamentally incorrect. Our work will motivate experiments and leads to new insight on the quantum behavior of the angular momentum of light.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# 正規学習データを用いた異常検出のための制限付き正規潜時空間

Constricting Normal Latent Space for Anomaly Detection with Normal-only Training Data ( http://arxiv.org/abs/2403.16270v1 )

ライセンス: Link先を確認
Marcella Astrid, Muhammad Zaigham Zaheer, Seung-Ik Lee, (参考訳) 通常のトレーニングデータのみを用いて異常検出モデルを考案するために、オートエンコーダ(AE)が典型的にデータ再構築のために訓練される。 その結果、AEはその潜在空間における正規表現を抽出することができる。 テスト期間中、AEは実際の異常を使用して訓練されていないため、異常データを十分に再構成することが期待されている。 しかし、いくつかの研究者は、それがそうではないことを発見している。 本研究では,既存の再建損失に付加される新しい潜在的拘束損失を導入することで,AEの再建能力を制限することを提案する。 本手法を用いることで,テスト時間中に余分な計算コストをAEに追加することができない。 Ped2, Avenue, ShanghaiTech の3つのビデオ異常検出ベンチマークデータセットを用いて,AE の再構成能力を制限する手法の有効性を実証し,より優れた異常検出モデルが得られた。

In order to devise an anomaly detection model using only normal training data, an autoencoder (AE) is typically trained to reconstruct the data. As a result, the AE can extract normal representations in its latent space. During test time, since AE is not trained using real anomalies, it is expected to poorly reconstruct the anomalous data. However, several researchers have observed that it is not the case. In this work, we propose to limit the reconstruction capability of AE by introducing a novel latent constriction loss, which is added to the existing reconstruction loss. By using our method, no extra computational cost is added to the AE during test time. Evaluations using three video anomaly detection benchmark datasets, i.e., Ped2, Avenue, and ShanghaiTech, demonstrate the effectiveness of our method in limiting the reconstruction capability of AE, which leads to a better anomaly detection model.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# オープン環境における物体検出装置:変化・解決・展望

Object Detectors in the Open Environment:Challenges, Solutions, and Outlook ( http://arxiv.org/abs/2403.16271v1 )

ライセンス: Link先を確認
Siyuan Liang, Wei Wang, Ruoyu Chen, Aishan Liu, Boxi Wu, Ee-Chien Chang, Xiaochun Cao, Dacheng Tao, (参考訳) 基礎モデルの出現に伴い、深層学習に基づくオブジェクト検出器は、クローズドセットのシナリオで実用的なユーザビリティを示してきた。 しかし、現実世界のタスクでは、オブジェクト検出器は、しばしばオープンな環境で動作し、モデル学習に影響を与える重要な要因(例えば、データ分散、目的)が頻繁に変化している。 オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。 残念ながら、現在のオープン環境におけるオブジェクト検出器の研究は、それらの特徴、課題、およびそれに対応するソリューションの包括的な分析を欠いている。 本稿では,オープン環境における物体検出装置の総合的なレビューと解析を行うことにより,このギャップを埋めることを目的とする。 当初我々は、既存の検出パイプラインにおける重要な構造コンポーネントの制限を特定し、データ/ターゲットの変化の次元に基づいて、4つの四分儀(\ie, out-of-domain, out-of-category, robust learning, incremental learning)を含むオープン環境オブジェクト検出挑戦フレームワークを提案しました。 提案するフレームワークにおける課題の4つごとに,その概要と課題の体系的な説明と分析を行い,対応するソリューションを体系的にレビューし,複数の広く採用されているデータセットに対してその性能をベンチマークする。 また,オープンな問題と今後の研究への潜在的道筋についても議論する。 本研究の目的は、オープン環境オブジェクト検出器に関連する課題と解決策について、新しく、包括的で体系的な理解を提供することであり、現実のシナリオにおけるより堅牢なアプリケーションの開発を促進することである。

With the emergence of foundation models, deep learning-based object detectors have shown practical usability in closed set scenarios. However, for real-world tasks, object detectors often operate in open environments, where crucial factors (\eg, data distribution, objective) that influence model learning are often changing. The dynamic and intricate nature of the open environment poses novel and formidable challenges to object detectors. Unfortunately, current research on object detectors in open environments lacks a comprehensive analysis of their distinctive characteristics, challenges, and corresponding solutions, which hinders their secure deployment in critical real-world scenarios. This paper aims to bridge this gap by conducting a comprehensive review and analysis of object detectors in open environments. We initially identified limitations of key structural components within the existing detection pipeline and propose the open environment object detector challenge framework that includes four quadrants (\ie, out-of-domain, out-of-category, robust learning, and incremental learning) based on the dimensions of the data / target changes. For each quadrant of challenges in the proposed framework, we present a detailed description and systematic analysis of the overarching goals and core difficulties, systematically review the corresponding solutions, and benchmark their performance over multiple widely adopted datasets. In addition, we engage in a discussion of open problems and potential avenues for future research. This paper aims to provide a fresh, comprehensive, and systematic understanding of the challenges and solutions associated with open-environment object detectors, thus catalyzing the development of more solid applications in real-world scenarios.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# L-MAE:糖尿病網膜症進行予測のための経時的および重度認識型自己エンコーダ

L-MAE: Longitudinal masked auto-encoder with time and severity-aware encoding for diabetic retinopathy progression prediction ( http://arxiv.org/abs/2403.16272v1 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Yihao Li, Alireza Rezaei, Hugo Le Boité, Ramin Tadayoni, Pascal Massin, Béatrice Cochener, Ikram Brahim, Gwenolé Quellec, Mathieu Lamard, (参考訳) 自己教師付き学習(SSL)に基づく事前学習戦略は、コンピュータビジョンにおける多くの下流タスクに有効なプレテキストタスクであることが証明されている。 医用画像と自然画像の間に大きな差異があるため、一般的なSSLの応用は、医用画像では容易ではない。 さらに、これらのプレテキストタスクは文脈を欠くことが多く、これはコンピュータ支援の臨床的意思決定支援に不可欠である。 本稿では,よく知られたTransformer-based MAEに基づく縦型マスク付きオートエンコーダ(MAE)を開発した。 特に,病状進行認知マスキングと同様に,時間認識位置埋め込みの重要性について検討した。 単にスケジュールするだけでなく、試験間の時間を考慮すると、時間的変化や傾向を捉える利点がある。 マスク戦略は、その部分において、病的変化をより正確に把握し、疾患の進行をより正確に評価するために、フォローアップ中に進化する。 糖尿病性網膜症(DR)を対象とする大規模フォローアップスクリーニングデータセットであるOPHDIATを用いて,過去時系列検査に基づいて,過去3年以内に来訪者の重度ラベルを予測することを目的とした,長手作業における事前訓練体重の評価を行った。 以上の結果から,病状進行知識に基づく時間認識位置埋め込みとマスキング戦略の関連性を示した。 一般的なベースラインモデルや標準長手トランスフォーマーと比較して、これらの単純で効果的な拡張は深い分類モデルの予測能力を著しく向上させる。

Pre-training strategies based on self-supervised learning (SSL) have proven to be effective pretext tasks for many downstream tasks in computer vision. Due to the significant disparity between medical and natural images, the application of typical SSL is not straightforward in medical imaging. Additionally, those pretext tasks often lack context, which is critical for computer-aided clinical decision support. In this paper, we developed a longitudinal masked auto-encoder (MAE) based on the well-known Transformer-based MAE. In particular, we explored the importance of time-aware position embedding as well as disease progression-aware masking. Taking into account the time between examinations instead of just scheduling them offers the benefit of capturing temporal changes and trends. The masking strategy, for its part, evolves during follow-up to better capture pathological changes, ensuring a more accurate assessment of disease progression. Using OPHDIAT, a large follow-up screening dataset targeting diabetic retinopathy (DR), we evaluated the pre-trained weights on a longitudinal task, which is to predict the severity label of the next visit within 3 years based on the past time series examinations. Our results demonstrated the relevancy of both time-aware position embedding and masking strategies based on disease progression knowledge. Compared to popular baseline models and standard longitudinal Transformers, these simple yet effective extensions significantly enhance the predictive ability of deep classification models.
翻訳日:2024-03-26 16:46:40 公開日:2024-03-24
# AVicuna: テンポラル参照対話のためのインターリーバとコンテキスト境界アライメント付きオーディオビジュアルLLM

AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue ( http://arxiv.org/abs/2403.16276v1 )

ライセンス: Link先を確認
Yunlong Tang, Daiki Shimada, Jing Bi, Chenliang Xu, (参考訳) 日常的なコミュニケーションでは、人間は言葉やジェスチャーを使って特定の領域や物体、すなわちReferential Dialogue(RD)と呼ばれるプロセスを指すことが多い。 LLM(Large Language Models)やLMM(Large Multimodal Models)によるRDを静的な文脈で研究する以前の研究はあったが、音声・視覚メディアにおけるTRD(Temporal Referential Dialogue)の探索は依然として限られている。 2) 複雑な時間的聴覚と視覚的手がかりを効果的に統合する手法の必要性。 これらの課題に対処するため, PU-VALORを生成するための新しいフレームワークを導入する。 また,AVTI(Audio-Visual Tokens Interleaver)を特徴とするAVicunaについて述べる。 さらに,音声とテキストのアライメントを容易にするために,20万以上の音声テキストペアリングを含むA5-222Kデータセットを開発した。 実験により、AVicunaは、音声映像におけるTRDを効果的に処理し、特にトリミングビデオにおいて、様々な音声映像理解タスクにおける最先端のパフォーマンスを実現することができることを示した。 さらに,オーディオ・ビジュアル・イベント・ディエンス・ローカライゼーション・タスクの性能を最大化するインターリーブ・オーディオ・ビジュアル・インプットの最適オーディオ・インターリーブ率について検討する。

In everyday communication, humans frequently use speech and gestures to refer to specific areas or objects, a process known as Referential Dialogue (RD). While prior studies have investigated RD through Large Language Models (LLMs) or Large Multimodal Models (LMMs) in static contexts, the exploration of Temporal Referential Dialogue (TRD) within audio-visual media remains limited. Two primary challenges hinder progress in this field: (1) the absence of comprehensive, untrimmed audio-visual video datasets with precise temporal annotations, and (2) the need for methods to integrate complex temporal auditory and visual cues effectively. To address these challenges, we introduce a novel framework to generate PU-VALOR, an extensive audio-visual dataset comprising over 114,000 untrimmed videos with accurate temporal demarcations. We also present AVicuna, featuring an Audio-Visual Tokens Interleaver (AVTI) that ensures the temporal alignment of audio-visual information. Additionally, we develop the A5-222K dataset, encompassing more than 200,000 audio-text pairings, to facilitate the audio and text alignments. Our experiments demonstrate that AVicuna can effectively handle TRD in audio-visual videos and achieve state-of-the-art performance on various audio-visual video understanding tasks, particularly in untrimmed videos. We further investigate the optimal audio-interleaving rate for interleaved audio-visual inputs, which maximizes performance on the Audio-Visual Event Dense Localization task.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# サッカーの賭けの進化-アウトカム予測とブックメーカーのオッド推定を一致させる機械学習アプローチ

The Evolution of Football Betting- A Machine Learning Approach to Match Outcome Forecasting and Bookmaker Odds Estimation ( http://arxiv.org/abs/2403.16282v1 )

ライセンス: Link先を確認
Purnachandra Mandadapu, (参考訳) 本稿では,プロサッカーと賭け産業の重要史を探求し,その発展過程を生かし,収益性の高い数百万ポンド規模の企業へと辿り着く。 1960年にギャンブルの合法化が始まり、ハロルド・チャールズ・リープが開拓したフットボールデータ収集の進歩によって補完され、これらの分野間の共生関係は急速な成長と革新を促した。 過去60年間、両産業は急進的な転換を遂げ、データ収集手法は初歩的なメモから、高精細度カメラや人工知能(AI)による分析のような高度な技術へと進化してきた。 そこで本研究の主な目的は,MLアルゴリズムを用いてプレミアリーグフットボールの試合結果を予測することである。 過去のデータを分析し,様々な特徴の意義を調査することにより,最も効果的な予測モデルを特定し,マッチ結果に影響を及ぼす重要な要因を明らかにすることを目指す。 さらに,本研究は,これらの予測を活用して書店の確率を予測し,異なる変数が一致した結果に与える影響について考察することを目的としている。 本研究は,スポーツ予測と賭けにおける情報意思決定の可能性を強調することによって,スポーツ分析分野における研究と実践のための新たな道を開く。

This paper explores the significant history of professional football and the betting industry, tracing its evolution from clandestine beginnings to a lucrative multi-million-pound enterprise. Initiated by the legalization of gambling in 1960 and complemented by advancements in football data gathering pioneered by Thorold Charles Reep, the symbiotic relationship between these sectors has propelled rapid growth and innovation. Over the past six decades, both industries have undergone radical transformations, with data collection methods evolving from rudimentary notetaking to sophisticated technologies such as high-definition cameras and Artificial Intelligence (AI)-driven analytics. Therefore, the primary aim of this study is to utilize Machine Learning (ML) algorithms to forecast premier league football match outcomes. By analyzing historical data and investigating the significance of various features, the study seeks to identify the most effective predictive models and discern key factors influencing match results. Additionally, the study aims to utilize these forecasting to inform the establishment of bookmaker odds, providing insights into the impact of different variables on match outcomes. By highlighting the potential for informed decision-making in sports forecasting and betting, this study opens up new avenues for research and practical applications in the domain of sports analytics.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# HemoSet: 止血管理の自動化のための最初の血液分画データセット

HemoSet: The First Blood Segmentation Dataset for Automation of Hemostasis Management ( http://arxiv.org/abs/2403.16286v1 )

ライセンス: Link先を確認
Albert J. Miao Shan Lin, Jingpei Lu, Florian Richter, Benjamin Ostrander, Emily K. Funk, Ryan K. Orosco, Michael C. Yip, (参考訳) 出血はあらゆる種類の手術で起こり、外科医は外科領域を急速に満たす血液から生じる視覚的干渉に迅速に適応せざるを得ない。 止血管理における重要な外科的タスクへの自動化の導入は、手術の効率と安全性を同時に向上させながら、外科医と外科的アシスタントから精神的および身体的なタスクをオフロードする。 止血管理の自動化の第一歩は外科領域における血液の検出である。 外科手術における血液検出アルゴリズムの開発を促進するため,生きた動物外科手術における出血に基づく最初の血液分画データセットであるHemoSetを提案する。 本データセットは, 血管出血例を特徴とし, 血管内乱流が外科領域の異常なプール地平線を生じさせる。 これらのプールは、不均一な異種組織、光沢のある照明条件、迅速な工具移動など、外科手術に適応する条件で形成されている。 我々は、最先端のセグメンテーションモデルをいくつかベンチマークし、血液検出に特有の困難について考察する。 我々は,血液セグメンテーションモデルをトレーニングし,改良するためのプラットフォームを提供することで,HemoSetによる自動血液吸引ツールの開発を促進することを目的としている。

Hemorrhaging occurs in surgeries of all types, forcing surgeons to quickly adapt to the visual interference that results from blood rapidly filling the surgical field. Introducing automation into the crucial surgical task of hemostasis management would offload mental and physical tasks from the surgeon and surgical assistants while simultaneously increasing the efficiency and safety of the operation. The first step in automation of hemostasis management is detection of blood in the surgical field. To propel the development of blood detection algorithms in surgeries, we present HemoSet, the first blood segmentation dataset based on bleeding during a live animal robotic surgery. Our dataset features vessel hemorrhage scenarios where turbulent flow leads to abnormal pooling geometries in surgical fields. These pools are formed in conditions endemic to surgical procedures -- uneven heterogeneous tissue, under glossy lighting conditions and rapid tool movement. We benchmark several state-of-the-art segmentation models and provide insight into the difficulties specific to blood detection. We intend for HemoSet to spur development of autonomous blood suction tools by providing a platform for training and refining blood segmentation models, addressing the precision needed for such robotics.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# CPSの結合要求駆動テスト:シミュレーションから現実へ

Coupled Requirements-driven Testing of CPS: From Simulation To Reality ( http://arxiv.org/abs/2403.16287v1 )

ライセンス: Link先を確認
Ankit Agrawal, Philipp Zech, Michael Vierhauser, (参考訳) ソフトウェアとハードウェア関連のCPS(Cyber-Physical Systems)の障害は、物理的なインフラや人間に深刻な被害をもたらす可能性がある。 その結果、システムの安全性を確保するためには、システム要件の検証と検証の一環として、広範なシミュレーションとフィールドテストを行う必要がある。 しかしながら、特に小型無人航空システム(sUAS)の領域では、現在のシミュレーションとフィールドテストの実践はアドホックであり、完全な構造化されたテストプロセスが欠如している。 さらに、総合的なシミュレーションやフィールドテストの設計を知らせる標準的なプロセスや方法論も数多く存在する。 このテストプロセスのギャップは、以下のsUASアプリケーションのデプロイにつながります。 (a) ツールサポートの欠如により、環境要因等の現実世界の複雑さを適切に捉えないシミュレーション環境での試験 (b)要件とシミュレーションテストの関係を定義するプロセスが存在しないため、シミュレーションテスト中にシステム要件を検証するための包括的なシナリオに従わなかったこと。 (c) シミュレーション試験成果物と安全解析成果物とのトレーサビリティの欠如から, 標準安全分析プロセスを通じて解析を行なわないこと。 これらの問題に対処するため、我々はCPSを検証するための初期フレームワークを開発し、特にsUASとロボットアプリケーションに焦点を当てた。 我々は、sUASドメインの例にそれを適用することで、フレームワークの適合性を実証する。 予備結果は,我々のフレームワークの適用性を確認した。 我々は、現在の提案とともに、次の研究目標を概説する研究ロードマップをまとめて締めくくります。

Failures in safety-critical Cyber-Physical Systems (CPS), both software and hardware-related, can lead to severe incidents impacting physical infrastructure or even harming humans. As a result, extensive simulations and field tests need to be conducted, as part of the verification and validation of system requirements, to ensure system safety. However, current simulation and field testing practices, particularly in the domain of small Unmanned Aerial Systems (sUAS), are ad-hoc and lack a thorough, structured testing process. Furthermore, there is a dearth of standard processes and methodologies to inform the design of comprehensive simulation and field tests. This gap in the testing process leads to the deployment of sUAS applications that are: (a) tested in simulation environments which do not adequately capture the real-world complexity, such as environmental factors, due to a lack of tool support; (b) not subjected to a comprehensive range of scenarios during simulation testing to validate the system requirements, due to the absence of a process defining the relationship between requirements and simulation tests; and (c) not analyzed through standard safety analysis processes, because of missing traceability between simulation testing artifacts and safety analysis artifacts. To address these issues, we have developed an initial framework for validating CPS, specifically focusing on sUAS and robotic applications. We demonstrate the suitability of our framework by applying it to an example from the sUAS domain. Our preliminary results confirm the applicability of our framework. We conclude with a research roadmap to outline our next research goals along with our current proposal.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# 大規模言語モデルを用いた自律走行のための工学的安全要件

Engineering Safety Requirements for Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2403.16289v1 )

ライセンス: Link先を確認
Ali Nouri, Beatriz Cabrero-Daniel, Fredrik Törner, Hȧkan Sivencrona, Christian Berger, (参考訳) 自動車領域で頻繁に見られる要件アーティファクトの変更と更新は、SafetyOpsの課題である。 大きな言語モデル(LLM)は、その印象的な自然言語理解と生成能力を持ち、更新後の要求を自動的に精錬し、分解する上で重要な役割を担います。 本研究では、アイテム定義を受信し、安全要件の形でソリューションを出力するプロンプトとLCMのパイプラインのプロトタイプを提案する。 このパイプラインは要件データセットのレビューも行い、冗長あるいは矛盾した要件を特定する。 まず、まずharaの実行に必要な特性を特定し、これらの基準を満たすためのLCMの能力を評価するためのテストを定義した。 デザインサイエンスを複数のイテレーションで使い、さまざまな企業の専門家にそれぞれのサイクルを定量的に質的に評価させました。 最後に、プロトタイプはケース会社で実装され、責任あるチームはその効率を評価した。

Changes and updates in the requirement artifacts, which can be frequent in the automotive domain, are a challenge for SafetyOps. Large Language Models (LLMs), with their impressive natural language understanding and generating capabilities, can play a key role in automatically refining and decomposing requirements after each update. In this study, we propose a prototype of a pipeline of prompts and LLMs that receives an item definition and outputs solutions in the form of safety requirements. This pipeline also performs a review of the requirement dataset and identifies redundant or contradictory requirements. We first identified the necessary characteristics for performing HARA and then defined tests to assess an LLM's capability in meeting these criteria. We used design science with multiple iterations and let experts from different companies evaluate each cycle quantitatively and qualitatively. Finally, the prototype was implemented at a case company and the responsible team evaluated its efficiency.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# 介護ロボットの危険な状況を避けるための人間の意図

Guessing human intentions to avoid dangerous situations in caregiving robots ( http://arxiv.org/abs/2403.16291v1 )

ライセンス: Link先を確認
Noé Zapata, Gerardo Pérez, Lucas Bonilla, Pedro Núñez, Pilar Bachiller, Pablo Bustos, (参考訳) ロボットが社会的に対話するには、人間の意図を解釈し、潜在的な結果を正確に予測する必要がある。 これは、人間のケアのために設計された社会ロボットにとって特に重要である。 本稿では,人間の意図を推論し解釈するためのATMアプローチについて考察する。 本研究では,人間の危険状況を検出するアルゴリズムを提案する。 ATMにシミュレーションベースのアプローチを導入し、「いいね!」ポリシーを採用し、人々に意図や行動を割り当てる。 この戦略を用いて、ロボットは時間制約のある状況下で高い成功率で検出および動作することができる。 このアルゴリズムは、既存のロボット認知アーキテクチャの一部として実装され、シミュレーションシナリオでテストされている。 シミュレーションシナリオ,Human-in-the-loopハイブリッド構成,実世界のシナリオなど,実装の堅牢性,精度,リアルタイム応答をテストするための3つの実験が実施されている。

For robots to interact socially, they must interpret human intentions and anticipate their potential outcomes accurately. This is particularly important for social robots designed for human care, which may face potentially dangerous situations for people, such as unseen obstacles in their way, that should be avoided. This paper explores the Artificial Theory of Mind (ATM) approach to inferring and interpreting human intentions. We propose an algorithm that detects risky situations for humans, selecting a robot action that removes the danger in real time. We use the simulation-based approach to ATM and adopt the 'like-me' policy to assign intentions and actions to people. Using this strategy, the robot can detect and act with a high rate of success under time-constrained situations. The algorithm has been implemented as part of an existing robotics cognitive architecture and tested in simulation scenarios. Three experiments have been conducted to test the implementation's robustness, precision and real-time response, including a simulated scenario, a human-in-the-loop hybrid configuration and a real-world scenario.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# latentSplat: 高速な一般化可能な3次元再構成のための変分ガウスの自動符号化

latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction ( http://arxiv.org/abs/2403.16292v1 )

ライセンス: Link先を確認
Christopher Wewer, Kevin Raj, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen, (参考訳) 本稿では,3次元潜在空間における意味ガウスの予測手法である latentSplat について述べる。 従来の一般化可能な3D再構成手法では、ボリュームレンダリングが遅いため、高解像度の新規ビューを高速に推測できないか、あるいは360度の一般化が可能な単一の中心オブジェクトによるより単純な設定であっても、クローズドな入力ビューの補間に制限される。 本研究では,レグレッションベースアプローチと生成モデルを組み合わせることで,これら両方の機能を同一の手法で実現し,利用可能な実映像データに基づいて純粋に学習する。 本手法のコアは変分3次元ガウスであり, 3次元特徴ガウスからなる潜在空間における不確かさを効率的に符号化する表現である。 これらのガウシアンから、効率的なガウシアンスプレイティングと高速で生成的なデコーダネットワークを通じて、特定のインスタンスをサンプル化し、レンダリングすることができる。 latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。

We present latentSplat, a method to predict semantic Gaussians in a 3D latent space that can be splatted and decoded by a light-weight generative 2D architecture. Existing methods for generalizable 3D reconstruction either do not enable fast inference of high resolution novel views due to slow volume rendering, or are limited to interpolation of close input views, even in simpler settings with a single central object, where 360-degree generalization is possible. In this work, we combine a regression-based approach with a generative model, moving towards both of these capabilities within the same method, trained purely on readily available real video data. The core of our method are variational 3D Gaussians, a representation that efficiently encodes varying uncertainty within a latent space consisting of 3D feature Gaussians. From these Gaussians, specific instances can be sampled and rendered via efficient Gaussian splatting and a fast, generative decoder network. We show that latentSplat outperforms previous works in reconstruction quality and generalization, while being fast and scalable to high-resolution data.
翻訳日:2024-03-26 16:36:49 公開日:2024-03-24
# 深層強化学習駆動スケジューリングの解釈モデル

Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling ( http://arxiv.org/abs/2403.16293v1 )

ライセンス: Link先を確認
Boyang Li, Zhiling Lan, Michael E. Papka, (参考訳) 高性能コンピューティング(HPC)の分野では,クラスタスケジューリング(DRLスケジューリング)における深層強化学習の利用が近年検討されており,有望な結果が示されている。 しかし、ディープニューラルネットワーク(DNN)の解釈可能性の欠如により、システムマネージャにブラックボックスモデルとして機能する、という大きな課題が生じる。 このモデル解釈可能性の欠如は、DRLスケジューリングの実践的な展開を妨げる。 本稿では,DRLスケジューリングの解釈可能性の問題に対処するIRL(Interpretable Reinforcement Learning)というフレームワークを提案する。 中心となる考え方は、模倣学習を利用してDNN(DRLポリシー)を決定木として解釈することである。 DNNとは異なり、決定木モデルは非パラメトリックであり、人間にとって容易に理解できる。 有効かつ効率的な決定木を抽出するために、IRLはデータセット集約(DAgger)アルゴリズムを導入し、決定木を抽出するために臨界状態の概念を導入する。 トレースベースの実験を通じて、IRLはブラックボックスDNNポリシーを、同等のスケジューリング性能を維持しつつ、解釈可能なルールベースの決定木に変換することができることを示した。 さらに、IRLはDRLスケジューリングにおける報酬の設定に寄与することができる。

In the field of high-performance computing (HPC), there has been recent exploration into the use of deep reinforcement learning for cluster scheduling (DRL scheduling), which has demonstrated promising outcomes. However, a significant challenge arises from the lack of interpretability in deep neural networks (DNN), rendering them as black-box models to system managers. This lack of model interpretability hinders the practical deployment of DRL scheduling. In this work, we present a framework called IRL (Interpretable Reinforcement Learning) to address the issue of interpretability of DRL scheduling. The core idea is to interpret DNN (i.e., the DRL policy) as a decision tree by utilizing imitation learning. Unlike DNN, decision tree models are non-parametric and easily comprehensible to humans. To extract an effective and efficient decision tree, IRL incorporates the Dataset Aggregation (DAgger) algorithm and introduces the notion of critical state to prune the derived decision tree. Through trace-based experiments, we demonstrate that IRL is capable of converting a black-box DNN policy into an interpretable rulebased decision tree while maintaining comparable scheduling performance. Additionally, IRL can contribute to the setting of rewards in DRL scheduling.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# LexDrafter:Retrieval Augmented Generation を用いた法的文書のターミノロジードラフト

LexDrafter: Terminology Drafting for Legislative Documents using Retrieval Augmented Generation ( http://arxiv.org/abs/2403.16295v1 )

ライセンス: Link先を確認
Ashish Chouhan, Michael Gertz, (参考訳) EUにおける立法文書の増加に伴い、新しい用語の数と定義も増加している。 欧州議会,評議会及び委員会の共同実務ガイドによれば,法的文書で使用される用語は一貫しており,同一の概念は,通常,法律又は技術言語においてその意味から離れることなく,表現される。 したがって、新しい立法文書を起草している間に、既存の定義についての洞察を提供し、文書の文脈に基づく新しい用語の定義を支援する枠組みを持つことで、異なる規則をまたいだ調和した法的定義をサポートし、あいまいさを避けることができる。 本稿では、検索拡張生成(RAG)と、異なる立法文書に存在する既存の用語定義を用いて、立法文書の定義項目の起草を支援するフレームワークであるLexDrafterを提案する。 そのため、定義要素は既存の文書から定義を抽出することによって構築される。 定義要素とRAGを使用することで、起草中の立法文書の要求に応じて定義項目を提案できる。 エネルギー領域からのEU文書の収集を用いてLexDrafterの機能の実証と評価を行った。 LexDrafterフレームワークのコードはhttps://github.com/achouhan93/LexDrafterで公開されている。

With the increase in legislative documents at the EU, the number of new terms and their definitions is increasing as well. As per the Joint Practical Guide of the European Parliament, the Council and the Commission, terms used in legal documents shall be consistent, and identical concepts shall be expressed without departing from their meaning in ordinary, legal, or technical language. Thus, while drafting a new legislative document, having a framework that provides insights about existing definitions and helps define new terms based on a document's context will support such harmonized legal definitions across different regulations and thus avoid ambiguities. In this paper, we present LexDrafter, a framework that assists in drafting Definitions articles for legislative documents using retrieval augmented generation (RAG) and existing term definitions present in different legislative documents. For this, definition elements are built by extracting definitions from existing documents. Using definition elements and RAG, a Definitions article can be suggested on demand for a legislative document that is being drafted. We demonstrate and evaluate the functionality of LexDrafter using a collection of EU documents from the energy domain. The code for LexDrafter framework is available at https://github.com/achouhan93/LexDrafter.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# 20mKにおける強誘電体$SrTiO_3$結晶中の酸素空孔を有する$Fe^{3+}$不純物イオンの剛性ESR分光

Rigorous ESR spectroscopy of $Fe^{3+}$ impurity ion with oxygen vacancy in ferroelectric $SrTiO_3$ crystal at 20 mK ( http://arxiv.org/abs/2403.16299v1 )

ライセンス: Link先を確認
M. A. Hosain, J-M. Le Floch, J. Krupka, M. E. Tobar, (参考訳) Inurity $Fe^{3+}$ ion electron spin resonance (ESR) spectroscopy using multiple dielectric modes in a $SrTiO_3$ dielectric resonator has been performed with a tuneable DC magnetic field of to $1.6~T$。 Ti^{4+}(d^0)$イオンは、鉄-酸素-空孔$(Fe^{3+)-V_O)$で、FeO_6$オクタヘドラル錯体を形成する$Fe^{3+}$イオンで置換される。 このような金属配位子錯体では、fg_{\scriptstyle\parallel F} = 5.51$の巨大g因子が強誘電体相において20〜mK$で観測された。 強誘電相転移の軟モード特性としての$FeO_6$錯体のイオン中心対称性の変化と鉄-酸素空孔$(Fe^{3+}-V_O)$, 八面体回転パラメータ$\Phi$ in $SrTi0_3$の非対称性に対話的に敏感な鉄-酸素-空孔$(Fe^{3+}-V_O)$の影響。

Impurity $Fe^{3+}$ ion electron spin resonance (ESR) spectroscopy using multiple dielectric modes in a $SrTiO_3$ dielectric resonator has been performed with a tuneable DC magnetic field of up to $1.6~T$. The $Ti^{4+}(d^0)$ ion is substituted by $Fe^{3+}$ ion forming $FeO_6$ octahedral complex with an iron-oxygen-vacancy $(Fe^{3+}-V_O)$. In such a metal-ligand complex, a giant g-factor of $g_{\scriptscriptstyle\parallel F} = 5.51$ was observed in the ferroelectric phase at $20~mK$. The the change of $Fe^{3+}$ ion center-symmetry in the $FeO_6$ complex as a soft-mode characteristics of ferroelectric phase transition and the influences of iron-oxygen-vacancy $(Fe^{3+}-V_O)$, interactively sensitive to asymmetry in the octahedral rotational parameter $\Phi$ in $SrTi0_3$.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# バイオメディカル・ヘルスインフォマティクスにおける大規模言語モデル

Large Language Models in Biomedical and Health Informatics: A Bibliometric Review ( http://arxiv.org/abs/2403.16303v1 )

ライセンス: Link先を確認
Huizi Yu, Lizhou Fan, Lingyao Li, Jiayan Zhou, Zihui Ma, Lu Xian, Wenyue Hua, Sijia He, Mingyu Jin, Yongfeng Zhang, Ashvin Gandhi, Xin Ma, (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよびヘルスインフォマティクス(BHI)において急速に重要なツールとなり、データを分析し、患者を治療し、研究を行う新しい方法を可能にしている。 本書評は,2022年から2023年までの研究論文やコラボレーションネットワークを調査し,LLMがBHIでどのように使われているかを示すパノラマ的な視点を提供することを目的とする。 LLMは、医療診断、患者のエンゲージメント、電子カルテ管理、パーソナライズドメディカル医療など、さまざまなBHI領域における自然言語処理(NLP)の応用をどのように改善するかについても検討している。 これを実現するために,本書評では,重要なトレンドを特定し,研究ネットワークをマップアウトし,この急速移動分野における主要な発展点を明らかにする。 最後に、データプライバシや信頼できる医療レコメンデーションなど、BHIにおけるLLMの使用に関する倫理的懸念と実践的課題について論じる。 今後は、LLMが医療提供や患者の成果だけでなく、バイオメディカル研究をさらに変えていくかを検討する。 この総合的なレビューは、BHIにおけるLLMの現状と将来の可能性を理解するために、研究者、臨床医、政策立案者を含む医療関係者のリソースとなる。

Large Language Models (LLMs) have rapidly become important tools in Biomedical and Health Informatics (BHI), enabling new ways to analyze data, treat patients, and conduct research. This bibliometric review aims to provide a panoramic view of how LLMs have been used in BHI by examining research articles and collaboration networks from 2022 to 2023. It further explores how LLMs can improve Natural Language Processing (NLP) applications in various BHI areas like medical diagnosis, patient engagement, electronic health record management, and personalized medicine. To do this, our bibliometric review identifies key trends, maps out research networks, and highlights major developments in this fast-moving field. Lastly, it discusses the ethical concerns and practical challenges of using LLMs in BHI, such as data privacy and reliable medical recommendations. Looking ahead, we consider how LLMs could further transform biomedical research as well as healthcare delivery and patient outcomes. This comprehensive review serves as a resource for stakeholders in healthcare, including researchers, clinicians, and policymakers, to understand the current state and future potential of LLMs in BHI.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# SoK:セキュリティアプリケーションにマルウェアサンドボックスを使うための基本ガイド:課題、落とし穴、教訓

SoK: An Essential Guide For Using Malware Sandboxes In Security Applications: Challenges, Pitfalls, and Lessons Learned ( http://arxiv.org/abs/2403.16304v1 )

ライセンス: Link先を確認
Omar Alrawi, Miuyin Yong Wong, Athanasios Avgetidis, Kevin Valakuzhy, Boladji Vinny Adjibi, Konstantinos Karakatsanis, Mustaque Ahamad, Doug Blough, Fabian Monrose, Manos Antonakakis, (参考訳) マルウェアサンドボックスはセキュリティアプリケーションに多くの利点をもたらすが、それらは複雑である。 これらの複雑さは、異なる研究領域の新規ユーザーを圧倒し、サンドボックスの選択、設定、使用を困難にする。 さらに悪いことに、サンドボックスの誤使用はセキュリティアプリケーションに悪影響を及ぼす可能性がある。 本稿では,x86/64マルウェアサンドボックスを学術文献に用いた84の代表的な論文を体系化することによって,この知識ギャップに対処する。 本研究では,サンドボックスコンポーネントを簡素化し,文献を整理し,サンドボックスの使用に関する実践的ガイドラインを導出する新しいフレームワークを提案する。 提案したガイドラインを3つの共通セキュリティアプリケーションを用いて体系的に評価し、異なるサンドボックスの選択が結果に大きな影響を及ぼすことを示す。 具体的には,提案ガイドラインにより,砂岩観測活動の少なくとも1.6倍,最大11.3倍の改善が図られた。 さらに,このガイドラインを用いてマルウェアの家族分類作業を支援する場合,約25%の精度,精度,リコールの改善が観察された。 我々は、一般的なサンドボックスデプロイメントが存在しないことを確認し、分析対象、脅威モデル、およびサンドボックスアーティファクトが意図したユースケースにどのように影響を与えるかについてのコンテキストを導出するために、当社のフレームワークを適用することを推奨する。 最後に、再現性のための実験、制限、潜在的な解決策をユーザが文書化することが重要である。

Malware sandboxes provide many benefits for security applications, but they are complex. These complexities can overwhelm new users in different research areas and make it difficult to select, configure, and use sandboxes. Even worse, incorrectly using sandboxes can have a negative impact on security applications. In this paper, we address this knowledge gap by systematizing 84 representative papers for using x86/64 malware sandboxes in the academic literature. We propose a novel framework to simplify sandbox components and organize the literature to derive practical guidelines for using sandboxes. We evaluate the proposed guidelines systematically using three common security applications and demonstrate that the choice of different sandboxes can significantly impact the results. Specifically, our results show that the proposed guidelines improve the sandbox observable activities by at least 1.6x and up to 11.3x. Furthermore, we observe a roughly 25% improvement in accuracy, precision, and recall when using the guidelines to help with a malware family classification task. We conclude by affirming that there is no "silver bullet" sandbox deployment that generalizes, and we recommend that users apply our framework to define a scope for their analysis, a threat model, and derive context about how the sandbox artifacts will influence their intended use case. Finally, it is important that users document their experiment, limitations, and potential solutions for reproducibility
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# 電子温度測定

Electron Thermometry ( http://arxiv.org/abs/2403.16305v1 )

ライセンス: Link先を確認
Joost van der Heijden, (参考訳) 量子エレクトロニクスの性能と精度は、デバイス内の電子の温度が高すぎると著しく劣化する。 電子温度は適切な熱アンカーと低周波ノイズと無線周波数ノイズの両方をフィルタリングすることで低減することができる。 最終的に、高性能フィルターでは、電子温度は希釈冷凍機内のフォノン温度(抵抗温度計によって測定される)に近づくことができる。 本稿では,クーロン遮断温度計を用いた典型的な量子エレクトロニクスデバイスにおける電子温度測定法について述べる。 この手法を用いて、QDevilが提供するQFilterを用いて、デバイス内で容易に達成可能な電子温度を求める。 温度測定では, 単一GaAs/AlGaAs量子ドットを最適化した実験装置で, 希釈冷凍機ベース温度が18mKのとき, 28$\pm$2mKの電子温度を決定した。

The performance and accuracy of quantum electronics is substantially degraded when the temperature of the electrons in the devices is too high. The electron temperature can be reduced with appropriate thermal anchoring and by filtering both the low frequency and radio frequency noise. Ultimately, for high performance filters the electron temperature can approach the phonon temperature (as measured by resistive thermometers) in a dilution refrigerator. In this application note, the method for measuring the electron temperature in a typical quantum electronics device using Coulomb blockade thermometry is described. This technique is applied to find the readily achievable electron temperature in the device when using the QFilter provided by QDevil. With our thermometry measurements, using a single GaAs/AlGaAs quantum dot in an optimized experimental setup, we determined an electron temperature of 28 $\pm$ 2 mK for a dilution refrigerator base temperature of 18 mK.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# Aggregate Frequency Width, Nuclear Hyperfine Coupling and Jahn-Teller Effect of $Cu^{2+}$ Impurity Ion ESR in $SrLaAlO_4$ Dielectric Resonator at 20$ Millikelvin

Aggregate Frequency Width, Nuclear Hyperfine Coupling and Jahn-Teller Effect of $Cu^{2+}$ Impurity Ion ESR in $SrLaAlO_4$ Dielectric Resonator at $20$ Millikelvin ( http://arxiv.org/abs/2403.16315v1 )

ライセンス: Link先を確認
M. A. Hosain, J. -M. Le Floch, J. Krupka, M. E. Tobar, (参考訳) 不純物常磁性イオンである$Cu^{2+}$は、$SrLaAlO_4$単結晶格子で$Al$を置換し、この結果、$CuO_6$伸長オクタヘドロンとなり、結果として測定されたg因子は4倍の軸変化状態を示す。 不純物濃度の必要最低値である電子スピン共鳴の集合周波数幅は、単結晶$SrLaAlO_4$で20$ミリケルビンで評価されている。 A_{\scriptstyle\parallel Cu}$は、$-155.7\times10^{-4}~cm^{-1},~-163.0\times10^{-4}~cm^{-1} $ and $-211.1\times10^{-4}~cm^{-1}$ at 9.072~GHz~(WGH_{4,1,1})$ for the nuclear magnetic quantum quantum number $M_I=+\frac{3}{2},+\frac{1}{2},-\frac{1}{2},~&-\frac{3}{2}$である。 超微細構造の異方性は、静的ヤーン・テラー効果の特徴を明らかにする。 2階異方性項である $\sim (\frac{spin-orbit~coupling}{10D_q})^2$ は重要で無視できない。 ボーア電子マグネトロン、$\beta=9.23\times 10^{-24} JT^{-1}$($-0.43\%$ と呼ばれる実験誤差を持つ)はスピン-ハミルトンパラメータを用いて発見された。 核双極子双極子構造パラメータ$P_{\scriptstyle\parallel}=12.3\times10^{-4}~cm^{-1}$は、核からの電子距離の平均逆3番目のパワーが$\langle r^{-3}_q\rangle\simeq 5.23$ a.u. for $Cu^{2+}$ ion in the alternatived $Al^{3+}$ ion site assuming nuclear electric quadruple moment $Q=-0.211$ barnであることを示している。

The impurity paramagnetic ion, $Cu^{2+}$ substitutes $Al$ in the $SrLaAlO_4$ single crystal lattice, this results in a $CuO_6$ elongated octahedron, the resulting measured g-factors shows four-fold axes variation condition. The aggregate frequency width of the electron spin resonance with the required minimum level of impurity concentration has been evaluated in single crystal $SrLaAlO_4$ at $20$ millikelvin. Measured parallel hyperfine constants, $A_{\scriptscriptstyle\parallel Cu}$, were determined to be $-155.7\times10^{-4}~cm^{-1},~ -163.0\times10^{-4}~cm^{-1},~ -178.3\times10^{-4}~cm^{-1} $ and$~-211.1\times10^{-4}~cm^{-1}$ at $9.072~GHz~(WGH_{4,1,1})$ for the nuclear magnetic quantum number $M_I=+\frac{3}{2},+\frac{1}{2},-\frac{1}{2}$,~and$-\frac{3}{2}$ respectively. The anisotropy of the hyperfine structure reveals a characteristics of static Jahn-Teller effect. The second-order-anisotropy-term, $\sim (\frac{spin-orbit~coupling}{10D_q})^2$, is significant and can not be disregarded, with the local strain dominating over the observed Zeeman-anisotropy-energy difference. The Bohr electron magneton, $\beta=9.23\times 10^{-24} JT^{-1}$, (within $-0.43\%$ so-called experimental error) has been found using the measured spin-Hamiltonian parameters. Measured nuclear dipolar hyperfine structure parameter $P_{\scriptscriptstyle\parallel}=12.3\times10^{-4}~cm^{-1}$ shows that the mean inverse third power of the electron distance from the nucleus is $\langle r^{-3}_q\rangle\simeq 5.23$ a.u. for $Cu^{2+}$ ion in the substituted $Al^{3+}$ ion site assuming nuclear electric quadruple moment $Q=-0.211$ barn.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# 有限スケールの最適化:境界局所次変分視点

Optimization on a Finer Scale: Bounded Local Subgradient Variation Perspective ( http://arxiv.org/abs/2403.16317v1 )

ライセンス: Link先を確認
Jelena Diakonikolas, Cristóbal Guzmán, (参考訳) 本研究は,局所的な局所次変分に基づく非滑らかな最適化問題の研究を開始し,点周辺の小さな局所領域における(部分)次数間の有界差を,平均的あるいは最大的な意味で仮定する。 得られた目的関数のクラスは、最適化において伝統的に研究されてきた対象関数のクラスをカプセル化しており、これは目的関数のリプシッツ連続性またはその勾配のH\"{o}lder/Lipschitz連続性に基づいて定義される。 さらに、定義されるクラスは、リプシッツ連続でもなく、H\"{o}lder continuous gradient も持たない函数を含む。 従来の最適化問題のクラスに制限された場合、研究されたクラスを定義するパラメータはよりきめ細かな複雑性境界を導き、最悪の場合は伝統的なオラクルの複雑性境界を回復するが、一般に ``worst case' でない関数のオラクルの複雑さを低くする。 「''結果のハイライトは以下のとおりである。 i)(局所的あるいは大域的)リプシッツ定数を局所的な下次変動の定数に置き換えた凸問題と非凸問題の両方の複雑性結果を得ることが可能である。 (ii)オプティマ周りの部分微分集合の平均幅は、非滑らかな最適化の複雑さ、特に平行な設定において重要な役割を果たしている。 結果 (ii) 任意の誤差パラメータ $\epsilon > 0$ に対して、非滑らかなリプシッツ凸最適化の並列オラクル複雑性は、入力サイズの多項式的に多くの部分を持つ目的関数が多項式線型であるときに、その逐次オラクル複雑性よりも$\tilde{\Omega}\big(\frac{1}{\epsilon}\big)$ より低い。 既存の並列複雑性の低い境界はそのような関数のクラスに基づいているため、これは特に驚くべきことである。 アルゴリズムが目的を問うことができる領域を考慮して、一見矛盾を解消する。

We initiate the study of nonsmooth optimization problems under bounded local subgradient variation, which postulates bounded difference between (sub)gradients in small local regions around points, in either average or maximum sense. The resulting class of objective functions encapsulates the classes of objective functions traditionally studied in optimization, which are defined based on either Lipschitz continuity of the objective or H\"{o}lder/Lipschitz continuity of its gradient. Further, the defined class contains functions that are neither Lipschitz continuous nor have a H\"{o}lder continuous gradient. When restricted to the traditional classes of optimization problems, the parameters defining the studied classes lead to more fine-grained complexity bounds, recovering traditional oracle complexity bounds in the worst case but generally leading to lower oracle complexity for functions that are not ``worst case.'' Some highlights of our results are that: (i) it is possible to obtain complexity results for both convex and nonconvex problems with the (local or global) Lipschitz constant being replaced by a constant of local subgradient variation and (ii) mean width of the subdifferential set around the optima plays a role in the complexity of nonsmooth optimization, particularly in parallel settings. A consequence of (ii) is that for any error parameter $\epsilon > 0$, parallel oracle complexity of nonsmooth Lipschitz convex optimization is lower than its sequential oracle complexity by a factor $\tilde{\Omega}\big(\frac{1}{\epsilon}\big)$ whenever the objective function is piecewise linear with polynomially many pieces in the input size. This is particularly surprising as existing parallel complexity lower bounds are based on such classes of functions. The seeming contradiction is resolved by considering the region in which the algorithm is allowed to query the objective.
翻訳日:2024-03-26 16:36:48 公開日:2024-03-24
# AutoInst: LiDAR 3D スキャンの自動インスタンスベースセグメンテーション

AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans ( http://arxiv.org/abs/2403.16318v1 )

ライセンス: Link先を確認
Cedric Perauer, Laurenz Adrian Heidrich, Haifan Zhang, Matthias Nießner, Anastasiia Kornilova, Alexey Artemov, (参考訳) 近年、LiDARセンサーなどの取得装置の進歩により、ますます広まる屋外3D環境の検知が可能になった。 このような3D取得を理解するには、インスタンスベースの3Dシーンセグメンテーションの構築など、きめ細かいシーン理解が必要である。 一般的に、ニューラルネットワークは、このタスクのためにトレーニングされるが、これは大きな、密度の高い注釈付きデータセットへのアクセスを必要とする。 この問題に対処するため,本研究では,地平線アノテーションに頼ることなく,教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。 この目的のために,(1)初期教師なしの擬似ラベルを生成する擬似アノテーションスキーム,(2)初期雑音の多い提案から,頑健で正確なインスタンスに適合するサンプルセグメンテーションのための自己学習アルゴリズムという,2つのコンポーネントからなる学習フレームワークを構築した。 複数モーダル画像とポイントベースの自己監督機能を統合したエッジと3Dポイントを結合して重み付けされたプロキシグラフを構築し,個別の擬似事象を分離するためのグラフカットを行う。 そして、最先端のポイントベースアーキテクチャを構築し、3Dインスタンスセグメンテーションモデルをトレーニングし、最初の提案を大幅に改善します。 任意の複雑な3Dシーンにスケールするために、局所的な3Dポイントチャンクを操作するアルゴリズムを設計し、シーンレベルのインスタンスセグメンテーションを生成するためのマージステップを構築する。 挑戦的なSemanticKITTIベンチマークの実験では、我々のアプローチの可能性を実証し、平均精度が13.3%、F1スコアが9.1%向上した。 コードはhttps://github.com/artonson/autoinst.comで公開される。

Recently, progress in acquisition equipment such as LiDAR sensors has enabled sensing increasingly spacious outdoor 3D environments. Making sense of such 3D acquisitions requires fine-grained scene understanding, such as constructing instance-based 3D scene segmentations. Commonly, a neural network is trained for this task; however, this requires access to a large, densely annotated dataset, which is widely known to be challenging to obtain. To address this issue, in this work we propose to predict instance segmentations for 3D scenes in an unsupervised way, without relying on ground-truth annotations. To this end, we construct a learning framework consisting of two components: (1) a pseudo-annotation scheme for generating initial unsupervised pseudo-labels; and (2) a self-training algorithm for instance segmentation to fit robust, accurate instances from initial noisy proposals. To enable generating 3D instance mask proposals, we construct a weighted proxy-graph by connecting 3D points with edges integrating multi-modal image- and point-based self-supervised features, and perform graph-cuts to isolate individual pseudo-instances. We then build on a state-of-the-art point-based architecture and train a 3D instance segmentation model, resulting in significant refinement of initial proposals. To scale to arbitrary complexity 3D scenes, we design our algorithm to operate on local 3D point chunks and construct a merging step to generate scene-level instance segmentations. Experiments on the challenging SemanticKITTI benchmark demonstrate the potential of our approach, where it attains 13.3% higher Average Precision and 9.1% higher F1 score compared to the best-performing baseline. The code will be made publicly available at https://github.com/artonson/autoinst.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-24
# バイパルタイト系における量子絡み合いの強化:最適制御と物理インフォームドニューラルネットワークの活用

Enhancing Quantum Entanglement in Bipartite Systems: Leveraging Optimal Control and Physics-Informed Neural Networks ( http://arxiv.org/abs/2403.16321v1 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski, (参考訳) 量子絡み合いは量子情報科学の最前線にあり、量子通信、計算、暗号の新しいパラダイムを提唱している。 本稿では、予め定義された最大絡み合い状態ではなく、絡み合い対策に焦点を当てた量子最適制御手法を提案する。 間接ポントリャーギン最小原理を利用して、入力制約が存在する場合の最も短い時間枠内でのエンタングルメント測度の下限の増大を最大化することに焦点を当てた最適制御問題を定式化する。 我々は,行列値の動的制御系に適したポントリャーギンの最小原理に基づいて最適条件を導出し,微分行列方程式の扱いに適する物理インフォームドニューラルネットワークを用いて,結果の境界値問題に取り組む。 提案手法は, 絡み合った状態を生成する過程を洗練させるだけでなく, 絡み合った状態を検出する感度を高める手法を導入し, 従来のコンカレンス推定の限界を克服する。

Quantum entanglement stands at the forefront of quantum information science, heralding new paradigms in quantum communication, computation, and cryptography. This paper introduces a quantum optimal control approach by focusing on entanglement measures rather than targeting predefined maximally entangled states. Leveraging the indirect Pontryagin Minimum Principle, we formulate an optimal control problem centered on maximizing an enhanced lower bound of the entanglement measure within a shortest timeframe in the presence of input constraints. We derive optimality conditions based on Pontryagin's Minimum Principle tailored for a matrix-valued dynamic control system and tackle the resulting boundary value problem through a Physics-Informed Neural Network, which is adept at handling differential matrix equations. The proposed strategy not only refines the process of generating entangled states but also introduces a method with increased sensitivity in detecting entangled states, thereby overcoming the limitations of conventional concurrence estimation.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-24
# 建築ブロックとしての人工ニューラルネットワーク : 概念と課題

Artificial Neural Microcircuits as Building Blocks: Concept and Challenges ( http://arxiv.org/abs/2403.16327v1 )

ライセンス: Link先を確認
Andrew Walter, Shimeng Wu, Andy M. Tyrrell, Liam McDaid, Malachy McElholm, Nidhin Thandassery Sumithran, Jim Harkin, Martin A. Trefzer, (参考訳) 人工ニューラルネットワーク(Artificial Neural Networks, ANN)は、バイオインスパイアされた計算の最も広く使われている形式の一つである。 しかし、現在のトレンドは、ANNが構造的に均質であることである。 さらに、この構造的均質性は、アプリケーション固有のANNを生成する複雑なトレーニングと学習ツールの応用を必要とする。 本稿では,有機神経系の「基礎的処理要素」と呼ばれる神経回路の生物学的役割に着想を得た新しいアプローチを提案する。 ニューラルネットワーク、特にスパイキングニューラルネットワーク(SNN)が、市販のコンポーネントとして意図された人工ニューラルネットワーク(ANMs)を使用してどのように組み立てられるか、ノベルティサーチを使用したものの、そのようなマイクロサーキットのカタログを作成する最初の作業の結果が示されている。

Artificial Neural Networks (ANNs) are one of the most widely employed forms of bio-inspired computation. However the current trend is for ANNs to be structurally homogeneous. Furthermore, this structural homogeneity requires the application of complex training and learning tools that produce application specific ANNs, susceptible to pitfalls such as overfitting. In this paper, an new approach is explored, inspired by the role played in biology by Neural Microcircuits, the so called ``fundamental processing elements'' of organic nervous systems. How large neural networks, particularly Spiking Neural Networks (SNNs) can be assembled using Artificial Neural Microcircuits (ANMs), intended as off-the-shelf components, is articulated; the results of initial work to produce a catalogue of such Microcircuits though the use of Novelty Search is shown; followed by efforts to expand upon this initial work, including a discussion of challenges uncovered during these efforts and explorations of methods by which they might be overcome.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-24
# ディープラーニングと状態空間モデルを用いたアナログダイナミックレンジ圧縮機のモデリング

Modeling Analog Dynamic Range Compressors using Deep Learning and State-space Models ( http://arxiv.org/abs/2403.16331v1 )

ライセンス: Link先を確認
Hanzhi Yin, Gang Cheng, Christian J. Steinmetz, Ruibin Yuan, Richard M. Stern, Roger B. Dannenberg, (参考訳) 本稿では,デジタルオーディオ制作のための動的レンジ圧縮機のリアルなディジタルモデルを開発するための新しい手法について述べる。 リアルなデジタルダイナミック圧縮機は多くの用途で有用であるが, 長期にわたって非線形に動作するため, 設計プロセスは困難である。 提案手法は,状態空間モデル(SSM)を実装した構造化状態空間列モデル(S4)に基づいており,長距離依存の学習に有効であることが証明されており,ダイナミックレンジ圧縮機のモデリングに有効である。 本稿では,Teletronix LA-2Aアナログダイナミックレンジ圧縮機をモデル化するために,S4層を用いたディープラーニングモデルを提案する。 モデルは因果的であり、効率よくリアルタイムで実行し、従来のディープラーニングモデルとほぼ同じ品質を達成しているが、パラメータは少ない。

We describe a novel approach for developing realistic digital models of dynamic range compressors for digital audio production by analyzing their analog prototypes. While realistic digital dynamic compressors are potentially useful for many applications, the design process is challenging because the compressors operate nonlinearly over long time scales. Our approach is based on the structured state space sequence model (S4), as implementing the state-space model (SSM) has proven to be efficient at learning long-range dependencies and is promising for modeling dynamic range compressors. We present in this paper a deep learning model with S4 layers to model the Teletronix LA-2A analog dynamic range compressor. The model is causal, executes efficiently in real time, and achieves roughly the same quality as previous deep-learning models but with fewer parameters.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-24
# VQPy: 現代的なビデオ分析のためのオブジェクト指向アプローチ

VQPy: An Object-Oriented Approach to Modern Video Analytics ( http://arxiv.org/abs/2311.01623v3 )

ライセンス: Link先を確認
Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu, (参考訳) ビデオ分析は現代のシステムやサービスで広く使われている。 ビデオ分析の最前線は、ユーザが特定の関心のあるオブジェクトを見つけるために開発するビデオクエリである。 ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析のためのオブジェクト指向アプローチを開発することを提案する。 VQPyという名前のこのアプローチは、フロントエンド$\unicode{x2015}$a Python variantと、ビデオオブジェクトとそのインタラクションを簡単に表現できるコンストラクトと、ビデオオブジェクトに基づいてパイプラインを自動構築および最適化する拡張可能なバックエンドで構成されている。 私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。

Video analytics is widely used in contemporary systems and services. At the forefront of video analytics are video queries that users develop to find objects of particular interest. Building upon the insight that video objects (e.g., human, animals, cars, etc.), the center of video analytics, are similar in spirit to objects modeled by traditional object-oriented languages, we propose to develop an object-oriented approach to video analytics. This approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant with constructs that make it easy for users to express video objects and their interactions$\unicode{x2015}$as well as an extensible backend that can automatically construct and optimize pipelines based on video objects. We have implemented and open-sourced VQPy, which has been productized in Cisco as part of its DeepVision framework.
翻訳日:2024-03-26 10:58:39 公開日:2024-03-24
# オブジェクトローカライゼーション

Few-shot Object Localization ( http://arxiv.org/abs/2403.12466v2 )

ライセンス: Link先を確認
Yunhan Ren, Bo Li, Chengyang Zhang, Yong Zhang, Baocai Yin, (参考訳) 既存のオブジェクトローカライゼーション手法は、モデル最適化のために豊富なラベル付きデータを頼りに、特定のオブジェクトのクラスを特定するように調整されている。 しかし、多くの実世界のシナリオでは、大きなラベル付きデータを取得することは困難であり、より広範なローカライズモデルの適用を著しく制限する。 そこで本研究では,Few-Shot Object Localization (FSOL, Few-Shot Object Localization) の新たな課題を提案する。 本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。 そこで本研究では,革新的な高性能ベースラインモデルを提案する。 本モデルでは,特徴マップと問合せ画像の関連性を探究する自己問合せモジュールとともに,サポート画像と問合せ画像の形状関連性や勾配差を高めるために,デュアルパス機能拡張モジュールを統合した。 実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。 すべてのコードとデータはhttps://github.com/Ryh1218/FSOLで公開されている。

Existing object localization methods are tailored to locate a specific class of objects, relying on abundant labeled data for model optimization. However, in numerous real-world scenarios, acquiring large labeled data can be arduous, significantly constraining the broader application of localization models. To bridge this research gap, this paper proposes the novel task of Few-Shot Object Localization (FSOL), which seeks to achieve precise localization with limited samples available. This task achieves generalized object localization by leveraging a small number of labeled support samples to query the positional information of objects within corresponding images. To advance this research field, we propose an innovative high-performance baseline model. Our model integrates a dual-path feature augmentation module to enhance shape association and gradient differences between supports and query images, alongside a self query module designed to explore the association between feature maps and query images. Experimental results demonstrate a significant performance improvement of our approach in the FSOL task, establishing an efficient benchmark for further research. All codes and data are available at https://github.com/Ryh1218/FSOL.
翻訳日:2024-03-26 10:58:39 公開日:2024-03-24
# 一般画像融合用適応器のタスクカスタマイズ混合

Task-Customized Mixture of Adapters for General Image Fusion ( http://arxiv.org/abs/2403.12494v2 )

ライセンス: Link先を確認
Pengfei Zhu, Yang Sun, Bing Cao, Qinghua Hu, (参考訳) 一般画像融合は、マルチソース画像から重要な情報を統合することを目的としている。 しかし、タスク間の大きなギャップのため、それぞれの融合機構は実際に大きく変化し、サブタスク間での性能が制限される。 この問題に対処するために,汎用画像融合のための新しいタスクカストマイズド・ミックス(TC-MoA)を提案し,統一モデルにおける様々な融合タスクを適応的に促進する。 我々は、専門家(MoE)の混在から洞察を借り、専門家を効果的なチューニングアダプタとして捉え、事前訓練された基礎モデルを促す。 これらのアダプタは異なるタスク間で共有され、相互情報の規則化によって制約される。 タスク固有のルーティングネットワークは、これらのアダプタをカスタマイズして、動的に支配的な強度で異なるソースからタスク固有の情報を抽出し、適応的な視覚的特徴のプロンプト融合を実行する。 特に、我々のTC-MoAは、異なる核融合タスクに対する支配的な強度バイアスを制御し、単一のモデルで複数の核融合タスクを統一することに成功した。 TC-MoAは、一般画像融合(マルチモーダル、マルチ露光、マルチフォーカス)の互換性を維持しつつ、共通性を学ぶための競合するアプローチよりも優れており、さらに、より一般化実験において顕著な制御性を示している。 コードはhttps://github.com/YangSun22/TC-MoA で公開されている。

General image fusion aims at integrating important information from multi-source images. However, due to the significant cross-task gap, the respective fusion mechanism varies considerably in practice, resulting in limited performance across subtasks. To handle this problem, we propose a novel task-customized mixture of adapters (TC-MoA) for general image fusion, adaptively prompting various fusion tasks in a unified model. We borrow the insight from the mixture of experts (MoE), taking the experts as efficient tuning adapters to prompt a pre-trained foundation model. These adapters are shared across different tasks and constrained by mutual information regularization, ensuring compatibility with different tasks while complementarity for multi-source images. The task-specific routing networks customize these adapters to extract task-specific information from different sources with dynamic dominant intensity, performing adaptive visual feature prompt fusion. Notably, our TC-MoA controls the dominant intensity bias for different fusion tasks, successfully unifying multiple fusion tasks in a single model. Extensive experiments show that TC-MoA outperforms the competing approaches in learning commonalities while retaining compatibility for general image fusion (multi-modal, multi-exposure, and multi-focus), and also demonstrating striking controllability on more generalization experiments. The code is available at https://github.com/YangSun22/TC-MoA .
翻訳日:2024-03-26 10:58:39 公開日:2024-03-24
# FedNMUT-Federated Noisy Model Update Tracking Convergence Analysis

FedNMUT -- Federated Noisy Model Update Tracking Convergence Analysis ( http://arxiv.org/abs/2403.13247v2 )

ライセンス: Link先を確認
Vishnu Pandi Chellapandi, Antesh Upadhyay, Abolfazl Hashemi, Stanislaw H. Żak, (参考訳) 不完全な情報交換を反映したノイズの多い通信チャネルの存在下で効率的に機能する分散型ノイズモデル更新追従フェデレートラーニングアルゴリズム(FedNMUT)を提案する。 このアルゴリズムは、通信オーバーヘッドを最小限に抑えながら、データの不均一性の影響を最小限に抑えるために勾配追跡を用いる。 提案アルゴリズムはノイズをパラメータに組み込んでノイズの多い通信チャネルの条件を模倣し,このような困難な環境での通信グラフトポロジを通じてクライアント間のコンセンサスを実現する。 FedNMUTは、分散学習システムのノイズコミュニケーションに対するレジリエンスを高めるために、パラメータ共有とノイズ導入を優先する。 滑らかな非凸目的関数の理論的結果はわれわれによって提供され、$\epsilon-$stationary 解は、$\mathcal{O}\left(\frac{1}{\sqrt{T}}\right)$の速度でアルゴリズムによって達成される。 さらに,実証検証により,FedNMUTの性能が従来の最先端手法や従来のパラメータ混合手法よりも優れており,不完全な情報共有に対処できることが実証された。 これにより、分散学習フレームワークにおいて、通信ノイズの負の効果に対処するアルゴリズムの有効性が証明される。

A novel Decentralized Noisy Model Update Tracking Federated Learning algorithm (FedNMUT) is proposed that is tailored to function efficiently in the presence of noisy communication channels that reflect imperfect information exchange. This algorithm uses gradient tracking to minimize the impact of data heterogeneity while minimizing communication overhead. The proposed algorithm incorporates noise into its parameters to mimic the conditions of noisy communication channels, thereby enabling consensus among clients through a communication graph topology in such challenging environments. FedNMUT prioritizes parameter sharing and noise incorporation to increase the resilience of decentralized learning systems against noisy communications. Theoretical results for the smooth non-convex objective function are provided by us, and it is shown that the $\epsilon-$stationary solution is achieved by our algorithm at the rate of $\mathcal{O}\left(\frac{1}{\sqrt{T}}\right)$, where $T$ is the total number of communication rounds. Additionally, via empirical validation, we demonstrated that the performance of FedNMUT is superior to the existing state-of-the-art methods and conventional parameter-mixing approaches in dealing with imperfect information sharing. This proves the capability of the proposed algorithm to counteract the negative effects of communication noise in a decentralized learning framework.
翻訳日:2024-03-26 10:58:39 公開日:2024-03-24
# AGFSync: テキスト・画像生成におけるAI生成フィードバックの活用

AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation ( http://arxiv.org/abs/2403.13352v2 )

ライセンス: Link先を確認
Jingkun An, Yinghao Zhu, Zongjian Li, Haoran Feng, Bohua Chen, Yemin Shi, Chengwei Pan, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは画像生成において顕著な成功を収めた。 彼らの進歩にもかかわらず、課題は、これらのモデルを洗練するのに不可欠な、迅速なフォロー能力、画質、高品質なデータセットの欠如の両方に留まっている。 ラベル付きデータの取得にはコストがかかるため、AI駆動のアプローチでDPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークであるAGFSyncを導入する。 AGFSyncは、VLM(Vision-Language Models)を使用して、スタイル、コヒーレンス、美学にわたる画像品質を評価し、AI駆動ループ内でフィードバックデータを生成する。 AGFSyncをSD v1.4、v1.5、SDXLといった主要なT2Iモデルに適用することにより、TIFAデータセットの広範な実験により、VQAスコア、審美評価、HPSv2ベンチマークのパフォーマンスが大幅に向上し、ベースモデルを上回った。 AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。

Text-to-Image (T2I) diffusion models have achieved remarkable success in image generation. Despite their progress, challenges remain in both prompt-following ability, image quality and lack of high-quality datasets, which are essential for refining these models. As acquiring labeled data is costly, we introduce AGFSync, a framework that enhances T2I diffusion models through Direct Preference Optimization (DPO) in a fully AI-driven approach. AGFSync utilizes Vision-Language Models (VLM) to assess image quality across style, coherence, and aesthetics, generating feedback data within an AI-driven loop. By applying AGFSync to leading T2I models such as SD v1.4, v1.5, and SDXL, our extensive experiments on the TIFA dataset demonstrate notable improvements in VQA scores, aesthetic evaluations, and performance on the HPSv2 benchmark, consistently outperforming the base models. AGFSync's method of refining T2I diffusion models paves the way for scalable alignment techniques.
翻訳日:2024-03-26 10:58:39 公開日:2024-03-24
# 1枚の画像からタスクを発見・幻覚化させる計画(動画)

See, Imagine, Plan: Discovering and Hallucinating Tasks from a Single Image ( http://arxiv.org/abs/2403.13438v3 )

ライセンス: Link先を確認
Chenyang Ma, Kai Lu, Ta-Ying Cheng, Niki Trigoni, Andrew Markham, (参考訳) 人間は、現在の世界で世界を認識し、理解するだけでなく、すぐに知覚できる以上の将来のシナリオを思い描くことができる。 この深い人間の能力に似て、ゼロショットのタスク幻覚を導入します -- 未知の環境やオブジェクトを含むシーンの1つのRGBイメージを考えると、私たちのモデルは潜在的なタスクを特定し、ビデオとして実現された鮮やかな物語の中でそれらの実行を想像できます。 動的相互作用のためのVLMと物体軌道のための3次元モーションプランニングを組み込んだ,シーンの分解,理解,再構築を段階的に向上するモジュールパイプラインを開発した。 我々のモデルは、機械と人間の両方が理解できる現実的で魅力的な視覚結果を示すタスクビデオによって、多様なタスクを発見できる。 Project Page: https://dannymcy.github.io/zeroshot_task_hallucination/

Humans can not only recognize and understand the world in its current state but also envision future scenarios that extend beyond immediate perception. To resemble this profound human capacity, we introduce zero-shot task hallucination -- given a single RGB image of any scene comprising unknown environments and objects, our model can identify potential tasks and imagine their execution in a vivid narrative, realized as a video. We develop a modular pipeline that progressively enhances scene decomposition, comprehension, and reconstruction, incorporating VLM for dynamic interaction and 3D motion planning for object trajectories. Our model can discover diverse tasks, with the generated task videos demonstrating realistic and compelling visual outcomes that are understandable by both machines and humans. Project Page: https://dannymcy.github.io/zeroshot_task_hallucination/
翻訳日:2024-03-26 10:58:39 公開日:2024-03-24
# C-TPT:テキスト特徴分散による視覚言語モデルの校正テスト時間プロンプトチューニング

C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion ( http://arxiv.org/abs/2403.14119v2 )

ライセンス: Link先を確認
Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Mark Hasegawa-Johnson, Yingzhen Li, Chang D. Yoo, (参考訳) 深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。 素例は、最近提案されたCLIPのような大規模視覚言語モデルのテスト時間プロンプトチューニングである。 残念ながら、これらのプロンプトは主に精度を向上させるために開発されており、キャリブレーションの重要性を見落としている。 しかし、従来のキャリブレーション手法は大量のラベル付きデータに依存しており、テスト時のシナリオでは実用的ではない。 そこで本研究では,CLIPの特性を活用して,テスト時プロンプトチューニング時の校正について検討する。 一連の観察の結果,CLIP のキャリブレーションに即時選択が大きな影響を与え,高いテキスト特徴分散につながるプロンプトがより良いキャリブレーション予測をもたらすことがわかった。 平均テキスト特徴分散(ATFD)の導入により,キャリブレーションエラーとの関係を確立し,キャリブレーションの強化によるテスト時間中のプロンプトの最適化を目的とした,Callibrated Test-time Prompt Tuning(C-TPT)を提案する。 異なるCLIPアーキテクチャとデータセットに関する広範な実験を通して、C-TPTはラベル付きデータを必要としないテスト時間プロンプトチューニングのキャリブレーションを効果的に改善できることを示す。 コードはhttps://github.com/hee-suk-yoon/C-TPTで公開されている。

In deep learning, test-time adaptation has gained attention as a method for model fine-tuning without the need for labeled data. A prime exemplification is the recently proposed test-time prompt tuning for large-scale vision-language models such as CLIP. Unfortunately, these prompts have been mainly developed to improve accuracy, overlooking the importance of calibration, which is a crucial aspect for quantifying prediction uncertainty. However, traditional calibration methods rely on substantial amounts of labeled data, making them impractical for test-time scenarios. To this end, this paper explores calibration during test-time prompt tuning by leveraging the inherent properties of CLIP. Through a series of observations, we find that the prompt choice significantly affects the calibration in CLIP, where the prompts leading to higher text feature dispersion result in better-calibrated predictions. Introducing the Average Text Feature Dispersion (ATFD), we establish its relationship with calibration error and present a novel method, Calibrated Test-time Prompt Tuning (C-TPT), for optimizing prompts during test-time with enhanced calibration. Through extensive experiments on different CLIP architectures and datasets, we show that C-TPT can effectively improve the calibration of test-time prompt tuning without needing labeled data. The code is publicly accessible at https://github.com/hee-suk-yoon/C-TPT.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-24
# SynerMix:画像分類におけるクラス内凝集とクラス間分離性向上のための相乗的混合解法

SynerMix: Synergistic Mixup Solution for Enhanced Intra-Class Cohesion and Inter-Class Separability in Image Classification ( http://arxiv.org/abs/2403.14137v2 )

ライセンス: Link先を確認
Ye Xu, Ya Gao, Xiaorong Qiu, Yang Chen, Ying Ji, (参考訳) 画像分類タスクにおけるMixUpとその変種(例:Manifold MixUp)の問題に対処するため、同じクラス内での混合の無視(intra-class mixup)と混合操作によるクラス内凝集の強化の不適切さについて、SynerMix-Intraという新しい混合方法を提案し、これに基づいてSynerMixという相乗的混合ソリューションを導入する。 SynerMix-Intraは特に、クラス内の結合を促進するためにクラス内ミックスアップをターゲットにしている。 各ミニバッチに対して、各クラスから未拡張の原画像の特徴表現を利用して、ランダム線形補間により合成された特徴表現を生成する。 合成されたすべての表現は、分類層と損失層に供給され、クラス内の凝集度を著しく高める平均的な分類損失を計算する。 さらにSynerMixは、SynerMix-Intraと既存のミックスアップアプローチ(例えば、MixUp、Manifold MixUp)を組み合わせている。 そうすることで、クラス間の混合とクラス間の分離性を同時に改善しながら、バランスの取れた方法でクラス間の混合を統合できる。 6つのデータセットの実験結果から、SynerMixはMixUpとSynerMix-Intraのどちらよりも0.1%から3.43%高い精度で達成され、平均して1.16%の利益が得られた。 また、Manifold MixUpかSynerMix-Intraのどちらかのトップパフォーマンスを0.12%から5.16%上回り、平均1.11%上昇している。 SynerMixはモデルに依存しないため、音声やテキストの分類など、混合手法が有望である他の領域での応用には大きな可能性を秘めている。 私たちのコードは、https://github.com/wxitxy/synermix.git.comで公開されています。

To address the issues of MixUp and its variants (e.g., Manifold MixUp) in image classification tasks-namely, their neglect of mixing within the same class (intra-class mixup) and their inadequacy in enhancing intra-class cohesion through their mixing operations-we propose a novel mixup method named SynerMix-Intra and, building upon this, introduce a synergistic mixup solution named SynerMix. SynerMix-Intra specifically targets intra-class mixup to bolster intra-class cohesion, a feature not addressed by current mixup methods. For each mini-batch, it leverages feature representations of unaugmented original images from each class to generate a synthesized feature representation through random linear interpolation. All synthesized representations are then fed into the classification and loss layers to calculate an average classification loss that significantly enhances intra-class cohesion. Furthermore, SynerMix combines SynerMix-Intra with an existing mixup approach (e.g., MixUp, Manifold MixUp), which primarily focuses on inter-class mixup and has the benefit of enhancing inter-class separability. In doing so, it integrates both inter- and intra-class mixup in a balanced way while concurrently improving intra-class cohesion and inter-class separability. Experimental results on six datasets show that SynerMix achieves a 0.1% to 3.43% higher accuracy than the best of either MixUp or SynerMix-Intra alone, averaging a 1.16% gain. It also surpasses the top-performer of either Manifold MixUp or SynerMix-Intra by 0.12% to 5.16%, with an average gain of 1.11%. Given that SynerMix is model-agnostic, it holds significant potential for application in other domains where mixup methods have shown promise, such as speech and text classification. Our code is publicly available at: https://github.com/wxitxy/synermix.git.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-24
# ブロックチェーンセキュリティのための大規模言語モデル - 体系的な文献レビュー

Large Language Models for Blockchain Security: A Systematic Literature Review ( http://arxiv.org/abs/2403.14280v2 )

ライセンス: Link先を確認
Zheyuan He, Zihao Li, Sen Yang, (参考訳) 大規模言語モデル(LLM)は、ブロックチェーンセキュリティ(BS)を含むさまざまなドメインにおいて、強力なツールとして登場した。 いくつかの最近の研究は、BSに適用されたLLMを探索している。 しかしながら、アプリケーションの全範囲、影響、LLMのブロックチェーンセキュリティに対する潜在的な制約に関する理解には、まだギャップがあります。 このギャップを埋めるために、LLM4BSに関する文献レビューを行う。 LLMのブロックチェーンセキュリティへの適用に関する最初のレビューとして、我々の研究は、既存の研究を包括的に分析し、LLMがブロックチェーンシステムのセキュリティ向上にどのように貢献するかを明らかにすることを目的としている。 学術研究の徹底的な調査を通じて、LLMをブロックチェーンセキュリティのさまざまな側面に統合する方法について検討する。 スマートコントラクト監査、アイデンティティ検証、異常検出、脆弱性のある修復など、LLMがブロックチェーンセキュリティを強化するメカニズムについて検討する。 さらに、スケーラビリティ、プライバシの懸念、敵攻撃といった要因を考慮して、LLMをブロックチェーンセキュリティに活用する際の課題と制限を批判的に評価する。 私たちのレビューでは、この収束に固有の可能性や潜在的なリスクについて光を当て、研究者、実践家、政策立案者にも貴重な洞察を与えています。

Large Language Models (LLMs) have emerged as powerful tools in various domains involving blockchain security (BS). Several recent studies are exploring LLMs applied to BS. However, there remains a gap in our understanding regarding the full scope of applications, impacts, and potential constraints of LLMs on blockchain security. To fill this gap, we conduct a literature review on LLM4BS. As the first review of LLM's application on blockchain security, our study aims to comprehensively analyze existing research and elucidate how LLMs contribute to enhancing the security of blockchain systems. Through a thorough examination of scholarly works, we delve into the integration of LLMs into various aspects of blockchain security. We explore the mechanisms through which LLMs can bolster blockchain security, including their applications in smart contract auditing, identity verification, anomaly detection, vulnerable repair, and so on. Furthermore, we critically assess the challenges and limitations associated with leveraging LLMs for blockchain security, considering factors such as scalability, privacy concerns, and adversarial attacks. Our review sheds light on the opportunities and potential risks inherent in this convergence, providing valuable insights for researchers, practitioners, and policymakers alike.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-24
# マイクロダイアモンドおよびナノダイアモンド中の窒素空孔中心を用いた高偏極化による高感度磁気共鳴への応用

$^{13}$C Hyperpolarization with Nitrogen-Vacancy Centers in Micro- and Nanodiamonds for Sensitive Magnetic Resonance Applications ( http://arxiv.org/abs/2403.14521v2 )

ライセンス: Link先を確認
Rémi Blinder, Yuliya Mindarava, Martin Korzeczek, Alastair Marshall, Felix Glöckler, Steffen Nothelfer, Alwin Kienle, Christian Laube, Wolfgang Knolle, Christian Jentgens, Martin B. Plenio, Fedor Jelezko, (参考訳) 核双極化は、核磁気共鳴(NMR)におけるシグナルを桁違いに増強する既知の方法である。 本研究は、光励起窒素空洞中心(NV)を用いて、ダイヤモンド微粒子とナノ粒子の超分極を$^{13}$Cで処理し、室温で$^{13}$Cのスピンを分極する。 表面処理を改良した$^{13}$C緩和(T_1$)時間とNVを併用し、マイクロフォトニック構造に基づくNV照明技術を適用することにより、小粒子径の連続を緩和する。 電子常磁性共鳴によりNVスピン状態の光誘起再分布をモニタリングし、これらの欠陥中心の約4\%に対応する狭いスペクトル領域において、NVスピン状態の強い分極増強を観測した。 PulsePol'配列の調整と遅いサンプルローテーションを組み合わせることで、NV-$^{13}$C偏光伝達率をさらに向上する。 過分極$^{13}$C NMR信号は、2$\mu$mと100nmの中央値の粒子で観測され、それぞれ1500と940の熱信号(0.29Tの磁場)に増強される。 室温過分極の実証実験は, ナノ粒子を用いた高感度磁気共鳴材料の開発を期待するものである。

Nuclear hyperpolarization is a known method to enhance the signal in nuclear magnetic resonance (NMR) by orders of magnitude. The present work addresses the $^{13}$C hyperpolarization in diamond micro- and nanoparticles, using the optically-pumped nitrogen-vacancy center (NV) to polarize $^{13}$C spins at room temperature. Consequences of the small particle size are mitigated by using a combination of surface treatment improving the $^{13}$C relaxation ($T_1$) time, as well as that of NV, and applying a technique for NV illumination based on a microphotonic structure. Monitoring the light-induced redistribution of the NV spin state populations with electron paramagnetic resonance, a strong polarization enhancement for the NV spin state is observed in a narrow spectral region corresponding to about 4\% of these defect centers. By combining adjustments to the `PulsePol' sequence and slow sample rotation, the NV-$^{13}$C polarization transfer rate is improved further. The hyperpolarized $^{13}$C NMR signal is observed in particles of 2 $\mu$m and 100 nm median sizes, with enhancements over the thermal signal (at 0.29 T magnetic field), of 1500 and 940, respectively. The present demonstration of room-temperature hyperpolarization anticipates the development of agents based on nanoparticles for sensitive magnetic resonance applications.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-24