このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240327となっている論文です。

PDF登録状況(公開日: 20240327)

TitleAuthorsAbstract論文公表日・翻訳日
# メッセージパッシングはどのように協調フィルタリングを改善するか?

How Does Message Passing Improve Collaborative Filtering? ( http://arxiv.org/abs/2404.08660v1 )

ライセンス: Link先を確認
Mingxuan Ju, William Shiao, Zhichun Guo, Yanfang Ye, Yozen Liu, Neil Shah, Tong Zhao, (参考訳) 協調フィルタリング(CF)はレコメンダシステムに顕著な結果をもたらし、現実世界のアプリケーションに広く利用されている。 グラフニューラルネットワークで使用されるメッセージパッシングによってCF手法を強化する研究の分野は、CFに自然に存在するユーザイテム二部グラフのようなグラフ構造化データから知識を抽出する強力な能力があるためである。 彼らは、メッセージパッシングが、グラフベースの学習タスク全般の利点に似た方法でCFメソッドに役立つと仮定する。 しかし、メッセージパッシングがCFを実証的に改善したとしても、この仮定が正しいかどうかはまだ検証が必要である。 このギャップに対処するために、メッセージパッシングがCFを複数の視点から助ける理由を正式に検討し、以前の作業でなされた多くの仮定が完全に正確でないことを示す。 その結果, 1) メッセージパッシングは, モデルバックプロパゲーション中の隣接表現への追加的な勾配更新ではなく, 前方通過中に隣人から渡される追加表現により, CF性能を向上し, (ii) メッセージパッシングは高次ノードよりも低次ノードに役立つことがわかった。 これらの新たな知見を生かして、予測時間に1度だけメッセージパッシングを行うテスト時間拡張フレームワークであるTAG-CFについて、テスト時間アグリゲーションを提案する。 TAG-CFの重要な特徴は、グラフ知識を効果的に活用し、メッセージパッシングの計算上のオーバーヘッドの大部分を回避している点である。 さらに、TAG-CFは様々なCF監視信号によって訓練された表現を強化するためのプラグイン・アンド・プレイ・モジュールとして利用することができる。 6つのデータセットで評価され、TAG-CFは、寒冷なユーザで39.2%、全ユーザで31.7%までグラフ化せずにCFメソッドのレコメンデーション性能を継続的に改善し、余分な計算オーバーヘッドはほとんどない。

Collaborative filtering (CF) has exhibited prominent results for recommender systems and been broadly utilized for real-world applications. A branch of research enhances CF methods by message passing used in graph neural networks, due to its strong capabilities of extracting knowledge from graph-structured data, like user-item bipartite graphs that naturally exist in CF. They assume that message passing helps CF methods in a manner akin to its benefits for graph-based learning tasks in general. However, even though message passing empirically improves CF, whether or not this assumption is correct still needs verification. To address this gap, we formally investigate why message passing helps CF from multiple perspectives and show that many assumptions made by previous works are not entirely accurate. With our curated ablation studies and theoretical analyses, we discover that (1) message passing improves the CF performance primarily by additional representations passed from neighbors during the forward pass instead of additional gradient updates to neighbor representations during the model back-propagation and (ii) message passing usually helps low-degree nodes more than high-degree nodes. Utilizing these novel findings, we present Test-time Aggregation for CF, namely TAG-CF, a test-time augmentation framework that only conducts message passing once at inference time. The key novelty of TAG-CF is that it effectively utilizes graph knowledge while circumventing most of notorious computational overheads of message passing. Besides, TAG-CF is extremely versatile can be used as a plug-and-play module to enhance representations trained by different CF supervision signals. Evaluated on six datasets, TAG-CF consistently improves the recommendation performance of CF methods without graph by up to 39.2% on cold users and 31.7% on all users, with little to no extra computational overheads.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-27
# 機械翻訳における翻訳文と人間翻訳の翻訳関係における比較

The Comparison of Translationese in Machine Translation and Human Transation in terms of Translation Relations ( http://arxiv.org/abs/2404.08661v1 )

ライセンス: Link先を確認
Fan Zhou, (参考訳) 本研究では,ニューラルマシン翻訳(NMT)とヒューマン翻訳(HT)の区別を,翻訳関係のレンズを通して検討する。 NMTシステムによって生成された翻訳技術を評価するためにHTをベンチマークし、NMTとHTの全体的な翻訳関係の違い、それぞれが非文字翻訳技術をどのように利用するか、特定の非文字翻訳技術の使用に影響を与える要因のばらつきといった3つの重要な研究課題に対処することを目指している。 この研究は2つのパラレルコーパスを用いており、それぞれが9つのジャンルにまたがって、同じソーステキストで、1つはNMTによって翻訳され、もう1つは人間によって翻訳された。 これらのコーパスの翻訳関係は、一致したペアに手動で注釈付けされ、ハイパーネムのような意味的および構文的ニュアンスや音声のタグ付けにおける変化を含む、言語的な洞察に基づく比較分析を可能にする。 以上の結果から,NMTはHTよりも翻訳に大きく依存していることが示唆された。 NMTは構文的ノンリテラル翻訳技術でHTと同等に機能するが、セマンティックレベルの性能では劣る。

This study explores the distinctions between neural machine translation (NMT) and human translation (HT) through the lens of translation relations. It benchmarks HT to assess the translation techniques produced by an NMT system and aims to address three key research questions: the differences in overall translation relations between NMT and HT, how each utilizes non-literal translation techniques, and the variations in factors influencing their use of specific non-literal techniques. The research employs two parallel corpora, each spanning nine genres with the same source texts with one translated by NMT and the other by humans. Translation relations in these corpora are manually annotated on aligned pairs, enabling a comparative analysis that draws on linguistic insights, including semantic and syntactic nuances such as hypernyms and alterations in part-of-speech tagging. The results indicate that NMT relies on literal translation significantly more than HT across genres. While NMT performs comparably to HT in employing syntactic non-literal translation techniques, it falls behind in semantic-level performance.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-27
# 個人投資家のためのストックレコメンデーション:多様化型コントラスト学習を用いた時間グラフネットワークアプローチ

Stock Recommendations for Individual Investors: A Temporal Graph Network Approach with Diversification-Enhancing Contrastive Learning ( http://arxiv.org/abs/2404.07223v1 )

ライセンス: Link先を確認
Youngbin Lee, Yejin Kim, Yongjae Lee, (参考訳) 複雑な金融市場では、レコメンダシステムは個人に情報的な決定を強制する上で重要な役割を果たす。 既存の研究は主に価格予測に焦点を当てているが、最も洗練されたモデルでさえ株価を正確に予測することはできない。 また、多くの研究では、多くの個人投資家が独自の好みを持っているため、確立した投資理論に従わないことが示されている。 したがって、株式レコメンデーションのトリッキーな点は、レコメンデーションは優れた投資実績を与えるべきだが、個人の好みを無視するべきではないということだ。 効果的なストックレコメンデータシステムの開発には,3つの重要な側面を考慮することが不可欠である。 1)個人の嗜好 2【ポートフォリオの多様化】 3)ストックの特徴と個人の嗜好の時間的側面。 そこで本研究では,時間変動の協調的なシグナルを扱えるポートフォリオ時間グラフネットワークレコメンデータPfoTGNRecを開発し,多変量化によるコントラスト学習を取り入れた。 その結果, 最先端の動的埋め込みモデルや既存ストックレコメンデーションモデルなど, 各種ベースラインと比較して優れた性能を示し, 個人選好の獲得に競争力を維持しつつ, 優れた投資実績を示した。 ソースコードとデータはhttps://anonymous.4open.science/r/IJCAI2024-12F4で公開されている。

In complex financial markets, recommender systems can play a crucial role in empowering individuals to make informed decisions. Existing studies predominantly focus on price prediction, but even the most sophisticated models cannot accurately predict stock prices. Also, many studies show that most individual investors do not follow established investment theories because they have their own preferences. Hence, the tricky point in stock recommendation is that recommendations should give good investment performance but also should not ignore individual preferences. To develop effective stock recommender systems, it is essential to consider three key aspects: 1) individual preferences, 2) portfolio diversification, and 3) temporal aspect of both stock features and individual preferences. In response, we develop the portfolio temporal graph network recommender PfoTGNRec, which can handle time-varying collaborative signals and incorporates diversification-enhancing contrastive learning. As a result, our model demonstrated superior performance compared to various baselines, including cutting-edge dynamic embedding models and existing stock recommendation models, in a sense that our model exhibited good investment performance while maintaining competitive in capturing individual preferences. The source code and data are available at https://anonymous.4open.science/r/IJCAI2024-12F4.
翻訳日:2024-04-14 13:13:23 公開日:2024-03-27
# 金融ネットワークにおけるグラフ異常検出のための時間グラフネットワーク

Temporal Graph Networks for Graph Anomaly Detection in Financial Networks ( http://arxiv.org/abs/2404.00060v1 )

ライセンス: Link先を確認
Yejin Kim, Youngbin Lee, Minyoung Choe, Sungju Oh, Yongjae Lee, (参考訳) 本稿では,金融異常検出におけるテンポラルグラフネットワーク(TGN)の利用,フィンテック時代とデジタル金融取引の急激なニーズについて検討する。 本稿では,金融ネットワーク内のエッジの動的変化を捉え,不正検出にTGNを利用する包括的フレームワークを提案する。 本研究では,静的グラフニューラルネットワーク(GNN)ベースラインに対するTGNの性能と,DGraphデータセットを用いた最先端ハイパーグラフニューラルネットワークベースラインとの比較を行った。 以上の結果から,TGNはAUCの指標で他のモデルよりも有意に優れていた。 この優れたパフォーマンスは、金融詐欺を検出する効果的なツールとしてのTGNの可能性を強調し、現代の金融システムのダイナミックで複雑な性質に適応する能力を示している。 また,TGNフレームワーク内のグラフ埋め込みモジュールについても実験を行い,各モジュールの有効性を比較した。 結論として,TGN内での変動であっても,異常検出タスクにおいて良好な性能が得られることを示した。

This paper explores the utilization of Temporal Graph Networks (TGN) for financial anomaly detection, a pressing need in the era of fintech and digitized financial transactions. We present a comprehensive framework that leverages TGN, capable of capturing dynamic changes in edges within financial networks, for fraud detection. Our study compares TGN's performance against static Graph Neural Network (GNN) baselines, as well as cutting-edge hypergraph neural network baselines using DGraph dataset for a realistic financial context. Our results demonstrate that TGN significantly outperforms other models in terms of AUC metrics. This superior performance underlines TGN's potential as an effective tool for detecting financial fraud, showcasing its ability to adapt to the dynamic and complex nature of modern financial systems. We also experimented with various graph embedding modules within the TGN framework and compared the effectiveness of each module. In conclusion, we demonstrated that, even with variations within TGN, it is possible to achieve good performance in the anomaly detection task.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-27
# 量子回路欠陥がネットワークおよびコンピュータ応用に与える影響のモデル化

Modelling the Impact of Quantum Circuit Imperfections on Networks and Computer Applications ( http://arxiv.org/abs/2404.00062v1 )

ライセンス: Link先を確認
Savo Glisic, (参考訳) ポスト量子および量子暗号スキームは、7Gネットワークのための実現可能な量子コンピュータアプリケーションである。 これらのスキームは、既存のスキームを置き換える可能性がある。 これらのアルゴリズムは、Shorアルゴリズムのような量子コンピュータ上で動作する量子検索アルゴリズムの進歩によって妥協された。 Shorアルゴリズムは、既存のアルゴリズムの基礎となる整数の素因子を見つけるための量子アルゴリズムである。 これはESAアルゴリズムを危険にさらすために利用可能な量子コンピュータアプリケーションとなった。 最近の論文では、7Gネットワークにおける量子および量子暗号アルゴリズムの適用性に着目したポスト量子および量子暗号アルゴリズムの研究について詳細に調査している。 本論文では、暗号アルゴリズムを追従するものとして、量子ネットワーク最適化のための新しいフレームワークを提供し、7Gにおける量子ハードウェアの最も重要な部分を含む、これらのアルゴリズムの実用的な実装のための技術(量子ハードウェア)の実現に向けた研究を詳細に調査する。 エンジニアリングの実践ではいつものように、実践的なソリューションは、実装のパフォーマンスと複雑さを妥協させるものです。 そこで本研究では,実装の不完全性を含むネットワークおよびコンピュータアプリケーション最適化フレームワークを提案する。 このツールは、次世代の実用的なコンピュータシステム設計を最適化するのに有用である。 その後、量子ハードウェアに関する既存の研究を包括的に調査し、これらの不完全性の原因を指摘した。 これにより、量子ハードウェアの改善に対する投資がシステム全体のパフォーマンス向上にどの程度貢献するかを公平に評価することができる。 このようにして、ハードウェアへの投資とシステムレベルの複雑さの間の適切なパーティショニングを決定することができる。

Post Quantum and Quantum Cryptography schemes are feasible quantum computer applications for 7G networks. These schemes could possibly replace existing schemes. These algorithms have been compromised by advances in quantum search algorithms run on quantum computers like Shor algorithm. Shor algorithm is a quantum algorithm for finding the prime factors of an integer which is the basis of existing algorithm. This has become an available quantum computer application putting the use of ESA algorithm at risk. Our recent paper provides a detailed survey of the work on post quantum and quantum cryptography algorithms with focus on their applicability in 7G networks. Since the paper focuses on the cryptography algorithms as a follow up, in this paper, we provide a new framework for quantum network optimization and survey in detail the work on enabling technologies (quantum hardware) for the practical implementation of these algorithms including the most important segments of quantum hardware in 7G. As always in engineering practice practical solutions are a compromise between the performance and complexity of the implementation. For this reason, as the main contribution, the paper presents a network and computer applications optimization framework that includes implementation imperfections. The tools should be useful in optimizing future generation practical computer system design. After that a comprehensive survey of the existing work on quantum hardware is presented pointing out the sources of these imperfections. This enables us to make a fair assessment of how much investment into quantum hardware improvements contributes to the performance enhancement of the overall system. In this way a decision can be made on proper partitioning between the investment in hardware and system level complexity.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-27
# 変圧器のカタストロフィックフォーミング低減のための知的学習率分布

Intelligent Learning Rate Distribution to reduce Catastrophic Forgetting in Transformers ( http://arxiv.org/abs/2404.01317v1 )

ライセンス: Link先を確認
Philip Kenneweg, Alexander Schulz, Sarah Schröder, Barbara Hammer, (参考訳) 大規模テキストコーパス上での言語モデルの事前学習は、自然言語処理において一般的な実践である。 これらのモデルの微調整は、様々なタスクにおいて最良の結果を得るために実行される。 本稿では,変圧器ニューラルネットワークにおける破滅的忘れの問題について検討し,この文脈におけるネットワーク全体の平坦な学習率による微調整の一般的な実践について考察する。 我々は、フラットな学習率よりも優れた学習率分布を求めるために、ハイパーパラメータ最適化プロセスを実行する。 得られた学習率分布を組み合わせて,破滅的な忘れ方の問題に関して,より優れたパフォーマンスを期待できることを示す。 GLUEデータセットからの様々なNLPベンチマークを用いて,これらの学習率分布を検証する。

Pretraining language models on large text corpora is a common practice in natural language processing. Fine-tuning of these models is then performed to achieve the best results on a variety of tasks. In this paper, we investigate the problem of catastrophic forgetting in transformer neural networks and question the common practice of fine-tuning with a flat learning rate for the entire network in this context. We perform a hyperparameter optimization process to find learning rate distributions that are better than a flat learning rate. We combine the learning rate distributions thus found and show that they generalize to better performance with respect to the problem of catastrophic forgetting. We validate these learning rate distributions with a variety of NLP benchmarks from the GLUE dataset.
翻訳日:2024-04-03 21:16:45 公開日:2024-03-27
# テキスト・画像生成のための能力認識型プロンプト改革学習

Capability-aware Prompt Reformulation Learning for Text-to-Image Generation ( http://arxiv.org/abs/2403.19716v1 )

ライセンス: Link先を確認
Jingtao Zhan, Qingyao Ai, Yiqun Liu, Jia Chen, Shaoping Ma, (参考訳) テキスト・ツー・イメージ生成システムは、芸術的創造の領域において革命的なツールとして登場し、テキスト・プロンプトを視覚芸術に変えるのに前代未聞の容易さを提供する。 しかしながら、これらのシステムの有効性は、ユーザが提供するプロンプトの品質と密接に関連しているため、プロンプト作成に慣れていないユーザには、しばしば課題となる。 本稿では,対話ログからユーザ更新データを活用して,自動的なプロンプト更新モデルを構築することで,この問題に対処する。 これらのログの詳細な分析により、利用者の即時改定は個々の利用者の能力に大きく依存していることが明らかとなり、その結果、改定ペアの品質にかなりのばらつきが生じる。 このデータを効果的にトレーニングするために,我々はCAPR(Capability-Aware Prompt Reformulation)フレームワークを導入する。 CAPRは、条件付き改革モデル(CRM)と構成可能な機能機能(CCF)という2つの重要なコンポーネントを通じて、ユーザ機能を革新的に改革プロセスに統合します。 CRMは、CCFで表される特定のユーザ機能に従ってプロンプトをリフォームする。 CCFは、CRMの振る舞いをチューニングし、ガイドする柔軟性を提供します。 これにより、CAPRは、多様なユーザ能力にわたる多様なリフォーム戦略を効果的に学習し、推論中に高機能なユーザリフォームをシミュレートすることができる。 標準のテキスト・画像生成ベンチマークに関する大規模な実験は、CAPRが既存のベースラインよりも優れた性能と、目に見えないシステムに対する顕著な堅牢性を示している。 さらに、包括的分析により、異なる成分の有効性が検証される。 CAPRは、テキストと画像のシステムとのユーザフレンドリーな対話を容易にし、より広い範囲のユーザにとって高度な芸術的創造をより達成できるようにする。

Text-to-image generation systems have emerged as revolutionary tools in the realm of artistic creation, offering unprecedented ease in transforming textual prompts into visual art. However, the efficacy of these systems is intricately linked to the quality of user-provided prompts, which often poses a challenge to users unfamiliar with prompt crafting. This paper addresses this challenge by leveraging user reformulation data from interaction logs to develop an automatic prompt reformulation model. Our in-depth analysis of these logs reveals that user prompt reformulation is heavily dependent on the individual user's capability, resulting in significant variance in the quality of reformulation pairs. To effectively use this data for training, we introduce the Capability-aware Prompt Reformulation (CAPR) framework. CAPR innovatively integrates user capability into the reformulation process through two key components: the Conditional Reformulation Model (CRM) and Configurable Capability Features (CCF). CRM reformulates prompts according to a specified user capability, as represented by CCF. The CCF, in turn, offers the flexibility to tune and guide the CRM's behavior. This enables CAPR to effectively learn diverse reformulation strategies across various user capacities and to simulate high-capability user reformulation during inference. Extensive experiments on standard text-to-image generation benchmarks showcase CAPR's superior performance over existing baselines and its remarkable robustness on unseen systems. Furthermore, comprehensive analyses validate the effectiveness of different components. CAPR can facilitate user-friendly interaction with text-to-image systems and make advanced artistic creation more achievable for a broader range of users.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-27
# 画像は価値500ラベル:InstagramとTikTokのローカル機械学習モデルにおけるデモグラフィックの違いのケーススタディ

A Picture is Worth 500 Labels: A Case Study of Demographic Disparities in Local Machine Learning Models for Instagram and TikTok ( http://arxiv.org/abs/2403.19717v1 )

ライセンス: Link先を確認
Jack West, Lea Thiemt, Shimaa Ahmed, Maggie Bartig, Kassem Fawaz, Suman Banerjee, (参考訳) モバイルアプリは、ユーザのスマートフォンにデータ処理を移すことで、ユーザのプライバシを受け入れている。 ビジョンモデルのような高度な機械学習(ML)モデルでは、ユーザイメージをローカルに分析して、いくつかの機能を駆動する洞察を抽出できるようになった。 ユーザイメージをローカルに分析するこの新たな処理モデルに基づいて、TikTokとInstagramという2つの人気のあるソーシャルメディアアプリを分析し、(1)画像とビデオデータからユーザを推測する、(2)人口統計に関するパフォーマンス格差を示すかを明らかにする。 視覚モデルが年齢検証や顔認識などのセンシティブな技術にシグナルを提供するため、これらのモデルにおける潜在的なバイアスを理解することは、ユーザーが公平で正確なサービスを受けることを保証するために不可欠である。 我々は、コードの難読化、ネイティブコード実行、スケーラビリティといった課題を克服し、モバイルアプリでMLタスクをキャプチャして評価する新しい方法を開発した。 本手法は,MLタスク検出,MLパイプライン再構築,MLパフォーマンス評価から成り,特に人口格差に着目した。 当社の方法論をTikTokとInstagramに適用し、重要な洞察を明らかにします。 TikTokでは、特に未成年者や黒人の年齢や性別の予測精度に問題がある。 Instagramでは、画像から500以上の視覚的概念を抽出し、人口動態の特徴と特定の概念の間に急激な相関関係があることを示す。

Mobile apps have embraced user privacy by moving their data processing to the user's smartphone. Advanced machine learning (ML) models, such as vision models, can now locally analyze user images to extract insights that drive several functionalities. Capitalizing on this new processing model of locally analyzing user images, we analyze two popular social media apps, TikTok and Instagram, to reveal (1) what insights vision models in both apps infer about users from their image and video data and (2) whether these models exhibit performance disparities with respect to demographics. As vision models provide signals for sensitive technologies like age verification and facial recognition, understanding potential biases in these models is crucial for ensuring that users receive equitable and accurate services. We develop a novel method for capturing and evaluating ML tasks in mobile apps, overcoming challenges like code obfuscation, native code execution, and scalability. Our method comprises ML task detection, ML pipeline reconstruction, and ML performance assessment, specifically focusing on demographic disparities. We apply our methodology to TikTok and Instagram, revealing significant insights. For TikTok, we find issues in age and gender prediction accuracy, particularly for minors and Black individuals. In Instagram, our analysis uncovers demographic disparities in the extraction of over 500 visual concepts from images, with evidence of spurious correlations between demographic features and certain concepts.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-27
# 分子指紋の効率的な計算のためのPythonライブラリ

A Python library for efficient computation of molecular fingerprints ( http://arxiv.org/abs/2403.19718v1 )

ライセンス: Link先を確認
Michał Szafarczyk, Piotr Ludynia, Przemysław Kukla, (参考訳) 機械学習ソリューションは化学情報学の分野で非常に人気があり、新しい薬物発見や分子特性予測など多くの応用がある。 分子指紋は、この種の溶液での前処理の一部として化学分子をベクトル化するのによく使われるアルゴリズムである。 しかし、その人気にもかかわらず、最新のマルチコアアーキテクチャを利用して、大規模なデータセットに効率的に実装するライブラリは存在しない。 それに加えて、それらのほとんどは、直感的なインターフェースや、他の機械学習ツールと互換性のあるインターフェースを提供していません。 このプロジェクトでは,分子指紋を効率よく計算するPythonライブラリを作成し,包括的インターフェースを提供し,ユーザがライブラリを既存の機械学習ワークフローに簡単に組み込めるようにした。 このライブラリは、ユーザが並列性を使って大規模なデータセット上で計算を実行することを可能にする。 そのため、ハイパーパラメータチューニングのようなタスクを合理的な時間で実行することが可能である。 ライブラリの実装で使用されるツールを記述し、その時間性能をサンプルベンチマークデータセットで評価する。 さらに、分子指紋を用いて、非常に単純なモデルでも最先端のMLソリューションに匹敵する結果が得られることを示す。

Machine learning solutions are very popular in the field of chemoinformatics, where they have numerous applications, such as novel drug discovery or molecular property prediction. Molecular fingerprints are algorithms commonly used for vectorizing chemical molecules as a part of preprocessing in this kind of solution. However, despite their popularity, there are no libraries that implement them efficiently for large datasets, utilizing modern, multicore architectures. On top of that, most of them do not provide the user with an intuitive interface, or one that would be compatible with other machine learning tools. In this project, we created a Python library that computes molecular fingerprints efficiently and delivers an interface that is comprehensive and enables the user to easily incorporate the library into their existing machine learning workflow. The library enables the user to perform computation on large datasets using parallelism. Because of that, it is possible to perform such tasks as hyperparameter tuning in a reasonable time. We describe tools used in implementation of the library and asses its time performance on example benchmark datasets. Additionally, we show that using molecular fingerprints we can achieve results comparable to state-of-the-art ML solutions even with very simple models.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-27
# 一般化リッジ回帰を用いたメタラーニング:高次元漸近,最適性,超共分散推定

Meta-Learning with Generalized Ridge Regression: High-dimensional Asymptotics, Optimality and Hyper-covariance Estimation ( http://arxiv.org/abs/2403.19720v1 )

ライセンス: Link先を確認
Yanhao Jin, Krishnakumar Balasubramanian, Debashis Paul, (参考訳) メタラーニングには、さまざまなトレーニングタスクに関するトレーニングモデルが含まれており、新しい、目に見えないテストタスクをうまく一般化することができる。 本研究では,高次元多変量ランダム効果線形モデルの枠組み内でメタラーニングを考察し,一般化リッジ回帰に基づく予測について検討する。 この設定における一般化リッジ回帰を用いた統計的直観は、ランダム回帰係数の共分散構造を利用して新しいタスクをよりよく予測できるということである。 そこで本研究では,データ次元がタスク毎のサンプル数に比例して大きくなる場合に,新しいテストタスクに対する予測リスクの正確な漸近挙動を特徴付ける。 次に、一般化リッジ回帰における重み行列がランダム係数の共分散行列の逆行列となるとき、この予測リスクが最適であることを示す。 最後に、学習課題のデータに基づいて、ランダム回帰係数の逆共分散行列の推定器を提案し、解析する。 難解なMLE型推定器とは対照的に、提案した推定器は(グローバルな)測地-凸最適化問題を解くことで得られるように効率的に計算できる。 我々の分析と方法論はランダム行列理論とリーマン最適化のツールを使用する。 シミュレーションの結果,提案手法の最適化性能が向上したことを示す。

Meta-learning involves training models on a variety of training tasks in a way that enables them to generalize well on new, unseen test tasks. In this work, we consider meta-learning within the framework of high-dimensional multivariate random-effects linear models and study generalized ridge-regression based predictions. The statistical intuition of using generalized ridge regression in this setting is that the covariance structure of the random regression coefficients could be leveraged to make better predictions on new tasks. Accordingly, we first characterize the precise asymptotic behavior of the predictive risk for a new test task when the data dimension grows proportionally to the number of samples per task. We next show that this predictive risk is optimal when the weight matrix in generalized ridge regression is chosen to be the inverse of the covariance matrix of random coefficients. Finally, we propose and analyze an estimator of the inverse covariance matrix of random regression coefficients based on data from the training tasks. As opposed to intractable MLE-type estimators, the proposed estimators could be computed efficiently as they could be obtained by solving (global) geodesically-convex optimization problems. Our analysis and methodology use tools from random matrix theory and Riemannian optimization. Simulation results demonstrate the improved generalization performance of the proposed method on new unseen test tasks within the considered framework.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-27
# ビッグデータを用いた計算的・メモリ効率の良いロバスト予測分析

Computationally and Memory-Efficient Robust Predictive Analytics Using Big Data ( http://arxiv.org/abs/2403.19721v1 )

ライセンス: Link先を確認
Daniel Menges, Adil Rasheed, (参考訳) 現在のデータ集約時代において、ビッグデータは人工知能(AI)の重要な資産となり、データ駆動モデルの開発の基礎となり、さまざまな未知の分野に関する洞察を提供する。 本研究では、データ不確実性、ストレージ制限、ビッグデータを用いた予測データ駆動モデリングの課題をナビゲートする。 本稿では,ロバスト主成分分析(RPCA)を有効ノイズ低減と外乱除去に利用し,最適センサ配置(OSP)を効率的なデータ圧縮・記憶に活用する。 提案したOSP技術は,データ圧縮を大量の情報損失を伴わずに実現し,同時にストレージの必要性を低減させる。 RPCAは、高次元データ管理のための従来の主成分分析(PCA)に代わる拡張された代替手段を提供するが、この作業の範囲は、リアルタイムに巨大なデータセットに適用可能な堅牢なデータ駆動モデリングに焦点を当てて、その利用範囲を拡張している。 そのため、OSPから得られた低次元サブセットに基づいて、リカレントニューラルネットワークの一種であるLong Short-Term Memory(LSTM)ネットワークをモデル化し、予測し、トレーニングフェーズを決定的に加速する。 LSTMは時系列データにおける長期の依存関係をキャプチャできるため、歴史的データに基づく物理的システムの将来の状態を予測するのに特に適している。 提示された全てのアルゴリズムは、理論化されただけでなく、船のエンジンをマッピングする実際の熱画像データを用いてシミュレートされ、検証されている。

In the current data-intensive era, big data has become a significant asset for Artificial Intelligence (AI), serving as a foundation for developing data-driven models and providing insight into various unknown fields. This study navigates through the challenges of data uncertainties, storage limitations, and predictive data-driven modeling using big data. We utilize Robust Principal Component Analysis (RPCA) for effective noise reduction and outlier elimination, and Optimal Sensor Placement (OSP) for efficient data compression and storage. The proposed OSP technique enables data compression without substantial information loss while simultaneously reducing storage needs. While RPCA offers an enhanced alternative to traditional Principal Component Analysis (PCA) for high-dimensional data management, the scope of this work extends its utilization, focusing on robust, data-driven modeling applicable to huge data sets in real-time. For that purpose, Long Short-Term Memory (LSTM) networks, a type of recurrent neural network, are applied to model and predict data based on a low-dimensional subset obtained from OSP, leading to a crucial acceleration of the training phase. LSTMs are feasible for capturing long-term dependencies in time series data, making them particularly suited for predicting the future states of physical systems on historical data. All the presented algorithms are not only theorized but also simulated and validated using real thermal imaging data mapping a ship's engine.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-27
# 自発的重ね合わせ破壊を伴う量子-古典相転移(基本特性)

Quantum-classical phase transition with spontaneous superposition breaking (basic characteristics) ( http://arxiv.org/abs/1007.2538v9 )

ライセンス: Link先を確認
Vladan Pankovic, (参考訳) 本研究では、自発的な(非力学的な)ユニタリ対称性(重ね合わせ)の破れ(効果的な隠蔽)を持つ量子古典的連続相転移の基本特性について考察する。 崩壊(測定された量子系の量子状態の対応する統計的混合における重ね合わせからの遷移は、適切な測定装置によって実現された測定または検出によって行われる)が実際に述べた相転移を表すことを明らかに示している。 実際、有効(絶対ではない)現象としての崩壊は、自発対称性の破れの一般形式論(物理学の多くの異なる領域、例えば剛体の弾性性、強磁性の量子論、電気弱相互作用の量子論、カオス的インフレーション宇宙論)の特殊ケースとみなすことができる。 量子力学 (quantum mechanics) は、古典力学と量子場理論の間の自然な橋渡しである。

In this work we consider basic characteristics of a quantum-classical continuous phase transition with spontaneous (non-dynamical) unitary symmetry (superposition) breaking (effective hiding). We clearly demonstrate that collapse (transition from superposition in corresponding statistical mixture of quantum states of measured quantum system by measurement or detection realized by appropriate measuring apparatus) represents in fact mentioned phase transition. Practically, collapse as an effective (non-absolute) phenomena can be considered as an especial case of the general formalism of spontaneous symmetry breaking (with applications in many different domains of the physics, e.g. in elasticity of rigid bodies, quantum theory of ferromagnetism, quantum theory of electro-weak interactions as well as in chaotic inflation cosmology), All this admits simple solution of the quantum mechanics foundation problem. Quantum mechanics (without any super-luminal dynamical effects) represents a natural bridge between classical mechanics and quantum field theory.
翻訳日:2024-04-01 03:58:36 公開日:2024-03-27
# オーバーラップしないカメラを含むパターンリグを用いたマルチカメラキャリブレーション:CALICO

Multi-camera calibration with pattern rigs, including for non-overlapping cameras: CALICO ( http://arxiv.org/abs/1903.06811v3 )

ライセンス: Link先を確認
Amy Tabb, Henry Medeiros, Mitchell J. Feldmann, Thiago T. Santos, (参考訳) 本稿では、静止・移動型マルチカメラシステム、重なり合う視野のないカメラ、非同期カメラなど、困難な状況に適したマルチカメラキャリブレーション手法であるCALICOについて述べる。 最近のアプローチは、インフラストラクチャとパターンベースに大別されている。 インフラストラクチャベースのアプローチでは、シーンの機能をキャリブレーションに使用し、パターンベースのアプローチではキャリブレーションパターンを使用する。 インフラストラクチャベースのアプローチは静止カメラシステムには適さないが、ビューの共有フィールドや極めて大きなパターンを必要とするため、パターンベースのアプローチはカメラ配置を制約する可能性がある。 CALICOはパターンに基づくアプローチであり、パターンとカメラ間の剛性制約を用いて多重校正問題を定式化する。 パターンリグ(パターンリグ) — 互いに厳格にアタッチされたいくつかのパターン、あるいはいくつかの構造体。 本稿では,代数的および再射誤差最小化問題としてキャリブレーション問題を表現している。 シミュレーションおよび実実験は、様々な環境でこの手法を実証する。 CalicoはKalibrを好んで比較した。 再現精度の誤差は、実際のカメラリグには$0.71$ mm、シミュレートされたカメラリグには$$1.11$であった。 コードとデータリリースは \cite{tabb_amy_2019_3520866} と \url{https://github.com/amy-tabb/calico} で利用可能である。

This paper describes CALICO, a method for multi-camera calibration suitable for challenging contexts: stationary and mobile multi-camera systems, cameras without overlapping fields of view, and non-synchronized cameras. Recent approaches are roughly divided into infrastructure- and pattern-based. Infrastructure-based approaches use the scene's features to calibrate, while pattern-based approaches use calibration patterns. Infrastructure-based approaches are not suitable for stationary camera systems, and pattern-based approaches may constrain camera placement because shared fields of view or extremely large patterns are required. CALICO is a pattern-based approach, where the multi-calibration problem is formulated using rigidity constraints between patterns and cameras. We use a {\it pattern rig}: several patterns rigidly attached to each other or some structure. We express the calibration problem as that of algebraic and reprojection error minimization problems. Simulated and real experiments demonstrate the method in a variety of settings. CALICO compared favorably to Kalibr. Mean reconstruction accuracy error was $\le 0.71$ mm for real camera rigs, and $\le 1.11$ for simulated camera rigs. Code and data releases are available at \cite{tabb_amy_2019_3520866} and \url{https://github.com/amy-tabb/calico}.
翻訳日:2024-03-29 22:28:24 公開日:2024-03-27
# L2B:ラベルノイズを発生させるロバストモデルのブートストラップ学習

L2B: Learning to Bootstrap Robust Models for Combating Label Noise ( http://arxiv.org/abs/2202.04291v2 )

ライセンス: Link先を確認
Yuyin Zhou, Xianhang Li, Fengze Liu, Qingyue Wei, Xuxi Chen, Lequan Yu, Cihang Xie, Matthew P. Lungren, Lei Xing, (参考訳) ディープニューラルネットワークは表現学習において大きな成功を収めている。 しかし、ノイズラベル(LNL)で学習すると、簡単に過度に適合し、新しいデータへの一般化に失敗する。 本稿では,L2B(Learning to Bootstrap)と呼ばれるシンプルで効果的な手法を提案する。 これは、実際の観測されたラベルと生成されたラベル間の重みを動的に調整し、メタラーニングを通じて異なるサンプル間の重みを動的に調整することで実現される。 既存のインスタンス再重み付け方法とは異なり、我々の手法の鍵は、暗黙のレバーベリングを同時に可能にし、追加コストを発生させることなく大幅な改善をもたらす、新しい多目的な目的にある。 L2Bはベースライン方式よりもいくつかの利点がある。 ブートストラッピング手順をより効果的に導くことにより、ノイズラベルの影響を受けにくい、より堅牢なモデルが得られる。 インスタンスとラベルの両方の重みに適応することで、腐敗したインスタンスに含まれる貴重な情報をうまく活用する。 さらに、L2Bは既存のLNL法と互換性があり、合成ノイズと実世界のノイズの両方の下で分類とセグメンテーションを含む自然および医学的な画像タスクにまたがる競合的な結果をもたらす。 広汎な実験により,本手法はノイズラベルの課題を効果的に軽減し,検証サンプルを必要とせず,画像セグメンテーションなどの他のタスクによく応用できることを示した。 これは既存のLNL技術の堅牢な補完として位置づけるだけでなく、実用性も強調している。 コードとモデルはhttps://github.com/yuyinzhou/l2b.comから入手できる。

Deep neural networks have shown great success in representation learning. However, when learning with noisy labels (LNL), they can easily overfit and fail to generalize to new data. This paper introduces a simple and effective method, named Learning to Bootstrap (L2B), which enables models to bootstrap themselves using their own predictions without being adversely affected by erroneous pseudo-labels. It achieves this by dynamically adjusting the importance weight between real observed and generated labels, as well as between different samples through meta-learning. Unlike existing instance reweighting methods, the key to our method lies in a new, versatile objective that enables implicit relabeling concurrently, leading to significant improvements without incurring additional costs. L2B offers several benefits over the baseline methods. It yields more robust models that are less susceptible to the impact of noisy labels by guiding the bootstrapping procedure more effectively. It better exploits the valuable information contained in corrupted instances by adapting the weights of both instances and labels. Furthermore, L2B is compatible with existing LNL methods and delivers competitive results spanning natural and medical imaging tasks including classification and segmentation under both synthetic and real-world noise. Extensive experiments demonstrate that our method effectively mitigates the challenges of noisy labels, often necessitating few to no validation samples, and is well generalized to other tasks such as image segmentation. This not only positions it as a robust complement to existing LNL techniques but also underscores its practical applicability. The code and models are available at https://github.com/yuyinzhou/l2b.
翻訳日:2024-03-29 22:28:24 公開日:2024-03-27
# マルチモーダルな誤情報検出:アプローチ,課題,機会

Multi-modal Misinformation Detection: Approaches, Challenges and Opportunities ( http://arxiv.org/abs/2203.13883v6 )

ライセンス: Link先を確認
Sara Abdali, Sina shaham, Bhaskar Krishnamachari, (参考訳) ソーシャルメディアプラットフォームは、テキストベースのフォーラムからマルチモーダル環境へと進化しているため、ソーシャルメディアにおける誤情報の性質も変化している。 画像やビデオなどの視覚的モダリティがユーザにとってより好意的かつ魅力的であることや、テキストコンテンツが不注意にスキップされることを活かして、誤情報スプレッドラーは近年、テキストや画像などのモダリティ間のコンテキスト接続をターゲットとしている。 そのため、多くの研究者がウェブベースのコンテンツの相互不一致を自動的に検出する技術を開発した。 マルチモーダルな誤情報検出の分野での新たな研究機会を見出すために,既存のアプローチを分析,分類,そして,それらが直面する課題や欠点に加えて特定する。

As social media platforms are evolving from text-based forums into multi-modal environments, the nature of misinformation in social media is also transforming accordingly. Taking advantage of the fact that visual modalities such as images and videos are more favorable and attractive to the users and textual contents are sometimes skimmed carelessly, misinformation spreaders have recently targeted contextual connections between the modalities e.g., text and image. Hence many researchers have developed automatic techniques for detecting possible cross-modal discordance in web-based content. We analyze, categorize and identify existing approaches in addition to challenges and shortcomings they face in order to unearth new research opportunities in the field of multi-modal misinformation detection.
翻訳日:2024-03-29 22:28:24 公開日:2024-03-27
# 機械学習に基づくマルチステージシステムを用いた実生活患者の視力予測

Visual Acuity Prediction on Real-Life Patient Data Using a Machine Learning Based Multistage System ( http://arxiv.org/abs/2204.11970v3 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, Trixy Meyer, Arunodhayan Sampath Kumar, Gabriel Stolze, Olga Furashova, Katrin Engelmann, Danny Kowerko, (参考訳) 眼科領域では、硝子体手術療法(IVOM)は、加齢に伴う黄斑変性(AMD)、糖尿病性黄斑浮腫(DME)、網膜静脈閉塞(RVO)に関連する疾患に対して広く用いられる治療法である。 しかし, 実生活環境下での視力低下の予測は, 不均一データや不完全データにより困難であるのに対し, 実生活環境下での視力低下の予測は困難である。 本稿では,ドイツの最大医療病院の眼科領域の異なるITシステムを融合した研究対応型データコーパスを開発するためのワークフローを提案する。 広範データコーパスは、3つの疾患のそれぞれにおいて、患者とそのVAが予想される進行の予測文を可能にする。 AMDでは経時的に視力低下がみられた。 提案する多段階システムでは,VA進行を治療群「勝者」,「安定化者」,「損失者」の3つに分類した。 深層ニューラルネットワークのアンサンブルを用いたOCTバイオマーカー分類により,98%以上の分類精度(F1スコア)が得られる。 VA予測では,同時期のVA検査とOCTバイオマーカーを併用して,予測時間枠内でのVA進行を予測し,現在IVOM/no療法に制限されている。 マクロ平均F1スコアの最終的な予測精度は、57.8と50 +-10.7%の眼科医と同じ範囲でありながら、69 %のマクロ平均F1スコアが得られる。

In ophthalmology, intravitreal operative medication therapy (IVOM) is a widespread treatment for diseases related to the age-related macular degeneration (AMD), the diabetic macular edema (DME), as well as the retinal vein occlusion (RVO). However, in real-world settings, patients often suffer from loss of vision on time scales of years despite therapy, whereas the prediction of the visual acuity (VA) and the earliest possible detection of deterioration under real-life conditions is challenging due to heterogeneous and incomplete data. In this contribution, we present a workflow for the development of a research-compatible data corpus fusing different IT systems of the department of ophthalmology of a German maximum care hospital. The extensive data corpus allows predictive statements of the expected progression of a patient and his or her VA in each of the three diseases. For the disease AMD, we found out a significant deterioration of the visual acuity over time. Within our proposed multistage system, we subsequently classify the VA progression into the three groups of therapy "winners", "stabilizers", and "losers" (WSL classification scheme). Our OCT biomarker classification using an ensemble of deep neural networks results in a classification accuracy (F1-score) of over 98 %, enabling us to complete incomplete OCT documentations while allowing us to exploit them for a more precise VA modelling process. Our VA prediction requires at least four VA examinations and optionally OCT biomarkers from the same time period to predict the VA progression within a forecasted time frame, whereas our prediction is currently restricted to IVOM / no therapy. We achieve a final prediction accuracy of 69 % in macro average F1-score, while being in the same range as the ophthalmologists with 57.8 and 50 +- 10.7 % F1-score.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-27
# ユニタリダイナミクスの位相位相:クリフォード圏における分類

Topological phases of unitary dynamics: Classification in Clifford category ( http://arxiv.org/abs/2205.09141v2 )

ライセンス: Link先を確認
Jeongwan Haah, (参考訳) 量子セルオートマトン (QCA) あるいは因果ユニタリ (Cousal Unitary) は定義によって局所作用素代数の自己同型であり、局所作用素は局所作用素に写像される。 小さな深さの量子回路、短時間の局所ハミルトン進化、変換(シフト)などがその例である。 クリフォード QCA は、任意のパウリ作用素をパウリ作用素の有限テンソル積に写像するものである。 ここでは、任意の空間次元における変換不変量 Clifford QCA の完全テーブル $\mathfrak C(\mathsf d,p)$ を得る。 群 $\mathfrak C(\mathsf d,p)$ が 0 でないのは、$\mathsf d = 2k+3$ if $p=2$ and $\mathsf d = 4k+3$ if $p$ is odd where~$k \ge 0$ is any integer, この場合、$\mathfrak C(\mathsf d,p) \cong \widetilde{\mathfrak W}(\mathbb F_p)$ である。 $\widetilde{\mathfrak W}(\mathbb F_2) \cong \mathbb Z/2\mathbb Z$, $\widetilde{\mathfrak W}(\mathbb F_p) \cong \mathbb Z/4\mathbb Z$ if $p = 3 \bmod 4$, and $\widetilde{\mathfrak W}(\mathbb F_p)\cong \mathbb Z/2\mathbb Z \oplus \mathbb Z/2\mathbb Z$ if $p = 1 \bmod 4$が知られている。 この分類は、トポロジーにおける手術理論の代数的$L$-群に対するローラン拡張定理の還元である次元降下によって達成される。

A quantum cellular automaton (QCA) or a causal unitary is by definition an automorphism of local operator algebra, by which local operators are mapped to local operators. Quantum circuits of small depth, local Hamiltonian evolutions for short time, and translations (shifts) are examples. A Clifford QCA is one that maps any Pauli operator to a finite tensor product of Pauli operators. Here, we obtain a complete table of groups $\mathfrak C(\mathsf d,p)$ of translation invariant Clifford QCA in any spatial dimension $\mathsf d \ge 0$ modulo Clifford quantum circuits and shifts over prime $p$-dimensional qudits, where the circuits and shifts are allowed to obey only coarser translation invariance. The group $\mathfrak C(\mathsf d,p)$ is nonzero only for $\mathsf d = 2k+3$ if $p=2$ and $\mathsf d = 4k+3$ if $p$ is odd where~$k \ge 0$ is any integer, in which case $\mathfrak C(\mathsf d,p) \cong \widetilde{\mathfrak W}(\mathbb F_p)$, the classical Witt group of nonsingular quadratic forms over the finite field $\mathbb F_p$. It is well known that $\widetilde{\mathfrak W}(\mathbb F_2) \cong \mathbb Z/2\mathbb Z$, $\widetilde{\mathfrak W}(\mathbb F_p) \cong \mathbb Z/4\mathbb Z$ if $p = 3 \bmod 4$, and $\widetilde{\mathfrak W}(\mathbb F_p)\cong \mathbb Z/2\mathbb Z \oplus \mathbb Z/2\mathbb Z$ if $p = 1 \bmod 4$. The classification is achieved by a dimensional descent, which is a reduction of Laurent extension theorems for algebraic $L$-groups of surgery theory in topology.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-27
# 意味的類似性に基づく衝突検出アルゴリズムS3CDA

Supervised Semantic Similarity-based Conflict Detection Algorithm: S3CDA ( http://arxiv.org/abs/2206.13690v2 )

ライセンス: Link先を確認
Garima Malik, Mucahit Cevik, Devang Parikh, Ayse Basar, (参考訳) ソフトウェア開発の領域では、要件の明確さ、完全性、包括性は、ソフトウェアシステムの成功に大きな影響を与えます。 ソフトウェア要件仕様(SRS)文書は、ソフトウェア開発ライフサイクルの基礎であり、機能的要件と非機能的要件の両方を規定し、ソフトウェアプロジェクトの品質とタイムリーなデリバリを保証する上で重要な役割を担います。 しかし、これらの要件の固有の自然言語表現は、潜在的な誤解や矛盾を引き起こす。 本研究は,それらの意味的構成や文脈的意味を掘り下げることで,要求条件内での紛争識別の必要性に対処する。 本研究は,S3CDA(Supervised Semantic similarity-based Conflict Detection Algorithm)と呼ばれる自動コンフリクト検出手法を提案する。 このアルゴリズムは、テキストの類似性を通じて競合候補を識別し、これらの競合をフィルタリングするために意味分析を利用する。 類似度に基づく競合検出は、文の埋め込みとコサイン類似度を利用して、関連する候補要件を識別する。 さらに,ラベルのないソフトウェア要件に合わせて,S3CDAのキーコンポーネントを組み合わせて,教師なしの競合検出アルゴリズムUnSupCDAを提案する。 本手法の汎用性は,5つのSRS文書にまたがって検証される。 提案手法の有効性を実験的に検証し, 自動競合検出の精度向上を図った。

In the realm of software development, the clarity, completeness, and comprehensiveness of requirements significantly impact the success of software systems. The Software Requirement Specification (SRS) document, a cornerstone of the software development life cycle, delineates both functional and nonfunctional requirements, playing a pivotal role in ensuring the quality and timely delivery of software projects. However, the inherent natural language representation of these requirements poses challenges, leading to potential misinterpretations and conflicts. This study addresses the need for conflict identification within requirements by delving into their semantic compositions and contextual meanings. Our research introduces an automated supervised conflict detection method known as the Supervised Semantic Similarity-based Conflict Detection Algorithm (S3CDA). This algorithm comprises two phases: identifying conflict candidates through textual similarity and employing semantic analysis to filter these conflicts. The similarity-based conflict detection involves leveraging sentence embeddings and cosine similarity measures to identify pertinent candidate requirements. Additionally, we present an unsupervised conflict detection algorithm, UnSupCDA, combining key components of S3CDA, tailored for unlabeled software requirements. Generalizability of our methods is tested across five SRS documents from diverse domains. Our experimental results demonstrate the efficacy of the proposed conflict detection strategy, achieving high accuracy in automated conflict identification.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-27
# 異常検出のための目標崩壊正規化オートエンコーダ:中心にブラックホール

Targeted collapse regularized autoencoder for anomaly detection: black hole at the center ( http://arxiv.org/abs/2306.12627v2 )

ライセンス: Link先を確認
Amin Ghafourian, Huanyi Shui, Devesh Upadhyay, Rajesh Gupta, Dimitar Filev, Iman Soltani Bozchalooi, (参考訳) オートエンコーダは、近年の異常検出技術の発展に広く利用されている。 それらの応用の前提は、通常の訓練データに基づいてオートエンコーダを訓練した後、異常な入力が重大な再構成誤差を示すという考え方に基づいている。 これにより、正常試料と異常試料との明確な区別が可能となる。 しかし、実際には、オートエンコーダは通常のクラスを超えて一般化でき、いくつかの異常サンプルに対して小さな再構成誤差を達成できる。 性能を向上させるために、様々な技術が追加のコンポーネントとより洗練された訓練手順を提案している。 本研究では,ニューラルネットワークコンポーネントの追加や計算処理,煩雑なトレーニングを行う代わりに,遅延空間における表現の規範を規定する計算的に軽量な用語で再構成損失を補うという,極めて簡単な方法を提案する。 このアプローチの単純さは、新しいアプリケーションに対するハイパーパラメータチューニングとカスタマイズの要件を最小化し、許容データモダリティ制約と組み合わせることで、幅広いアプリケーションにまたがって採用が成功する可能性を高める。 様々な視覚的および表型ベンチマークでテストを行い、その手法が一致し、しばしばより複雑な代替品よりも優れていることを示す。 さらに,この概念を最先端の手法の文脈で実装することで,その性能をさらに向上させることができることを実証する。 また、トレーニング中に展開する基礎的なプロセスと、それが異常検出にどのように役立つかを実証するための理論的解析と数値シミュレーションも提供する。 これは、オートエンコーダに基づく異常検出アルゴリズムのブラックボックスの性質を緩和し、さらなる利点、障害事例、潜在的な新しい方向の解明のための道筋を提供する。

Autoencoders have been extensively used in the development of recent anomaly detection techniques. The premise of their application is based on the notion that after training the autoencoder on normal training data, anomalous inputs will exhibit a significant reconstruction error. Consequently, this enables a clear differentiation between normal and anomalous samples. In practice, however, it is observed that autoencoders can generalize beyond the normal class and achieve a small reconstruction error on some of the anomalous samples. To improve the performance, various techniques propose additional components and more sophisticated training procedures. In this work, we propose a remarkably straightforward alternative: instead of adding neural network components, involved computations, and cumbersome training, we complement the reconstruction loss with a computationally light term that regulates the norm of representations in the latent space. The simplicity of our approach minimizes the requirement for hyperparameter tuning and customization for new applications which, paired with its permissive data modality constraint, enhances the potential for successful adoption across a broad range of applications. We test the method on various visual and tabular benchmarks and demonstrate that the technique matches and frequently outperforms more complex alternatives. We further demonstrate that implementing this idea in the context of state-of-the-art methods can further improve their performance. We also provide a theoretical analysis and numerical simulations that help demonstrate the underlying process that unfolds during training and how it helps with anomaly detection. This mitigates the black-box nature of autoencoder-based anomaly detection algorithms and offers an avenue for further investigation of advantages, fail cases, and potential new directions.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-27
# 微分可能乱流:偏微分方程式制約最適化としての閉包

Differentiable Turbulence: Closure as a partial differential equation constrained optimization ( http://arxiv.org/abs/2307.03683v2 )

ライセンス: Link先を確認
Varun Shankar, Dibyajyoti Chakraborty, Venkatasubramanian Viswanathan, Romit Maulik, (参考訳) 大規模渦シミュレーション(LES)のためのサブグリッドスケール(SGS)乱流閉鎖モデルの精度向上に向けた,ディープラーニングは,ますます有望な経路になりつつある。 本研究では,2次元乱流に対する高効率かつ多目的なSGSモデルを学習するために,エンド・ツー・エンドの微分可能解法と物理に着想を得たディープラーニングアーキテクチャの選択を併用する,微分可能乱流の概念を活用する。 我々は選択したアーキテクチャにおける帰納バイアスの詳細な分析を行い、小規模の非局所的特徴の包含が効果的なSGSモデリングに最も重要であるのに対し、大規模特徴は \textit{a-posteriori} の解場のポイントワイズ精度を向上させることができることを示した。 LESグリッド上の速度勾配テンソルは、入力と出力の分解によって直接SGS応力にマッピングされ、等方性、偏光性および反対称成分に変換される。 このモデルは、レイノルズ数や異なる強制条件を含む様々な流れ構成に一般化できる。 我々は、微分可能な物理パラダイムがオフラインよりも成功しており、深層学習へのハイブリッド・ソルバ・イン・ザ・ループアプローチは、計算効率、精度、一般化の理想的なバランスを提供することを示した。 我々の実験は、乱流の一般化可能な閉鎖モデルのための深層学習に基づくSGSモデリングのための物理ベースの勧告を提供する。

Deep learning is increasingly becoming a promising pathway to improving the accuracy of sub-grid scale (SGS) turbulence closure models for large eddy simulations (LES). We leverage the concept of differentiable turbulence, whereby an end-to-end differentiable solver is used in combination with physics-inspired choices of deep learning architectures to learn highly effective and versatile SGS models for two-dimensional turbulent flow. We perform an in-depth analysis of the inductive biases in the chosen architectures, finding that the inclusion of small-scale non-local features is most critical to effective SGS modeling, while large-scale features can improve pointwise accuracy of the \textit{a-posteriori} solution field. The velocity gradient tensor on the LES grid can be mapped directly to the SGS stress via decomposition of the inputs and outputs into isotropic, deviatoric, and anti-symmetric components. We see that the model can generalize to a variety of flow configurations, including higher and lower Reynolds numbers and different forcing conditions. We show that the differentiable physics paradigm is more successful than offline, \textit{a-priori} learning, and that hybrid solver-in-the-loop approaches to deep learning offer an ideal balance between computational efficiency, accuracy, and generalization. Our experiments provide physics-based recommendations for deep-learning based SGS modeling for generalizable closure modeling of turbulence.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-27
# 副詞型認識のためのビデオクリップにおける物体の挙動に関する推論

Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition ( http://arxiv.org/abs/2307.04132v3 )

ライセンス: Link先を確認
Amrit Diggavi Seshadri, Alessandra Russo, (参考訳) そこで本研究では,映像クリップから抽出した物体の挙動を考慮に入れた新たな枠組みを提案する。 本手法は,ビデオクリップのアクションタイプが不明なより一般的な問題設定において,従来のシーンの副詞認識では,アクションタイプに基づくクリップの知識を前提としていたが,本手法は直接的に適用可能である。 具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案し、これら抽出された事実を操作して副詞型を識別する新しいシンボルと変換器に基づく推論手法を提案する。 実験の結果,提案手法は従来の最先端技術に対して良好に機能することが示された。 さらに,ビデオのシンボリックな処理を支援するため,生のビデオクリップから抽出した2つの新しいオブジェクト・ビヘイビア・ファクト(MSR-VTT-ASPとActivityNet-ASP)データセットをリリースする。

In this work, following the intuition that adverbs describing scene-sequences are best identified by reasoning over high-level concepts of object-behavior, we propose the design of a new framework that reasons over object-behaviours extracted from raw-video-clips to recognize the clip's corresponding adverb-types. Importantly, while previous works for general scene adverb-recognition assume knowledge of the clips underlying action-types, our method is directly applicable in the more general problem setting where the action-type of a video-clip is unknown. Specifically, we propose a novel pipeline that extracts human-interpretable object-behaviour-facts from raw video clips and propose novel symbolic and transformer based reasoning methods that operate over these extracted facts to identify adverb-types. Experiment results demonstrate that our proposed methods perform favourably against the previous state-of-the-art. Additionally, to support efforts in symbolic video-processing, we release two new datasets of object-behaviour-facts extracted from raw video clips - the MSR-VTT-ASP and ActivityNet-ASP datasets.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-27
# 周期駆動ロングランジスピン系における動的多体局在による相クロスオーバー

Phase Crossover induced by Dynamical Many Body Localization in Periodically Driven Long-Range Spin Systems ( http://arxiv.org/abs/2308.03622v2 )

ライセンス: Link先を確認
Mahbub Rahaman, Takashi Mori, Analabha Roy, (参考訳) 動的多体凍結は周期的横磁場駆動型可積分量子スピン系において起こる。 凍結条件下では、量子力学は駆動応答において事実上無限のヒステリシスを引き起こし、その開始値を維持する。 また,Lipkin-Meshkov-Glick(LMG)モデルでは同様の共振子凍結がみられた。 LMGにおいて、駆動場の凍結条件は、動的多体局在(DMBL)を誘導することにより、固有状態熱化仮説(ETH)によって仮定された加熱を抑制する。 これは、ETHを抑制するために障害を必要とする多体局在(MBL)とは対照的である。 DMBLは準定常フロケットモードの逆参加比(IPR)によって検証されている。 TFIMと同様に、LMGは凍結点のみに高周波の局在を示す。 LMGにおけるIPPの局在は、低い周波数での逆系サイズの法則により悪化し、無限温度への加熱を示す。 さらに、低値からの周波数と振幅が断続的に増加すると、LCGのフロケ状態IPRがほぼゼロからユニティに上昇し、位相交差が示される。 これにより、将来の技術で、ドライブパラメータを調整するだけでサイクルできるクリーンシステムでMBLエンジンを構築することができる。

Dynamical many-body freezing occurs in periodic transverse field-driven integrable quantum spin systems. Under freezing conditions, quantum dynamics causes practically infinite hysteresis in the drive response, maintaining its starting value. We find similar resonant freezing in the Lipkin-Meshkov-Glick (LMG) model. In the LMG, the freezing conditions in the driving field suppresses the heating postulated by the eigenstate thermalization hypothesis (ETH) by inducing dynamical many-body localization, or DMBL. This is in contrast to Many Body Localization (MBL), which requires disorder to suppress ETH. DMBL has been validated by the inverse participation ratio (IPR) of the quasistationary Floquet modes. Similarly to the TFIM, the LMG exhibits high-frequency localization only at freezing points. IPR localization in the LMG deteriorates with an inverse system size law at lower frequencies, which indicates heating to infinite temperature. Furthermore, adiabatically increasing frequency and amplitude from low values raises the Floquet state IPR in the LMG from nearly zero to unity, indicating a phase crossover. This occurrence enables a future technique to construct an MBL engine in clean systems that can be cycled by adjusting drive parameters only.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-27
# 最短経路

Tightest Admissible Shortest Path ( http://arxiv.org/abs/2308.08453v2 )

ライセンス: Link先を確認
Eyal Weiss, Ariel Felner, Gal A. Kaminka, (参考訳) グラフにおける最短経路問題は、AIの基本である。 問題のほとんどすべての変種とそれを解決する関連するアルゴリズムは、エッジウェイト計算時間と、その重みの不確実性との共通関係を無視している。 これは、これらの要因を考慮に入れれば、関連するアプリケーションのパフォーマンスが向上する可能性があることを意味します。 近年,重み付き有向グラフの一般化フレームワークが提案され,エッジウェイトを複数回(推定)し,精度の向上と実行時費用の増大を図った。 我々は,最短最短経路 (TASP) を最適コストに縛られた最短経路 (TASP) を求める問題を提起するために,この枠組みを構築した。 これは、エッジウェイト不確実性を計算コストで交換できる境界不確実性への最短経路問題の一般化である。 我々は、ソリューションの品質を保証し、TASPを解くための完全なアルゴリズムを提案する。 経験的評価はこのアプローチの有効性を支持する。

The shortest path problem in graphs is fundamental to AI. Nearly all variants of the problem and relevant algorithms that solve them ignore edge-weight computation time and its common relation to weight uncertainty. This implies that taking these factors into consideration can potentially lead to a performance boost in relevant applications. Recently, a generalized framework for weighted directed graphs was suggested, where edge-weight can be computed (estimated) multiple times, at increasing accuracy and run-time expense. We build on this framework to introduce the problem of finding the tightest admissible shortest path (TASP); a path with the tightest suboptimality bound on the optimal cost. This is a generalization of the shortest path problem to bounded uncertainty, where edge-weight uncertainty can be traded for computational cost. We present a complete algorithm for solving TASP, with guarantees on solution quality. Empirical evaluation supports the effectiveness of this approach.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-27
# ハイブリッド量子/古典計算のためのプラグマベースのC++フレームワーク

A pragma based C++ framework for hybrid quantum/classical computation ( http://arxiv.org/abs/2309.02605v3 )

ライセンス: Link先を確認
Arnaud Gazda, Oceane Koska, (参考訳) 量子コンピュータは、様々なタスクのために古典的なコンピュータよりも指数的なスピードアップを約束する。 この新興技術は、HPCの範囲を超えて問題を解決することができるため、HPC(High Performance Computing)に初めて大きな影響を与えることが期待されている。 そのためにHPCは、古典的および量子的デバイスの両方で、ハイブリッドな量子古典的ノードを介してアプリケーションを動作させる量子アクセラレータを必要とする。 ハイブリッド量子HPCアプリケーションはスケーラブルで、Quantum Error Corrected (QEC) デバイス上で実行可能なものでなければならない。 しかし、スケーラビリティの欠如、性能の低さ、量子アプリケーションに古典的なスキームを挿入できないため、現在の量子フレームワークはHPCコミュニティによって採用されなくなった。 本稿では、HPC環境と互換性のあるハイブリッド量子古典フレームワークの要件を特定し、Q-Pragmaと呼ばれる新しいハードウェアに依存しないフレームワークを提案する。 このフレームワークは、量子計算を管理するためにプラグマディレクティブを追加することで、HPCでよく使われる古典的なプログラミング言語C++を拡張している。

Quantum computers promise exponential speed ups over classical computers for various tasks. This emerging technology is expected to have its first huge impact in High Performance Computing (HPC), as it can solve problems beyond the reach of HPC. To that end, HPC will require quantum accelerators, which will enable applications to run on both classical and quantum devices, via hybrid quantum-classical nodes. Hybrid quantum-HPC applications should be scalable, executable on Quantum Error Corrected (QEC) devices, and could use quantum-classical primitives. However, the lack of scalability, poor performances, and inability to insert classical schemes within quantum applications has prevented current quantum frameworks from being adopted by the HPC community. This paper specifies the requirements of a hybrid quantum-classical framework compatible with HPC environments, and introduces a novel hardware-agnostic framework called Q-Pragma. This framework extends the classical programming language C++ heavily used in HPC via the addition of pragma directives to manage quantum computations.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-27
# SuPerPM:物理拘束シミュレーションデータから学習した深部点マッチングに基づく大変形型外科的知覚フレームワーク

SuPerPM: A Large Deformation-Robust Surgical Perception Framework Based on Deep Point Matching Learned from Physical Constrained Simulation Data ( http://arxiv.org/abs/2309.13863v2 )

ライセンス: Link先を確認
Shan Lin, Albert J. Miao, Ali Alabiad, Fei Liu, Kaiyuan Wang, Jingpei Lu, Florian Richter, Michael C. Yip, (参考訳) 組織を外科的ツールで操作することは、しばしば、現在のアルゴリズムの追跡と再構成の方法が効果的に対処していない大きな変形をもたらす。 大規模変形時のトラッキングエラーの主な原因は、観測されたセンサ測定と以前追跡されたシーンとの間違ったデータ関係にある。 この問題を軽減するために,データアソシエーションのための学習ベースの非剛点クラウドマッチングを利用する外科的知覚フレームワークSuPerPMを提案する。 学習モデルは、通常、地上の真理点クラウド対応によるトレーニングデータを必要とする。 そこで, 手術ロボットが操作する軟部組織の内視鏡的データを収集し, 異なる時点の点群間の対応関係を定め, 基礎的真理として機能させる。 これは、位置ベース力学(PBD)シミュレーションを用いて、対応が物理的制約に従属することを保証することで達成された。 提案手法は, 最先端の手術シーン追跡アルゴリズムよりも優れた性能を達成し, 大規模な変形を特徴とする難易度の高い外科用データセット上で実証された。

Manipulation of tissue with surgical tools often results in large deformations that current methods in tracking and reconstructing algorithms have not effectively addressed. A major source of tracking errors during large deformations stems from wrong data association between observed sensor measurements with previously tracked scene. To mitigate this issue, we present a surgical perception framework, SuPerPM, that leverages learning-based non-rigid point cloud matching for data association, thus accommodating larger deformations. The learning models typically require training data with ground truth point cloud correspondences, which is challenging or even impractical to collect in surgical environments. Thus, for tuning the learning model, we gather endoscopic data of soft tissue being manipulated by a surgical robot and then establish correspondences between point clouds at different time points to serve as ground truth. This was achieved by employing a position-based dynamics (PBD) simulation to ensure that the correspondences adhered to physical constraints. The proposed framework is demonstrated on several challenging surgical datasets that are characterized by large deformations, achieving superior performance over state-of-the-art surgical scene tracking algorithms.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-27
# 腫瘍動的予測のためのグラフニューラルネットワークとニューラルネットワークの統合

Integration of Graph Neural Network and Neural-ODEs for Tumor Dynamic Prediction ( http://arxiv.org/abs/2310.00926v2 )

ライセンス: Link先を確認
Omid Bazgir, Zichen Wang, Ji Won Park, Marc Hafner, James Lu, (参考訳) 抗がん剤開発において、大きな科学的課題は、患者の腫瘍サンプルからの高次元ゲノムデータ、対応する腫瘍由来の臓器、与えられた治療に関連する薬物標的、および結果として生じる治療反応の間の複雑な関係を解消することである。 さらに, 治療反応に応じて治療薬を同定・調整する上での精密医療の願望を実現するためには, 腫瘍径とマルチモーダル・ハイコンテントデータを統合した腫瘍ダイナミックモデルを構築する必要がある。 本研究では,2部グラフ畳み込みニューラルネットワーク(GCN)とニューラルネットワーク(Neural Ordinary Differential Equations,Neural-ODEs)を組み合わせた異種グラフエンコーダを提案する。 本手法を患者由来のXenograft(PDX)データ集に適用し,様々な臓器由来の腫瘍に対する多種多様な治療(およびそれらの組み合わせ)を行った。 まず,現在使用されている経験的モデルにおいて,腫瘍の動的モデルが大幅に改善されていることを明らかにする。 さらに,グラフエンコーダはマルチモーダルデータを効果的に活用し,腫瘍の予測を向上させることができることを示す。 本研究は, 提案手法が有望であり, プリクリニカル・セッティングに応用できる可能性が示唆された。

In anti-cancer drug development, a major scientific challenge is disentangling the complex relationships between high-dimensional genomics data from patient tumor samples, the corresponding tumor's organ of origin, the drug targets associated with given treatments and the resulting treatment response. Furthermore, to realize the aspirations of precision medicine in identifying and adjusting treatments for patients depending on the therapeutic response, there is a need for building tumor dynamic models that can integrate both longitudinal tumor size as well as multimodal, high-content data. In this work, we take a step towards enhancing personalized tumor dynamic predictions by proposing a heterogeneous graph encoder that utilizes a bipartite Graph Convolutional Neural network (GCN) combined with Neural Ordinary Differential Equations (Neural-ODEs). We applied the methodology to a large collection of patient-derived xenograft (PDX) data, spanning a wide variety of treatments (as well as their combinations) on tumors that originated from a number of different organs. We first show that the methodology is able to discover a tumor dynamic model that significantly improves upon an empirical model which is in current use. Additionally, we show that the graph encoder is able to effectively utilize multimodal data to enhance tumor predictions. Our findings indicate that the methodology holds significant promise and offers potential applications in pre-clinical settings.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-27
# 先行問題とは何か?逆問題のための学習した近位ネットワーク

What's in a Prior? Learned Proximal Networks for Inverse Problems ( http://arxiv.org/abs/2310.14344v2 )

ライセンス: Link先を確認
Zhenghan Fang, Sam Buchanan, Jeremias Sulam, (参考訳) 近似作用素は逆問題においてユビキタスであり、アルゴリズム戦略の一部として、そうでなければ不適切な問題を正則化する。 現代のディープラーニングモデルは、プラグアンドプレイやディープアンロールのフレームワークのように、近距離演算子にゆるやかに類似したこれらのタスクにも耐えられてきた。 一般のディープネットワークが任意の関数の近位演算子を表すことは保証されておらず、ネットワークが近似した近位演算子を提供するような関数のキャラクタリゼーションも存在しない。 これは反復的スキームの収束を困難にさせるだけでなく、より根本的には、これらのネットワークが学習したトレーニングデータの分析を複雑にする。 本稿では、学習した近位ネットワーク(LPN)を開発し、データ駆動型非凸正規化器の正確な近位演算子を提供することを証明し、近位マッチングと呼ばれる新しいトレーニング戦略が、真のデータ分布のログ優先の回復を確実に促進することを示す。 そのような LPN は、収束保証付き一般逆問題に使用できる一般、教師なし、表現的近位作用素を提供する。 我々は,これらのモデルが最先端のパフォーマンスをもたらすだけでなく,データから得られた先行結果の窓口を提供することを示す。

Proximal operators are ubiquitous in inverse problems, commonly appearing as part of algorithmic strategies to regularize problems that are otherwise ill-posed. Modern deep learning models have been brought to bear for these tasks too, as in the framework of plug-and-play or deep unrolling, where they loosely resemble proximal operators. Yet, something essential is lost in employing these purely data-driven approaches: there is no guarantee that a general deep network represents the proximal operator of any function, nor is there any characterization of the function for which the network might provide some approximate proximal. This not only makes guaranteeing convergence of iterative schemes challenging but, more fundamentally, complicates the analysis of what has been learned by these networks about their training data. Herein we provide a framework to develop learned proximal networks (LPN), prove that they provide exact proximal operators for a data-driven nonconvex regularizer, and show how a new training strategy, dubbed proximal matching, provably promotes the recovery of the log-prior of the true data distribution. Such LPN provide general, unsupervised, expressive proximal operators that can be used for general inverse problems with convergence guarantees. We illustrate our results in a series of cases of increasing complexity, demonstrating that these models not only result in state-of-the-art performance, but provide a window into the resulting priors learned from data.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-27
# ADMarker:アルツハイマー病のデジタルバイオマーカーモニタリングのための多モードフェデレーション学習システム

ADMarker: A Multi-Modal Federated Learning System for Monitoring Digital Biomarkers of Alzheimer's Disease ( http://arxiv.org/abs/2310.15301v2 )

ライセンス: Link先を確認
Xiaomin Ouyang, Xian Shuai, Yang Li, Li Pan, Xifan Zhang, Heming Fu, Xinyan Wang, Shihua Cao, Jiang Xin, Hazel Mok, Zhenyu Yan, Doris Sau Fung Yu, Timothy Kwok, Guoliang Xing, (参考訳) アルツハイマー病(AD)と関連する認知症は高齢化による世界的な健康問題である。 本稿では,マルチモーダルセンサと,自然環境における多次元ADデジタルバイオマーカー検出のための新しいフェデレーション学習アルゴリズムを統合した,初のエンドツーエンドシステムであるADMarkerを提案する。 ADMarkerは、プライバシー保護の方法でデジタルバイオマーカーを正確に検出できる、新しい3段階のマルチモーダル・フェデレート学習アーキテクチャを備えている。 提案手法は,データラベルの制限,データ不均一性,計算資源の制限など,現実的な課題をまとめて解決する。 我々は,コンパクトなマルチモダリティハードウェアシステムを構築し,高齢者91名を対象に4週間の臨床試験を行った。 その結果、ADMarkerは93.8%の精度でデジタルバイオマーカーの包括的なセットを正確に検出し、平均88.9%の精度で早期ADを識別できることが示唆された。 ADMarkerは、AD臨床医が多次元の解釈可能なデジタルバイオマーカー、患者の人口統計学的要因、AD診断の間の複雑な相関を縦方向で特徴づけ、追跡できる新しいプラットフォームを提供する。

Alzheimer's Disease (AD) and related dementia are a growing global health challenge due to the aging population. In this paper, we present ADMarker, the first end-to-end system that integrates multi-modal sensors and new federated learning algorithms for detecting multidimensional AD digital biomarkers in natural living environments. ADMarker features a novel three-stage multi-modal federated learning architecture that can accurately detect digital biomarkers in a privacy-preserving manner. Our approach collectively addresses several major real-world challenges, such as limited data labels, data heterogeneity, and limited computing resources. We built a compact multi-modality hardware system and deployed it in a four-week clinical trial involving 91 elderly participants. The results indicate that ADMarker can accurately detect a comprehensive set of digital biomarkers with up to 93.8% accuracy and identify early AD with an average of 88.9% accuracy. ADMarker offers a new platform that can allow AD clinicians to characterize and track the complex correlation between multidimensional interpretable digital biomarkers, demographic factors of patients, and AD diagnosis in a longitudinal manner.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-27
# 進化の物理性と統計的収縮性は写像の同値な概念である

Physicality of evolution and statistical contractivity are equivalent notions of maps ( http://arxiv.org/abs/2310.16107v2 )

ライセンス: Link先を確認
Matteo Scandi, Paolo Abiuso, Dario De Santis, Jacopo Surace, (参考訳) 統計量化器は、ノイズ変換の下で情報が失われるべきという直感に従って、物理的進化の下で収縮するために一般的に必要である。 この原理は統計学において非常に関係があり、それに基づいて一意性の結果を導出することさえ可能である: 任意の物理写像の下にそれらの縮約性を与えることによって、チェンツォフ=ペッツの定理はフィッシャー情報計量と呼ばれる確率分布(あるいは密度行列)の空間上の一意の計量を抽出する。 この結果から、統計量化器は、その定義が物理写像に基づいているため、導出概念である可能性が示唆される。 この研究の目的は、この信念を否定することである。 実際、チェンツォフ=ペッツの定理に双対な結果を示し、すべての可能な線型写像の中で、フィッシャー情報に一致するのは、まさに物理的なものであることを証明した。 この結果は、一般的な意見に反して、物理写像と正準統計量化器の間には基本的な階層が存在しないことを示している。

Statistical quantifiers are generically required to contract under physical evolutions, following the intuition that information should be lost under noisy transformations. This principle is very relevant in statistics, and it even allows to derive uniqueness results based on it: by imposing their contractivity under any physical maps, the Chentsov-Petz theorem singles out a unique family of metrics on the space of probability distributions (or density matrices) called the Fisher information metrics. This result might suggest that statistical quantifiers are a derived concept, as their very definition is based on physical maps. The aim of this work is to disprove this belief. Indeed, we present a result dual to the Chentsov-Petz theorem, proving that among all possible linear maps, the only ones that contract the Fisher information are exactly the physical ones. This result shows that, contrary to the common opinion, there is no fundamental hierarchy between physical maps and canonical statistical quantifiers, as either of them can be defined in terms of the other.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-27
# 最適政策の存在を保障する優先関係の条件

Conditions on Preference Relations that Guarantee the Existence of Optimal Policies ( http://arxiv.org/abs/2311.01990v2 )

ライセンス: Link先を確認
Jonathan Colaço Carr, Prakash Panangaden, Doina Precup, (参考訳) LfPF(Learning from Preferential Feedback)は、大規模言語モデルやある種の対話型学習エージェントの訓練において重要な役割を担っている。 しかし、LfPFアルゴリズムの理論と応用の間にはかなりのギャップがある。 LfPF問題における最適ポリシーの存在を保証する現在の結果は、選好と遷移力学の両方がマルコフ決定プロセスによって決定されると仮定している。 我々は、部分的に観測可能な非マルコフ環境におけるLfPF問題を解析するための新しいフレームワークであるDirect Preference Processを紹介する。 本枠組みでは、選好の順序構造を考慮し、最適な政策の存在を保証する条件を確立する。 報酬関数が学習目標を表現できない場合でも、決定問題には、再帰的最適性方程式を特徴とする最適ポリシーが存在することが示される。 これらの知見は、報酬によって嗜好が生成されると想定しない嗜好に基づく学習戦略を検討する必要性を浮き彫りにしている。

Learning from Preferential Feedback (LfPF) plays an essential role in training Large Language Models, as well as certain types of interactive learning agents. However, a substantial gap exists between the theory and application of LfPF algorithms. Current results guaranteeing the existence of optimal policies in LfPF problems assume that both the preferences and transition dynamics are determined by a Markov Decision Process. We introduce the Direct Preference Process, a new framework for analyzing LfPF problems in partially-observable, non-Markovian environments. Within this framework, we establish conditions that guarantee the existence of optimal policies by considering the ordinal structure of the preferences. We show that a decision-making problem can have optimal policies -- that are characterized by recursive optimality equations -- even when no reward function can express the learning goal. These findings underline the need to explore preference-based learning strategies which do not assume that preferences are generated by reward.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-27
# セマンティック構文解析のための文脈内学習改善のためのコードの活用

Leveraging Code to Improve In-context Learning for Semantic Parsing ( http://arxiv.org/abs/2311.09519v2 )

ライセンス: Link先を確認
Ben Bogin, Shivanshu Gupta, Peter Clark, Ashish Sabharwal, (参考訳) In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により、意味解析に魅力的なアプローチである。 しかし、いくつかの実演から稀なドメイン固有言語(DSL)を解析することを学ぶことは困難であり、最も有能なLLMのパフォーマンスさえ制限する。 本研究では,(1)DSLの代わりにPythonなどの汎用プログラミング言語を用いた意味解析におけるICLの有効性を向上し,(2)利用可能なクラスや関数を含む構造化ドメイン記述による拡張プロンプトを提案する。 これら2つの変更が3つの一般的なデータセットの精度を大幅に向上することを示す。 SMCalFlowのコンポジションスプリットは7.9%から66.5%に向上し、強力なモデルで使用する場合、より簡単で難しいコンポジションスプリットとパフォーマンスギャップを埋め、多数のデモの必要性を減らした。 対象のパース言語と汎用コードとの類似性は,事前学習コーパスにおける言語の人気よりも重要な要素であることがわかった。 本研究は,ILCの現代文脈における意味解析をLLMを用いて構築する手法を改良したものである。

In-context learning (ICL) is an appealing approach for semantic parsing due to its few-shot nature and improved generalization. However, learning to parse to rare domain-specific languages (DSLs) from just a few demonstrations is challenging, limiting the performance of even the most capable LLMs. In this work, we improve the effectiveness of ICL for semantic parsing by (1) using general-purpose programming languages such as Python instead of DSLs, and (2) augmenting prompts with a structured domain description that includes, e.g., the available classes and functions. We show that both these changes significantly improve accuracy across three popular datasets. Combined, they lead to dramatic improvements (e.g. 7.9% to 66.5% on SMCalFlow compositional split), nearly closing the performance gap between easier i.i.d.\ and harder compositional splits when used with a strong model, and reducing the need for a large number of demonstrations. We find that the resemblance of the target parse language to general-purpose code is a more important factor than the language's popularity in pre-training corpora. Our findings provide an improved methodology for building semantic parsers in the modern context of ICL with LLMs.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-27
# MacGyver: 大きな言語モデルは創造的な問題解決なのか?

MacGyver: Are Large Language Models Creative Problem Solvers? ( http://arxiv.org/abs/2311.09682v3 )

ライセンス: Link先を確認
Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman, (参考訳) 本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。 この目的のためにMACGYVERを作成した。これは1,600以上の現実世界の問題からなる自動生成データセットで、革新的なオブジェクトの使用を誘発し、アウト・オブ・ザ・ボックスの思考を必要とするように意図的に設計されている。 LLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。 MACGYVERはどちらのグループにも挑戦するが、独特で補完的な方法がある。 例えば、人間は慣れ親しんだタスクに精通するが、ドメイン固有の知識に苦しむため、より分散する。 対照的に、LLMは様々な専門知識に晒され、より広範な問題を試みるが、物理的に不可能な行動を提案することで失敗する。 最後に, LLMの詳細な誤り解析を行い, 反復的なステップワイドリフレクションや散発的収束思考といった新しいプロンプト技術により, 問題解決能力を高める可能性を示す。 本研究は,機械知能の既存のスペクトルを補完する身体的推論,計画,非伝統的な思考の複雑な側面に着目した,知的エージェントのための新たなアリーナを紹介し,また,人間とAIの制約された問題解決能力に関する洞察を提供する。

We explore the creative problem-solving capabilities of modern LLMs in a novel constrained setting. To this end, we create MACGYVER, an automatically generated dataset consisting of over 1,600 real-world problems deliberately designed to trigger innovative usage of objects and necessitate out-of-the-box thinking. We then present our collection to both LLMs and humans to compare and contrast their problem-solving abilities. MACGYVER is challenging for both groups, but in unique and complementary ways. For instance, humans excel in tasks they are familiar with but struggle with domain-specific knowledge, leading to a higher variance. In contrast, LLMs, exposed to a variety of specialized knowledge, attempt broader problems but fail by proposing physically-infeasible actions. Finally, we provide a detailed error analysis of LLMs, and demonstrate the potential of enhancing their problem-solving ability with novel prompting techniques such as iterative step-wise reflection and divergent-convergent thinking. This work (1) introduces a fresh arena for intelligent agents focusing on intricate aspects of physical reasoning, planning, and unconventional thinking, which supplements the existing spectrum of machine intelligence; and (2) provides insight into the constrained problem-solving capabilities of both humans and AI.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-27
# PIE-NeRF:NeRFを用いた物理に基づくインタラクティブエラストダイナミックス

PIE-NeRF: Physics-based Interactive Elastodynamics with NeRF ( http://arxiv.org/abs/2311.13099v2 )

ライセンス: Link先を確認
Yutao Feng, Yintong Shang, Xuan Li, Tianjia Shao, Chenfanfu Jiang, Yin Yang, (参考訳) 物理シミュレーションをNeRFとシームレスに統合することで,現実世界の物体の高品質なエラストダイナミックスを生成できることを示す。 従来の方法とは異なり、非線型超弾性をメッシュのない方法で識別し、四面体メッシュやボクセルグリッドのような中間補助的な形状プロキシの必要性を排除している。 2次一般化移動最小二乗(Q-GMLS)を用いて、非線型力学と暗黙モデル上の大きな変形を捉える。 このようなメッシュレス積分は、複素および共次元形状の汎用的なシミュレーションを可能にする。 我々は、非線形シミュレーションの複雑さを著しく低減するために、最小二乗核をNeRF密度場に従って適応的に配置する。 その結果,インタラクティブな速度で多種多様な超弾性材料に対して,物理的にリアルなアニメーションを簡便に合成できることがわかった。 詳細については、プロジェクトページ(https://fytalon.github.io/pienerf/)を参照してください。

We show that physics-based simulations can be seamlessly integrated with NeRF to generate high-quality elastodynamics of real-world objects. Unlike existing methods, we discretize nonlinear hyperelasticity in a meshless way, obviating the necessity for intermediate auxiliary shape proxies like a tetrahedral mesh or voxel grid. A quadratic generalized moving least square (Q-GMLS) is employed to capture nonlinear dynamics and large deformation on the implicit model. Such meshless integration enables versatile simulations of complex and codimensional shapes. We adaptively place the least-square kernels according to the NeRF density field to significantly reduce the complexity of the nonlinear simulation. As a result, physically realistic animations can be conveniently synthesized using our method for a wide range of hyperelastic materials at an interactive rate. For more information, please visit our project page at https://fytalon.github.io/pienerf/.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-27
# Prompt Risk Control: 大規模言語モデルのデプロイに責任のある厳格なフレームワーク

Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models ( http://arxiv.org/abs/2311.13628v2 )

ライセンス: Link先を確認
Thomas P. Zollo, Todd Morrill, Zhun Deng, Jake C. Snell, Toniann Pitassi, Richard Zemel, (参考訳) 大規模言語モデルの能力の最近の爆発は、モデルに与えられたタスクを実行するよう促す最善の方法への関心の波につながった。 バリデーションセット上での平均的なパフォーマンスに基づいてプロンプトを選択するのは誘惑的かも知れませんが、これは、特に最悪のユーザにとって、予期しないほど貧弱なレスポンスが生成されるデプロイメントにつながります。 この可能性を緩和するために,情報的リスク対策の家族に対する厳格な上限に基づくプロンプト選択のための軽量なフレームワークであるPrompt Risk Controlを提案する。 我々は,ユーザ集団における最悪の応答量や世代品質の格差を計測する量を含む,さまざまなメトリクスの集合に基づくバウンダリを生成する方法を提案する。 さらに,デプロイメントにおける分散シフトの可能性に対応するため,基礎となる統計境界手法を拡張した。 オープンエンドチャット、医療質問の要約、コード生成といったアプリケーションの実験では、最悪の結果のリスクを減らすことで、このようなフレームワークが責任あるデプロイメントを促進する方法が強調されている。

The recent explosion in the capabilities of large language models has led to a wave of interest in how best to prompt a model to perform a given task. While it may be tempting to simply choose a prompt based on average performance on a validation set, this can lead to a deployment where unexpectedly poor responses are generated, especially for the worst-off users. To mitigate this prospect, we propose Prompt Risk Control, a lightweight framework for selecting a prompt based on rigorous upper bounds on families of informative risk measures. We offer methods for producing bounds on a diverse set of metrics, including quantities that measure worst-case responses and disparities in generation quality across the population of users. In addition, we extend the underlying statistical bounding techniques to accommodate the possibility of distribution shifts in deployment. Experiments on applications such as open-ended chat, medical question summarization, and code generation highlight how such a framework can foster responsible deployment by reducing the risk of the worst outcomes.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-27
# HybridNeRF:適応体積表面による効率的なニューラルレンダリング

HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric Surfaces ( http://arxiv.org/abs/2312.03160v2 )

ライセンス: Link先を確認
Haithem Turki, Vasu Agrawal, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Deva Ramanan, Michael Zollhöfer, Christian Richardt, (参考訳) ニューラル放射場は、最先端のビュー合成品質を提供するが、レンダリングが遅くなる傾向がある。 1つの理由は、ボリュームレンダリングを利用するため、レンダリング時に1線当たりの多くのサンプル(およびモデルクエリ)が必要になるからである。 この表現は柔軟で容易に最適化できるが、ほとんどの現実世界の物体は体積ではなく表面でより効率的にモデル化することができ、1光線あたりのサンプルをはるかに少なくすることができる。 この観測は、符号付き距離関数のような表面表現に大きな進歩をもたらしたが、これは半透明で薄い構造をモデル化するのに苦労する可能性がある。 本稿では,ほとんどのオブジェクトを表面としてレンダリングし,(典型的には)挑戦領域のごく一部を体積的にモデル化することで,両表現の強みを活用する手法であるHybridNeRFを提案する。 我々はHybridNeRFを、他のよく使われるビュー合成データセットとともに、挑戦的なEyeful Towerデータセットに対して評価する。 近年のラスタライズベースアプローチを含む最先端のベースラインと比較すると,リアルタイムフレームレート(2Kx2K)を実現しつつ,エラー率を15~30%向上する。

Neural radiance fields provide state-of-the-art view synthesis quality but tend to be slow to render. One reason is that they make use of volume rendering, thus requiring many samples (and model queries) per ray at render time. Although this representation is flexible and easy to optimize, most real-world objects can be modeled more efficiently with surfaces instead of volumes, requiring far fewer samples per ray. This observation has spurred considerable progress in surface representations such as signed distance functions, but these may struggle to model semi-opaque and thin structures. We propose a method, HybridNeRF, that leverages the strengths of both representations by rendering most objects as surfaces while modeling the (typically) small fraction of challenging regions volumetrically. We evaluate HybridNeRF against the challenging Eyeful Tower dataset along with other commonly used view synthesis datasets. When comparing to state-of-the-art baselines, including recent rasterization-based approaches, we improve error rates by 15-30% while achieving real-time framerates (at least 36 FPS) for virtual-reality resolutions (2Kx2K).
翻訳日:2024-03-29 21:12:21 公開日:2024-03-27
# 対応からポースへ:曖昧さのない最小限の最適相対ポース

From Correspondences to Pose: Non-minimal Certifiably Optimal Relative Pose without Disambiguation ( http://arxiv.org/abs/2312.05995v2 )

ライセンス: Link先を確認
Javier Tirado-Garín, Javier Civera, (参考訳) 相対カメラのポーズを2つのキャリブレーションされたビュー間の対応で$n \geq 5$から推定することは、コンピュータビジョンの基本的なタスクである。 この過程は典型的には2つの段階を含む。 1)ビューとビューの間に必要不可欠な行列を推定する 2) エピポーラ幾何学を満足する4つの候補の相対的なポーズの曖昧さ。 本稿では,第2段階をバイパスする新しいアプローチを示す。 具体的には,適切な相対カメラのポーズを処理後ステップを必要とせず,直接対応から推定することが可能であることを示す。 証明不能な非最小最適化の最近の進歩に基づいて、擬似制約付き擬似プログラム(QCQP)として相対的なポーズ推定を行う。 適切な制約を適用することで,有効な3次元形状に対応するカメラのポーズを推定し,認証時に世界規模で最適であることを示す。 提案手法の有効性, 有効性, 精度を検証し, 総合的な合成および実世界の実験を通して本手法の有効性を検証した。 コードはhttps://github.com/javrtg/C2Pで入手できる。

Estimating the relative camera pose from $n \geq 5$ correspondences between two calibrated views is a fundamental task in computer vision. This process typically involves two stages: 1) estimating the essential matrix between the views, and 2) disambiguating among the four candidate relative poses that satisfy the epipolar geometry. In this paper, we demonstrate a novel approach that, for the first time, bypasses the second stage. Specifically, we show that it is possible to directly estimate the correct relative camera pose from correspondences without needing a post-processing step to enforce the cheirality constraint on the correspondences. Building on recent advances in certifiable non-minimal optimization, we frame the relative pose estimation as a Quadratically Constrained Quadratic Program (QCQP). By applying the appropriate constraints, we ensure the estimation of a camera pose that corresponds to a valid 3D geometry and that is globally optimal when certified. We validate our method through exhaustive synthetic and real-world experiments, confirming the efficacy, efficiency and accuracy of the proposed approach. Code is available at https://github.com/javrtg/C2P.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-27
# ケミカルモチベートされたシミュレーション問題は量子コンピュータで効率的に解ける

Chemically Motivated Simulation Problems are Efficiently Solvable by a Quantum Computer ( http://arxiv.org/abs/2401.09268v3 )

ライセンス: Link先を確認
Philipp Schleich, Lasse Bjørn Kristensen, Jorge A. Campos Gonzalez Angulo, Davide Avagliano, Mohsen Bagherimehrab, Abdulrahman Aldossary, Christoph Gorgulla, Joe Fitzsimons, Alán Aspuru-Guzik, (参考訳) シミュレーションコストはシステムサイズとともに指数関数的に増加するため、化学系のシミュレーションは非常に困難である。 量子コンピュータはこのボトルネックを克服する計算方法として提案されている。 近年、ほとんどの研究は化学系の基底状態の決定に費やされている。 ハードネスの結果と、初期状態生成のための効率的なヒューリスティックの欠如は、実現可能性に疑問を呈する。 本稿では,化学シミュレーションの問題を解くための本質的に効率的な手法を提案する。 仮定の集合を満足させることができれば,本手法は散乱木における動的シミュレーションのための初期状態を組み立てることで,良好な初期状態を求めることができる。 反応のgを量子シミュレーションに基づいて測定し, 初期状態の準備を続行する, 種々の化学利息について論じる。

Simulating chemical systems is highly sought after and computationally challenging, as the simulation cost exponentially increases with the system size. Quantum computers have been proposed as a computational means to overcome this bottleneck. Most efforts recently have been spent on determining the ground states of chemical systems. Hardness results and the lack of efficient heuristics for initial-state generation sheds doubt on the feasibility. Here we propose an inherently efficient approach for solving chemical simulation problems, meaning it requires quantum circuits of size scaling polynomially in relevant system parameters. If a set of assumptions can be satisfied, our approach finds good initial states by assembling initial states for dynamical simulation in a scattering tree. We discuss a variety of quantities of chemical interest that can be measured based on quantum simulation, e.g. of a reaction, succeeding the initial state preparation.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-27
# 脳波復号のための深層学習によるユークリッドアライメントの体系的評価

A Systematic Evaluation of Euclidean Alignment with Deep Learning for EEG Decoding ( http://arxiv.org/abs/2401.10746v3 )

ライセンス: Link先を確認
Bruna Junqueira, Bruno Aristimunha, Sylvain Chevallier, Raphael Y. de Camargo, (参考訳) 脳波(EEG)信号は脳-コンピュータインタフェース(BCI)の様々なタスクに頻繁に使用される。 ディープラーニング(DL)技術は有望な結果を示しているが、かなりのデータ要件によって妨げられている。 複数の被験者のデータを活用することで、トランスファーラーニングはDLモデルのより効果的なトレーニングを可能にする。 ユークリッドアライメント(Euclidean Alignment, EA)は、使いやすさ、計算の複雑さの低さ、ディープラーニングモデルとの互換性などによって人気を博しているテクニックである。 しかし、共有DLモデルと個別DLモデルのトレーニング性能に与える影響を評価する研究はほとんどない。 本研究では,BCI信号の復号化におけるEAとDLの併用効果を系統的に評価する。 EAを用いて複数の被験者のデータを共有モデルで学習し,新しい被験者への伝達性を評価した。 実験の結果,対象対象物の復号化を4.33%改善し,収束時間を70%以上短縮できることがわかった。 また,各被験者の個別モデルを,多数投票型アンサンブル分類器として使用するように訓練した。 このシナリオでは、EAを使用して3モデルアンサンブルの精度を3.7%改善した。 しかし、EAとの共有モデルと比較すると、アンサンブルの精度は3.62%低かった。

Electroencephalography (EEG) signals are frequently used for various Brain-Computer Interface (BCI) tasks. While Deep Learning (DL) techniques have shown promising results, they are hindered by the substantial data requirements. By leveraging data from multiple subjects, transfer learning enables more effective training of DL models. A technique that is gaining popularity is Euclidean Alignment (EA) due to its ease of use, low computational complexity, and compatibility with Deep Learning models. However, few studies evaluate its impact on the training performance of shared and individual DL models. In this work, we systematically evaluate the effect of EA combined with DL for decoding BCI signals. We used EA to train shared models with data from multiple subjects and evaluated its transferability to new subjects. Our experimental results show that it improves decoding in the target subject by 4.33% and decreases convergence time by more than 70%. We also trained individual models for each subject to use as a majority-voting ensemble classifier. In this scenario, using EA improved the 3-model ensemble accuracy by 3.7%. However, when compared to the shared model with EA, the ensemble accuracy was 3.62% lower.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-27
# SHViT:メモリ効率の良いマクロ設計によるシングルヘッドビジョントランス

SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design ( http://arxiv.org/abs/2401.16456v2 )

ライセンス: Link先を確認
Seokju Yun, Youngmin Ro, (参考訳) 近年、リソース制約のあるデバイスでは、低レイテンシで効率的なビジョントランスフォーマーの性能が向上している。 従来、マクロレベルでは4x4パッチ埋め込みと4ステージ構造を使用しており、マイクロレベルではマルチヘッド構成で高度な注意を払っている。 本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。 より大型のストライドパッチステムを用いることでメモリアクセスコストを低減できるだけでなく,初期から空間冗長性を低減したトークン表現を活用することで,競争性能も向上することがわかった。 さらに, 予備分析の結果, 早期の注意層を畳み込みで置き換えることができ, 後期の注意層は計算的に冗長であることがわかった。 そこで本研究では,頭部の冗長性を本質的に防止し,グローバル情報とローカル情報を並列に組み合わせることで,精度を向上するシングルヘッドアテンションモジュールを提案する。 我々のソリューションを基にしたSHViTは、最先端のスピード精度トレードオフを得るシングルヘッドビジョン変換器である。 たとえばImageNet-1kでは、私たちのSHViT-S4はGPU、CPU、iPhone12のモバイルViTv2 x1.0よりも3.3倍、8.1倍、2.4倍速く、精度は1.3%向上しています。 Mask-RCNNヘッドを用いたMS COCOのオブジェクト検出とインスタンスセグメンテーションでは,GPUとモバイルデバイスでそれぞれ3.8倍,2.0倍のバックボーンレイテンシを示しながら,FastViT-SA12に匹敵する性能を実現している。

Recently, efficient Vision Transformers have shown great performance with low latency on resource-constrained devices. Conventionally, they use 4x4 patch embeddings and a 4-stage structure at the macro level, while utilizing sophisticated attention with multi-head configuration at the micro level. This paper aims to address computational redundancy at all design levels in a memory-efficient manner. We discover that using larger-stride patchify stem not only reduces memory access costs but also achieves competitive performance by leveraging token representations with reduced spatial redundancy from the early stages. Furthermore, our preliminary analyses suggest that attention layers in the early stages can be substituted with convolutions, and several attention heads in the latter stages are computationally redundant. To handle this, we introduce a single-head attention module that inherently prevents head redundancy and simultaneously boosts accuracy by parallelly combining global and local information. Building upon our solutions, we introduce SHViT, a Single-Head Vision Transformer that obtains the state-of-the-art speed-accuracy tradeoff. For example, on ImageNet-1k, our SHViT-S4 is 3.3x, 8.1x, and 2.4x faster than MobileViTv2 x1.0 on GPU, CPU, and iPhone12 mobile device, respectively, while being 1.3% more accurate. For object detection and instance segmentation on MS COCO using Mask-RCNN head, our model achieves performance comparable to FastViT-SA12 while exhibiting 3.8x and 2.0x lower backbone latency on GPU and mobile device, respectively.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-27
# TopoNav:スパース・リワード環境における効率的な探索のためのトポロジカルナビゲーション

TopoNav: Topological Navigation for Efficient Exploration in Sparse Reward Environments ( http://arxiv.org/abs/2402.04061v2 )

ライセンス: Link先を確認
Jumman Hossain, Abu-Zaher Faridee, Nirmalya Roy, Jade Freeman, Timothy Gregory, Theron T. Trout, (参考訳) 未知の環境を探索する自律ロボットは重要な課題に直面している。 この課題は、伝統的な探査技術がしばしば失敗するスパース報酬環境を強化する。 本稿では,アクティブマッピング,階層的強化学習,本質的なモチベーションを統合した新しいトポロジカルナビゲーションフレームワークであるTopoNavについて述べる。 TopoNavは環境のトポロジカルマップを動的に構築し、主要な場所と経路をキャプチャする。 高レベルのグラフトラバースポリシと低レベルのモーションコントロールポリシで構成される2階層型ポリシーアーキテクチャは、全体的な目標に焦点を合わせながら、効果的なナビゲーションと障害物回避を可能にする。 さらにTopoNavは、トポロジカルマップ内の関連領域やフロンティアノードへの探索をガイドする本質的なモチベーションを取り入れており、スパース外部報酬の課題に対処している。 TopoNavをClearpath Jackalロボットを用いてシミュレーションと現実世界のオフロード環境の両方で評価し、複雑な地形における目標到達、機能ベースのナビゲーション、ナビゲーションという3つの困難なナビゲーションシナリオについて検討した。 調査対象範囲が7~20%増加し、成功率9~19%、航法時間が15~36%減少するのを、最先端の手法と比較して観察した。

Autonomous robots exploring unknown environments face a significant challenge: navigating effectively without prior maps and with limited external feedback. This challenge intensifies in sparse reward environments, where traditional exploration techniques often fail. In this paper, we present TopoNav, a novel topological navigation framework that integrates active mapping, hierarchical reinforcement learning, and intrinsic motivation to enable efficient goal-oriented exploration and navigation in sparse-reward settings. TopoNav dynamically constructs a topological map of the environment, capturing key locations and pathways. A two-level hierarchical policy architecture, comprising a high-level graph traversal policy and low-level motion control policies, enables effective navigation and obstacle avoidance while maintaining focus on the overall goal. Additionally, TopoNav incorporates intrinsic motivation to guide exploration toward relevant regions and frontier nodes in the topological map, addressing the challenges of sparse extrinsic rewards. We evaluate TopoNav both in the simulated and real-world off-road environments using a Clearpath Jackal robot, across three challenging navigation scenarios: goal-reaching, feature-based navigation, and navigation in complex terrains. We observe an increase in exploration coverage by 7- 20%, in success rates by 9-19%, and reductions in navigation times by 15-36% across various scenarios, compared to state-of-the-art methods
翻訳日:2024-03-29 20:52:50 公開日:2024-03-27
# セキュリティの現状 -- ドイツのソフトウェア産業からの洞察

The current state of security -- Insights from the German software industry ( http://arxiv.org/abs/2402.08436v3 )

ライセンス: Link先を確認
Timo Langstrof, Alex R. Sabau, (参考訳) 最近では、ソフトウェア開発とセキュリティが手を差し伸べています。 ソフトウェア開発プロセスにセキュリティが組み込まれることを保証するために、多くの技術と戦略が適用可能な文献で議論されている。 本稿では,本稿で論じられているセキュアなソフトウェア開発の主な考え方を概説する。 次に、20社による質的なインタビュー調査を通じて、実際に実施されているデータセットを収集する。 このデータセットの傾向と相関は文献の理論的考えと対比される。 その結果、世論調査を受けた組織は、セキュリティに重点を置いていることがわかった。 文献に書かれている技術は現実世界で使われているが、形式化された標準化されたプロセスに完全には統合されていないことが多い。 私たちの研究から得られた洞察は、これらの手法の特定の要素を深く掘り下げて、現実のシナリオにおけるアプリケーションの理解を深める、将来の研究の土台となった。

These days, software development and security go hand in hand. Numerous techniques and strategies are discussed in the literature that can be applied to guarantee the incorporation of security into the software development process. In this paper the main ideas of secure software development that have been discussed in the literature are outlined. Next, a dataset on implementation in practice is gathered through a qualitative interview research involving 20 companies. Trends and correlations in this dataset are found and contrasted with theoretical ideas from the literature. The results show that the organizations that were polled are placing an increasing focus on security. Although the techniques covered in the literature are being used in the real world, they are frequently not fully integrated into formal, standardized processes. The insights gained from our research lay the groundwork for future research, which can delve deeper into specific elements of these methods to enhance our understanding of their application in real-world scenarios.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-27
# PRDP:拡散モデルの大規模逆流微細化のための近位逆差予測

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models ( http://arxiv.org/abs/2402.08714v2 )

ライセンス: Link先を確認
Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou, (参考訳) リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。 言語領域で顕著な成功は、人間の好みを反映した報酬を最大化するために強化学習(RL)を使用することで達成されている。 しかし、視覚領域では、既存のRLベースの報酬微調整法は、大規模トレーニングにおける不安定さによって制限され、複雑な、目に見えないプロンプトに一般化することができない。 本稿では,100K以上のプロンプトを持つ大規模プロンプトデータセットにおいて,拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするPRDP(Proximal Reward difference Prediction)を提案する。 我々の重要なイノベーションは、RLの目標と同じ最適解を持つRDP(Reward Difference Prediction)目標であり、トレーニングの安定性を享受しています。 具体的には、RDPの目的は、生成した画像対の報酬差を予測する拡散モデルを実行する教師付き回帰目標である。 完全報酬差分予測を求める拡散モデルがRL目標の最大値であることを理論的に証明する。 RDPの目的を安定的に最適化するための近位更新を伴うオンラインアルゴリズムをさらに開発する。 実験では,PRDPがRL法を基礎とした小規模学習における報酬最大化能力に適合できることを実証した。 さらに、Human Preference Dataset v2とPick-a-Pic v1データセットからテキストプロンプトを大規模にトレーニングすることで、PRDPは複雑で見えないプロンプトの多種多様なセットで優れた生成品質を達成する一方、RLベースのメソッドは完全に失敗する。

Reward finetuning has emerged as a promising approach to aligning foundation models with downstream objectives. Remarkable success has been achieved in the language domain by using reinforcement learning (RL) to maximize rewards that reflect human preference. However, in the vision domain, existing RL-based reward finetuning methods are limited by their instability in large-scale training, rendering them incapable of generalizing to complex, unseen prompts. In this paper, we propose Proximal Reward Difference Prediction (PRDP), enabling stable black-box reward finetuning for diffusion models for the first time on large-scale prompt datasets with over 100K prompts. Our key innovation is the Reward Difference Prediction (RDP) objective that has the same optimal solution as the RL objective while enjoying better training stability. Specifically, the RDP objective is a supervised regression objective that tasks the diffusion model with predicting the reward difference of generated image pairs from their denoising trajectories. We theoretically prove that the diffusion model that obtains perfect reward difference prediction is exactly the maximizer of the RL objective. We further develop an online algorithm with proximal updates to stably optimize the RDP objective. In experiments, we demonstrate that PRDP can match the reward maximization ability of well-established RL-based methods in small-scale training. Furthermore, through large-scale training on text prompts from the Human Preference Dataset v2 and the Pick-a-Pic v1 dataset, PRDP achieves superior generation quality on a diverse set of complex, unseen prompts whereas RL-based methods completely fail.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-27
# HU at SemEval-2024 Task 8A: Contrastive Learns to Learn Embeddings to Detect Machine-Generated Text?

HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to Detect Machine-Generated Text? ( http://arxiv.org/abs/2402.11815v2 )

ライセンス: Link先を確認
Shubhashis Roy Dipta, Sadat Shahriar, (参考訳) 本稿では,SemEval-2024 Task 8, ``Multigenerator, Multi Domain, and Multilingual Black-Box Machine-Generated Text Detection'' のために開発したシステムについて述べる。 機械生成テキストを検出するために多くのシステムが開発されている。 しかしながら、これらのシステムの大部分はテキスト生成モデルに依存している。 この制限は、ユーザーがテキスト生成に使った特定のモデルを知ることはしばしば不可能であるため、現実のシナリオでは現実的ではない。 本稿では, 比較学習に基づく$\textbf{single}$モデルを提案する。これは, $\textbf{$\approx$40%のベースラインパラメータを使用するが, (149M vs. 355M) テストデータセット$(\textbf{21st)$に対して同等のパフォーマンスを示す。 重要な発見は、複数のモデルのアンサンブルがなくても、単一のベースモデルは、データ拡張と対照的な学習の助けを借りて、同等のパフォーマンスを持つことができるということです。 私たちのコードはhttps://github.com/dipta007/SemEval24-Task8.comで公開されています。

This paper describes our system developed for SemEval-2024 Task 8, ``Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection'' Machine-generated texts have been one of the main concerns due to the use of large language models (LLM) in fake text generation, phishing, cheating in exams, or even plagiarizing copyright materials. A lot of systems have been developed to detect machine-generated text. Nonetheless, the majority of these systems rely on the text-generating model. This limitation is impractical in real-world scenarios, as it's often impossible to know which specific model the user has used for text generation. In this work, we propose a $\textbf{single}$ model based on contrastive learning, which uses $\textbf{$\approx$40% of the baseline's parameters}$ (149M vs. 355M) but shows a comparable performance on the test dataset $(\textbf{21st out of 137 participants})$. Our key finding is that even without an ensemble of multiple models, a single base model can have comparable performance with the help of data augmentation and contrastive learning. Our code is publicly available at https://github.com/dipta007/SemEval24-Task8.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-27
# GPUによるLTL学習

LTL learning on GPUs ( http://arxiv.org/abs/2402.12373v2 )

ライセンス: Link先を確認
Mojtaba Valizadeh, Nathanaël Fijalkow, Martin Berger, (参考訳) 線形時間論理(LTL)は産業的検証に広く用いられている。 LTLの公式はトレースから学ぶことができる。 LTL公式学習のスケーリングはオープンな問題である。 我々は,新しい列挙型プログラム合成形式を用いて,GPUベースのLTL学習器を実装した。 学習者は健全で完ぺきです。 我々のベンチマークでは、少なくとも2048倍のトレースを処理し、既存の最先端の学習者よりも平均46倍高速であることが示された。 これは、例えば、$O(\log n)$時間複雑性を持つ新しいブランチフリーLTLセマンティクスで実現される。$n$はトレース長であり、以前の実装は$O(n^2)$以上である(ビットワイズなブール演算と2のパワーによるシフトは、現代のプロセッサにおける現実的な仮定である)。

Linear temporal logic (LTL) is widely used in industrial verification. LTL formulae can be learned from traces. Scaling LTL formula learning is an open problem. We implement the first GPU-based LTL learner using a novel form of enumerative program synthesis. The learner is sound and complete. Our benchmarks indicate that it handles traces at least 2048 times more numerous, and on average at least 46 times faster than existing state-of-the-art learners. This is achieved with, among others, novel branch-free LTL semantics that has $O(\log n)$ time complexity, where $n$ is trace length, while previous implementations are $O(n^2)$ or worse (assuming bitwise boolean operations and shifts by powers of 2 have unit costs -- a realistic assumption on modern processors).
翻訳日:2024-03-29 20:52:50 公開日:2024-03-27
# Retrieval Helps or Hurts : Retrieval Augmentation の言語モデルへの応用

Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models ( http://arxiv.org/abs/2402.13492v3 )

ライセンス: Link先を確認
Seiji Maekawa, Hayate Iso, Sairam Gurajada, Nikita Bhutani, (参考訳) 大規模言語モデル(LM)は優れた性能を示すが、事前訓練された記憶以上の情報を求めると、正確な応答を提供するという課題に直面する。 外部情報を拡張することでこれらの問題を緩和することができるが、検索の必要性を考慮することの失敗は全体的なパフォーマンスに悪影響を及ぼす可能性がある。 従来の研究は、エンティティがLMの検索モデルや知識リコールにどのように影響するかを主に研究しており、他の側面は比較的研究されていない。 本研究の目的は, 実体と関係の組合せの効果を探求することによって, より詳細な事実中心の分析を行うことである。 そこで我々は,新しい質問応答データセットであるWiTQA(Wikipedia Triple Question Answers)を構築した。 このデータセットには、さまざまな人気レベルのエンティティと関係に関する質問が含まれている。 多様なLMとレトリバーを用いた広範囲な実験により,検索がファクト中心の人気の観点から常にLMを向上しないことが明らかとなった。 以上の結果から,より大きなLMが一般的な事実を想起する上で優れていることが確認された。 しかし, 検索者に比べて, 頻度の低いエンティティ・リレーション・ペアでは, 難易度が顕著である。 興味深いことに、あまり一般的でないエンティティの一般的な関係を効果的に維持できる。 本研究は,質問の実体や関係の周波数に基づいて検索とリコールを選択的に活用する適応検索システムを通じて,よりきめ細かい計量と洞察の有効性を実証する。

While large language models (LMs) demonstrate remarkable performance, they encounter challenges in providing accurate responses when queried for information beyond their pre-trained memorization. Although augmenting them with relevant external information can mitigate these issues, failure to consider the necessity of retrieval may adversely affect overall performance. Previous research has primarily focused on examining how entities influence retrieval models and knowledge recall in LMs, leaving other aspects relatively unexplored. In this work, our goal is to offer a more detailed, fact-centric analysis by exploring the effects of combinations of entities and relations. To facilitate this, we construct a new question answering (QA) dataset called WiTQA (Wikipedia Triple Question Answers). This dataset includes questions about entities and relations of various popularity levels, each accompanied by a supporting passage. Our extensive experiments with diverse LMs and retrievers reveal when retrieval does not consistently enhance LMs from the viewpoints of fact-centric popularity. Confirming earlier findings, we observe that larger LMs excel in recalling popular facts. However, they notably encounter difficulty with infrequent entity-relation pairs compared to retrievers. Interestingly, they can effectively retain popular relations of less common entities. We demonstrate the efficacy of our finer-grained metric and insights through an adaptive retrieval system that selectively employs retrieval and recall based on the frequencies of entities and relations in the question.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-27
# フェアネスを意識した対人学習に向けて

Towards Fairness-Aware Adversarial Learning ( http://arxiv.org/abs/2402.17729v2 )

ライセンス: Link先を確認
Yanghao Zhang, Tianle Zhang, Ronghui Mu, Xiaowei Huang, Wenjie Ruan, (参考訳) 対人訓練(AT)はモデルの頑健性を高めるのに有効であることが証明されているが、最近明らかになった頑健性の公平性の問題には対処されていない。 本稿では,モデルの平均クラス性能を均一に評価する代わりに,各クラスにおける最悪ケース分布を考慮し,ロバストフェアネスの問題について検討する。 本研究では,Fairness-Aware Adversarial Learning (FAAL) という新しい学習パラダイムを提案する。 従来のATの一般化として、学習モデルの堅牢性と公正性を確保するため、 min-max-maxフレームワークとして対向トレーニングの問題を再定義する。 具体的には,分散ロバストな最適化を生かして,各カテゴリで最悪の分布を求めることを目的としており,高い確率で上界性能が得られることを保証している。 特にFAALは、不公平なロバストモデルを2つのエポックで公平に調整できるが、全体的なクリーンで堅牢なアキュラシーを損なうことはない。 様々な画像データセットに対する広範囲な実験により、提案したFAALの性能と効率が、他の最先端の手法と比較して優れていることが検証された。

Although adversarial training (AT) has proven effective in enhancing the model's robustness, the recently revealed issue of fairness in robustness has not been well addressed, i.e. the robust accuracy varies significantly among different categories. In this paper, instead of uniformly evaluating the model's average class performance, we delve into the issue of robust fairness, by considering the worst-case distribution across various classes. We propose a novel learning paradigm, named Fairness-Aware Adversarial Learning (FAAL). As a generalization of conventional AT, we re-define the problem of adversarial training as a min-max-max framework, to ensure both robustness and fairness of the trained model. Specifically, by taking advantage of distributional robust optimization, our method aims to find the worst distribution among different categories, and the solution is guaranteed to obtain the upper bound performance with high probability. In particular, FAAL can fine-tune an unfair robust model to be fair within only two epochs, without compromising the overall clean and robust accuracies. Extensive experiments on various image datasets validate the superior performance and efficiency of the proposed FAAL compared to other state-of-the-art methods.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-27
# 量子ビット上のすべての非互換な測定は、多粒子ベル非局所性をもたらす

All incompatible measurements on qubits lead to multiparticle Bell nonlocality ( http://arxiv.org/abs/2403.10564v3 )

ライセンス: Link先を確認
Martin Plávala, Otfried Gühne, Marco Túlio Quintino, (参考訳) ベル非局所性(英: Bell nonlocality)は、量子物理学の基本的な現象であり、量子情報処理における様々なタスクに不可欠な資源である。 非局所性の観測のためには、量子系の測定は相容れない必要があることが知られているが、相容れない測定が有用であるかどうかという問題は未解決のままである。 ここでは、量子ビット上の任意の非互換な測定セットが、すべての当事者が同じ測定セットを実行する多粒子シナリオにおいて、適切なベル不等式に違反することを示す。 二つの粒子のベル非局所性に繋がらない量子ビット上では不整合性の測定結果が存在するため,この結果から,2粒子と多粒子非局所性の基本的な相違が示され,測定不整合性が資源として過剰に活性化されることが示唆された。 さらに,本研究の結果から,量子ビットの計測不整合性が常にデバイスに依存しない方法で証明できることが示唆された。

Bell nonlocality is a fundamental phenomenon of quantum physics as well as an essential resource for various tasks in quantum information processing. It is known that for the observation of nonlocality the measurements on a quantum system have to be incompatible, but the question which incompatible measurements are useful, remained open. Here we prove that any set of incompatible measurements on qubits leads to a violation of a suitable Bell inequality in a multiparticle scenario, where all parties perform the same set of measurements. Since there exists incompatible measurements on qubits which do not lead to Bell nonlocality for two particles, our results demonstrate a fundamental difference between two-particle and multi-particle nonlocality, pointing at the superactivation of measurement incompatibility as a resource. In addition, our results imply that measurement incompatibility for qubits can always be certified in a device-independent manner.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-27
# 統一型マルチモーダルパーソナライゼーションに向けて--ジェネレーティブレコメンデーションのための大規模ビジョンランゲージモデル

Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond ( http://arxiv.org/abs/2403.10667v2 )

ライセンス: Link先を確認
Tianxin Wei, Bowen Jin, Ruirui Li, Hansi Zeng, Zhengyang Wang, Jianhui Sun, Qingyu Yin, Hanqing Lu, Suhang Wang, Jingrui He, Xianfeng Tang, (参考訳) 異種資源を効果的に活用し、幅広いパーソナライズされたニーズに対応する普遍的なモデルの開発は、長年にわたるコミュニティの願望であった。 ファッションや小売といった分野における私たちの日常的な選択は、写真やテキスト記述といったマルチモーダルなデータによって大きく形作られています。 これらのモダリティは直感的なガイダンスを提供するだけでなく、パーソナライズされたユーザー嗜好に対応している。 しかし、主なパーソナライゼーションアプローチは、主にIDやテキストベースのレコメンデーションの問題に焦点を当てており、様々なタスクやモダリティにまたがる情報を理解できない。 本稿では,マルチモーダルパーソナライゼーションシステム(UniMP)の統一パラダイムを確立することを目的としている。 基礎的生成モデリングの進歩は、その目的を達成するのに必要な柔軟性と有効性をもたらしたと論じる。 そこで我々は,項目推薦,製品検索,嗜好予測,説明生成,さらにユーザ誘導画像生成など,幅広いパーソナライズされたニーズを処理できる汎用的かつ拡張可能なパーソナライズ生成フレームワークを開発する。 本手法は,インターリーブされたクロスモーダルなユーザ履歴情報をシームレスに取り込み,ユーザにとってより正確でカスタマイズされた体験を提供することにより,パーソナライズされたタスクのための基礎言語モデルの能力を向上させる。 提案するマルチモーダルなパーソナライズされたタスクをトレーニングし評価するために,さまざまなユーザ要件をカバーする,新しい総合的なベンチマークを導入する。 実世界のベンチマーク実験では、各タスクに特有な競争手法よりも優れたモデルの可能性を示しました。

Developing a universal model that can effectively harness heterogeneous resources and respond to a wide range of personalized needs has been a longstanding community aspiration. Our daily choices, especially in domains like fashion and retail, are substantially shaped by multi-modal data, such as pictures and textual descriptions. These modalities not only offer intuitive guidance but also cater to personalized user preferences. However, the predominant personalization approaches mainly focus on the ID or text-based recommendation problem, failing to comprehend the information spanning various tasks or modalities. In this paper, our goal is to establish a Unified paradigm for Multi-modal Personalization systems (UniMP), which effectively leverages multi-modal data while eliminating the complexities associated with task- and modality-specific customization. We argue that the advancements in foundational generative modeling have provided the flexibility and effectiveness necessary to achieve the objective. In light of this, we develop a generic and extensible personalization generative framework, that can handle a wide range of personalized needs including item recommendation, product search, preference prediction, explanation generation, and further user-guided image generation. Our methodology enhances the capabilities of foundational language models for personalized tasks by seamlessly ingesting interleaved cross-modal user history information, ensuring a more precise and customized experience for users. To train and evaluate the proposed multi-modal personalized tasks, we also introduce a novel and comprehensive benchmark covering a variety of user requirements. Our experiments on the real-world benchmark showcase the model's potential, outperforming competitive methods specialized for each task.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-27
# 注意機構を有する新規高効率ネットを用いた肺CT画像からのCOVID-19検出

COVID-19 detection from pulmonary CT scans using a novel EfficientNet with attention mechanism ( http://arxiv.org/abs/2403.11505v2 )

ライセンス: Link先を確認
Ramy Farag, Parth Upadhyay, Yixiang Gao, Jacket Demby, Katherin Garces Montoya, Seyed Mohamad Ali Tousi, Gbenga Omotara, Guilherme DeSouza, (参考訳) 肺CT(Computed Tomography)画像検査による手動による新型コロナウイルスの診断は、特に多量の患者と患者1人当たりの多数の画像が与えられた場合、時間を要する可能性がある。 そこで我々は、新しいディープラーニングモデルベースのパイプラインを開発することによって、このタスクの自動化の必要性に対処する。 CVPR Workshop on "Domain Adaptation, Explainability and Fairness in AI for Medical Image Analysis", 具体的には,同じワークショップの下での“DEF-AI-MIA COV19D”によって,私たちのモチベーションが引き起こされた。 この課題は、CTスキャン画像からのCOVID-19検出のために提案したパイプラインを評価する機会を提供する。 同じパイプラインには、オリジナルのEfficientNetが組み込まれているが、Attention Mechanism: EfficientNet-AMが追加されている。 また,前処理ステップに依存した従来型/過去型パイプラインとは異なり,本パイプラインでは,画像選択ステップを除いて,生の入力画像を取り込んで,トレーニングやテストに要するCT画像の数を簡易に削減する。 さらに,このパイプラインは,例えば肺を分節するデコーダを組み込まないように,計算効率がよい。 また、以前の他のパイプラインのように、異なるバックボーンやRNNとバックボーンを組み合わせることもない。 それにもかかわらず、当社のパイプラインは、少なくとも競合データセットの検証サブセットに基づいて、昨年の同じ課題のインスタンスにおいて、他のチームが提示したすべてのアプローチを上回っています。

Manual analysis and diagnosis of COVID-19 through the examination of Computed Tomography (CT) images of the lungs can be time-consuming and result in errors, especially given high volume of patients and numerous images per patient. So, we address the need for automation of this task by developing a new deep learning model-based pipeline. Our motivation was sparked by the CVPR Workshop on "Domain Adaptation, Explainability and Fairness in AI for Medical Image Analysis", more specifically, the "COVID-19 Diagnosis Competition (DEF-AI-MIA COV19D)" under the same Workshop. This challenge provides an opportunity to assess our proposed pipeline for COVID-19 detection from CT scan images. The same pipeline incorporates the original EfficientNet, but with an added Attention Mechanism: EfficientNet-AM. Also, unlike the traditional/past pipelines, which relied on a pre-processing step, our pipeline takes the raw selected input images without any such step, except for an image-selection step to simply reduce the number of CT images required for training and/or testing. Moreover, our pipeline is computationally efficient, as, for example, it does not incorporate a decoder for segmenting the lungs. It also does not combine different backbones nor combine RNN with a backbone, as other pipelines in the past did. Nevertheless, our pipeline still outperforms all approaches presented by other teams in last year's instance of the same challenge, at least based on the validation subset of the competition dataset.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-27
# SMILESが言語を持つとき:薬物SMILES文字列のテキスト分類法による薬物分類

When SMILES have Language: Drug Classification using Text Classification Methods on Drug SMILES Strings ( http://arxiv.org/abs/2403.12984v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Šerbetar Karlo, Raima Islam, Taki Hasan Rafi, Dong-Kyu Chae, (参考訳) 薬物のような複雑な化学構造は、通常SMILES文字列によって分子と結合の配列として定義される。 これらのSMILES文字列は、複雑な機械学習に基づく薬物関連の研究や表現に使われている。 薬物のSMILESを従来の文章として扱い、薬物分類のためのテキスト分類に関わった場合はどうでしょう? 我々の実験は、非常に競争力のあるスコアでその可能性を実証した。 この研究は、各原子と結合を文成分と見なすという概念を探求し、薬物の種類を分類するための基本的なNLP法を用いて、複雑な問題がより単純な視点で解決可能であることを証明した。 データとコードは、https://github.com/azminewasi/Drug-Classification-NLP.comで入手できる。

Complex chemical structures, like drugs, are usually defined by SMILES strings as a sequence of molecules and bonds. These SMILES strings are used in different complex machine learning-based drug-related research and representation works. Escaping from complex representation, in this work, we pose a single question: What if we treat drug SMILES as conventional sentences and engage in text classification for drug classification? Our experiments affirm the possibility with very competitive scores. The study explores the notion of viewing each atom and bond as sentence components, employing basic NLP methods to categorize drug types, proving that complex problems can also be solved with simpler perspectives. The data and code are available here: https://github.com/azminewasi/Drug-Classification-NLP.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-27
# LUWAデータセット: 顕微鏡画像におけるLithic Use-Wear解析の学習

LUWA Dataset: Learning Lithic Use-Wear Analysis on Microscopic Images ( http://arxiv.org/abs/2403.13171v2 )

ライセンス: Link先を確認
Jing Zhang, Irving Fang, Juexiao Zhang, Hao Wu, Akshat Kaushik, Alice Rodriguez, Hanwen Zhao, Zhuo Zheng, Radu Iovita, Chen Feng, (参考訳) 顕微鏡画像を用いたLithic Use-Wear Analysis (LUWA) は、未発見のビジョン・フォー・サイエンス研究領域である。 考古学的アーティファクト、材料相互作用、ツール機能、歯科記録を理解する上で重要な作業材料を区別することを目指している。 しかし、この課題は、一般的な対象に対するよく研究された画像分類問題を越えている。 複雑な摩耗機構と顕微鏡画像により、多くの共同設立者の影響を受けており、人間の専門家でさえその素材をうまく識別することは困難である。 本稿では,このユニークな視覚課題について,初めて以下の3つの疑問を考察する。 (i)最先端の事前訓練されたモデル(例えばDINOv2)は、どのようにして希少な領域に一般化できるのか? (ii)少ない顕微鏡画像に少ショット学習をどのように活用することができるか。 三 曖昧な倍率と感度が分類精度にどのような影響を及ぼすか。 これらの研究のために,我々は考古学者と共同で,23,130の顕微鏡画像を含む最初のオープンソースかつ最大のLUWAデータセットを構築した。 大規模な実験では、既存の事前訓練されたモデルは、特に人間の専門家より優れているが、改善のための大きなギャップを残している。 最も重要なのは、LUWAデータセットが、ビジョンと学習コミュニティの未探索の機会を提供し、共通オブジェクト上の既存の画像分類問題を補完することです。

Lithic Use-Wear Analysis (LUWA) using microscopic images is an underexplored vision-for-science research area. It seeks to distinguish the worked material, which is critical for understanding archaeological artifacts, material interactions, tool functionalities, and dental records. However, this challenging task goes beyond the well-studied image classification problem for common objects. It is affected by many confounders owing to the complex wear mechanism and microscopic imaging, which makes it difficult even for human experts to identify the worked material successfully. In this paper, we investigate the following three questions on this unique vision task for the first time:(i) How well can state-of-the-art pre-trained models (like DINOv2) generalize to the rarely seen domain? (ii) How can few-shot learning be exploited for scarce microscopic images? (iii) How do the ambiguous magnification and sensing modality influence the classification accuracy? To study these, we collaborated with archaeologists and built the first open-source and the largest LUWA dataset containing 23,130 microscopic images with different magnifications and sensing modalities. Extensive experiments show that existing pre-trained models notably outperform human experts but still leave a large gap for improvements. Most importantly, the LUWA dataset provides an underexplored opportunity for vision and learning communities and complements existing image classification problems on common objects.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-27
# 2つのキラリティ係数の振幅と反位相を持つ電磁的キラリティ誘起負屈折

Electromagnetic chirality-induced negative refraction with the same amplitude and anti-phase of the two chirality coefficients ( http://arxiv.org/abs/2403.18876v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Zheng-Dong Liu, Jun Zheng, Gen Li, (参考訳) 4レベル原子系における磁気-電気的クロスカップリングを利用した電磁キラリティ誘起負屈折法を提案する。 負の屈折は、同じ振幅であるが反対位相の2つのキラリティ係数で達成でき、同じ遷移周波数付近に電気双極子と磁気双極子の同時存在を必要としない。 同時に負の誘電率と磁気透過性も不要である。

We suggest a scheme of electromagnetic chirality-induced negative refraction utilizing magneto-electric cross coupling in a four-level atomic system. The negative refraction can be achieved with the two chirality coefficients having the same amplitude but the opposite phase,and without requiring the simultaneous presence of an electric-dipole and a magnetic-dipole transition near the same transition frequency. The simultaneously negative electric permittivity and magnetic permeability does not require, either.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-27
# 4レベルY型原子媒体の吸収を伴わない左利き性

Left-handedness without absorption in the four-level Y-type atomic medium ( http://arxiv.org/abs/2403.18877v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Zheng-Dong Liu, Qi-Xuan Wu, (参考訳) 本稿では,密度行列法により記述された4レベルY型原子系と相互作用する3つの外部場について検討する。 その結果, ゼロ吸収による左利き性が達成され, ゼロ吸収特性は, 結合場の位相と強度の変化による操作の可能性を示した。 このゼロ吸収特性は、従来のレンズによる撮像で失われたエバネッセント波を増幅するために用いられるが、我々の提案する手法は、ゼロ吸収による負の屈折媒質の獲得と、「超高分解能」を実現するための画像分解能の向上の可能性である。

In this paper,three external fields interacting with the four-level Y-type atomic system described by the density-matrix approach is investigated .The results show that the left-handedness with zero absorption are achieved.And the zero absorption property displays the possibility of manipulation with varying the phase and the intensity of the coupling field. The zero absorption property may be used to amplify the evanescent waves that have been lost in the imaging by traditional lenses.Our scheme proposes an approach to obtain negative refractive medium with zero absorption and the possibility to enhance the imaging resolution in realizing "superlenses".
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# AIC-UNet:ロバストなマルチオーガンセグメンテーションのための解剖インフォームドUscaded UNet

AIC-UNet: Anatomy-informed Cascaded UNet for Robust Multi-Organ Segmentation ( http://arxiv.org/abs/2403.18878v1 )

ライセンス: Link先を確認
Young Seok Jeon, Hongfei Yang, Huazhu Fu, Mengling Feng, (参考訳) 臓器の数、形状、大きさ、相対的な位置などの重要な解剖学的特徴を導入することは、堅牢なマルチ組織セグメンテーションモデルを構築するのに不可欠である。 現在、解剖学的特徴を取り入れようとする試みは、実効性受容野(ERF)のサイズを、自己注意や臓器特異的トポロジ正規化器の導入といった、リソースやデータ集約的なモジュールで拡張することを含み、組織間関係が大きな役割を果たすようなマルチ組織セグメンテーションの問題にもスケールしない可能性がある。 本稿では,既存のエンコーダ・デコーダセグメンテーションモデルに解剖学的制約を課すための新しい手法を提案する。 より具体的には、腹部スキャンが与えられた場合、エンコーダの一部が、与えられた入力スキャンとシンプレートスプライン(TPS)グリッドの補間を用いて整合する前に、学習可能なものを空間的にワープする。 歪んだ前者は復号段階で統合され、より解剖学的にインフォームドされた予測のためにモデルを導く。 コードは \hyperlink{https://anonymous.4open.science/r/AIC-UNet-7048}{https://anonymous.4open.science/r/AIC-UNet-7048} で公開されている。

Imposing key anatomical features, such as the number of organs, their shapes, sizes, and relative positions, is crucial for building a robust multi-organ segmentation model. Current attempts to incorporate anatomical features include broadening effective receptive fields (ERF) size with resource- and data-intensive modules such as self-attention or introducing organ-specific topology regularizers, which may not scale to multi-organ segmentation problems where inter-organ relation also plays a huge role. We introduce a new approach to impose anatomical constraints on any existing encoder-decoder segmentation model by conditioning model prediction with learnable anatomy prior. More specifically, given an abdominal scan, a part of the encoder spatially warps a learnable prior to align with the given input scan using thin plate spline (TPS) grid interpolation. The warped prior is then integrated during the decoding phase to guide the model for more anatomy-informed predictions. Code is available at \hyperlink{https://anonymous.4open.science/r/AIC-UNet-7048}{https://anonymous.4open.science/r/AIC-UNet-7048}.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 連続学習用適応器を混合した事前学習モデルの自己拡張

Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning ( http://arxiv.org/abs/2403.18886v1 )

ライセンス: Link先を確認
Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong, (参考訳) 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。 従来の研究は、継続学習において事前学習されたモデルから一般化可能な知識を活用する効果を探求してきたが、既存のパラメータ効率の高い微調整アプローチは、所定のあるいはタスクワイドなアダプタやプロンプトの使用に焦点を当てている。 しかしながら、これらのアプローチは、共同で使用されるパラメータや制限された柔軟性に対するタスクの干渉によって、依然として忘れられがちである。 静的モデルアーキテクチャへの依存は、連続的な学習において入力データのスケールと分布が予測できないことを考えると、必須でない、あるいは逆に下流タスクへの適応が不十分な過剰なパラメータの割り当てにつながる可能性がある。 本稿では,既存のモジュールで処理できない急激な分散シフトが,表現レベルによって検出されるかどうかに応じて,継続的な学習において,アダプタモジュールの再利用や追加を自動的に決定する,新しい微調整手法であるSEMA(Modularized Adaptation)による事前学習モデルの自己拡張を提案する。 我々は,アダプタと表現記述子,具体的にはオートエンコーダとして実装された各アダプタモジュールを設計する。 表現記述子は、トレーニング中に分散シフトインジケータとして機能し、アダプタ拡張をトリガーする。 アダプタをよりよく使用するために、拡張可能な重み付けルータをアダプタ出力の混合のために共同で学習する。 視覚変換器をベースとした連続学習適応手法と比較することにより,提案手法がメモリリハーサルを伴わない最先端技術よりも優れていることを示す。

Continual learning aims to learn from a stream of continuously arriving data with minimum forgetting of previously learned knowledge. While previous works have explored the effectiveness of leveraging the generalizable knowledge from pre-trained models in continual learning, existing parameter-efficient fine-tuning approaches focus on the use of a predetermined or task-wise set of adapters or prompts. However, these approaches still suffer from forgetting due to task interference on jointly used parameters or restricted flexibility. The reliance on a static model architecture may lead to the allocation of excessive parameters that are not essential or, conversely, inadequate adaptation for downstream tasks, given that the scale and distribution of incoming data are unpredictable in continual learning. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel fine-tuning approach which automatically decides to reuse or add adapter modules on demand in continual learning, depending on whether drastic distribution shift that could not be handled by existing modules is detected at different representation levels. We design each adapter module to consist of an adapter and a representation descriptor, specifically, implemented as an autoencoder. The representation descriptor functions as a distributional shift indicator during training and triggers adapter expansion. For better usage of the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. By comparing with vision-transformer-based continual learning adaptation methods, we demonstrate that the proposed framework outperforms the state-of-the-art without memory rehearsal.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# (2+1)RT対称性をもつD位相相:多体不変量、分類、高次エッジモード

(2+1)D topological phases with RT symmetry: many-body invariant, classification, and higher order edge modes ( http://arxiv.org/abs/2403.18887v1 )

ライセンス: Link先を確認
Ryohei Kobayashi, Yuxuan Zhang, Yan-Qi Wang, Maissam Barkeshli, (参考訳) 反射(R$)と時間反転(T$)の対称性を持つ凝縮物質系では、RT$の組み合わせが保存されている間に両者が壊れることが一般的である。 本稿では,$RT$対称性に起因する不変量について検討する。 G_f = \mathbb{Z}_2^{RT}$, $U(1)^f \rtimes \mathbb{Z}_2^{RT}$, $U(1)^f \times \mathbb{Z}_2^{RT}$, $U(1)^f \times \mathbb{Z}_2^{RT}$。 これらの対称性を持つ (2+1)D の可逆フェルミオン位相は、$\mathbb{Z} \times \mathbb{Z}_8$, $\mathbb{Z}^2 \times \mathbb{Z}_2$, $\mathbb{Z}^2 \times \mathbb{Z}_4$$$で表される。 多体$RT$不変な三分交絡測度を提供し、頂点状態の項でエッジ共形場理論計算を用いて理解することができることを示す。 G_f = U(1)^f \rtimes \mathbb{Z}_2^{RT}$ は磁場中の荷電フェルミオンに適用されるが、$\mathbb{Z}_2$ の非自明な値は強い相互作用を必要とする。 対称性保存境界については、位相は反射軸と境界の交点におけるゼロモードによって区別される。 追加の不変量は翻訳対称性や回転対称性の存在によって生じる。

It is common in condensed matter systems for reflection ($R$) and time-reversal ($T$) symmetry to both be broken while the combination $RT$ is preserved. In this paper we study invariants that arise due to $RT$ symmetry. We consider many-body systems of interacting fermions with fermionic symmetry groups $G_f = \mathbb{Z}_2^f \times \mathbb{Z}_2^{RT}$, $U(1)^f \rtimes \mathbb{Z}_2^{RT}$, and $U(1)^f \times \mathbb{Z}_2^{RT}$. We show that (2+1)D invertible fermionic topological phases with these symmetries have a $\mathbb{Z} \times \mathbb{Z}_8$, $\mathbb{Z}^2 \times \mathbb{Z}_2$, and $\mathbb{Z}^2 \times \mathbb{Z}_4$ classification, respectively, which we compute using the framework of $G$-crossed braided tensor categories. We provide a many-body $RT$ invariant in terms of a tripartite entanglement measure, and which we show can be understood using an edge conformal field theory computation in terms of vertex states. For $G_f = U(1)^f \rtimes \mathbb{Z}_2^{RT}$, which applies to charged fermions in a magnetic field, the non-trivial value of the $\mathbb{Z}_2$ invariant requires strong interactions. For symmetry-preserving boundaries, the phases are distinguished by zero modes at the intersection of the reflection axis and the boundary. Additional invariants arise in the presence of translation or rotation symmetry.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# ガウスボソンサンプリングにおける平均レニーエンタングルメントエントロピー

Average Rényi Entanglement Entropy in Gaussian Boson Sampling ( http://arxiv.org/abs/2403.18890v1 )

ライセンス: Link先を確認
Jason Youm, Joseph T. Iosue, Adam Ehrenberg, Yu-Xin Wang, Alexey V. Gorshkov, (参考訳) 近年,古典計算に対する量子的優位性を実証する目的で,多くの実験が実施されている。 ガウスボソンサンプリング(Gaussian Boson Smpling)は、2次フォトニック入力状態が線形光学ユニタリ(英語版)を介して干渉され、その後フォック基底で測定される。 本研究では,測定直前の出力状態のモーダル絡みについて検討する。 具体的には、様々なR'enyi-$\alpha$エントロピーで測定されたページ曲線を計算し、そこではページ曲線は、すべての線形光学ユニタリ上で平均される出力モードの2つの分割群間の絡み合いを記述する。 我々はこれらの式を$\alpha = 1$ (つまりフォン・ノイマンエントロピー) で導き、より一般的には、任意の正の整数 $\alpha$ に対して無限個のモードの漸近極限と、同じスキーズ強度を持つ単一モードのスキーズされた真空状態からなる入力状態に対して導き出す。 そして、スキューズが小さくて大きいときの制限行動を分析する。 平均を決定すると、整数の R'enyi-$\alpha$分散を$\alpha > 1$ で明示的に計算し、これらのエントロピーが弱典型的であることを示すことができる。

Recently, many experiments have been conducted with the goal of demonstrating a quantum advantage over classical computation. One popular framework for these experiments is Gaussian Boson Sampling, where quadratic photonic input states are interfered via a linear optical unitary and subsequently measured in the Fock basis. In this work, we study the modal entanglement of the output states in this framework just before the measurement stage. Specifically, we compute Page curves as measured by various R\'enyi-$\alpha$ entropies, where the Page curve describes the entanglement between two partitioned groups of output modes averaged over all linear optical unitaries. We derive these formulas for $\alpha = 1$ (i.e. the von Neumann entropy), and, more generally, for all positive integer $\alpha$, in the asymptotic limit of infinite number of modes and for input states that are composed of single-mode-squeezed-vacuum state with equal squeezing strength. We then analyze the limiting behaviors when the squeezing is small and large. Having determined the averages, we then explicitly calculate the R\'enyi-$\alpha$ variance for integers $\alpha > 1$, and we are able to show that these entropies are weakly typical.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# カークウッド-ディラック分布の特性と応用

Properties and Applications of the Kirkwood-Dirac Distribution ( http://arxiv.org/abs/2403.18899v1 )

ライセンス: Link先を確認
David R. M. Arvidsson-Shukur, William F. Braasch Jr., Stephan De Bievre, Justin Dressel, Andrew N. Jordan, Christopher Langrenez, Matteo Lostaglio, Jeff S. Lundeen, Nicole Yunger Halpern, (参考訳) 最も有名な準確率分布であるウィグナー函数は、位置と運動量の明確な類似性を持つ連続変数量子論の発展において重要な役割を担っている。 しかしながら、ウィグナー関数は有限次元系や一般可観測物に焦点をあてた、多くの現代の量子情報研究には不適である。 代わりに、近年、カークウッド・ディラック(KD)分布は量子力学を解析するための強力な準確率分布として最前線に来ている。 KD分布は、統計学と確率論のツールを量子情報処理の問題に適用することを可能にする。 ウィグナー函数の顕著な違いは、KD分布が任意の可観測性の観点から量子状態を表すことができることである。 本稿はKD分布を3つにまとめる。 まず、KD分布の定義と基本特性とその一般化を示す。 第二に、KD分布が測定障害の研究や発展に広く用いられていること、量子距離論、弱い値、量子状態の直接測定、量子熱力学、量子スクランブルと時間外オーダーの相関器、レゲット=ガーグの不等式、一貫した歴史解釈、文脈性といった量子力学の基礎を要約する。 我々は、オペレーショナル量子アドバンテージと負あるいは非実のKD準確率の間の接続を強調する。 第3に、KD分布の数学的構造を掘り下げる。 我々は、KD陽性状態(KD分布が古典的な確率分布である状態)の幾何学に関する現在の知識を要約し、KD非正の証しと定量化の方法を記述し、KD非正の付帯性と可観測者の非適合性との関係を概説する。

The most famous quasi-probability distribution, the Wigner function, has played a pivotal role in the development of a continuous-variable quantum theory that has clear analogues of position and momentum. However, the Wigner function is ill-suited for much modern quantum-information research, which is focused on finite-dimensional systems and general observables. Instead, recent years have seen the Kirkwood-Dirac (KD) distribution come to the forefront as a powerful quasi-probability distribution for analysing quantum mechanics. The KD distribution allows tools from statistics and probability theory to be applied to problems in quantum-information processing. A notable difference to the Wigner function is that the KD distribution can represent a quantum state in terms of arbitrary observables. This paper reviews the KD distribution, in three parts. First, we present definitions and basic properties of the KD distribution and its generalisations. Second, we summarise the KD distribution's extensive usage in the study or development of measurement disturbance; quantum metrology; weak values; direct measurements of quantum states; quantum thermodynamics; quantum scrambling and out-of-time-ordered correlators; and the foundations of quantum mechanics, including Leggett-Garg inequalities, the consistent-histories interpretation, and contextuality. We emphasise connections between operational quantum advantages and negative or non-real KD quasi-probabilities. Third, we delve into the KD distribution's mathematical structure. We summarise the current knowledge regarding the geometry of KD-positive states (the states for which the KD distribution is a classical probability distribution), describe how to witness and quantify KD non-positivity, and outline relationships between KD non-positivity and observables' incompatibility.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 対角ゲート注入のための最小エンタングルメント

Minimal entanglement for injecting diagonal gates ( http://arxiv.org/abs/2403.18900v1 )

ライセンス: Link先を確認
Vadym Kliuchnikov, Eddie Schoute, (参考訳) 非クリフォードゲートは、特殊化マジックステート工場で最初にマジックステートを蒸留することによって、耐故障性アーキテクチャにのみ実装されることが多い。 残りのアーキテクチャでは、計算空間であるマジック状態は安定化回路によって消費され、非クリフォード演算を実装している。 計算空間とマジックステートファクトリの接続性は,非クリフォード演算を実装可能な速度において,基本的なボトルネックとなることを示す。 対角ゲート$D$に対するマジック状態のnull性$\nu(|D\rangle)$は、計算空間で$D$を実装するのに必要な非ローカルリソースを特徴付ける。 証明の一部として、我々は$\nu(|D\rangle)$ ebitsしか使わない局所安定化回路を構築し、計算空間で$D$を実装し、非クリフォードゲートを注入するために必要な非局所リソースを減らすのに役立つかもしれない。 もう一つの結果は、エッジ不整合経路コンパイルアルゴリズム [arXiv:2110.11493] が単一量子対角ゲートを実装するための最小深度回路を生成することである。

Non-Clifford gates are frequently exclusively implemented on fault-tolerant architectures by first distilling magic states in specialised magic-state factories. In the rest of the architecture, the computational space, magic states can then be consumed by a stabilizer circuit to implement non-Clifford operations. We show that the connectivity between the computational space and magic state factories forms a fundamental bottleneck on the rate at which non-Clifford operations can be implemented. We show that the nullity of the magic state, $\nu(|D\rangle)$ for diagonal gate $D$, characterizes the non-local resources required to implement $D$ in the computational space. As part of our proof, we construct local stabilizer circuits that use only $\nu(|D\rangle)$ ebits to implement $D$ in the computational space that may be useful to reduce the non-local resources required to inject non-Clifford gates. Another consequence is that the edge-disjoint path compilation algorithm [arXiv:2110.11493] produces minimum-depth circuits for implementing single-qubit diagonal gates.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 回路レベル雑音下でのQLDPC符号の低遅延反復復号化に向けて

Toward Low-latency Iterative Decoding of QLDPC Codes Under Circuit-Level Noise ( http://arxiv.org/abs/2403.18901v1 )

ライセンス: Link先を確認
Anqi Gong, Sebastian Cammerer, Joseph M. Renes, (参考訳) 本稿では,回路レベルノイズの存在下での量子低密度パリティチェック符号の復号化を目的として,信念伝搬(BP)に基づくスライディングウィンドウデコーダを提案する。 ウィンドウ化された復号化は、典型的には、復号するために繰り返し発生するシンドローム抽出のラウンドが要求される場合、復号化の複雑さを合理的に保ちます。 各ウィンドウ内では,変数ノードの復号化を最も期待する数ラウンドのBPを用いており,さらに,復号化オプション(ゲス)を少数の選択ラウンドで保持するために,アンサンブル復号を用いる。 導出デコーダBPを導出デシミネーション推定(GDG)で表現する。 二変量自転車符号に適用すると、GDGは、追加のOSD後処理ステージ(BP+OSD)と、10の組合せスウィープを持つBPと同様の論理誤差率を達成する。 3つのシンドロームサイクルのウィンドウサイズに対して、GDGのマルチスレッドCPU実装は、[[144,12,12]]コードに対してウィンドウ毎に3msという最悪のデコード遅延を実現する。

We introduce a sliding window decoder based on belief propagation (BP) with guided decimation for the purposes of decoding quantum low-density parity-check codes in the presence of circuit-level noise. Windowed decoding keeps the decoding complexity reasonable when, as is typically the case, repeated rounds of syndrome extraction are required to decode. Within each window, we employ several rounds of BP with decimation of the variable node that we expect to be the most likely to flip in each round, Furthermore, we employ ensemble decoding to keep both decimation options (guesses) open in a small number of chosen rounds. We term the resulting decoder BP with guided decimation guessing (GDG). Applied to bivariate bicycle codes, GDG achieves a similar logical error rate as BP with an additional OSD post-processing stage (BP+OSD) and combination-sweep of order 10. For a window size of three syndrome cycles, a multi-threaded CPU implementation of GDG achieves a worst-case decoding latency of 3ms per window for the [[144,12,12]] code.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 相互作用量子場理論における開系ダイナミクス

Open system dynamics in interacting quantum field theories ( http://arxiv.org/abs/2403.18907v1 )

ライセンス: Link先を確認
Brenden Bowen, Nishant Agarwal, Archana Kamal, (参考訳) 環境と相互作用する量子系は、一般に非マルコフ的またはマルコフ的マスター方程式によって記述される非単体進化を受ける。 本稿では,量子スカラー場に対する非マルコフ的レッドフィールドマスター方程式を構築し,ミンコフスキー背景上の双線型あるいは非線形相互作用を通じて第2の場と相互作用する。 結果のマスター方程式を用いて、系場の等時二点関数を得るために解ける結合微分方程式をセットアップする。 マルコフ極限を含む様々な近似の下で方程式がいかに単純化されるかを示し、レッドフィールド方程式に基づく解は標準二階ダイソン級数に摂動再帰を与えると主張する。 双線型相互作用に対して、レッドフィールド解は摂動理論に基づく解よりも正確な解に近いことが明確に示される。 さらに、環境相関関数は振動的かつ非退化的であり、マルコフのマスター方程式は近似に乏しい。 一方, 非線形相互作用では, 環境相関関数は急激にピークに達し, レッドフィールド解はマルコフマスター方程式を用いて深夜極限で得られる解と一致する。

A quantum system that interacts with an environment generally undergoes non-unitary evolution described by a non-Markovian or Markovian master equation. In this paper, we construct the non-Markovian Redfield master equation for a quantum scalar field that interacts with a second field through a bilinear or nonlinear interaction on a Minkowski background. We use the resulting master equation to set up coupled differential equations that can be solved to obtain the equal-time two-point function of the system field. We show how the equations simplify under various approximations including the Markovian limit, and argue that the Redfield equation-based solution provides a perturbative resummation to the standard second order Dyson series result. For the bilinear interaction, we explicitly show that the Redfield solution is closer to the exact solution compared to the perturbation theory-based one. Further, the environment correlation function is oscillatory and non-decaying in this case, making the Markovian master equation a poor approximation. For the nonlinear interaction, on the other hand, the environment correlation function is sharply peaked and the Redfield solution matches that obtained using a Markovian master equation in the late-time limit.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 量子アニーリングによる複数物体追跡精度の向上

Enhancing Multiple Object Tracking Accuracy via Quantum Annealing ( http://arxiv.org/abs/2403.18908v1 )

ライセンス: Link先を確認
Yasuyuki Ihara, (参考訳) 画像認識における重要なタスクである多重オブジェクト追跡(MOT)は、処理速度とトラッキング精度のバランスをとる上で、永続的な課題を示す。 本研究では、量子アニール(QA)を利用して、物体追跡プロセスのアンサンブルによるトラッキング精度を高めながら、計算速度を高速化する新しい手法を提案する。 また、マッチング統合プロセスを改善する方法も提案した。 本研究は,MOTの逐次特性を利用して,逆アニーリング(RA)によるトラッキング手法をさらに強化する。 実験による検証では、トラッキングプロセスあたりの3$\mu$sというアニール時間で高い精度の維持を確認している。 提案手法は, 都市交通光制御のための交通流計測, 自律ロボットと車両の衝突予測, 工場で大量生産される製品の管理など, リアルタイムMOTアプリケーションに有意な可能性を秘めている。

Multiple object tracking (MOT), a key task in image recognition, presents a persistent challenge in balancing processing speed and tracking accuracy. This study introduces a novel approach that leverages quantum annealing (QA) to expedite computation speed, while enhancing tracking accuracy through the ensembling of object tracking processes. A method to improve the matching integration process is also proposed. By utilizing the sequential nature of MOT, this study further augments the tracking method via reverse annealing (RA). Experimental validation confirms the maintenance of high accuracy with an annealing time of a mere 3 $\mu$s per tracking process. The proposed method holds significant potential for real-time MOT applications, including traffic flow measurement for urban traffic light control, collision prediction for autonomous robots and vehicles, and management of products mass-produced in factories.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 類似OOD検出パラドックスの幾何学的説明

A Geometric Explanation of the Likelihood OOD Detection Paradox ( http://arxiv.org/abs/2403.18910v1 )

ライセンス: Link先を確認
Hamidreza Kamkari, Brendan Leigh Ross, Jesse C. Cresswell, Anthony L. Caterini, Rahul G. Krishnan, Gabriel Loaiza-Ganem, (参考訳) Likelihood-based Deep Generative Model (DGM) は一般的に、比較的複雑なデータセットで訓練された場合、より単純なソースからのアウト・オブ・ディストリビューション(OOD)データに高い確率値を割り当てる。 謎に加え、OODサンプルは高い可能性にもかかわらずこれらのDGMによって生成されることはない。 この2重のパラドックスはまだ決定的に説明されていないため、OOD検出の確率は信頼性が低い。 我々の第一の観察は、最小の確率質量を含む場合、高濃度の領域は発生しないということである。 このような大きな密度と低い確率質量の矛盾が、低次元多様体に制限されたデータの周りに生じることを示す。 また、このシナリオは、局所固有次元(LID)推定により同定できることを示し、事前訓練されたDGMから得られる可能性とLID推定をペアリングするOOD検出法を提案する。 提案手法はフローの正規化やスコアベース拡散モデルに適用でき、同じDGMバックボーンを用いて最先端のOOD検出ベンチマークに適合または超越した結果が得られる。 私たちのコードはhttps://github.com/layer6ai-labs/dgm_ood_detectionで利用可能です。

Likelihood-based deep generative models (DGMs) commonly exhibit a puzzling behaviour: when trained on a relatively complex dataset, they assign higher likelihood values to out-of-distribution (OOD) data from simpler sources. Adding to the mystery, OOD samples are never generated by these DGMs despite having higher likelihoods. This two-pronged paradox has yet to be conclusively explained, making likelihood-based OOD detection unreliable. Our primary observation is that high-likelihood regions will not be generated if they contain minimal probability mass. We demonstrate how this seeming contradiction of large densities yet low probability mass can occur around data confined to low-dimensional manifolds. We also show that this scenario can be identified through local intrinsic dimension (LID) estimation, and propose a method for OOD detection which pairs the likelihoods and LID estimates obtained from a pre-trained DGM. Our method can be applied to normalizing flows and score-based diffusion models, and obtains results which match or surpass state-of-the-art OOD detection benchmarks using the same DGM backbones. Our code is available at https://github.com/layer6ai-labs/dgm_ood_detection.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# UniDepth:Universal Monocular Metric Depth Estimation

UniDepth: Universal Monocular Metric Depth Estimation ( http://arxiv.org/abs/2403.18913v1 )

ライセンス: Link先を確認
Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, Fisher Yu, (参考訳) 3次元知覚・モデリングにおける下流課題の解決には,MMDEの高精度化が不可欠である。 しかし,近年のMMDE法の精度はトレーニング領域に限られている。 これらの手法は、適度な領域ギャップが存在する場合でも、目に見えない領域に一般化することができず、実際の適用性を妨げている。 ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。 既存のMMDE法とは別に、UniDepthは入力画像から追加情報なしで直接3Dポイントを予測し、普遍的で柔軟なMMDEソリューションを模索する。 特に、UniDepthは、高密度カメラ表現を条件深度の特徴に予測する自走式カメラモジュールを実装している。 我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。 さらに,カメラのプロンプト深度特性の不変性を促進する幾何学的不変性損失を提案する。 ゼロショット方式の10のデータセットに対する詳細な評価は、テストドメインで直接訓練されたメソッドと比較しても、一貫してUniDepthの優れたパフォーマンスを示している。 コードとモデルは、https://github.com/lpiccinelli-eth/unidepth.comで入手できる。

Accurate monocular metric depth estimation (MMDE) is crucial to solving downstream tasks in 3D perception and modeling. However, the remarkable accuracy of recent MMDE methods is confined to their training domains. These methods fail to generalize to unseen domains even in the presence of moderate domain gaps, which hinders their practical applicability. We propose a new model, UniDepth, capable of reconstructing metric 3D scenes from solely single images across domains. Departing from the existing MMDE methods, UniDepth directly predicts metric 3D points from the input image at inference time without any additional information, striving for a universal and flexible MMDE solution. In particular, UniDepth implements a self-promptable camera module predicting dense camera representation to condition depth features. Our model exploits a pseudo-spherical output representation, which disentangles camera and depth representations. In addition, we propose a geometric invariance loss that promotes the invariance of camera-prompted depth features. Thorough evaluations on ten datasets in a zero-shot regime consistently demonstrate the superior performance of UniDepth, even when compared with methods directly trained on the testing domains. Code and models are available at: https://github.com/lpiccinelli-eth/unidepth
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# PLOT-TAL -- 短時間時間行動定位のための最適移動を用いたプロンプト学習

PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization ( http://arxiv.org/abs/2403.18915v1 )

ライセンス: Link先を確認
Edward Fish, Jon Weinbren, Andrew Gilbert, (参考訳) 本稿では,時間的行動ローカライゼーション(TAL)への新しいアプローチについて紹介する。 我々の研究は、現実世界のビデオにおける様々なコンテキストをまたいで一般化できないため、過度に適合する従来の単発学習手法の固有の限界に対処する。 ビデオ中のカメラビュー,背景,オブジェクトの多様性を認識し,最適なトランスポートで拡張されたマルチプロンプト学習フレームワークを提案する。 この設計により、モデルは各アクションに対する多様なプロンプトのセットを学習し、一般的な特徴をより効果的に捉え、過剰適合のリスクを軽減するために表現を分散することができる。 さらに,映像データの多面的性質に適応する包括的表現を最適化し,これらのプロンプトを行動特徴と効率的に整合させる。 実験では,THUMOS-14とEpicKitchens100の標準課題データセット上で,動作のローカライズ精度とロバスト性を大幅に向上させ,従来の数ショットTAL手法の課題を克服するためのマルチプロンプト最適輸送手法の有効性を強調した。

This paper introduces a novel approach to temporal action localization (TAL) in few-shot learning. Our work addresses the inherent limitations of conventional single-prompt learning methods that often lead to overfitting due to the inability to generalize across varying contexts in real-world videos. Recognizing the diversity of camera views, backgrounds, and objects in videos, we propose a multi-prompt learning framework enhanced with optimal transport. This design allows the model to learn a set of diverse prompts for each action, capturing general characteristics more effectively and distributing the representation to mitigate the risk of overfitting. Furthermore, by employing optimal transport theory, we efficiently align these prompts with action features, optimizing for a comprehensive representation that adapts to the multifaceted nature of video data. Our experiments demonstrate significant improvements in action localization accuracy and robustness in few-shot settings on the standard challenging datasets of THUMOS-14 and EpicKitchens100, highlighting the efficacy of our multi-prompt optimal transport approach in overcoming the challenges of conventional few-shot TAL methods.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# mCRL2におけるraft Distributed Consensus Protocolのモデル化

Modelling the Raft Distributed Consensus Protocol in mCRL2 ( http://arxiv.org/abs/2403.18916v1 )

ライセンス: Link先を確認
Parth Bora, Pham Duc Minh, Tim A. C. Willemse, (参考訳) コンセンサス問題は分散システムにおける根本的な問題である。 これには、いくつかの値や決定に同意する必要があるアクター、あるいはエンティティのセットが含まれます。 Raftアルゴリズムは、LamportのPaxosアルゴリズムの代替として容易に理解し実装できるものとして広く普及したコンセンサス問題の解決策である。 本稿では,mCRL2仕様言語におけるRaftアルゴリズムの形式化とその関連性について論じる。

The consensus problem is a fundamental problem in distributed systems. It involves a set of actors, or entities, that need to agree on some values or decisions. The Raft algorithm is a solution to the consensus problem that has gained widespread popularity as an easy-to-understand and implement alternative to Lamport's Paxos algorithm. In this paper we discuss a formalisation of the Raft algorithm and its associated correctness properties in the mCRL2 specification language.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# 冗長制御系における整合性の形式的検証

Formal Verification of Consistency for Systems with Redundant Controllers ( http://arxiv.org/abs/2403.18917v1 )

ライセンス: Link先を確認
Bjarne Johansson, Bahman Pourvatan, Zahra Moezkarimi, Alessandro Papadopoulos, Marjan Sirjani, (参考訳) 分散制御システムの領域で起こりうる潜在的な問題は、冗長性計画における複数のプライマリコントローラの存在が矛盾を引き起こす可能性があることである。 NRP FDと呼ばれるアルゴリズムは、可用性よりも一貫性を優先することでこの問題を解決する。 本稿では,モデリングと形式検証を併用して NRP FD に2つのプライマリコントローラを同時に持つという問題を発見した。 次に、同定された問題を緩和し、そのようなシステムの堅牢性と信頼性を高めるためのソリューションを提供する。

A potential problem that may arise in the domain of distributed control systems is the existence of more than one primary controller in redundancy plans that may lead to inconsistency. An algorithm called NRP FD is proposed to solve this issue by prioritizing consistency over availability. In this paper, we demonstrate how by using modeling and formal verification, we discovered an issue in NRP FD where we may have two primary controllers at the same time. We then provide a solution to mitigate the identified issue, thereby enhancing the robustness and reliability of such systems.
翻訳日:2024-03-29 20:13:44 公開日:2024-03-27
# CPR: 著作権保護のための検索拡張ジェネレーション

CPR: Retrieval Augmented Generation for Copyright Protection ( http://arxiv.org/abs/2403.18920v1 )

ライセンス: Link先を確認
Aditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang, Ashwin Swaminathan, Stefano Soatto, (参考訳) Retrieval Augmented Generation(RAG)は、トレーニングなしでプライベートユーザデータにモデルを適応し、クレジット属性を処理し、大規模に効率的なマシンアンラーニングを可能にする、フレキシブルで堅牢なテクニックとして登場している。 しかし、画像生成のためのRAG技術は、取得したサンプルの一部がモデルの出力にコピーされる可能性がある。 CPRは,検索した画像の集合に拡散モデルの出力を条件付けるとともに,そのサンプルに関するユニークな識別情報が出力された出力に露出しないことを保証しながら,拡散モデルの混合プライベート設定において,強力な著作権保護保証を有するRAGの新しい手法である。 特に、パブリックな(安全な)分布とプライベートな(ユーザ)分布の混合から、推論時に拡散スコアをマージしてサンプリングする。 CPRは、攻撃者が生成した画像から抽出できる可能性のある情報の量を制限するNear Access Freeness (NAF) を満たすことを証明している。 我々は著作権保護のための2つのアルゴリズム、CPR-KLとCPR-Chooseを提供する。 従来提案された拒絶サンプリングに基づくNAF法とは異なり,本手法は単一の後方拡散による効率的な著作権保護サンプリングを可能にする。 本手法は, 安定拡散やunCLIPなど, 事前学習した条件付き拡散モデルに適用可能であることを示す。 特に,UnCLIP上にCPRを適用することで,生成した結果の品質とテキスト間のアライメント(TIFAベンチマークでは81.4~83.17)が向上すると同時に,クレジット属性,コピー右保護,決定論的,定時的,未学習が可能であることを実証的に示す。

Retrieval Augmented Generation (RAG) is emerging as a flexible and robust technique to adapt models to private users data without training, to handle credit attribution, and to allow efficient machine unlearning at scale. However, RAG techniques for image generation may lead to parts of the retrieved samples being copied in the model's output. To reduce risks of leaking private information contained in the retrieved set, we introduce Copy-Protected generation with Retrieval (CPR), a new method for RAG with strong copyright protection guarantees in a mixed-private setting for diffusion models.CPR allows to condition the output of diffusion models on a set of retrieved images, while also guaranteeing that unique identifiable information about those example is not exposed in the generated outputs. In particular, it does so by sampling from a mixture of public (safe) distribution and private (user) distribution by merging their diffusion scores at inference. We prove that CPR satisfies Near Access Freeness (NAF) which bounds the amount of information an attacker may be able to extract from the generated images. We provide two algorithms for copyright protection, CPR-KL and CPR-Choose. Unlike previously proposed rejection-sampling-based NAF methods, our methods enable efficient copyright-protected sampling with a single run of backward diffusion. We show that our method can be applied to any pre-trained conditional diffusion model, such as Stable Diffusion or unCLIP. In particular, we empirically show that applying CPR on top of unCLIP improves quality and text-to-image alignment of the generated results (81.4 to 83.17 on TIFA benchmark), while enabling credit attribution, copy-right protection, and deterministic, constant time, unlearning.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# SMOF: スマートオフチップエヴィジョンによるFPGA上の最新のCNNのストリーミング

SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction ( http://arxiv.org/abs/2403.18921v1 )

ライセンス: Link先を確認
Petros Toupas, Zhewen Yu, Christos-Savvas Bouganis, Dimitrios Tzovaras, (参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの視覚タスクにおいてその効果を実証している。 しかし、それらの高い処理要求は、アプリケーションのパフォーマンス目標を満たすために効率的なハードウェアアクセラレーションを必要とします。 FPGAの分野では、ストリーミングベースのデータフローアーキテクチャがユーザによって採用されることが多い。 しかし、UNet、YOLO、X3Dモデルといった現代のトポロジでは、長いスキップ接続を利用し、オンチップストレージをかなり必要としており、システムアーキテクチャによって達成される性能を制限している。 計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入し、利用可能な計算資源とメモリ資源を考慮に入れ、上記の制限に対処する。 提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。 これにより、ストリーミングアーキテクチャ設計アプローチの下で、最新のCNNをオンチップメモリに制限のあるデバイスにマッピングすることができる。 SMOFは競争力を持たせる能力を示し、場合によってはコンピュータビジョンタスクの領域で最先端のパフォーマンスを実現し、以前の研究と比べて最大10.65倍のスループット向上を実現している。

Convolutional Neural Networks (CNNs) have demonstrated their effectiveness in numerous vision tasks. However, their high processing requirements necessitate efficient hardware acceleration to meet the application's performance targets. In the space of FPGAs, streaming-based dataflow architectures are often adopted by users, as significant performance gains can be achieved through layer-wise pipelining and reduced off-chip memory access by retaining data on-chip. However, modern topologies, such as the UNet, YOLO, and X3D models, utilise long skip connections, requiring significant on-chip storage and thus limiting the performance achieved by such system architectures. The paper addresses the above limitation by introducing weight and activation eviction mechanisms to off-chip memory along the computational pipeline, taking into account the available compute and memory resources. The proposed mechanism is incorporated into an existing toolflow, expanding the design space by utilising off-chip memory as a buffer. This enables the mapping of such modern CNNs to devices with limited on-chip memory, under the streaming architecture design approach. SMOF has demonstrated the capacity to deliver competitive and, in some cases, state-of-the-art performance across a spectrum of computer vision tasks, achieving up to 10.65 X throughput improvement compared to previous works.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# Lift3D: あらゆる2Dヴィジュアライゼーションモデルから3Dへのゼロショットリフティング

Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D ( http://arxiv.org/abs/2403.18922v1 )

ライセンス: Link先を確認
Mukund Varma T, Peihao Wang, Zhiwen Fan, Zhangyang Wang, Hao Su, Ravi Ramamoorthi, (参考訳) 近年,大規模な2次元画像データセットによって実現されたセマンティックセグメンテーションやスタイル転送,シーン編集など,多数のタスクのための2次元視覚モデルが爆発的に普及している。 同時に、マルチビュー画像からのニューラルレイディアンスフィールドのような3次元シーン表現への関心が高まっている。 しかし、3Dやマルチビューのデータの利用は、2D画像データセットと比較してかなり制限されているため、2Dビジョンモデルを3Dデータに拡張することが非常に望ましいが、非常に難しい。 実際、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要で、多くの場合、シーンごとの最適化が必要である。 本稿では,任意の2次元視覚モデルを持ち上げて3次元一貫した予測を行うことができるかどうかを問う。 我々の新しいLift3Dメソッドは、いくつかの視覚モデル(DINOとCLIP)が生成した特徴空間の見えざるビューを予測できるが、スタイル転送、超解像、開語彙のセグメンテーション、画像のカラー化といった新しい視覚演算子やタスクに一般化する。 多くの場合、問題となるタスクに特化した最先端の手法よりも優れています。 さらに、Lift3Dはタスク固有のトレーニングやシーン固有の最適化を必要としないという意味で、ゼロショット方式である。

In recent years, there has been an explosion of 2D vision models for numerous tasks such as semantic segmentation, style transfer or scene editing, enabled by large-scale 2D image datasets. At the same time, there has been renewed interest in 3D scene representations such as neural radiance fields from multi-view images. However, the availability of 3D or multiview data is still substantially limited compared to 2D image datasets, making extending 2D vision models to 3D data highly desirable but also very challenging. Indeed, extending a single 2D vision operator like scene editing to 3D typically requires a highly creative method specialized to that task and often requires per-scene optimization. In this paper, we ask the question of whether any 2D vision model can be lifted to make 3D consistent predictions. We answer this question in the affirmative; our new Lift3D method trains to predict unseen views on feature spaces generated by a few visual models (i.e. DINO and CLIP), but then generalizes to novel vision operators and tasks, such as style transfer, super-resolution, open vocabulary segmentation and image colorization; for some of these tasks, there is no comparable previous 3D method. In many cases, we even outperform state-of-the-art methods specialized for the task in question. Moreover, Lift3D is a zero-shot method, in the sense that it requires no task-specific training, nor scene-specific optimization.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# インターバル効果代数とホレボ計器

Interval Effect Algebras and Holevo Instruments ( http://arxiv.org/abs/2403.18925v1 )

ライセンス: Link先を確認
Stan Gudder, (参考訳) この記事は凸効果状態空間の研究から始まる。 そのような空間は順序線型空間を生成し、順序決定する状態の集合を持つ区間効果代数と等価である。 次に、非制限条件を仮定して区間効果代数の演算と楽器について議論する。 操作によって測定された効果と、操作に対する効果の逐次生成物について考察する。 観測可能なものを導入し、効果の共存について議論する。 また,観測機器の逐次生成物の性質と観測機器の条件付けについて述べる。 最終章はホレヴォの楽器に捧げられている。 純粋で混合したホレヴォの操作は定義され、楽器に拡張される。 2つの観測可能量のホレボ逐次積が定義され、それらの積の限界が計算される。 2つの効果の可換性を定義し、その性質を導出する。 以前に提示された概念の特性を例に挙げる。

This article begins with a study of convex effect-state spaces. We point out that such spaces are equivalent to interval effect algebras that generate an ordered linear space and possess an order-determining set of states. We then discuss operations and instruments on interval effect algebras under the assumption of an unrestrictive condition. Effects measured by operations and sequential products of effects relative to operations are considered. Observables are introduced and coexistence of effects are discussed. We also present properties of sequential products of observables and conditioning of observables related to instruments. The final section is devoted to Holevo instruments. Pure and mixed Holevo operations are defined and extended to instruments. The Holevo sequential product of two observables is defined and the marginals of these products are computed. We define the commutant of two effects and derive its properties. Examples are given that illustrate the properties of previously presented concepts.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# テーパリングによる最適コヒーレント量子位相推定

Optimal Coherent Quantum Phase Estimation via Tapering ( http://arxiv.org/abs/2403.18927v1 )

ライセンス: Link先を確認
Dhrumil Patel, Shi Jie Samuel Tan, Yigit Subasi, Andrew T. Sornborger, (参考訳) 量子位相推定は、量子振幅推定、方程式の線形系を解くHHLアルゴリズム、量子主成分分析など、多くの量子アルゴリズムの基礎となる基本的なプリミティブの1つである。 サブルーチンとしての重要性から,任意の入力状態とブラックボックスアクセスが与えられた場合の位相推定問題のコヒーレントバージョンについて検討する。 コヒーレンスを必然的に破壊する中間測定ステップを利用する既存の位相推定アルゴリズムとは異なり、よく知られた標準量子位相推定アルゴリズムを含むいくつかのアルゴリズムだけがこのコヒーレントな設定を考慮している。 本研究では,タペリング/ウインドウ機能を利用した標準アルゴリズムの改良版を提案する。 我々のアルゴリズムは、テープ化された量子位相推定アルゴリズムと呼ばれ、中央値計算に計算コストのかかる量子ソートネットワークを必要とせず、最適なクエリ複雑性($U$と制御された$U$への総呼び出し数)を達成する。 また,最適化基準の異なる最適化問題を定式化することで,テーパリング関数が最適であることを示す。 漸近的システム以外にも,本アルゴリズムの非漸近的クエリ複雑性も実現し,実用化に不可欠である。 最後に,最適テーパリング関数に対応する量子状態を作成するアルゴリズムを提案する。

Quantum phase estimation is one of the fundamental primitives that underpins many quantum algorithms, including quantum amplitude estimation, the HHL algorithm for solving linear systems of equations, and quantum principal component analysis. Due to its significance as a subroutine, in this work, we study the coherent version of the phase estimation problem, where given an arbitrary input state and black-box access to unitaries $U$ and controlled-$U$, the goal is to estimate the phases of $U$ in superposition. Unlike most existing phase estimation algorithms, which employ intermediary measurements steps that inevitably destroy coherence, only a couple of algorithms, including the well-known standard quantum phase estimation algorithm, consider this coherent setting. In this work, we propose an improved version of this standard algorithm that utilizes tapering/window functions. Our algorithm, which we call tapered quantum phase estimation algorithm, achieves the optimal query complexity (total number of calls to $U$ and controlled-$U$) without requiring the use of a computationally expensive quantum sorting network for median computation, which the standard algorithm uses to boost the success probability arbitrarily close to one. We also show that the tapering functions that we use are optimal by formulating optimization problems with different optimization criteria. Beyond the asymptotic regime, we also provide non-asymptotic query complexity of our algorithm, as it is crucial for practical implementation. Finally, we also propose an efficient algorithm that prepares the quantum state corresponding to the optimal tapering function.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 大規模言語モデルにおける政治的バイアスの測定:何が語られるか、どのように語られるか

Measuring Political Bias in Large Language Models: What Is Said and How It Is Said ( http://arxiv.org/abs/2403.18932v1 )

ライセンス: Link先を確認
Yejin Bang, Delong Chen, Nayeon Lee, Pascale Fung, (参考訳) 政治問題に関するコンテンツの内容とスタイルの両方を分析し,LLMにおける政治的偏見を測定することを提案する。 既存のベンチマークと指標は、性別と人種の偏見に焦点を当てている。 しかし、政治的バイアスはLLMに存在し、下流のアプリケーションでは分極やその他の害をもたらす可能性がある。 ユーザに対して透明性を提供するためには,LLMが生み出す政治的偏見の細粒化と説明可能な尺度が必要である,と我々は主張する。 提案尺度は, 生殖権や気候変動などの異なる政治課題を, それらのバイアスの内容(世代的物質)と様式(語彙的極性)の両方で考察する。 我々は11のオープンソースLDMの政治的バイアスを測定し、提案するフレームワークが他のトピックに容易にスケーラブルであり、説明可能であることを示した。

We propose to measure political bias in LLMs by analyzing both the content and style of their generated content regarding political issues. Existing benchmarks and measures focus on gender and racial biases. However, political bias exists in LLMs and can lead to polarization and other harms in downstream applications. In order to provide transparency to users, we advocate that there should be fine-grained and explainable measures of political biases generated by LLMs. Our proposed measure looks at different political issues such as reproductive rights and climate change, at both the content (the substance of the generation) and the style (the lexical polarity) of such bias. We measured the political bias in eleven open-sourced LLMs and showed that our proposed framework is easily scalable to other topics and is explainable.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# SemEval Task 1: アフリカ・アジア言語における意味的テキスト関連性

SemEval Task 1: Semantic Textual Relatedness for African and Asian Languages ( http://arxiv.org/abs/2403.18933v1 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Meriem Beloucif, Christine De Kock, Oumaima Hourrane, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Krishnapriya Vishnubhotla, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) セマンティックテキスト関連性(STR)に関する最初の共有タスクを提示する。 以前の共有タスクは、主に意味的類似性に焦点を当てていたが、代わりに、アフリカーンス、アルジェリア語、アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、キンヤルワンダ語、マラティー語、モロッコ語、現代標準アラビア語、パンジャビ語、スペイン語、テルグ語など、14言語にわたる意味的関連性の広範な現象を調査した。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 データセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 参加型システムでは, 文の親密性(意味的関係の程度)によって, 3つの主要なトラックにおいて, 14言語で文対をランク付けするよう求められた。 a) 監督; 監督; 監督 (b)監督なし、及び (c)クロスリンガル。 参加者数は163名。 51の異なるチームから合計70の応募(全タスク)と38のシステム記述書類を受け取りました。 我々は,3つの異なるトラックに対して,最高の性能システムと,最も一般的かつ最も効果的なアプローチについて報告する。

We present the first shared task on Semantic Textual Relatedness (STR). While earlier shared tasks primarily focused on semantic similarity, we instead investigate the broader phenomenon of semantic relatedness across 14 languages: Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by the relatively limited availability of NLP resources. Each instance in the datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. Participating systems were asked to rank sentence pairs by their closeness in meaning (i.e., their degree of semantic relatedness) in the 14 languages in three main tracks: (a) supervised, (b) unsupervised, and (c) crosslingual. The task attracted 163 participants. We received 70 submissions in total (across all tasks) from 51 different teams, and 38 system description papers. We report on the best-performing systems as well as the most common and the most effective approaches for the three different tracks.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 解析性とウンルー効果--局所モジュラフローの研究

Analyticity and the Unruh effect: a study of local modular flow ( http://arxiv.org/abs/2403.18937v1 )

ライセンス: Link先を確認
Jonathan Sorce, (参考訳) ウンルー効果は、リンドラーのくさびの中のミンコフスキー真空がそのモジュラーフローとしてブーストを持つという言明として定式化することができる。 近年、幾何学的に局所的なモジュラーフローを持つ状態の他の例は、場の量子論や量子重力におけるエネルギーとエントロピーを理解する上で重要な役割を果たしている。 ここでは、幾何的モジュラーフローが生じる可能性のある設定に関する一般的な研究を開始します。 i)任意の幾何学的モジュラフローが背景時空の共形対称性でなければならないこと、 (II)「弱解析的」状態のよく振る舞うクラスでは、幾何学的モジュラフローは将来的な方向で行わなければならない。 さらに、幾何変換が共形であるが等方的でないならば、共形体論におけるモジュラフローとしてしか実現できないと論じる。 最後に、コンバース結果を示すことができるいくつかの設定、すなわち、モジュラフローが与えられたベクトル場を再現する状態を構築することができる設定について論じる。

The Unruh effect can be formulated as the statement that the Minkowski vacuum in a Rindler wedge has a boost as its modular flow. In recent years, other examples of states with geometrically local modular flow have played important roles in understanding energy and entropy in quantum field theory and quantum gravity. Here I initiate a general study of the settings in which geometric modular flow can arise, showing (i) that any geometric modular flow must be a conformal symmetry of the background spacetime, and (ii) that in a well behaved class of "weakly analytic" states, geometric modular flow must be future-directed. I further argue that if a geometric transformation is conformal but not isometric, then it can only be realized as modular flow in a conformal field theory. Finally, I discuss a few settings in which converse results can be shown -- i.e., settings in which a state can be constructed whose modular flow reproduces a given vector field.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 自由テキストラジオロジーノートを生成変換器で構造化レポートに変換する

Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers ( http://arxiv.org/abs/2403.18938v1 )

ライセンス: Link先を確認
Laura Bergomi, Tommaso M. Buonocore, Paolo Antonazzo, Lorenzo Alberghi, Riccardo Bellazzi, Lorenzo Preda, Chandra Bortolotto, Enea Parimbelli, (参考訳) BACKGROUND: ラジオロジーレポートは通常、フリーテキスト形式で書かれており、臨床情報の抽出と使用が困難になります。 近年,構造化報告 (SR) の導入は, 標準化, 完全性, 情報検索といったメリットによって, 様々な医療社会に推奨されている。 本研究は, 内科・医療放射線学会が提案する基準SRレジストリの項目に適合するフリーテキストラジオグラフィーレポートから情報を抽出するパイプラインを提案し, 悪性リンパ腫患者のCTステージングに焦点を当てた。 METHODS:本研究は,自然言語処理(NLP)とTransformerベースのモデルを利用して,SRレジストリの自動補完を実現することを目的としている。 本報告では,T5(IT5)の領域別バージョンに基づくルールフリーな生成質問応答手法について検討した。 モデルのコンテキスト長制限を満たすために、2つの戦略(バッチ・トランケーションとポスト前の組み合わせ)が実装される。 性能は厳密な精度、F1、フォーマットの精度で評価され、広く使われているGPT-3.5大言語モデルと比較される。 医用アノテーションと生成した回答の類似性に関する人間-専門家のフィードバックを収集するために、5ポイントのLikertスケールのアンケートが用いられる。 RESULTS: 微調整とバッチ分割の組み合わせによって、IT5は注目すべき結果を得ることができます。 人間の評価スコアは,AI性能指標(F1)と高い相関(Spearman's correlation coefficients>0.88, p-values<0.001)を示し, 有意な人文を生成する上でのLLMs(GPT-3.5, 175B of parameters)の優れた能力を確認する。

BACKGROUND: Radiology reports are typically written in a free-text format, making clinical information difficult to extract and use. Recently the adoption of structured reporting (SR) has been recommended by various medical societies thanks to the advantages it offers, e.g. standardization, completeness and information retrieval. We propose a pipeline to extract information from free-text radiology reports, that fits with the items of the reference SR registry proposed by a national society of interventional and medical radiology, focusing on CT staging of patients with lymphoma. METHODS: Our work aims to leverage the potential of Natural Language Processing (NLP) and Transformer-based models to deal with automatic SR registry filling. With the availability of 174 radiology reports, we investigate a rule-free generative Question Answering approach based on a domain-specific version of T5 (IT5). Two strategies (batch-truncation and ex-post combination) are implemented to comply with the model's context length limitations. Performance is evaluated in terms of strict accuracy, F1, and format accuracy, and compared with the widely used GPT-3.5 Large Language Model. A 5-point Likert scale questionnaire is used to collect human-expert feedback on the similarity between medical annotations and generated answers. RESULTS: The combination of fine-tuning and batch splitting allows IT5 to achieve notable results; it performs on par with GPT-3.5 albeit its size being a thousand times smaller in terms of parameters. Human-based assessment scores show a high correlation (Spearman's correlation coefficients>0.88, p-values<0.001) with AI performance metrics (F1) and confirm the superior ability of LLMs (i.e., GPT-3.5, 175B of parameters) in generating plausible human-like statements.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 大規模ビジョンランゲージモデルを用いた安全でないユーザ生成コンテンツゲームにおけるオンライン画像のモデレーション

Moderating Illicit Online Image Promotion for Unsafe User-Generated Content Games Using Large Vision-Language Models ( http://arxiv.org/abs/2403.18957v1 )

ライセンス: Link先を確認
Keyan Guo, Ayush Utkarsh, Wenbo Ding, Isabelle Ondracek, Ziming Zhao, Guo Freeman, Nishant Vishwamitra, Hongxin Hu, (参考訳) オンラインユーザ生成コンテンツゲーム(UGCG)は、ソーシャルインタラクションとよりクリエイティブなオンラインエンターテイメントのために、子供や青年の間で人気が高まっている。 しかし、露骨なコンテンツに露出するリスクが高くなり、子供や青年のオンライン安全への懸念が高まっている。 これらの懸念にもかかわらず、ソーシャルメディア上での不正な画像ベースUGCGのプロモーションの問題に対処する研究はほとんどない。 この課題は、UGCG画像の総合的なトレーニングデータを得るのが困難であることと、従来の安全でないコンテンツとは異なる、これらの画像のユニークな性質から生じる。 本研究は、安全でないUGCGの違法なプロモーションの脅威を研究するための第一歩となる。 ゲームクリエーターがUGCGをプロモートするために使用する、さまざまな性的・暴力的なコンテンツを表示する2,924枚の画像からなる実世界のデータセットを収集する。 我々の詳細な研究は、この問題に対する新たな理解と、不正なUGCGプロモーションを自動的にフラグ付けする緊急の必要性を明らかにしている。 我々はまた、UGCGプロモーションに使用される画像を効果的に識別するソーシャルメディアプラットフォームを支援するために、最先端システムであるUGCG-Guardを作成した。 このシステムは、最近導入された大型視覚言語モデル(VLM)を活用し、コンテキスト識別のためのチェーン・オブ・シント(CoT)推論とともに、ゼロショット領域適応のための新しい条件付きプロンプト戦略を採用する。 UGCG-Guardは、現実世界のシナリオにおける不正なプロモーションに使用されるこれらの画像の検出において、94%の精度で優れた結果を得る。

Online user-generated content games (UGCGs) are increasingly popular among children and adolescents for social interaction and more creative online entertainment. However, they pose a heightened risk of exposure to explicit content, raising growing concerns for the online safety of children and adolescents. Despite these concerns, few studies have addressed the issue of illicit image-based promotions of unsafe UGCGs on social media, which can inadvertently attract young users. This challenge arises from the difficulty of obtaining comprehensive training data for UGCG images and the unique nature of these images, which differ from traditional unsafe content. In this work, we take the first step towards studying the threat of illicit promotions of unsafe UGCGs. We collect a real-world dataset comprising 2,924 images that display diverse sexually explicit and violent content used to promote UGCGs by their game creators. Our in-depth studies reveal a new understanding of this problem and the urgent need for automatically flagging illicit UGCG promotions. We additionally create a cutting-edge system, UGCG-Guard, designed to aid social media platforms in effectively identifying images used for illicit UGCG promotions. This system leverages recently introduced large vision-language models (VLMs) and employs a novel conditional prompting strategy for zero-shot domain adaptation, along with chain-of-thought (CoT) reasoning for contextual identification. UGCG-Guard achieves outstanding results, with an accuracy rate of 94% in detecting these images used for the illicit promotion of such games in real-world scenarios.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# ジェネレーティブAIベースのソフトウェア製品のための実用的リリース-可読性チェックリスト

A State-of-the-practice Release-readiness Checklist for Generative AI-based Software Products ( http://arxiv.org/abs/2403.18958v1 )

ライセンス: Link先を確認
Harsh Patel, Dominique Boucher, Emad Fallahzadeh, Ahmed E. Hassan, Bram Adams, (参考訳) 本稿では,Large Language Models (LLMs) をソフトウェア製品に統合することの複雑さについて検討し,リリースの準備の整合性を決定する上で直面する課題に焦点をあてる。 グレー文献の体系的なレビューでは,事前学習から微調整,ユーザエクスペリエンスの考慮に至るまで,LCMのデプロイにおける一般的な課題が明確化されている。 本研究は,LLMベースのアプリケーションの信頼性と実環境環境における有効性を高めることを目的とした,パフォーマンス,監視,デプロイメント戦略などの重要なリリース準備の側面を評価するための総合的なチェックリストを紹介する。

This paper investigates the complexities of integrating Large Language Models (LLMs) into software products, with a focus on the challenges encountered for determining their readiness for release. Our systematic review of grey literature identifies common challenges in deploying LLMs, ranging from pre-training and fine-tuning to user experience considerations. The study introduces a comprehensive checklist designed to guide practitioners in evaluating key release readiness aspects such as performance, monitoring, and deployment strategies, aiming to enhance the reliability and effectiveness of LLM-based applications in real-world settings.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 量子コンピューティングを用いた生体ニューラルネットワークとニューラルネットワークの動的挙動の推算

Using Quantum Computing to Infer Dynamic Behaviors of Biological and Artificial Neural Networks ( http://arxiv.org/abs/2403.18963v1 )

ライセンス: Link先を確認
Gabriel A. Silva, (参考訳) 量子計算の新しい問題クラスの探索は研究の活発な領域である。 本質的に完全に探索されていないトピックは、量子アルゴリズムとコンピューティングを使用して、ニューラルネットワークの関数力学を探索し、疑問を問うことである。 これは、生体および人工ニューラルネットワークのモデリングとシミュレーションに量子コンピューティングを適用するという、まだ初期段階のトピックのコンポーネントである。 本研究では,ニューラルネットワークの簡単な表現(生体と人工のネットワークの両方に適用される)が一定時間後に持続する可能性を持つかどうかを,出力測定が保証する解釈を許容するように,慎重に構築された条件セットが,GroverとDeutsch-Joszaの2つの基本量子アルゴリズムを使用する方法を示す。 あるいは、この力学が「懐疑的」力学またはクエンスによって停止することが保証されているかどうか。

The exploration of new problem classes for quantum computation is an active area of research. An essentially completely unexplored topic is the use of quantum algorithms and computing to explore and ask questions \textit{about} the functional dynamics of neural networks. This is a component of the still-nascent topic of applying quantum computing to the modeling and simulations of biological and artificial neural networks. In this work, we show how a carefully constructed set of conditions can use two foundational quantum algorithms, Grover and Deutsch-Josza, in such a way that the output measurements admit an interpretation that guarantees we can infer if a simple representation of a neural network (which applies to both biological and artificial networks) after some period of time has the potential to continue sustaining dynamic activity. Or whether the dynamics are guaranteed to stop either through 'epileptic' dynamics or quiescence.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 半導体中におけるキラル性誘起磁気フリースピン発生

Chirality-Induced Magnet-Free Spin Generation in a Semiconductor ( http://arxiv.org/abs/2403.18964v1 )

ライセンス: Link先を確認
Tianhan Liu, Yuwaraj Adhikari, Hailong Wang, Yiyang Jiang, Zhenqi Hua, Haoyang Liu, Pedro Schlottmann, Hanwei Gao, Paul S. Weiss, Binghai Yan, Jianhua Zhao, Peng Xiong, (参考訳) 半導体中の偏光電子スピンの電気的生成と変換は、スピントロニクスと量子情報科学の中心的な関心事である。 半導体のスピン生成は強磁性体からの電気注入によって頻繁に実現されているが、スピン偏極を生成する非磁性経路には大きな利点がある。 そのような経路の1つは電子スピンの電子構造や実空間におけるキラリティとの相互作用を利用する。 ここでは、キラル性誘起スピン選択性(CISS)を用いて、通常の金属(Au)電極からキラル分子の自己組織化単分子膜({\alpha}-helix L-polyalanine, AHPA-L)を通した電流注入によるnドープGaAsのスピン蓄積の効率的な生成を実証する。 結果として生じるスピン偏極は、n-GaAsのハンル効果として検出され、これは温度とバイアス電流がキラリティー誘起のスピン蓄積と一致していることと異なる普遍的なスケーリングに従うことが示されている。 この実験は、完全に非磁性デバイス構造におけるCISSの決定的な観察と、従来の半導体におけるスピン蓄積を発生させる能力の実証を構成する。 これにより、CISSの物理機構に重要な制約が課され、無磁石半導体スピントロニクスの新しいスキームが提示される。

Electrical generation and transduction of polarized electron spins in semiconductors are of central interest in spintronics and quantum information science. While spin generation in semiconductors has been frequently realized via electrical injection from a ferromagnet, there are significant advantages in nonmagnetic pathways of creating spin polarization. One such pathway exploits the interplay of electron spin with chirality in electronic structures or real space. Here, utilizing chirality-induced spin selectivity (CISS), we demonstrate efficient creation of spin accumulation in n-doped GaAs via electric current injection from a normal metal (Au) electrode through a self-assembled monolayer of chiral molecules ({\alpha}-helix L-polyalanine, AHPA-L). The resulting spin polarization is detected as a Hanle effect in the n-GaAs, which is found to obey a distinct universal scaling with temperature and bias current consistent with chirality-induced spin accumulation. The experiment constitutes a definitive observation of CISS in a fully nonmagnetic device structure and demonstration of its ability to generate spin accumulation in a conventional semiconductor. The results thus place key constraints on the physical mechanism of CISS and present a new scheme for magnet-free semiconductor spintronics.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# LORD:大規模モデルに基づく自律運転のためのオポジットリワード設計

LORD: Large Models based Opposite Reward Design for Autonomous Driving ( http://arxiv.org/abs/2403.18965v1 )

ライセンス: Link先を確認
Xin Ye, Feng Tao, Abhirup Mallik, Burhaneddin Yaman, Liu Ren, (参考訳) 強化学習(RL)に基づく自律運転は、データ駆動の模倣学習アプローチに代わる有望な代替手段として登場した。 しかし、RLの効果的な報酬関数を作成することは、様々なシナリオで良い運転行動を定義して定量化する複雑さのために課題を提起する。 近年、望まれる言語目標を持つタスクに対するゼロショット報酬モデルとして、大規模な事前訓練モデルが注目されている。 しかし、「運転安全」のような自律運転の言語目標は、事前訓練されたモデルでは曖昧で理解できない。 一方で、"コリジョン"のような望ましくない言語目標の方が具体的で、扱いやすい。 本研究では,ゼロショット報酬モデルとして大規模事前学習モデルの効率的な利用を可能にするために,望ましくない言語目標を通した,新たな大規模報酬モデルであるLORDを紹介する。 提案手法は,大規模な事前学習モデルのパワーを有効活用し,安全かつ高機能な自動運転の実現に有効であることを示す。 さらに,提案手法は,多種多様かつ困難な運転シナリオにまたがる他の手法よりも優れているため,一般化能力の向上を示す。

Reinforcement learning (RL) based autonomous driving has emerged as a promising alternative to data-driven imitation learning approaches. However, crafting effective reward functions for RL poses challenges due to the complexity of defining and quantifying good driving behaviors across diverse scenarios. Recently, large pretrained models have gained significant attention as zero-shot reward models for tasks specified with desired linguistic goals. However, the desired linguistic goals for autonomous driving such as "drive safely" are ambiguous and incomprehensible by pretrained models. On the other hand, undesired linguistic goals like "collision" are more concrete and tractable. In this work, we introduce LORD, a novel large models based opposite reward design through undesired linguistic goals to enable the efficient use of large pretrained models as zero-shot reward models. Through extensive experiments, our proposed framework shows its efficiency in leveraging the power of large pretrained models for achieving safe and enhanced autonomous driving. Moreover, the proposed approach shows improved generalization capabilities as it outperforms counterpart methods across diverse and challenging driving scenarios.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 概念から実装までの大規模言語モデルに関する調査

A Survey on Large Language Models from Concept to Implementation ( http://arxiv.org/abs/2403.18969v1 )

ライセンス: Link先を確認
Chen Wang, Jin Zhao, Jiaqi Gong, (参考訳) 近年のLarge Language Models(LLM)の進歩、特にTransformerアーキテクチャ上に構築されているものは、自然言語処理(NLP)アプリケーションの範囲を大きく拡大し、チャットボット技術での最初の使用を超越している。 本稿では,これらのモデルの多面的応用について検討し,GPTシリーズに着目した。 この調査は、コーディングや問題解決といった従来のタスクに革命をもたらす人工知能(AI)駆動ツールの変革的な影響に焦点を当てると同時に、さまざまな産業にまたがる研究と開発の新たな道を開いた。 コード解釈や画像キャプションからインタラクティブなシステムの構築や計算領域の進化まで、Transformerモデルはディープラーニング、データ分析、ニューラルネットワーク設計のシナジーを実証している。 この調査では、Transformerモデルの最新の研究を詳細に分析し、その汎用性と、多様なアプリケーションセクターを変革する可能性を強調した上で、TransformerベースのLCMの現在の状況と将来の展望を、実践的な応用において包括的に理解した読者に提供する。

Recent advancements in Large Language Models (LLMs), particularly those built on Transformer architectures, have significantly broadened the scope of natural language processing (NLP) applications, transcending their initial use in chatbot technology. This paper investigates the multifaceted applications of these models, with an emphasis on the GPT series. This exploration focuses on the transformative impact of artificial intelligence (AI) driven tools in revolutionizing traditional tasks like coding and problem-solving, while also paving new paths in research and development across diverse industries. From code interpretation and image captioning to facilitating the construction of interactive systems and advancing computational domains, Transformer models exemplify a synergy of deep learning, data analysis, and neural network design. This survey provides an in-depth look at the latest research in Transformer models, highlighting their versatility and the potential they hold for transforming diverse application sectors, thereby offering readers a comprehensive understanding of the current and future landscape of Transformer-based LLMs in practical applications.
翻訳日:2024-03-29 18:11:43 公開日:2024-03-27
# 高速かつ高精度なインテント認識のためのコンフォーマルインテント分類と明確化

Conformal Intent Classification and Clarification for Fast and Accurate Intent Recognition ( http://arxiv.org/abs/2403.18973v1 )

ライセンス: Link先を確認
Floris den Hengst, Ralf Wolter, Patrick Altmeyer, Arda Kaygan, (参考訳) 本稿では,タスク指向対話システムのための高速かつ正確な意図分類のためのフレームワークであるConformal Intent Classification and Clarification(CICC)を提案する。 このフレームワークは、任意の意図分類器のヒューリスティックな不確実性スコアを、事前定義された信頼度レベルで真の意図を含むことが保証される明確化問題に変換する。 少数の潜在的意図を曖昧にすることにより、ユーザクエリを迅速かつ正確に解決することができる。 さらに,顕微鏡外検出のためのフレームワークの拡張も提案する。 7つの意図認識データセットを用いた比較評価では、CICCは小さな明確化質問を生成し、スコープ外検出が可能であることが判明した。 CICCは、専門家や研究者が、特定の明確化質問を伴う対話エージェントのユーザエクスペリエンスを大幅に改善するのに役立つ。

We present Conformal Intent Classification and Clarification (CICC), a framework for fast and accurate intent classification for task-oriented dialogue systems. The framework turns heuristic uncertainty scores of any intent classifier into a clarification question that is guaranteed to contain the true intent at a pre-defined confidence level. By disambiguating between a small number of likely intents, the user query can be resolved quickly and accurately. Additionally, we propose to augment the framework for out-of-scope detection. In a comparative evaluation using seven intent recognition datasets we find that CICC generates small clarification questions and is capable of out-of-scope detection. CICC can help practitioners and researchers substantially in improving the user experience of dialogue agents with specific clarification questions.
翻訳日:2024-03-29 18:01:51 公開日:2024-03-27
# 注釈付医用画像レポートのコーパスとBERT言語モデルを用いた情報抽出結果

A Novel Corpus of Annotated Medical Imaging Reports and Information Extraction Results Using BERT-based Language Models ( http://arxiv.org/abs/2403.18975v1 )

ライセンス: Link先を確認
Namu Park, Kevin Lybarger, Giridhar Kaushik Ramachandran, Spencer Lewis, Aashka Damani, Ozlem Uzuner, Martin Gunn, Meliha Yetisgen, (参考訳) 医療画像は、腫瘍学、神経学、循環器学、筋骨格疾患など、多くの健康状態の診断、監視、治療に重要である。 放射線学者は、これらの複雑で非構造的なイメージを解釈し、ほとんど非構造的のままの物語報告を通じてその評価を明確にする。 この非構造的物語は、振り返り分析や臨床決定支援のような二次的な応用を促進するために、構造化された意味表現に変換されなければならない。 ここでは、CT、磁気共鳴イメージング、ポジトロン放射トモグラフィーの3種類の画像モダリティから609個の注釈付き放射線診断レポートを含む、注釈付医用イメージングレポート(CAMIR)について紹介する。 報告は、臨床所見、病変、医療上の問題をキャプチャするイベントベースのスキーマを使用して注釈付けされた。 各イベントはトリガと複数の引数で構成され、解剖学を含む引数の型の大部分は、二次的な使用を容易にするために、事前に定義された概念にスパンを正規化する。 CAMIRは、粒度のイベント構造と概念正規化を独自に組み合わせている。 CAMIR イベントを抽出するために,既存のアーキテクチャ (mSpERT) と CAMIR スキーマ用に拡張したマルチステップアプローチ (PL-Marker++) を含む,BERT ベースのアーキテクチャを2つ検討した。

Medical imaging is critical to the diagnosis, surveillance, and treatment of many health conditions, including oncological, neurological, cardiovascular, and musculoskeletal disorders, among others. Radiologists interpret these complex, unstructured images and articulate their assessments through narrative reports that remain largely unstructured. This unstructured narrative must be converted into a structured semantic representation to facilitate secondary applications such as retrospective analyses or clinical decision support. Here, we introduce the Corpus of Annotated Medical Imaging Reports (CAMIR), which includes 609 annotated radiology reports from three imaging modality types: Computed Tomography, Magnetic Resonance Imaging, and Positron Emission Tomography-Computed Tomography. Reports were annotated using an event-based schema that captures clinical indications, lesions, and medical problems. Each event consists of a trigger and multiple arguments, and a majority of the argument types, including anatomy, normalize the spans to pre-defined concepts to facilitate secondary use. CAMIR uniquely combines a granular event structure and concept normalization. To extract CAMIR events, we explored two BERT (Bi-directional Encoder Representation from Transformers)-based architectures, including an existing architecture (mSpERT) that jointly extracts all event information and a multi-step approach (PL-Marker++) that we augmented for the CAMIR schema.
翻訳日:2024-03-29 18:01:51 公開日:2024-03-27
# 「ごめん、また来ますか?」プロンプティング -- [PAUSE]を注入した最適な言い回しによる理解と幻覚の緩和

"Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing ( http://arxiv.org/abs/2403.18976v1 )

ライセンス: Link先を確認
Vipula Rawte, S. M Towhidul Islam Tonmoy, S M Mehedi Zaman, Prachi Priya, Aman Chadha, Amit P. Sheth, Amitava Das, (参考訳) 幻覚は現代のLarge Language Models(LLM)の最も脆弱な側面として現れている。 本稿では,LLM幻覚の回避を目的としたSorry, Come Again(SCA)プロンプトについて述べる。 訳語 最適な言い回し;最適な言い回し (ii) LLM生成を遅らせるために[PAUSE]トークンを注入する。 まず,21LLMにおけるプロンプトの形式性,可読性,具体性といった言語的ニュアンスを詳細に分析し,これらのニュアンスがどのように幻覚発生に寄与するかを明らかにする。 可読性、形式性、具体性が低いプロンプトは、人間の直面しているものと同様、LLMに対して理解上の困難をもたらす。 このようなシナリオでは、LCMはその想像力(連想記憶)に基づいてコンテンツを推測して生成し、これらの情報ギャップを埋める傾向がある。 これらの推測は時折事実情報と一致しているが、その正確さは保証されておらず、幻覚をもたらすことが多い。 近年の研究では、LSMは拡張プロンプトの中間部分を無視していることが判明している。 特定のパラフレーズは1つの LLM に適合するが、同じパラフレーズ化されたバージョンは別の LLM とは異なる反応を誘発することがある。 そこで本研究では,LLMが全ての単語を正確に処理することを保証するために,インテグレート・グラディエント(およびそのバリエーション)を用いて評価した,与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。 長い文章を読みながら、人間は、これまで読み上げてきた意味をよりよく理解するために、様々な点で停止することが多い。 我々は、[PAUSE]トークンを注入したLLMを微調整し、より長いプロンプトを読みながらLLMを停止できるようにした。 これにより、いくつかの重要なコントリビューションが生まれました。 i) [PAUSE]を注入する最適な位置を決定すること。 (ii)挿入すべき[PAUSE]トークンの数を決定し、 3) [PAUSE]挿入のためのLDMを微調整するためにリバースプロキシチューニングを導入する。

Hallucination has emerged as the most vulnerable aspect of contemporary Large Language Models (LLMs). In this paper, we introduce the Sorry, Come Again (SCA) prompting, aimed to avoid LLM hallucinations by enhancing comprehension through: (i) optimal paraphrasing and (ii) injecting [PAUSE] tokens to delay LLM generation. First, we provide an in-depth analysis of linguistic nuances: formality, readability, and concreteness of prompts for 21 LLMs, and elucidate how these nuances contribute to hallucinated generation. Prompts with lower readability, formality, or concreteness pose comprehension challenges for LLMs, similar to those faced by humans. In such scenarios, an LLM tends to speculate and generate content based on its imagination (associative memory) to fill these information gaps. Although these speculations may occasionally align with factual information, their accuracy is not assured, often resulting in hallucination. Recent studies reveal that an LLM often neglects the middle sections of extended prompts, a phenomenon termed as lost in the middle. While a specific paraphrase may suit one LLM, the same paraphrased version may elicit a different response from another LLM. Therefore, we propose an optimal paraphrasing technique to identify the most comprehensible paraphrase of a given prompt, evaluated using Integrated Gradient (and its variations) to guarantee that the LLM accurately processes all words. While reading lengthy sentences, humans often pause at various points to better comprehend the meaning read thus far. We have fine-tuned an LLM with injected [PAUSE] tokens, allowing the LLM to pause while reading lengthier prompts. This has brought several key contributions: (i) determining the optimal position to inject [PAUSE], (ii) determining the number of [PAUSE] tokens to be inserted, and (iii) introducing reverse proxy tuning to fine-tune the LLM for [PAUSE] insertion.
翻訳日:2024-03-29 18:01:51 公開日:2024-03-27
# TextCraftor: テキストエンコーダは画像品質コントローラになる

TextCraftor: Your Text Encoder Can be Image Quality Controller ( http://arxiv.org/abs/2403.18978v1 )

ライセンス: Link先を確認
Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren, (参考訳) 拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらし、画像編集やビデオ合成といった分野で大きな進歩をもたらした。 その強烈な能力にもかかわらず、これらのモデルには限界はない。 入力テキストとよく一致したイメージを合成することは依然として困難であり、良好な結果を得るためには、慎重に作成されたプロンプトを複数回実行する必要がある。 これらの制限を緩和するために、様々な技術を利用した事前訓練された拡散モデル、すなわちUNetの微調整に多くの研究が取り組んできた。 しかし、これらの取り組みの中で、テキスト・ツー・イメージ拡散モデルトレーニングの重要課題は、ほとんど探索されていない: テキスト・ツー・イメージ拡散モデルの性能を向上させるために、テキスト・エンコーダを微調整することは可能か、可能か? 以上の結果から,Stable Diffusionで使用されているCLIPテキストエンコーダを他の大規模言語モデルに置き換える代わりに,提案した微調整アプローチであるTextCraftorによって拡張できることが判明した。 興味深いことに,本手法は様々な報酬を伴って微調整された異なるテキストエンコーダの補間を通じて,制御可能な画像生成を可能にする。 また、TextCraftorがUNetの微調整に直交していることを示し、さらに生成品質を向上させるために組み合わせることができる。

Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have revolutionized the field of content generation, enabling significant advancements in areas like image editing and video synthesis. Despite their formidable capabilities, these models are not without their limitations. It is still challenging to synthesize an image that aligns well with the input text, and multiple runs with carefully crafted prompts are required to achieve satisfactory results. To mitigate these limitations, numerous studies have endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing various technologies. Yet, amidst these efforts, a pivotal question of text-to-image diffusion model training has remained largely unexplored: Is it possible and feasible to fine-tune the text encoder to improve the performance of text-to-image diffusion models? Our findings reveal that, instead of replacing the CLIP text encoder used in Stable Diffusion with other large language models, we can enhance it through our proposed fine-tuning approach, TextCraftor, leading to substantial improvements in quantitative benchmarks and human assessments. Interestingly, our technique also empowers controllable image generation through the interpolation of different text encoders fine-tuned with various rewards. We also demonstrate that TextCraftor is orthogonal to UNet finetuning, and can be combined to further improve generative quality.
翻訳日:2024-03-29 18:01:51 公開日:2024-03-27
# 強化学習を用いたブラックボックス画像・ビデオ・ECG信号分類におけるロバストさと視覚的説明

Robustness and Visual Explanation for Black Box Image, Video, and ECG Signal Classification with Reinforcement Learning ( http://arxiv.org/abs/2403.18985v1 )

ライセンス: Link先を確認
Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Avisek Naug, Sahand Ghorbanpour, (参考訳) 本稿では,ECG信号解析(1D),画像分類(2D),映像分類(3D)など多種多様なモデルに対して,敵対的攻撃を行うために最適化された汎用強化学習(RL)フレームワークを提案する。 このフレームワークは、感度の高い領域を特定し、最小の歪みと様々な歪みタイプで誤分類を誘導することに焦点を当てている。 新規なRL法は3つの応用すべてに対して最先端の手法より優れており、その効率性が証明されている。 我々のRLアプローチは優れたローカライゼーションマスクを生成し、画像分類とECG分析モデルの解釈可能性を高める。 心電図解析などのアプリケーションでは,臨床医にとって重要な心電図セグメントが強調され,起立歪みに対するレジリエンスが確保される。 この包括的なツールは、さまざまなアプリケーションやデータタイプにわたる敵のトレーニングと透明性によるレジリエンスの強化を目標としている。

We present a generic Reinforcement Learning (RL) framework optimized for crafting adversarial attacks on different model types spanning from ECG signal analysis (1D), image classification (2D), and video classification (3D). The framework focuses on identifying sensitive regions and inducing misclassifications with minimal distortions and various distortion types. The novel RL method outperforms state-of-the-art methods for all three applications, proving its efficiency. Our RL approach produces superior localization masks, enhancing interpretability for image classification and ECG analysis models. For applications such as ECG analysis, our platform highlights critical ECG segments for clinicians while ensuring resilience against prevalent distortions. This comprehensive tool aims to bolster both resilience with adversarial training and transparency across varied applications and data types.
翻訳日:2024-03-29 18:01:51 公開日:2024-03-27
# Bot-IoTデータセットにおける不均衡なクラスへの対処

Dealing with Imbalanced Classes in Bot-IoT Dataset ( http://arxiv.org/abs/2403.18989v1 )

ライセンス: Link先を確認
Jesse Atuhurra, Takanori Hara, Yuanyu Zhang, Masahiro Sasabe, Shoji Kasahara, (参考訳) IoT(Internet of Things)デバイスが急速に普及する中で、ネットワーク侵入検知システム(NIDS)は、IoTネットワークにおけるさまざまなタイプの攻撃を検出し、保護する上で重要な役割を果たす。 IoTネットワークにおけるNIDSの堅牢性を評価するため、既存の研究では、IoTネットワーク(Bot-IoTデータセット)における現実的なボットネットデータセットを提案し、機械学習ベースの異常検出に適用した。 このデータセットは、通常のパケットの個数が攻撃パケットの個数よりもはるかに小さいため、不均衡な正規パケットと攻撃パケットを含んでいる。 不均衡なデータの性質は、マイノリティクラスを正しく識別することが困難になる可能性がある。 本稿では、Bot-IoTデータセットにおけるクラス不均衡問題に対処するため、合成マイノリティオーバーサンプリング技術(SMOTE)を用いたバイナリ分類手法を提案する。 提案手法は,攻撃パケットを検出し,SMOTEアルゴリズムを用いてクラス不均衡問題を克服することを目的としている。 数値的な結果から,提案する分類器の基本特性と不均衡データの影響を実証する。

With the rapidly spreading usage of Internet of Things (IoT) devices, a network intrusion detection system (NIDS) plays an important role in detecting and protecting various types of attacks in the IoT network. To evaluate the robustness of the NIDS in the IoT network, the existing work proposed a realistic botnet dataset in the IoT network (Bot-IoT dataset) and applied it to machine learning-based anomaly detection. This dataset contains imbalanced normal and attack packets because the number of normal packets is much smaller than that of attack ones. The nature of imbalanced data may make it difficult to identify the minority class correctly. In this thesis, to address the class imbalance problem in the Bot-IoT dataset, we propose a binary classification method with synthetic minority over-sampling techniques (SMOTE). The proposed classifier aims to detect attack packets and overcome the class imbalance problem using the SMOTE algorithm. Through numerical results, we demonstrate the proposed classifier's fundamental characteristics and the impact of imbalanced data on its performance.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 低消費電力パラレルリフレッシュ極低温帯電アレイ

Parallel refreshed cryogenic charge-locking array with low power dissipation ( http://arxiv.org/abs/2403.18993v1 )

ライセンス: Link先を確認
Xinya Bian, G Andrew D Briggs, Jan A Mol, (参考訳) 数百万の低温量子ビットからなる大規模量子回路を構築するには、多数の古典的な制御信号を効率よく供給する必要がある。 室温からの直接接続が限られているため、複数の信号多重化が不可欠である。 この課題を達成するためのハードウェアの積み重ねは、制御エレクトロニクスの最低レベルの実装に大きく依存している。 このような統合は、大きな電力散逸によって制限されないため、信号伝送やワイヤ配線に好まれる。 電力効率を優先する新しい低温エレクトロニクスは、厳密な熱予算を満たすために開発されなければならない。 本稿では、電荷同期アレイを実装するための電力効率のよい手法を提案する。

To build a large scale quantum circuit comprising millions of cryogenic qubits will require an efficient way to supply large numbers of classic control signals. Given the limited number of direct connections allowed from room temperature, multiple level of signal multiplexing becomes essential. The stacking of hardware to accomplish this task is highly dependent on the lowest level implementation of control electronics, of which an open question is the feasibility of mK integration. Such integration is preferred for signal transmission and wire interconnection, provided it is not limited by the large power dissipation involved. Novel cryogenic electronics that prioritises power efficiency has to be developed to meet the tight thermal budget. In this paper, we present a power efficient approach to implement charge-locking array.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# Causal-StoNet:高次元複素データに対する因果推論

Causal-StoNet: Causal Inference for High-Dimensional Complex Data ( http://arxiv.org/abs/2403.18994v1 )

ライセンス: Link先を確認
Yaxin Fang, Faming Liang, (参考訳) データサイエンスの進歩により、ますます複雑なデータセットの収集が一般的になっている。 このようなデータセットでは、データ次元は非常に高く、基礎となるデータ生成プロセスは未知であり、非常に非線形である。 その結果,高次元複雑データを用いた因果推論の課題は,医学,計量学,社会科学など,多くの分野において根本的な問題となっている。 しかし,既存の因果推論手法は,データ次元が低かったり,基礎となるデータ生成プロセスが線形であったり,概ね線形であったりする前提のもとに,しばしば開発される。 これらの課題に対処するために,高次元複素データを扱うための新しい因果推論手法を提案する。 提案手法は,近年研究されている疎深層学習理論や確率的ニューラルネットワークなどの深層学習技術に基づく。 これらの手法を用いることで、提案手法は高次元と未知のデータ生成プロセスの両方をコヒーレントな方法で扱うことができる。 さらに、データセットに欠落した値が存在する場合にも、提案手法が使用できる。 大規模な数値研究は、提案手法が既存の手法より優れていることを示唆している。

With the advancement of data science, the collection of increasingly complex datasets has become commonplace. In such datasets, the data dimension can be extremely high, and the underlying data generation process can be unknown and highly nonlinear. As a result, the task of making causal inference with high-dimensional complex data has become a fundamental problem in many disciplines, such as medicine, econometrics, and social science. However, the existing methods for causal inference are frequently developed under the assumption that the data dimension is low or that the underlying data generation process is linear or approximately linear. To address these challenges, this paper proposes a novel causal inference approach for dealing with high-dimensional complex data. The proposed approach is based on deep learning techniques, including sparse deep learning theory and stochastic neural networks, that have been developed in recent literature. By using these techniques, the proposed approach can address both the high dimensionality and unknown data generation process in a coherent way. Furthermore, the proposed approach can also be used when missing values are present in the datasets. Extensive numerical studies indicate that the proposed approach outperforms existing ones.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# MedCLIPの構想 : 医用ビジョンランゲージモデルにおける説明可能性の深化

Envisioning MedCLIP: A Deep Dive into Explainability for Medical Vision-Language Models ( http://arxiv.org/abs/2403.18996v1 )

ライセンス: Link先を確認
Anees Ur Rehman Hashmi, Dwarikanath Mahapatra, Mohammad Yaqub, (参考訳) ディープラーニングモデルの説明は、日々のマルチモーダルモデル、特に医療画像のような安全クリティカルな領域に直面して、ますます重要になりつつある。 しかしながら、これらのモデルにおける説明可能性法の性能に関する詳細な調査が欠如していることは、開発と安全な配置のギャップを広げている。 本研究では、視覚言語モデルであるMedCLIP上での様々な説明可能なAI手法の性能を分析し、その内部動作を復調する。 また、これらの手法の欠点を克服するための簡単な手法も提供します。 我々の研究は、医学領域における最近の有名なVLMの説明可能性に関する新たな視点を提供し、評価手法は、他の現在および将来可能なVLMに一般化可能である。

Explaining Deep Learning models is becoming increasingly important in the face of daily emerging multimodal models, particularly in safety-critical domains like medical imaging. However, the lack of detailed investigations into the performance of explainability methods on these models is widening the gap between their development and safe deployment. In this work, we analyze the performance of various explainable AI methods on a vision-language model, MedCLIP, to demystify its inner workings. We also provide a simple methodology to overcome the shortcomings of these methods. Our work offers a different new perspective on the explainability of a recent well-known VLM in the medical domain and our assessment method is generalizable to other current and possible future VLMs.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 薬物毒性予測に応用した量子-古典的ニューラルネットワーク変換学習

Quantum to Classical Neural Network Transfer Learning Applied to Drug Toxicity Prediction ( http://arxiv.org/abs/2403.18997v1 )

ライセンス: Link先を確認
Anthony M. Smaldone, Victor S. Batista, (参考訳) 毒性 (Toxicity) は、不規則な数の薬物が命を救うために使用されるのを防ぐブロックである。 深層学習は理想的な薬物候補を見つけるための有望な解決策を提供するが、基礎となる$\mathcal{O}(n^3)$行列乗算と化学空間の広さは、これらの取り組みが急速に計算的に要求されることを意味する。 これを解決するために,従来のニューラルネットワーク設計を模倣した量子回路設計を用いて,複雑度$\mathcal{O}(n^2)$の行列積を明示的に計算し,薬物毒性を予測するハイブリッド量子古典ニューラルネットワークを提案する。 従来のスワップ試験よりも効率的に内部積推定を行うためにアダマール試験を利用することで、量子位相推定の必要性を減らし、量子ビット数を半減する。 量子行列製品を直接計算することで、学習可能な重量を量子から古典的なデバイスに転送し、さらなるトレーニングを行うことができる。 我々は、Tox21データセットにフレームワークを適用し、モデルの全古典的な$\mathcal{O}(n^3)$アナログに対して、コンメジュレートな予測精度を達成することを示す。 さらに、モデルがディスラプションなしで学習し続け、一度完全に古典的なアーキテクチャに移行したことを実証する。 複雑性の低減による量子的優位性とノイズフリー計算の古典的優位性を組み合わせることで、よりスケーラブルな機械学習モデルへの道が開けると考えています。

Toxicity is a roadblock that prevents an inordinate number of drugs from being used in potentially life-saving applications. Deep learning provides a promising solution to finding ideal drug candidates; however, the vastness of chemical space coupled with the underlying $\mathcal{O}(n^3)$ matrix multiplication means these efforts quickly become computationally demanding. To remedy this, we present a hybrid quantum-classical neural network for predicting drug toxicity, utilizing a quantum circuit design that mimics classical neural behavior by explicitly calculating matrix products with complexity $\mathcal{O}(n^2)$. Leveraging the Hadamard test for efficient inner product estimation rather than the conventionally used swap test, we reduce the number qubits by half and remove the need for quantum phase estimation. Directly computing matrix products quantum mechanically allows for learnable weights to be transferred from a quantum to a classical device for further training. We apply our framework to the Tox21 dataset and show that it achieves commensurate predictive accuracy to the model's fully classical $\mathcal{O}(n^3)$ analog. Additionally, we demonstrate the model continues to learn, without disruption, once transferred to a fully classical architecture. We believe combining the quantum advantage of reduced complexity and the classical advantage of noise-free calculation will pave the way to more scalable machine learning models.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# マイクロサービスシステムにおけるFew-Shotクロスシステム異常トレース分類

Few-Shot Cross-System Anomaly Trace Classification for Microservice-based systems ( http://arxiv.org/abs/2403.18998v1 )

ライセンス: Link先を確認
Yuqing Wang, Mika V. Mantylä, Serge Demeyer, Mutlu Beyazit, Joanna Kisaakye, Jesse Nyyssölä, (参考訳) マイクロサービスベースのシステム(MSS)は、複雑で動的な性質のため、さまざまな障害カテゴリで障害を経験する可能性がある。 障害を効果的に処理するために、AIOpsツールはトレースベースの異常検出と根本原因分析を利用する。 本稿では,MSSの異常トレース分類のための新しいフレームワークを提案する。 本フレームワークは,(1)システム固有のトレース表現を構築するためのマルチヘッドアテンションオートエンコーダ,(2)トランスフォーマーエンコーダに基づくモデル非依存メタラーニングの2つの主要コンポーネントから構成される。 提案するフレームワークは、TraticketとOnlineBoutiqueの2つの代表的なMSSで、オープンデータセットで評価されている。 以上の結果から,本フレームワークは学習知識に適応して,従来のMSSと同一システム内および異なるMSS内においても,新たな異常カテゴリの異常なトレースを識別できることが示唆された。 同じMSS内では、TraticketとOnlineBoutiqueの50のメタテストタスクの平均精度は93.26\%と85.2\%に達し、各タスクに10のインスタンスが提供される。 システム間のコンテキストでは、各システムの同じメタテストタスクに対して平均92.19.%と84.77.%の精度が得られ、各タスクに10のインスタンスが提供される。 本研究は,MSSの異常トレース分類を少数の異常トレース分類に適用可能であることを示し,システム間の適応性を実現する方法を示す。 これにより、異常検出と根本原因分析のためにシステム固有のデータラベリングを少なくする、より一般化されたAIOpsツールを構築するための道が開ける。

Microservice-based systems (MSS) may experience failures in various fault categories due to their complex and dynamic nature. To effectively handle failures, AIOps tools utilize trace-based anomaly detection and root cause analysis. In this paper, we propose a novel framework for few-shot abnormal trace classification for MSS. Our framework comprises two main components: (1) Multi-Head Attention Autoencoder for constructing system-specific trace representations, which enables (2) Transformer Encoder-based Model-Agnostic Meta-Learning to perform effective and efficient few-shot learning for abnormal trace classification. The proposed framework is evaluated on two representative MSS, Trainticket and OnlineBoutique, with open datasets. The results show that our framework can adapt the learned knowledge to classify new, unseen abnormal traces of novel fault categories both within the same system it was initially trained on and even in the different MSS. Within the same MSS, our framework achieves an average accuracy of 93.26\% and 85.2\% across 50 meta-testing tasks for Trainticket and OnlineBoutique, respectively, when provided with 10 instances for each task. In a cross-system context, our framework gets an average accuracy of 92.19\% and 84.77\% for the same meta-testing tasks of the respective system, also with 10 instances provided for each task. Our work demonstrates the applicability of achieving few-shot abnormal trace classification for MSS and shows how it can enable cross-system adaptability. This opens an avenue for building more generalized AIOps tools that require less system-specific data labeling for anomaly detection and root cause analysis.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 古典的通信による資源配分と共存のための量子ランダムアクセスコードの実装

Quantum Random Access Codes Implementation for Resource Allocation and Coexistence with Classical Telecommunication ( http://arxiv.org/abs/2403.19000v1 )

ライセンス: Link先を確認
Domenico Ribezzo, Roberto Salazar, Jakub Czartowski, Flora Segur, Gianmarco Lemmi, Antoine Petitjean, Noel Farrugia, André Xuereb, Davide Bacco, Alessandro Zavatta, (参考訳) 量子ネットワークが急速に現実化しつつある世界では、量子インターネットの発展がますます関心を集めている。 それでも、現代の量子ネットワークはまだ開発の初期段階にあり、異なるユーザ間でリソースを分散する能力に制限がある。 本研究では,QRAC(Quantum Random Access Codes)を実装するための新しいセットアップ,古典的手法と半デバイス非依存の自己テストアプリケーションに対する量子的優位性で知られる通信プロトコルを用いて,これらの制約を検討することを目的とする。 我々のQRAC状態は、単一の光子ではなく弱いコヒーレントパルスを用いて初めて作られ、資源割り当ての観点から符号化と復号戦略を実験的にテストすることができる。 さらに、共存する古典的コミュニケーションをエミュレートすることにより、ノイズの存在下で実装のレジリエンスをテストする。 得られた結果は、量子リソース割り当ての理論研究と、通常の通信ネットワークと共存可能な量子インフラの実装の両方において重要なマイルストーンである。

In a world where Quantum Networks are rapidly becoming a reality, the development of the Quantum Internet is gaining increasing interest. Nevertheless, modern quantum networks are still in the early stages of development and have limited capacity to distribute resources among different users -- a constraint that needs to be taken into account. In this work we aim to investigate these constraints, using a novel setup for implementing Quantum Random Access Codes (QRACs), communication protocols known for their quantum advantage over their classical counterparts and semi-device-independent self-testing applications. Our QRAC states, made for the first time using weak coherent pulses instead of entangled single photons, allow us to experimentally test our encoding and decoding strategy from the resource allocation perspective. Moreover, by emulating a coexistent classical communication, we test the resilience of our implementation in presence of noise. The achieved results represent a significant milestone both for theoretical studies of quantum resource allocation and for the implementation of quantum infrastructures capable of coexisting with regular telecommunication networks.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 言語性能認知スコア予測のためのクロスドメインファイバクラスタ形状解析

Cross--domain Fiber Cluster Shape Analysis for Language Performance Cognitive Score Prediction ( http://arxiv.org/abs/2403.19001v1 )

ライセンス: Link先を確認
Yui Lo, Yuqian Chen, Dongnan Liu, Wan Liu, Leo Zekelman, Fan Zhang, Yogesh Rathi, Nikos Makris, Alexandra J. Golby, Weidong Cai, Lauren J. O'Donnell, (参考訳) 形状はコンピュータグラフィックスにおいて重要な役割を担い、物体の形態や機能を伝達する情報的特徴を提供する。 脳画像における形状解析は、人間の脳の構造と機能の相関を解釈するのに役立ちます。 本研究では,脳の3次元白質結合の形状と,人間の認知機能に対する潜在的な予測的関係について検討する。 拡散磁気共鳴画像(dMRI)による脳の3D点配列の再構成を行った。 それぞれの接続を記述するために、従来のdMRI接続と組織微細構造の特徴に加えて、12個の形状記述子を抽出する。 マルチヘッド型クロスアテンション機能融合モジュールを用いて,dMRIトラクタグラフィーに基づく主観的言語性能の予測を行う新しいフレームワークであるシェイプ・フューズ・ファイバ・クラスタ・トランスフォーマ(SFFormer)を導入する。 健常成人1065名を対象に,本手法の有効性について検討した。 以上の結果から,トランスフォーマーベースSFFormerモデルと,形状,微細構造,接続性を考慮したイントラ機能融合がともに有益であることが示され,それらとともに,対象言語の性能評価の精度が向上することが示唆された。 以上の結果から,脳の接続の形状は人間の言語機能を予測することが示唆された。

Shape plays an important role in computer graphics, offering informative features to convey an object's morphology and functionality. Shape analysis in brain imaging can help interpret structural and functionality correlations of the human brain. In this work, we investigate the shape of the brain's 3D white matter connections and its potential predictive relationship to human cognitive function. We reconstruct brain connections as sequences of 3D points using diffusion magnetic resonance imaging (dMRI) tractography. To describe each connection, we extract 12 shape descriptors in addition to traditional dMRI connectivity and tissue microstructure features. We introduce a novel framework, Shape--fused Fiber Cluster Transformer (SFFormer), that leverages a multi-head cross-attention feature fusion module to predict subject-specific language performance based on dMRI tractography. We assess the performance of the method on a large dataset including 1065 healthy young adults. The results demonstrate that both the transformer-based SFFormer model and its inter/intra feature fusion with shape, microstructure, and connectivity are informative, and together, they improve the prediction of subject-specific language performance scores. Overall, our results indicate that the shape of the brain's connections is predictive of human language function.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 雑音環境におけるロバストアクティブ話者検出

Robust Active Speaker Detection in Noisy Environments ( http://arxiv.org/abs/2403.19002v1 )

ライセンス: Link先を確認
Siva Sai Nagender Vasireddy, Chenxu Zhang, Xiaohu Guo, Yapeng Tian, (参考訳) 本稿では,雑音環境における能動話者検出(ASD)の問題に対処し,頑健な能動話者検出(rASD)問題を定式化する。 既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。 そこで本稿では,ノイズのない音声特徴を学習するためのガイダンスとして,音声と視覚の分離を利用した新しいフレームワークを提案する。 これらの機能はASDモデルで利用され、両方のタスクはエンドツーエンドのフレームワークで共同で最適化される。 提案フレームワークは,ASDの分離された音声を直接使用し,その2つのタスクを同時に最適化する,単純なケースケード2段階フレームワークにおいて発生する残雑音や音質の低下を緩和する。 音声特徴のロバスト性をさらに高め,固有の音声雑音に対処するために,音声分離器を訓練するための動的重み付き損失手法を提案する。 調査を容易にするために,実環境のノイズオーディオデータセットも収集した。 実験により、非音声雑音がASDモデルに大きく影響することを示し、提案手法は雑音環境下でのASD性能を改善する。 フレームワークは汎用的で、さまざまな ASD アプローチに適用して、堅牢性を改善することができる。 私たちのコード、モデル、データはリリースされます。

This paper addresses the issue of active speaker detection (ASD) in noisy environments and formulates a robust active speaker detection (rASD) problem. Existing ASD approaches leverage both audio and visual modalities, but non-speech sounds in the surrounding environment can negatively impact performance. To overcome this, we propose a novel framework that utilizes audio-visual speech separation as guidance to learn noise-free audio features. These features are then utilized in an ASD model, and both tasks are jointly optimized in an end-to-end framework. Our proposed framework mitigates residual noise and audio quality reduction issues that can occur in a naive cascaded two-stage framework that directly uses separated speech for ASD, and enables the two tasks to be optimized simultaneously. To further enhance the robustness of the audio features and handle inherent speech noises, we propose a dynamic weighted loss approach to train the speech separator. We also collected a real-world noise audio dataset to facilitate investigations. Experiments demonstrate that non-speech audio noises significantly impact ASD models, and our proposed approach improves ASD performance in noisy environments. The framework is general and can be applied to different ASD approaches to improve their robustness. Our code, models, and data will be released.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 持続可能なセキュアMLを目指して - 敵対的機械学習のカーボンフットプリントの定量化

Towards Sustainable SecureML: Quantifying Carbon Footprint of Adversarial Machine Learning ( http://arxiv.org/abs/2403.19009v1 )

ライセンス: Link先を確認
Syed Mhamudul Hasan, Abdur R. Shahid, Ahmed Imteaj, (参考訳) 機械学習(ML)が様々な産業に広く採用されていることで、そのエネルギー使用量と二酸化炭素排出量が持続可能性の懸念が高まっている。 この問題は、異なるネットワークベースの攻撃に対するモデルセキュリティを強化することに焦点を当てた、敵MLにおいて、より重要になる。 MLシステムにおける防御の実装は、しばしば追加の計算資源とネットワークセキュリティ対策を必要とし、環境への影響を悪化させる。 本稿では,敵対的MLの炭素フットプリントに関する最初の研究を開拓し,より大きなモデルロバスト性と高いエミッションを結び付ける実証的な証拠を提供する。 このトレードオフを定量化するための重要なニーズに対処するため、ロバストネス炭素トレードオフ指数(RCTI)を導入します。 この新しい計量は、経済の弾力性原理にインスパイアされ、反対の強靭性の変化に対する二酸化炭素の感度を捉えている。 我々は,避難攻撃を含む実験を通じてRCTIを実証し,攻撃に対するロバスト性,性能,二酸化炭素排出との相互作用を分析した。

The widespread adoption of machine learning (ML) across various industries has raised sustainability concerns due to its substantial energy usage and carbon emissions. This issue becomes more pressing in adversarial ML, which focuses on enhancing model security against different network-based attacks. Implementing defenses in ML systems often necessitates additional computational resources and network security measures, exacerbating their environmental impacts. In this paper, we pioneer the first investigation into adversarial ML's carbon footprint, providing empirical evidence connecting greater model robustness to higher emissions. Addressing the critical need to quantify this trade-off, we introduce the Robustness Carbon Trade-off Index (RCTI). This novel metric, inspired by economic elasticity principles, captures the sensitivity of carbon emissions to changes in adversarial robustness. We demonstrate the RCTI through an experiment involving evasion attacks, analyzing the interplay between robustness against attacks, performance, and carbon emissions.
翻訳日:2024-03-29 18:01:50 公開日:2024-03-27
# 確率モデルを用いた入院電子カルテの逐次推定

Sequential Inference of Hospitalization ElectronicHealth Records Using Probabilistic Models ( http://arxiv.org/abs/2403.19011v1 )

ライセンス: Link先を確認
Alan D. Kaplan, Priyadip Ray, John D. Greene, Vincent X. Liu, (参考訳) ダイナミックな病院環境では、意思決定支援は患者の成果を改善する貴重なツールとなり得る。 このダイナミックな環境では、実験室のテストや薬品などの長いシーケンスを頻繁に更新するデータ駆動推論が困難である。 これは、データ型と可変長列に含まれる混合シーケンス型の不均一性による部分もある。 本研究では,入院電子健康記録(EHR)データに含まれる複数の任意長配列に対する確率的教師なしモデルの設計を行う。 このモデルは潜在変数構造を使用し、薬物、診断、実験室のテスト、神経学的評価、薬物の間の複雑な関係を捉えている。 損失のある変換や時間ビンニングを必要とせずに、オリジナルのデータでトレーニングすることができる。 推論アルゴリズムは、部分的データを用いて、その長さや特定の値の存在を含む完全なシーケンスの特性を推測する。 我々は,北カリフォルニアのKaiser Permanente(カイザー・パーマネンテ)統合型ヘルスケアデリバリーシステムにおいて,医療を受ける被験者のデータに基づいて,このモデルをトレーニングする。 その結果,入院ベッドにおける集中治療室 (ICU) の長さと存在を予測するための保留データと比較した。 提案手法はベースライン手法よりも優れており,これらの実験では,学習したモデルが将来の値を示すシーケンスで情報をキャプチャすることを示す。

In the dynamic hospital setting, decision support can be a valuable tool for improving patient outcomes. Data-driven inference of future outcomes is challenging in this dynamic setting, where long sequences such as laboratory tests and medications are updated frequently. This is due in part to heterogeneity of data types and mixed-sequence types contained in variable length sequences. In this work we design a probabilistic unsupervised model for multiple arbitrary-length sequences contained in hospitalization Electronic Health Record (EHR) data. The model uses a latent variable structure and captures complex relationships between medications, diagnoses, laboratory tests, neurological assessments, and medications. It can be trained on original data, without requiring any lossy transformations or time binning. Inference algorithms are derived that use partial data to infer properties of the complete sequences, including their length and presence of specific values. We train this model on data from subjects receiving medical care in the Kaiser Permanente Northern California integrated healthcare delivery system. The results are evaluated against held-out data for predicting the length of sequences and presence of Intensive Care Unit (ICU) in hospitalization bed sequences. Our method outperforms a baseline approach, showing that in these experiments the trained model captures information in the sequences that is informative of their future values.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# ReflectSumm: コースのリフレクション要約のためのベンチマーク

ReflectSumm: A Benchmark for Course Reflection Summarization ( http://arxiv.org/abs/2403.19012v1 )

ライセンス: Link先を確認
Yang Zhong, Mohamed Elaraby, Diane Litman, Ahmed Ashraf Butt, Muhsin Menekse, (参考訳) 本稿では,学生のリフレクティブ・ライティングを要約するための新しい要約データセットであるReflectionSummを紹介する。 ReflectSummの目的は、学習データが少ない実世界のシナリオに適した新しい要約手法の開発と評価を容易にすることである。 データセットはさまざまな要約タスクを含み、包括的なメタデータを含んでおり、さまざまな研究質問の探索とさまざまなアプリケーションのサポートを可能にしている。 実用性を示すために,複数の最先端ベースラインを用いて広範囲な評価を行った。 結果は、この分野のさらなる研究を促進するためのベンチマークを提供する。

This paper introduces ReflectSumm, a novel summarization dataset specifically designed for summarizing students' reflective writing. The goal of ReflectSumm is to facilitate developing and evaluating novel summarization techniques tailored to real-world scenarios with little training data, %practical tasks with potential implications in the opinion summarization domain in general and the educational domain in particular. The dataset encompasses a diverse range of summarization tasks and includes comprehensive metadata, enabling the exploration of various research questions and supporting different applications. To showcase its utility, we conducted extensive evaluations using multiple state-of-the-art baselines. The results provide benchmarks for facilitating further research in this area.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# Thelxinoë:Pupillometryと機械学習を用いた人間の感情認識

Thelxinoë: Recognizing Human Emotions Using Pupillometry and Machine Learning ( http://arxiv.org/abs/2403.19014v1 )

ライセンス: Link先を確認
Darlene Barker, Haim Levkowitz, (参考訳) 本研究では,瞳孔計測を用いた仮想現実(VR)における感情認識手法を提案する。 我々は,VRヘッドセットを用いて視覚刺激と聴覚刺激に対する瞳孔径の反応を分析し,VR生成データから時間領域,周波数領域,時間周波数領域の重要な特徴を抽出することに焦点を当てた。 提案手法は,mRMR(Maximum Relevance Minimum Redundancy)を用いて,特徴選択を用いて最も影響の大きい特徴を同定する。 重み付き決定木を用いたアンサンブル学習手法であるグラディエントブースティングモデルを適用することで,特徴工学で98.8%の精度を達成できるのに対し,84.9%の精度を達成できる。 本研究は,現実的かつ感情的に共鳴するタッチインタラクションのための複数のセンサデータを統合することで,VR体験の向上を目的としたThelxino\"eフレームワークに大きく貢献する。 我々の発見は、没入的でインタラクティブなVR環境を開発するための新しい道を開き、バーチャルタッチ技術の将来の進歩への道を開いた。

In this study, we present a method for emotion recognition in Virtual Reality (VR) using pupillometry. We analyze pupil diameter responses to both visual and auditory stimuli via a VR headset and focus on extracting key features in the time-domain, frequency-domain, and time-frequency domain from VR generated data. Our approach utilizes feature selection to identify the most impactful features using Maximum Relevance Minimum Redundancy (mRMR). By applying a Gradient Boosting model, an ensemble learning technique using stacked decision trees, we achieve an accuracy of 98.8% with feature engineering, compared to 84.9% without it. This research contributes significantly to the Thelxino\"e framework, aiming to enhance VR experiences by integrating multiple sensor data for realistic and emotionally resonant touch interactions. Our findings open new avenues for developing more immersive and interactive VR environments, paving the way for future advancements in virtual touch technology.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# テキストID学習によるLCM-RecSysアライメントの実現に向けて

Towards LLM-RecSys Alignment with Textual ID Learning ( http://arxiv.org/abs/2403.19021v1 )

ライセンス: Link先を確認
Juntao Tan, Shuyuan Xu, Wenyue Hua, Yingqiang Ge, Zelong Li, Yongfeng Zhang, (参考訳) LLM(Large Language Models)に基づくジェネレーティブレコメンデーション(ジェネレーティブレコメンデーション)は、従来のランキングベースのレコメンデーションスタイルを、テキストからテキストへの生成パラダイムに変換する。 しかしながら、人間の語彙で本質的に機能する標準的なNLPタスクとは対照的に、ジェネレーティブレコメンデーションにおける現在の研究は、簡潔で意味のあるID表現を用いてテキスト・トゥ・テキスト・フレームワーク内のレコメンデーション項目を効果的にエンコードすることに苦労している。 LLMとレコメンデーションのニーズをよりよく整合させるため、人間の言語トークンを用いて、各項目をユニークで簡潔で、意味的にリッチで、プラットフォームに依存しないテキストIDとして表現するIDGenを提案する。 LLMベースのレコメンデーションと一緒にテキストIDジェネレータをトレーニングすることで、パーソナライズされたレコメンデーションを自然言語生成にシームレスに統合することが可能になる。 特に,ユーザ履歴が自然言語で表現され,元のデータセットから切り離されたため,本手法は基本生成推薦モデルの可能性を示している。 実験により、我々のフレームワークは、標準実験環境下での逐次推薦において、既存のモデルを一貫して上回っていることが明らかとなった。 次に、19の異なるデータセットから収集したデータに基づいて、提案手法を用いて財団推薦モデルをトレーニングし、その推奨性能を、全くゼロショット設定で異なるプラットフォームにまたがる6つの未確認データセットで検証する可能性を検討する。 その結果、事前学習した基礎モデルのゼロショット性能は、教師付きトレーニングに基づく従来のレコメンデーションモデルに匹敵するか、さらに優れていることが示され、ジェネレーティブ・レコメンデーションの基盤モデルとして機能するIDGenパラダイムの可能性が示された。 コードとデータはhttps://github.com/agiresearch/IDGenRec.orgで公開されている。

Generative recommendation based on Large Language Models (LLMs) have transformed the traditional ranking-based recommendation style into a text-to-text generation paradigm. However, in contrast to standard NLP tasks that inherently operate on human vocabulary, current research in generative recommendations struggles to effectively encode recommendation items within the text-to-text framework using concise yet meaningful ID representations. To better align LLMs with recommendation needs, we propose IDGen, representing each item as a unique, concise, semantically rich, platform-agnostic textual ID using human language tokens. This is achieved by training a textual ID generator alongside the LLM-based recommender, enabling seamless integration of personalized recommendations into natural language generation. Notably, as user history is expressed in natural language and decoupled from the original dataset, our approach suggests the potential for a foundational generative recommendation model. Experiments show that our framework consistently surpasses existing models in sequential recommendation under standard experimental setting. Then, we explore the possibility of training a foundation recommendation model with the proposed method on data collected from 19 different datasets and tested its recommendation performance on 6 unseen datasets across different platforms under a completely zero-shot setting. The results show that the zero-shot performance of the pre-trained foundation model is comparable to or even better than some traditional recommendation models based on supervised training, showing the potential of the IDGen paradigm serving as the foundation model for generative recommendation. Code and data are open-sourced at https://github.com/agiresearch/IDGenRec.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# WALT3D: Occlusion 下での動的物体再構成のための時系列画像からのリアルなトレーニングデータの生成

WALT3D: Generating Realistic Training Data from Time-Lapse Imagery for Reconstructing Dynamic Objects under Occlusion ( http://arxiv.org/abs/2403.19022v1 )

ライセンス: Link先を確認
Khiem Vuong, N. Dinesh Reddy, Robert Tamburo, Srinivasa G. Narasimhan, (参考訳) 都市環境における2次元・3次元物体理解手法の課題は,大規模にラベル付けされた接頭辞アノテーションが欠如していることによる。 本研究では,動的オブジェクトの大規模で現実的なデータセットを自動的に生成する新しいフレームワークを提案する。 既設の2D(バウンディングボックス、セグメンテーション、キーポイント)と3D(目的、形状)の予測を擬似グラウンドトゥルスとして活用することにより、非閉塞な3Dオブジェクトをクリップアート形式で自動的に識別して背景に合成し、現実的な外観と物理的に正確なオクルージョン構成を確保する。 擬似基底構造を持つクリップアート画像は、閉塞に対して頑健なオブジェクト再構成手法の効率的な訓練を可能にする。 提案手法は,2次元と3次元の両方の再現において,特に車両や都市部で密集した物体のシナリオにおいて,顕著な改善を示すものである。

Current methods for 2D and 3D object understanding struggle with severe occlusions in busy urban environments, partly due to the lack of large-scale labeled ground-truth annotations for learning occlusion. In this work, we introduce a novel framework for automatically generating a large, realistic dataset of dynamic objects under occlusions using freely available time-lapse imagery. By leveraging off-the-shelf 2D (bounding box, segmentation, keypoint) and 3D (pose, shape) predictions as pseudo-groundtruth, unoccluded 3D objects are identified automatically and composited into the background in a clip-art style, ensuring realistic appearances and physically accurate occlusion configurations. The resulting clip-art image with pseudo-groundtruth enables efficient training of object reconstruction methods that are robust to occlusions. Our method demonstrates significant improvements in both 2D and 3D reconstruction, particularly in scenarios with heavily occluded objects like vehicles and people in urban scenes.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# 非対称リワードを用いたモデルベース強化学習のためのダイナミクスの爆発的対称性

Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards ( http://arxiv.org/abs/2403.19024v1 )

ライセンス: Link先を確認
Yasin Sonmez, Neelay Junnarkar, Murat Arcak, (参考訳) 強化学習における最近の研究は、政策を訓練する際のサンプル効率を改善するためにモデル内の対称性を活用している。 一般的に用いられる単純化仮定は、力学と報酬の両方が同じ対称性を示すというものである。 しかし、多くの実世界の環境では、力学モデルは報酬モデルとは無関係に対称性を示す。 本稿では,対称性の応用が可能な制御理論における強化学習や学習における問題の範囲を拡大し,対称性のみを仮定するシナリオについて検討する。 カルタンの移動フレーム法を用いて力学を学習する手法を導入する。 数値実験により,提案手法がより正確な力学モデルを学習できることを実証する。

Recent work in reinforcement learning has leveraged symmetries in the model to improve sample efficiency in training a policy. A commonly used simplifying assumption is that the dynamics and reward both exhibit the same symmetry. However, in many real-world environments, the dynamical model exhibits symmetry independent of the reward model: the reward may not satisfy the same symmetries as the dynamics. In this paper, we investigate scenarios where only the dynamics are assumed to exhibit symmetry, extending the scope of problems in reinforcement learning and learning in control theory where symmetry techniques can be applied. We use Cartan's moving frame method to introduce a technique for learning dynamics which, by construction, exhibit specified symmetries. We demonstrate through numerical experiments that the proposed method learns a more accurate dynamical model.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# Egocentric Scene-Aware Human Trajectory Prediction

Egocentric Scene-aware Human Trajectory Prediction ( http://arxiv.org/abs/2403.19026v1 )

ライセンス: Link先を確認
Weizhuo Wang, C. Karen Liu, Monroe Kennedy III, (参考訳) ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。 このようなロボットは、自我中心の視覚と周囲のシーンに基づいて、着用者の自我運動を予測する必要がある。 本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。 我々は,エゴモーション予測の研究を容易にするために,ユーザの視点を中心とした総合的な歩行シーンナビゲーションデータセットを収集した。 本研究では,周囲の静的なシーン上での人間の動作条件を予測する手法を提案する。 提案手法は,ユーザによる環境観察を考慮した拡散モデルを用いて,将来的な軌道の分布を推定する。 本稿では,ユーザの周囲の視覚記憶を符号化するコンパクト表現と,拡散モデルのリアルタイム推論を高速化する効率的なサンプル生成手法を提案する。 その結果、衝突回避と軌道モードのカバレッジの重要指標において、既存の手法よりも優れた結果が得られた。

Wearable collaborative robots stand to assist human wearers who need fall prevention assistance or wear exoskeletons. Such a robot needs to be able to predict the ego motion of the wearer based on egocentric vision and the surrounding scene. In this work, we leveraged body-mounted cameras and sensors to anticipate the trajectory of human wearers through complex surroundings. To facilitate research in ego-motion prediction, we have collected a comprehensive walking scene navigation dataset centered on the user's perspective. We present a method to predict human motion conditioning on the surrounding static scene. Our method leverages a diffusion model to produce a distribution of potential future trajectories, taking into account the user's observation of the environment. We introduce a compact representation to encode the user's visual memory of the surroundings, as well as an efficient sample-generating technique to speed up real-time inference of a diffusion model. We ablate our model and compare it to baselines, and results show that our model outperforms existing methods on key metrics of collision avoidance and trajectory mode coverage.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# 公衆ソーシャルメディアデータを用いた健康関連テキスト分類作業のための大規模言語モデルの評価

Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data ( http://arxiv.org/abs/2403.19031v1 )

ライセンス: Link先を確認
Yuting Guo, Anthony Ovadje, Mohammed Ali Al-Garadi, Abeed Sarker, (参考訳) 大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。 しかし,ソーシャルメディアを基盤とした健康関連自然言語処理タスクにおいて,ハイスコアの達成がこれまで困難であった業績を評価しようとする研究が数多く存在する。 我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 テキスト分類にLLMを利用する3つのアプローチを考案した: ゼロショット分類器としてLLMを, 教師付き分類器のためのアノテートデータにアノテートするアノテータとして用いた。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練において,比較的小さな人手によるデータ拡張が,人手によるデータ単独の訓練に比べ,優れた結果が得られることを示す。 教師による学習は、ゼロショット設定でもGPT-4とGPT-3.5を上回っている。 このデータ拡張戦略を活用することで、LLMのパワーを活用して、より小さく、より効果的なドメイン固有NLPモデルを開発することができる。 軽量教師付き分類モデルのトレーニングのための人手による指導を伴わないLLM注釈付きデータは、効果的ではない戦略である。 しかし、LDMはゼロショット分類器として、偽陰性を排除し、データアノテーションに必要な人的労力を減らすという約束を示す。 今後の調査は、最適なトレーニングデータサイズと最適な拡張データ量を調べるために不可欠である。

Large language models (LLMs) have demonstrated remarkable success in NLP tasks. However, there is a paucity of studies that attempt to evaluate their performances on social media-based health-related natural language processing tasks, which have traditionally been difficult to achieve high scores in. We benchmarked one supervised classic machine learning model based on Support Vector Machines (SVMs), three supervised pretrained language models (PLMs) based on RoBERTa, BERTweet, and SocBERT, and two LLM based classifiers (GPT3.5 and GPT4), across 6 text classification tasks. We developed three approaches for leveraging LLMs for text classification: employing LLMs as zero-shot classifiers, us-ing LLMs as annotators to annotate training data for supervised classifiers, and utilizing LLMs with few-shot examples for augmentation of manually annotated data. Our comprehensive experiments demonstrate that employ-ing data augmentation using LLMs (GPT-4) with relatively small human-annotated data to train lightweight supervised classification models achieves superior results compared to training with human-annotated data alone. Supervised learners also outperform GPT-4 and GPT-3.5 in zero-shot settings. By leveraging this data augmentation strategy, we can harness the power of LLMs to develop smaller, more effective domain-specific NLP models. LLM-annotated data without human guidance for training light-weight supervised classification models is an ineffective strategy. However, LLM, as a zero-shot classifier, shows promise in excluding false negatives and potentially reducing the human effort required for data annotation. Future investigations are imperative to explore optimal training data sizes and the optimal amounts of augmented data.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# 女性は男性よりもオンラインで意見を表現しやすく、安全への不安が高まることを報告している。

Women are less comfortable expressing opinions online than men and report heightened fears for safety: Surveying gender differences in experiences of online harms ( http://arxiv.org/abs/2403.19037v1 )

ライセンス: Link先を確認
Francesca Stevens, Florence E. Enock, Tvesha Sippy, Jonathan Bright, Miranda Cross, Pica Johansson, Judy Wajcman, Helen Z. Margetts, (参考訳) ヘイトスピーチ、トロール、セルフハームプロモーションといったオンラインの害は、引き続き広まり続けている。 ある研究は、女性が不公平に影響を受けていることを示唆しているが、ある研究は、この種のコンテンツに関する経験において、性別の違いが混ざった証拠を見出している。 英国成人の全国的に代表される調査(N=1992)を用いて、さまざまな害、標的となる恐怖、オンライン体験の心理的影響、害から保護するための安全ツールの使用、男女間の様々なオンライン参加の楽しさについて調査する。 男性と女性はオンライン上で有害なコンテンツをほぼ同じ程度見ているが、オンラインの不正行為やサイバーストーキング、サイバーフラッシングなどの害を被るリスクは、男性よりも大きい。 女性は、全体的な害から標的にされることを非常に恐れており、特定の経験の結果、より否定的な心理的影響を報告している。 リスクを軽減するために、女性は様々な安全ツールの使用を高く報告し、いくつかのオンライン参加で快適さを減らし、女性のわずか23%がオンラインでの政治的見解を、男性の40%と比べて快適に表現していると報告している。 また、害を取り巻く恐怖と、オンライン行動に対する快適さの直接的な関連も見出す。 例えば、荒らされる恐怖は快適な意見の表現を著しく減らし、不幸に狙われる恐怖は快適な写真共有を著しく減らします。 オンライン上で多くの公開談話が行われているため、社会のすべてのメンバが安心してオンラインスペースに参加できるようにしなければなりません。

Online harms, such as hate speech, trolling and self-harm promotion, continue to be widespread. While some work suggests women are disproportionately affected, other studies find mixed evidence for gender differences in experiences with content of this kind. Using a nationally representative survey of UK adults (N=1992), we examine exposure to a variety of harms, fears surrounding being targeted, the psychological impact of online experiences, the use of safety tools to protect against harm, and comfort with various forms of online participation across men and women. We find that while men and women see harmful content online to a roughly similar extent, women are more at risk than men of being targeted by harms including online misogyny, cyberstalking and cyberflashing. Women are significantly more fearful of being targeted by harms overall, and report greater negative psychological impact as a result of particular experiences. Perhaps in an attempt to mitigate risk, women report higher use of a range of safety tools and less comfort with several forms of online participation, with just 23% of women comfortable expressing political views online compared to 40% of men. We also find direct associations between fears surrounding harms and comfort with online behaviours. For example, fear of being trolled significantly decreases comfort expressing opinions, and fear of being targeted by misogyny significantly decreases comfort sharing photos. Our results are important because with much public discourse happening online, we must ensure all members of society feel safe and able to participate in online spaces.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# Direction-Aware t-SNE を用いた高次元時間データの可視化

Visualizing High-Dimensional Temporal Data Using Direction-Aware t-SNE ( http://arxiv.org/abs/2403.19040v1 )

ライセンス: Link先を確認
Pavlin G. Poličar, Blaž Zupan, (参考訳) 多くの実世界のデータセットは、時間成分を含むか、状態から状態への遷移を含む。 探索的データ解析では、これらの高次元データセットを2次元マップで表現することができ、探索中のデータオブジェクトの埋め込みを使用し、その時間的関係を有向エッジで表現することができる。 t-SNE や UMAP のような既存の次元減少技術は、埋め込みを構成する際のデータの時間的あるいは関係的な性質を考慮に入れていない。 この問題に対処するために、t-SNEの最適化関数における2つの相補的な方向対応損失項を提案し、データの時間的側面を強調し、最適化と結果の埋め込みを導出し、それ以外は気づかないかもしれない時間的パターンを明らかにする。 方向コヒーレンス・ロス(DCL)は隣接する2つの時系列点を同じ方向に接続する近傍の矢印を奨励し、エッジ長損失(ELL)は、その長さに基づいて、視覚化された埋め込みにおける時間ギャップを効果的に表現する矢印を罰する。 どちらの損失項も微分可能であり、既存の次元還元技術に容易に組み込むことができる。 有向エッジの局所的な方向性を促進することで,より時間的に意味があり,より散らかった可視化を実現できる。 おもちゃのデータセットと実世界の2つのデータセットに対するアプローチの有効性を実証する。

Many real-world data sets contain a temporal component or involve transitions from state to state. For exploratory data analysis, we can represent these high-dimensional data sets in two-dimensional maps, using embeddings of the data objects under exploration and representing their temporal relationships with directed edges. Most existing dimensionality reduction techniques, such as t-SNE and UMAP, do not take into account the temporal or relational nature of the data when constructing the embeddings, resulting in temporally cluttered visualizations that obscure potentially interesting patterns. To address this problem, we propose two complementary, direction-aware loss terms in the optimization function of t-SNE that emphasize the temporal aspects of the data, guiding the optimization and the resulting embedding to reveal temporal patterns that might otherwise go unnoticed. The Directional Coherence Loss (DCL) encourages nearby arrows connecting two adjacent time series points to point in the same direction, while the Edge Length Loss (ELL) penalizes arrows - which effectively represent time gaps in the visualized embedding - based on their length. Both loss terms are differentiable and can be easily incorporated into existing dimensionality reduction techniques. By promoting local directionality of the directed edges, our procedure produces more temporally meaningful and less cluttered visualizations. We demonstrate the effectiveness of our approach on a toy dataset and two real-world datasets.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# 視覚変換器を用いたX線画像における不正物体検出

Illicit object detection in X-ray images using Vision Transformers ( http://arxiv.org/abs/2403.19043v1 )

ライセンス: Link先を確認
Jorgen Cani, Ioannis Mademlis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos, (参考訳) Illicitオブジェクト検出は、空港、駅、地下鉄、港など、様々な高セキュリティの場所で実施される重要なタスクである。 1時間に何千ものX線画像を調べるという、連続的で退屈な作業は、精神的に課税される可能性がある。 このようにして、ディープニューラルネットワーク(DNN)は、X線画像解析プロセスの自動化、効率の向上、セキュリティ担当者の検査負担軽減に使用することができる。 関連する文献で一般的に使用されるニューラルネットワークは、畳み込みニューラルネットワーク(CNN)であり、視覚変換器(ViT)はほとんど使われない。 このギャップに対処するため,本研究では,X線画像の不正な項目検出において,関連するViTアーキテクチャを包括的に評価する。 本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。 その結果、低データ状態におけるDINOトランスフォーマー検出器の顕著な精度、YOLOv8の顕著なリアルタイム性能、ハイブリッドNextViTバックボーンの有効性が示された。

Illicit object detection is a critical task performed at various high-security locations, including airports, train stations, subways, and ports. The continuous and tedious work of examining thousands of X-ray images per hour can be mentally taxing. Thus, Deep Neural Networks (DNNs) can be used to automate the X-ray image analysis process, improve efficiency and alleviate the security officers' inspection burden. The neural architectures typically utilized in relevant literature are Convolutional Neural Networks (CNNs), with Vision Transformers (ViTs) rarely employed. In order to address this gap, this paper conducts a comprehensive evaluation of relevant ViT architectures on illicit item detection in X-ray images. This study utilizes both Transformer and hybrid backbones, such as SWIN and NextViT, and detectors, such as DINO and RT-DETR. The results demonstrate the remarkable accuracy of the DINO Transformer detector in the low-data regime, the impressive real-time performance of YOLOv8, and the effectiveness of the hybrid NextViT backbone.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# 角運動量の量子論におけるシスター・セリン多項式

Sister Celine's polynomials in the quantum theory of angular momentum ( http://arxiv.org/abs/2403.19045v1 )

ライセンス: Link先を確認
Jean-Christophe Pain, (参考訳) シスター・セリンによって導入された多項式は、特別な場合として異なる通常の直交多項式をカバーしている。 その中でも、ヤコビ多項式と離散ハーン多項式は、角運動量の量子論に特に興味がある。 ここでは、回転群の既約表現の文字とウィグナー回転 "d" 行列がシスター・セリン多項式として表されることを示す。 後者の多項式について多くの関係が提案されたので、そのような関係は量子力学や原子物理学において重要な量に対する新しい同一性をもたらす可能性がある。

The polynomials introduced by Sister Celine cover different usual orthogonal polynomials as special cases. Among them, the Jacobi and discrete Hahn polynomials are of particular interest for the quantum theory of angular momentum. In this note, we show that characters of irreducible representations of the rotation group as well as Wigner rotation "d" matrices, can be expressed as Sister Celine's polynomials. Since many relations were proposed for the latter polynomials, such connections could lead to new identities for quantities important in quantum mechanics and atomic physics.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# LITA:テンポラルローカライズアシスタントによる言語指導

LITA: Language Instructed Temporal-Localization Assistant ( http://arxiv.org/abs/2403.19046v1 )

ライセンス: Link先を確認
De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz, (参考訳) LLM(Multimodal Large Language Models)は、非常に進歩した言語である。 近年の研究では、これらのモデルを有望な命令従機能を備えたビデオ入力に拡張している。 しかし、重要な欠落点は時間的局所化である。 これらのモデルは「いつ?」という質問に正確に答えることができない。 時間的ローカライゼーション能力を制限する3つの重要な側面を特定します。 (i)時間表現 (二)建築、及び (三)データ。 言語指導型時間ローカライズアシスタント (LITA) では,(1) ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,映像中の時間を表現する。 2) SlowFastトークンをアーキテクチャに導入し, 時間的情報を微細な時間的解像度でキャプチャする。 (3)LITAの時間的局所化データを強調した。 タイムスタンプによる既存のビデオデータセットの活用に加えて、このタスクを学習し評価するためのデータセットであるActivityNet-RTLとともに、RTL(Reasoning Temporal Localization)という新しいタスクを提案する。 時間的ローカライゼーションは、ビデオLLMの推論と時間的ローカライゼーションの両方を必要とする。 LITAはこの課題に対して強いパフォーマンスを示し、ベースラインの時間平均交叉平均(mIoU)をほぼ倍にしている。 また,時間的ローカライゼーションの重視は,時間的理解の相対的改善を含む既存のビデオLLMと比較して,映像ベースのテキスト生成を著しく向上させることを示した。 コードは、https://github.com/NVlabs/LITAで入手できる。

There has been tremendous progress in multimodal Large Language Models (LLMs). Recent works have extended these models to video input with promising instruction following capabilities. However, an important missing piece is temporal localization. These models cannot accurately answer the "When?" questions. We identify three key aspects that limit their temporal localization capabilities: (i) time representation, (ii) architecture, and (iii) data. We address these shortcomings by proposing Language Instructed Temporal-Localization Assistant (LITA) with the following features: (1) We introduce time tokens that encode timestamps relative to the video length to better represent time in videos. (2) We introduce SlowFast tokens in the architecture to capture temporal information at fine temporal resolution. (3) We emphasize temporal localization data for LITA. In addition to leveraging existing video datasets with timestamps, we propose a new task, Reasoning Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for learning and evaluating this task. Reasoning temporal localization requires both the reasoning and temporal localization of Video LLMs. LITA demonstrates strong performance on this challenging task, nearly doubling the temporal mean intersection-over-union (mIoU) of baselines. In addition, we show that our emphasis on temporal localization also substantially improves video-based text generation compared to existing Video LLMs, including a 36% relative improvement of Temporal Understanding. Code is available at: https://github.com/NVlabs/LITA
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# 傾斜異方性ディラック材料のSUSY QMによるコヒーレント状態の位相空間表現

Phase-space representation of coherent states generated through SUSY QM for tilted anisotropic Dirac materials ( http://arxiv.org/abs/2403.19048v1 )

ライセンス: Link先を確認
Daniel O-Campa, Erik Díaz-Bautista, (参考訳) 本稿では, 傾斜異方性ディラック材料中の電子相互作用を, 翻訳対称性を有する外部電場および磁場の影響下で検討する。 具体的には、固有値問題に固有の微分方程式系の分離を可能にする、別個の非ゼロ電界等級に焦点をあてる。 その後、超対称量子力学を用いることで、ハミルトニアン作用素に対応する固有状態と固有値の決定が容易になる。 システムの半古典的解析を掘り下げるために,コヒーレントな状態の集合を同定する。 最後に,これらの状態の特徴を,ウィグナー関数による忠実度と位相空間表現を用いて評価する。

In this paper, we examine the electron interaction within tilted anisotropic Dirac materials when subjected to external electric and magnetic fields possessing translational symmetry. Specifically, we focus on a distinct non-zero electric field magnitude, enabling the separation of the differential equation system inherent in the eigenvalue problem. Subsequently, employing supersymmetric quantum mechanics facilitates the determination of eigenstates and eigenvalues corresponding to the Hamiltonian operator. To delve into a semi-classical analysis of the system, we identify a set of coherent states. Finally, we assess the characteristics of these states using fidelity and the phase-space representation through the Wigner function.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# パワーとプレイ - チームのAI倫理に関する議論で"批判へのリセンス"を探る

Power and Play: Investigating "License to Critique" in Teams' AI Ethics Discussions ( http://arxiv.org/abs/2403.19049v1 )

ライセンス: Link先を確認
David Gray Widder, Laura Dabbish, James Herbsleb, Nikolas Martelaro, (参考訳) 過去の研究は、実践者がより倫理的なAIシステムの設計を支援するために、チェックリストやツールキットのようなAI倫理の介入を設計しようとしてきた。 しかしながら、他の研究は、これらの介入とそれらに基づく原則が、代わりに介入の中で対処されるものに対する批判を制限する一方で、より広範な懸念を非合法に表現するのに役立つことを示している。 本稿では,AI倫理に関する幅広い議論の引き金となるゲームとして,標準がいかに反帰的クロージャを制定し,権力関係が人々が批判を提起するかどうか,どのように影響するかを検討するために,我々は3つのコーポレートチームと1つのアクティビストチームを採用する。 私たちはこれを、AI倫理に関する議論において、チームの過去の議論を反映させ、彼らの"批判に対するライセンス"に影響を与える可能性のある要因を調べるために、コントラストのポイントとして使用します。 次に、このゲームの特定の余裕が議論にどう影響するかを報告し、ゲーム内で発生した仮説的文脈が現実世界の変化の実行可能なメカニズムになりそうにないことを示す。 我々は、グループ内のパワーダイナミクスと「スコープ」の概念が、AI倫理に関する議論で批判を提起する意志があるかどうかを議論し、ゲームが製品やプラクティスに直接変更する可能性は低いが、メンバーが将来の集団行動に対して批判的に整合した同盟を見出すことが可能である、という私たちの発見について議論する。

Past work has sought to design AI ethics interventions-such as checklists or toolkits-to help practitioners design more ethical AI systems. However, other work demonstrates how these interventions and the principles they're based on may serve to instead limit critique to those addressed within the intervention, while rendering broader concerns illegitimate. In this paper, drawing on work examining how standards enact discursive closure and how power relations affect whether and how people raise critique, we recruit three corporate teams, and one activist team, each with prior context working with one another, to play a game designed to trigger broad discussion around AI ethics. We use this as a point of contrast to trigger reflection on their teams' past discussions, examining factors which may affect their "license to critique" in AI ethics discussions. We then report on how particular affordances of this game may influence discussion, and find that the hypothetical context created in the game is unlikely to be a viable mechanism for real world change. We discuss how power dynamics within a group and notions of "scope" affect whether people may be willing to raise critique in AI ethics discussions, and discuss our finding that games are unlikely to enable direct changes to products or practice, but may be more likely to allow members to find critically-aligned allies for future collective action.
翻訳日:2024-03-29 17:52:05 公開日:2024-03-27
# マスクオートエンコーダのオーバーフィットによる生成的パロイングの検出

Detecting Generative Parroting through Overfitting Masked Autoencoders ( http://arxiv.org/abs/2403.19050v1 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Joseph Lambourne, (参考訳) 生成型AIモデルの出現は、デジタルコンテンツ作成に革命をもたらしたが、生成型パロットによる著作権の完全性を維持する上での課題を導入している。 本研究は, 過度に適合したMasked Autoencoder (MAE) を用いて, この課題に対処する新しい手法を提案する。 トレーニングデータセットの平均損失に基づいて検出しきい値を確立し、修正データセットにおけるオウム内容の正確な識別を可能にする。 予備評価の結果は有望な結果を示し,提案手法が倫理的利用を確実にし,生成モデルの法的遵守を強化する可能性を示唆している。

The advent of generative AI models has revolutionized digital content creation, yet it introduces challenges in maintaining copyright integrity due to generative parroting, where models mimic their training data too closely. Our research presents a novel approach to tackle this issue by employing an overfitted Masked Autoencoder (MAE) to detect such parroted samples effectively. We establish a detection threshold based on the mean loss across the training dataset, allowing for the precise identification of parroted content in modified datasets. Preliminary evaluations demonstrate promising results, suggesting our method's potential to ensure ethical use and enhance the legal compliance of generative models.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-27
# CAUSE:タスク指向対話システムにおけるユーザ満足度推定の非現実的評価

CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2403.19056v1 )

ライセンス: Link先を確認
Amin Abolghasemi, Zhaochun Ren, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke, Suzan Verberne, (参考訳) タスク指向対話(TOD)システムにおけるユーザ満足度推定に関するこれまでの研究において、ユーザ満足度推定に関する重要な未探索の側面は、ユーザ不満の識別のための堅牢性の観点からの評価である。 よりバランスの取れた満足度ラベルがパフォーマンスに与える影響は分かっていない。 しかし、データとより満足のいく対話サンプルのバランスをとるには、さらなるデータ収集と人的アノテーションが必要である。 本研究では,大規模言語モデル(LLM)を活用して,満足度を考慮した対実対話を生成して,テストコレクションの原文対話の集合を拡張する。 生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。 我々は2つのオープンソースLCMを,最先端の微調整モデルに対する拡張コレクションのユーザ満足度推定器として評価した。 実験の結果, オープンソースのLCMは, ユーザ満足度推定器として使用した場合, テストコレクションにおける不満ラベルの増加に対して, 微調整モデルよりもロバスト性が高いことがわかった。 この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。 我々は、人間のアノテーションによってキュレートされた、協調した対実対話を公開し、この話題についてさらなる研究を促進する。

An important unexplored aspect in previous work on user satisfaction estimation for Task-Oriented Dialogue (TOD) systems is their evaluation in terms of robustness for the identification of user dissatisfaction: current benchmarks for user satisfaction estimation in TOD systems are highly skewed towards dialogues for which the user is satisfied. The effect of having a more balanced set of satisfaction labels on performance is unknown. However, balancing the data with more dissatisfactory dialogue samples requires further data collection and human annotation, which is costly and time-consuming. In this work, we leverage large language models (LLMs) and unlock their ability to generate satisfaction-aware counterfactual dialogues to augment the set of original dialogues of a test collection. We gather human annotations to ensure the reliability of the generated samples. We evaluate two open-source LLMs as user satisfaction estimators on our augmented collection against state-of-the-art fine-tuned models. Our experiments show that when used as few-shot user satisfaction estimators, open-source LLMs show higher robustness to the increase in the number of dissatisfaction labels in the test collection than the fine-tuned state-of-the-art models. Our results shed light on the need for data augmentation approaches for user satisfaction estimation in TOD systems. We release our aligned counterfactual dialogues, which are curated by human annotation, to facilitate further research on this topic.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-27
# 医療の質:糖尿病患者受給者の機械学習予測における格差の分析

Equity in Healthcare: Analyzing Disparities in Machine Learning Predictions of Diabetic Patient Readmissions ( http://arxiv.org/abs/2403.19057v1 )

ライセンス: Link先を確認
Zainab Al-Zanbouri, Gauri Sharma, Shaina Raza, (参考訳) 本研究では,糖尿病患者(年齢,性別,人種)を対象に,機械学習モデルを用いて,糖尿病患者の入院容積を正確に正確に予測する方法について検討した。 私たちはDeep Learning、Generalized Linear Models、Gradient Boosting Machines (GBM)、Naive Bayesといったモデルを比較しました。 GBMは84.3%のF1スコアと82.2%の精度で、人口統計学的に読み書きを正確に予測した。 全モデルに対して公平性分析を行った。 GBMは予測における格差を最小限に抑え、性別や人種のバランスのとれた結果を達成する。 FDR (False Discovery Rates) は6-7%, FPR (False Positive Rates) は5%であった。 さらに、FDRはアフリカ系アメリカ人(8%)やアジア人(7%)といった人種グループでは低かった。 同様に、FPRは40歳未満と40歳以上の両方の年齢群(4%)で一致しており、その正確さとバイアスを減らす能力を示している。 これらの知見は,全患者の正確性と公平性を確保するため,MLモデルの選択を慎重に行うことの重要性を強調した。 フェアネス指標を用いた各種モデルの有効性を示すことにより、医療におけるパーソナライズされた医療と公正なMLアルゴリズムの必要性が促進される。 これにより、あらゆる背景を持つ糖尿病患者の格差を減らし、結果を改善することができる。

This study investigates how machine learning (ML) models can predict hospital readmissions for diabetic patients fairly and accurately across different demographics (age, gender, race). We compared models like Deep Learning, Generalized Linear Models, Gradient Boosting Machines (GBM), and Naive Bayes. GBM stood out with an F1-score of 84.3% and accuracy of 82.2%, accurately predicting readmissions across demographics. A fairness analysis was conducted across all the models. GBM minimized disparities in predictions, achieving balanced results across genders and races. It showed low False Discovery Rates (FDR) (6-7%) and False Positive Rates (FPR) (5%) for both genders. Additionally, FDRs remained low for racial groups, such as African Americans (8%) and Asians (7%). Similarly, FPRs were consistent across age groups (4%) for both patients under 40 and those above 40, indicating its precision and ability to reduce bias. These findings emphasize the importance of choosing ML models carefully to ensure both accuracy and fairness for all patients. By showcasing effectiveness of various models with fairness metrics, this study promotes personalized medicine and the need for fair ML algorithms in healthcare. This can ultimately reduce disparities and improve outcomes for diabetic patients of all backgrounds.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-27
# 非ガウスボソニック回路の古典シミュレーション

Classical simulation of non-Gaussian bosonic circuits ( http://arxiv.org/abs/2403.19059v1 )

ライセンス: Link先を確認
Beatriz Dias, Robert Koenig, (参考訳) 本稿では,ガウス状態の重ね合わせに適用したボソニック線形光学回路の動作を(強く)シミュレートする,効率的な古典的アルゴリズムを提案する。 我々のアプローチは、線形結合における個々の項間の相対位相を追跡するために強化された共分散行列形式に依存している。 これにより、ランタイムがモードの数と回路のサイズの多項式であり、重ね合わせの項数の2乗である正確なシミュレーションアルゴリズムが得られる。 また、この数で実行が線形である高速な近似ランダム化アルゴリズムを提案する。 我々の主構成ブロックは、3つのガウス状態の3重重重なりの公式であり、ガウス状態の重ね合わせのノルムを乗法誤差まで推定する高速アルゴリズムである。 特に非ガウス初期状態のフェルミオン線形光学と非安定化器初期状態のクリフォード計算などである。 これは、非ガウスボソニック回路の実用的に関係のある族へのアルゴリズムアクセスを提供する。

We propose efficient classical algorithms which (strongly) simulate the action of bosonic linear optics circuits applied to superpositions of Gaussian states. Our approach relies on an augmented covariance matrix formalism to keep track of relative phases between individual terms in a linear combination. This yields an exact simulation algorithm whose runtime is polynomial in the number of modes and the size of the circuit, and quadratic in the number of terms in the superposition. We also present a faster approximate randomized algorithm whose runtime is linear in this number. Our main building blocks are a formula for the triple overlap of three Gaussian states and a fast algorithm for estimating the norm of a superposition of Gaussian states up to a multiplicative error. Our construction borrows from earlier work on simulating quantum circuits in finite-dimensional settings, including, in particular, fermionic linear optics with non-Gaussian initial states and Clifford computations with non-stabilizer initial states. It provides algorithmic access to a practically relevant family of non-Gaussian bosonic circuits.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-27
# RL駆動コンパニオンロボット「Human-Centered Construction Robotics」

Towards Human-Centered Construction Robotics: An RL-Driven Companion Robot For Contextually Assisting Carpentry Workers ( http://arxiv.org/abs/2403.19060v1 )

ライセンス: Link先を確認
Yuning Wu, Jiaying Wei, Jean Oh, Daniel Cardoso Llach, (参考訳) 動的建設業界では、従来のロボット統合は主に特定のタスクを自動化することに焦点を当てており、建設ワークフローにおける人間の側面の複雑さと多様性を見越すことが多い。 本稿では,建設作業の熟練した性質を尊重しつつ,安全性とワークフローの流布性を高めることを目的として,既存の作業における作業支援を目的とした「作業協力ローバー」による人間中心のアプローチを提案する。 我々は,ロボットシステムを大工のフォームワークに導入するための詳細な研究を行い,コンテキスト強化学習(RL)駆動のモジュラーフレームワークを通じて,動的環境における移動性,安全性,快適な作業ロボットコラボレーションを強調するプロトタイプを紹介した。 我々の研究は建設におけるロボットの応用を前進させ、人間を置き換えるのではなく、適応ロボットが支援するコラボレーティブモデルを提案し、対話的で協調的な人間ロボットの労働力の可能性を強調している。

In the dynamic construction industry, traditional robotic integration has primarily focused on automating specific tasks, often overlooking the complexity and variability of human aspects in construction workflows. This paper introduces a human-centered approach with a ``work companion rover" designed to assist construction workers within their existing practices, aiming to enhance safety and workflow fluency while respecting construction labor's skilled nature. We conduct an in-depth study on deploying a robotic system in carpentry formwork, showcasing a prototype that emphasizes mobility, safety, and comfortable worker-robot collaboration in dynamic environments through a contextual Reinforcement Learning (RL)-driven modular framework. Our research advances robotic applications in construction, advocating for collaborative models where adaptive robots support rather than replace humans, underscoring the potential for an interactive and collaborative human-robot workforce.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-27
# ロッタリー・ポケット仮説と反復マグニチュード・プルーニング

Insights into the Lottery Ticket Hypothesis and Iterative Magnitude Pruning ( http://arxiv.org/abs/2403.15022v2 )

ライセンス: Link先を確認
Tausifa Jan Saleem, Ramanjit Ahuja, Surendra Prasad, Brejesh Lall, (参考訳) ディープニューラルネットワークのロッテチケット仮説は、反復等級プルーニングプロセスを用いて得られたスペーサーネットワークを再訓練するために使われる初期化の重要性を強調している。 抽選券仮説によって提案された特定の初期化が、一般化(および訓練)性能においてよりうまく機能する傾向にある理由を説明する。 さらに、イテレーティブ・マグニチュード・プルーニング(英語版)の根底にある原則、例えば、より小さなマグニチュードのプルーニングや反復的プロセスの役割は、完全な理解と説明が欠如している。 本研究は, 反復等級プルーニングプロセスの様々な段階において得られた溶液の体積・幾何学的特徴と損失景観特性を実証的に研究することによって, これらの現象に関する知見を提供するものである。

Lottery ticket hypothesis for deep neural networks emphasizes the importance of initialization used to re-train the sparser networks obtained using the iterative magnitude pruning process. An explanation for why the specific initialization proposed by the lottery ticket hypothesis tends to work better in terms of generalization (and training) performance has been lacking. Moreover, the underlying principles in iterative magnitude pruning, like the pruning of smaller magnitude weights and the role of the iterative process, lack full understanding and explanation. In this work, we attempt to provide insights into these phenomena by empirically studying the volume/geometry and loss landscape characteristics of the solutions obtained at various stages of the iterative magnitude pruning process.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-27
# X-ポートレート:階層的な動きを意図した表現的ポートレートアニメーション

X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention ( http://arxiv.org/abs/2403.15931v3 )

ライセンス: Link先を確認
You Xie, Hongyi Xu, Guoxian Song, Chao Wang, Yichun Shi, Linjie Luo, (参考訳) 本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。 具体的には、外観基準として1つのポートレートを考慮し、動画像から得られる動きをアニメーション化し、非常にダイナミックで微妙な表情と広角な頭部の動きをキャプチャすることを目的としている。 その中核として、予め訓練された拡散モデルの生成前をレンダリングバックボーンとして利用し、制御ネットのフレームワーク内で新しい制御信号による微粒な頭部ポーズと表現制御を実現した。 顔のランドマークのような従来の粗い明示的な制御とは対照的に、動作制御モジュールは、元の駆動RGB入力から直接ダイナミクスを解釈する。 さらに、眼球位置のような小さなニュアンスに対する動きの注意を効果的に高めるパッチベースの局所制御モジュールにより、動きの精度をさらに向上する。 特に、駆動信号からのIDリークを軽減するため、我々は、拡張されたクロスアイデンティティ画像を用いてモーションコントロールモジュールを訓練し、外観基準モジュールからの最大のゆがみを確保する。 実験により,多様な顔画像と表現的運転シーケンスにまたがるX-ポートレートの普遍的有効性を示し,一貫したアイデンティティ特性を持つキャプティベーション・ポートレート・アニメーションの生成能力を示した。

We propose X-Portrait, an innovative conditional diffusion model tailored for generating expressive and temporally coherent portrait animation. Specifically, given a single portrait as appearance reference, we aim to animate it with motion derived from a driving video, capturing both highly dynamic and subtle facial expressions along with wide-range head movements. As its core, we leverage the generative prior of a pre-trained diffusion model as the rendering backbone, while achieve fine-grained head pose and expression control with novel controlling signals within the framework of ControlNet. In contrast to conventional coarse explicit controls such as facial landmarks, our motion control module is learned to interpret the dynamics directly from the original driving RGB inputs. The motion accuracy is further enhanced with a patch-based local control module that effectively enhance the motion attention to small-scale nuances like eyeball positions. Notably, to mitigate the identity leakage from the driving signals, we train our motion control modules with scaling-augmented cross-identity images, ensuring maximized disentanglement from the appearance reference modules. Experimental results demonstrate the universal effectiveness of X-Portrait across a diverse range of facial portraits and expressive driving sequences, and showcase its proficiency in generating captivating portrait animations with consistently maintained identity characteristics.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-27
# CADGL:薬物と薬物の相互作用を予測するためのコンテキスト対応深層グラフ学習

CADGL: Context-Aware Deep Graph Learning for Predicting Drug-Drug Interactions ( http://arxiv.org/abs/2403.17210v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Taki Hasan Rafi, Raima Islam, Serbetar Karlo, Dong-Kyu Chae, (参考訳) 薬物・薬物相互作用(DDIs)は、薬物開発における重要な要素である。 DDIは、ある薬物の性質が他の薬物を含むことにより影響を受ける場合に起こる。 好ましいDDIの検出は、実践的な環境に適用可能な革新的な医薬品の作成と進歩の道を開く可能性がある。 しかし、既存のDDI予測モデルは、極端な場合の一般化、ロバストな特徴抽出、現実のアプリケーションの可能性に関連する課題に直面し続けている。 我々は,CADGLという新しいフレームワークを導入することで,文脈認識深層グラフ学習の有効性を活用することで,これらの課題に対処することを目指している。 カスタマイズされた変分グラフオートエンコーダ(VGAE)に基づいて、局所近傍と分子コンテキストという2つの異なる視点から特徴抽出を行う2つのコンテキスト前処理装置を用いて、重要な構造的および物理化学的情報を取得する。 我々のカスタマイズされたVGAEは、グラフエンコーダ、潜時情報エンコーダ、MPPデコーダからなる。 CADGLは他の最先端のDDI予測モデルを超え、厳格なケーススタディによって支援された、臨床的に価値のある新しいDDIを予測するのに優れている。

Examining Drug-Drug Interactions (DDIs) is a pivotal element in the process of drug development. DDIs occur when one drug's properties are affected by the inclusion of other drugs. Detecting favorable DDIs has the potential to pave the way for creating and advancing innovative medications applicable in practical settings. However, existing DDI prediction models continue to face challenges related to generalization in extreme cases, robust feature extraction, and real-life application possibilities. We aim to address these challenges by leveraging the effectiveness of context-aware deep graph learning by introducing a novel framework named CADGL. Based on a customized variational graph autoencoder (VGAE), we capture critical structural and physio-chemical information using two context preprocessors for feature extraction from two different perspectives: local neighborhood and molecular context, in a heterogeneous graphical structure. Our customized VGAE consists of a graph encoder, a latent information encoder, and an MLP decoder. CADGL surpasses other state-of-the-art DDI prediction models, excelling in predicting clinically valuable novel DDIs, supported by rigorous case studies.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-27
# フェデレーション学習の新たな潮流:モデル融合からフェデレーションX学習へ

Emerging Trends in Federated Learning: From Model Fusion to Federated X Learning ( http://arxiv.org/abs/2102.12920v5 )

ライセンス: Link先を確認
Shaoxiong Ji, Yue Tan, Teemu Saravirta, Zhiqin Yang, Yixin Liu, Lauri Vasankari, Shirui Pan, Guodong Long, Anwar Walid, (参考訳) フェデレートラーニング(Federated Learning)は、データ収集とモデルのトレーニングを、マルチパーティの計算とモデルアグリゲーションを通じて分離する、新たな学習パラダイムである。 フレキシブルな学習環境として、フェデレートされた学習は他の学習フレームワークと統合する可能性がある。 我々は、他の学習アルゴリズムとともに、フェデレーション学習の焦点を絞った調査を行う。 具体的には,バニラフェデレーション平均化アルゴリズムの改良と適応アグリゲーション,正規化,クラスタ化法,ベイズ法などのモデル融合手法の見直しについて検討する。 新たなトレンドに続き,他の学習パラダイムと交差するフェデレーション学習,いわゆるフェデレーション学習,メタラーニング,トランスファーラーニング,教師なし学習,強化学習についても論じる。 本稿では,最先端の研究のレビューに加えて,この分野における重要な課題と応用を明らかにし,将来的な方向性を強調した。

Federated learning is a new learning paradigm that decouples data collection and model training via multi-party computation and model aggregation. As a flexible learning setting, federated learning has the potential to integrate with other learning frameworks. We conduct a focused survey of federated learning in conjunction with other learning algorithms. Specifically, we explore various learning algorithms to improve the vanilla federated averaging algorithm and review model fusion methods such as adaptive aggregation, regularization, clustered methods, and Bayesian methods. Following the emerging trends, we also discuss federated learning in the intersection with other learning paradigms, termed federated X learning, where X includes multitask learning, meta-learning, transfer learning, unsupervised learning, and reinforcement learning. In addition to reviewing state-of-the-art studies, this paper also identifies key challenges and applications in this field, while also highlighting promising future directions.
翻訳日:2024-03-28 23:39:03 公開日:2024-03-27
# 非線形制御割当:学習に基づくアプローチ

Nonlinear Control Allocation: A Learning Based Approach ( http://arxiv.org/abs/2201.06180v2 )

ライセンス: Link先を確認
Hafiz Zeeshan Iqbal Khan, Surrayya Mobeen, Jahanzeb Rajput, Jamshed Riaz, (参考訳) 現代の航空機は、耐故障性と操縦性要件を満たすために冗長な制御エフェクターで設計されている。 これにより航空機は過度に作動し、制御エフェクタ間で制御コマンドを分配するために制御割り当てスキームが必要となる。 伝統的に最適化に基づく制御割当スキームが用いられるが、非線型割当問題では、これらの手法は大きな計算資源を必要とする。 本研究では,ニューラルネットワーク(ANN)に基づく非線形制御割り当て方式を提案する。 提案手法は、制御効率マップの逆をANNで学習し、オンライン最適化問題を解く代わりにアロケータとして実装する。 アロケータを組み込んだクローズドループシステムに対して安定性条件を提示し,ANNベースのアロケータとピースワイド線形効用関数を用いて計算課題を探索する。 提案手法の有効性を実証するため,制御割当のための標準的な二次計画法と比較した。

Modern aircraft are designed with redundant control effectors to cater for fault tolerance and maneuverability requirements. This leads to aircraft being over-actuated and requires control allocation schemes to distribute the control commands among control effectors. Traditionally, optimization-based control allocation schemes are used; however, for nonlinear allocation problems, these methods require large computational resources. In this work, an artificial neural network (ANN) based nonlinear control allocation scheme is proposed. The proposed scheme is composed of learning the inverse of the control effectiveness map through ANN, and then implementing it as an allocator instead of solving an online optimization problem. Stability conditions are presented for closed-loop systems incorporating the allocator, and computational challenges are explored with piece-wise linear effectiveness functions and ANN-based allocators. To demonstrate the efficacy of the proposed scheme, it is compared with a standard quadratic programming-based method for control allocation.
翻訳日:2024-03-28 23:39:03 公開日:2024-03-27
# ZXダイアグラムの添加と分化

Addition and Differentiation of ZX-diagrams ( http://arxiv.org/abs/2202.11386v4 )

ライセンス: Link先を確認
Emmanuel Jeandel, Simon Perdrix, Margarita Veshchezerova, (参考訳) ZX計算は量子コンピューティングの推論のための強力なフレームワークである。 特に、興味の行列のコンパクトな表現を提供する。 ZX-積分の特異な性質は、任意のZX-ダイアグラムの線型結合を可能にする形式的な和が存在しないことである。 しかし、形式主義の普遍性は、任意の2つのZX-ダイアグラムに対して、それらの解釈の和はZX-ダイアグラムで表せることを保証している。 制御図形の構成に頼って、ZX-ダイアグラムの追加に関する一般帰納的定義を導入する。 この付加手法に基づき、ZX-ダイアグラムの誘導微分を与える。 実際、その角の記述に変数を持つZX-ダイアグラムが与えられたとき、これらの変数の1つに従ってダイアグラムを区別することができる。 微分は量子力学や量子コンピューティング(例えば最適化問題の解法)においてユビキタスである。 技術的には、ZX-ダイアグラムの微分は、製品規則で見られる和に強く関係している。 また、変数の分離に基づくというよりも、別の非帰納的微分手法も導入する。 最後に、結果を適用してイジング・ハミルトニアンの図形を導出する。

The ZX-calculus is a powerful framework for reasoning in quantum computing. It provides in particular a compact representation of matrices of interests. A peculiar property of the ZX-calculus is the absence of a formal sum allowing the linear combinations of arbitrary ZX-diagrams. The universality of the formalism guarantees however that for any two ZX-diagrams, the sum of their interpretations can be represented by a ZX-diagram. We introduce a general, inductive definition of the addition of ZX-diagrams, relying on the construction of controlled diagrams. Based on this addition technique, we provide an inductive differentiation of ZX-diagrams. Indeed, given a ZX-diagram with variables in the description of its angles, one can differentiate the diagram according to one of these variables. Differentiation is ubiquitous in quantum mechanics and quantum computing (e.g. for solving optimization problems). Technically, differentiation of ZX-diagrams is strongly related to summation as witnessed by the product rules. We also introduce an alternative, non inductive, differentiation technique rather based on the isolation of the variables. Finally, we apply our results to deduce a diagram for an Ising Hamiltonian.
翻訳日:2024-03-28 23:39:03 公開日:2024-03-27
# 消去による学習:条件付きエントロピーに基づく移動可能な外部分布検出

Learning by Erasing: Conditional Entropy based Transferable Out-Of-Distribution Detection ( http://arxiv.org/abs/2204.11041v3 )

ライセンス: Link先を確認
Meng Xing, Zhiyong Feng, Yong Su, Changjae Oh, (参考訳) トレーニングとテストシナリオ間の分散シフトを処理するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。 新しいIn-distriion(ID)データセットでは、データセット固有の特徴表現やデータ分散をキャプチャするために、既存のメソッドの再トレーニングが必要になる。 本稿では,新しいIDデータセットで再トレーニングする必要がないDGMに基づく転送可能なOOD検出手法を提案する。 我々は,各IDデータセットに排他的条件エントロピー分布を付与する画像消去戦略を設計し,異なるIDデータセット上でのDGMの後方不確かさ分布の相違を判定する。 畳み込みニューラルネットワークの強力な表現能力のため、複雑なデータセットでトレーニングされたモデルでは、上記のIDデータセット間の不一致を再トレーニングすることなく捉え、転送可能なOOD検出を実現することができる。 提案手法を5つのデータセットに対して検証し,新しいIDデータセットにデプロイするために再トレーニングが必要な最先端グループベースのOOD検出手法に匹敵する性能を実現する。 私たちのコードはhttps://github.com/oOHCIOo/CETOOD.comで公開されています。

Out-of-distribution (OOD) detection is essential to handle the distribution shifts between training and test scenarios. For a new in-distribution (ID) dataset, existing methods require retraining to capture the dataset-specific feature representation or data distribution. In this paper, we propose a deep generative models (DGM) based transferable OOD detection method, which is unnecessary to retrain on a new ID dataset. We design an image erasing strategy to equip exclusive conditional entropy distribution for each ID dataset, which determines the discrepancy of DGM's posteriori ucertainty distribution on different ID datasets. Owing to the powerful representation capacity of convolutional neural networks, the proposed model trained on complex dataset can capture the above discrepancy between ID datasets without retraining and thus achieve transferable OOD detection. We validate the proposed method on five datasets and verity that ours achieves comparable performance to the state-of-the-art group based OOD detection methods that need to be retrained to deploy on new ID datasets. Our code is available at https://github.com/oOHCIOo/CETOOD.
翻訳日:2024-03-28 23:39:03 公開日:2024-03-27
# BridgeTower:ビジョンランゲージ表現学習におけるエンコーダ間のブリッジ構築

BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning ( http://arxiv.org/abs/2206.08657v6 )

ライセンス: Link先を確認
Xiao Xu, Chenfei Wu, Shachar Rosenman, Vasudev Lal, Wanxiang Che, Nan Duan, (参考訳) 近年,2towerアーキテクチャを用いた視覚言語モデル (VL) が視覚言語表現学習を支配している。 現在のVLモデルは、軽量なユニモーダルエンコーダを使用して、ディープ・クロスモーダル・エンコーダで両方のモダリティを同時に抽出し、アライメントし、融合するか、またはディープ・プレトレーニングされたユニモーダル・エンコーダからトップ・クロスモーダル・エンコーダに供給する。 どちらのアプローチも、視覚言語による表現学習を制限し、モデルの性能を制限する可能性がある。 本稿では,一様エンコーダの上位層とクロスモーダルエンコーダの各層とを接続するブリッジ層を複数導入するBridgeTowerを提案する。 これにより、クロスモーダルエンコーダにおける事前訓練されたユニモーダルエンコーダのセマンティックレベルが異なる視覚的およびテキスト的表現の効果的なボトムアップ・クロスモーダルアライメントと融合が可能になる。 4Mイメージのみを事前トレーニングしたBridgeTowerは、さまざまな下流視覚言語タスクで最先端のパフォーマンスを実現する。 特に、VQAv2テストスタッドセットでは、BridgeTowerは78.73%の精度を達成し、以前の最先端モデルのMETERを1.09%上回った。 特に、モデルをさらにスケールする場合、BridgeTowerは81.15%の精度を達成し、マグニチュードの大きなデータセットに基づいて事前トレーニングされたモデルを上回る。 コードとチェックポイントはhttps://github.com/microsoft/BridgeTower.comで入手できる。

Vision-Language (VL) models with the Two-Tower architecture have dominated visual-language representation learning in recent years. Current VL models either use lightweight uni-modal encoders and learn to extract, align and fuse both modalities simultaneously in a deep cross-modal encoder, or feed the last-layer uni-modal representations from the deep pre-trained uni-modal encoders into the top cross-modal encoder. Both approaches potentially restrict vision-language representation learning and limit model performance. In this paper, we propose BridgeTower, which introduces multiple bridge layers that build a connection between the top layers of uni-modal encoders and each layer of the cross-modal encoder. This enables effective bottom-up cross-modal alignment and fusion between visual and textual representations of different semantic levels of pre-trained uni-modal encoders in the cross-modal encoder. Pre-trained with only 4M images, BridgeTower achieves state-of-the-art performance on various downstream vision-language tasks. In particular, on the VQAv2 test-std set, BridgeTower achieves an accuracy of 78.73%, outperforming the previous state-of-the-art model METER by 1.09% with the same pre-training data and almost negligible additional parameters and computational costs. Notably, when further scaling the model, BridgeTower achieves an accuracy of 81.15%, surpassing models that are pre-trained on orders-of-magnitude larger datasets. Code and checkpoints are available at https://github.com/microsoft/BridgeTower.
翻訳日:2024-03-28 23:39:03 公開日:2024-03-27
# 航空機画像における任意方向物体検出のためのタスクワイズサンプリング畳み込み

Task-wise Sampling Convolutions for Arbitrary-Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2209.02200v3 )

ライセンス: Link先を確認
Zhanchao Huang, Wei Li, Xiang-Gen Xia, Hao Wang, Ran Tao, (参考訳) AOOD(Arbitrary-oriented Object Detection)は、リモートセンシング画像において、様々な方向の物体の特定と分類に広く応用されている。 しかし、AOODモデルにおける局所化と分類タスクの不整合性は、検出性能を制約する曖昧さと低品質なオブジェクト予測につながる可能性がある。 本稿では,タスクワイズサンプリング畳み込み(TS-Conv)と呼ばれるAOOD手法を提案する。 TS-Convは、各センシティブな領域からタスクワイズな特徴を適応的にサンプリングし、これらの特徴をアライメントしてマッピングすることで、より優れた予測のための動的ラベル割り当てをガイドする。 具体的には、TS-Convにおける局所化畳み込みのサンプリング位置は、空間座標に付随する配向境界ボックス(OBB)予測によって制御され、また、分類畳み込みのサンプリング位置と畳み込みカーネルは、特徴の配向ロバスト性を改善するために異なる向きに応じて適応的に調整されるように設計されている。 さらに、TS-Convから得られたランク付タスク対応スコアに応じて最適な候補位置を選択し、ラベルを動的に割り当てる動的タスク対応ラベル割り当て(DTLA)戦略を開発する。 複数のシーン、マルチモーダル画像、複数カテゴリのオブジェクトを含む複数の公開データセットに対する大規模な実験は、提案したTS-Convの有効性、スケーラビリティ、優れた性能を示している。

Arbitrary-oriented object detection (AOOD) has been widely applied to locate and classify objects with diverse orientations in remote sensing images. However, the inconsistent features for the localization and classification tasks in AOOD models may lead to ambiguity and low-quality object predictions, which constrains the detection performance. In this article, an AOOD method called task-wise sampling convolutions (TS-Conv) is proposed. TS-Conv adaptively samples task-wise features from respective sensitive regions and maps these features together in alignment to guide a dynamic label assignment for better predictions. Specifically, sampling positions of the localization convolution in TS-Conv are supervised by the oriented bounding box (OBB) prediction associated with spatial coordinates, while sampling positions and convolutional kernel of the classification convolution are designed to be adaptively adjusted according to different orientations for improving the orientation robustness of features. Furthermore, a dynamic task-consistent-aware label assignment (DTLA) strategy is developed to select optimal candidate positions and assign labels dynamically according to ranked task-aware scores obtained from TS-Conv. Extensive experiments on several public datasets covering multiple scenes, multimodal images, and multiple categories of objects demonstrate the effectiveness, scalability, and superior performance of the proposed TS-Conv.
翻訳日:2024-03-28 23:39:03 公開日:2024-03-27
# BEVUDA:ドメイン適応型BEV3Dオブジェクト検出のための多次元空間アライメント

BEVUDA: Multi-geometric Space Alignments for Domain Adaptive BEV 3D Object Detection ( http://arxiv.org/abs/2211.17126v2 )

ライセンス: Link先を確認
Jiaming Liu, Rongyu Zhang, Xiaoqi Li, Xiaowei Chi, Zehui Chen, Ming Lu, Yandong Guo, Shanghang Zhang, (参考訳) 視覚中心の鳥眼視(BEV)の認識は、自律運転において有望な可能性を示している。 最近の研究は主に効率や精度の向上に重点を置いているが、環境の変化に直面している場合の課題は無視されているため、転送性能は著しく低下する。 BEV の認識において,実世界のクロスドメインシナリオに存在する重要な領域ギャップを把握し,多視点3次元オブジェクト検出のための領域適応(DA)問題を包括的に解決する。 BEV知覚アプローチは複雑で、複数の成分を含んでいるため、複数の幾何学空間(例えば、2D、3D Voxel、BEV)上の領域シフト累積は、BEV DAをさらに困難にする。 本稿では,DAT(Depth-Aware Teacher)とGAS(Geometric-space Aligned Students)モデルからなる,ドメインシフトの蓄積を容易にするためのマルチスペースアライメント・教師・学生(MATS)フレームワークを提案する。 DATは、目標ライダーと信頼性のある深度予測を組み合わせて深度認識情報を構築し、VoxelとBEVの特徴空間における対象ドメイン固有の知識を抽出する。 そして、複数の空間の十分なドメイン知識を学生モデルに転送する。 領域シフトを和らげるために、GASは複数の幾何学的空間特徴を共有幾何学的埋め込み空間に投影し、2つの領域間のデータ分散距離を減少させる。 提案手法の有効性を検証するため,BEV 3Dオブジェクト検出実験を3つのクロスドメインシナリオで実施し,最先端の性能を実現する。

Vision-centric bird-eye-view (BEV) perception has shown promising potential in autonomous driving. Recent works mainly focus on improving efficiency or accuracy but neglect the challenges when facing environment changing, resulting in severe degradation of transfer performance. For BEV perception, we figure out the significant domain gaps existing in typical real-world cross-domain scenarios and comprehensively solve the Domain Adaption (DA) problem for multi-view 3D object detection. Since BEV perception approaches are complicated and contain several components, the domain shift accumulation on multiple geometric spaces (i.e., 2D, 3D Voxel, BEV) makes BEV DA even challenging. In this paper, we propose a Multi-space Alignment Teacher-Student (MATS) framework to ease the domain shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a Geometric-space Aligned Student (GAS) model. DAT tactfully combines target lidar and reliable depth prediction to construct depth-aware information, extracting target domain-specific knowledge in Voxel and BEV feature spaces. It then transfers the sufficient domain knowledge of multiple spaces to the student model. In order to jointly alleviate the domain shift, GAS projects multi-geometric space features to a shared geometric embedding space and decreases data distribution distance between two domains. To verify the effectiveness of our method, we conduct BEV 3D object detection experiments on three cross-domain scenarios and achieve state-of-the-art performance.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# 卓越した授業増分学習のためのタスク適応型サリエンシ指導

Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning ( http://arxiv.org/abs/2212.08251v2 )

ライセンス: Link先を確認
Xialei Liu, Jiang-Tian Zhai, Andrew D. Bagdanov, Ke Li, Ming-Ming Cheng, (参考訳) Exemplar-free Class Incremental Learning (EFCIL)は、現在のデータのみにアクセスしてタスクを逐次学習することを目的としている。 EFCILは、プライバシーとデータの長期保存に関する懸念を軽減すると同時に、漸進的な学習における破滅的な忘れの問題を軽減するため、関心がある。 本研究では,EFCILにおけるタスク適応型サリエンシを導入し,タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる,タスク間のサリエンシドリフトの負の効果を軽減する新しいフレームワークを提案する。 まず,タスク適応性を維持するために境界誘導型サリエンシを適用し,モデル注意に「textit{plasticity}」を適用した。 さらに,タスクに依存しない低レベル信号を補助的監視として導入し,モデル注意の「textit{stability}」を増大させる。 最後に,サリエンシ保存の堅牢性を高めるために,サリエンシノイズの注入と回復のためのモジュールを導入する。 提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。 コードは \url{https://github.com/scok30/tass} で入手できる。

Exemplar-free Class Incremental Learning (EFCIL) aims to sequentially learn tasks with access only to data from the current one. EFCIL is of interest because it mitigates concerns about privacy and long-term storage of data, while at the same time alleviating the problem of catastrophic forgetting in incremental learning. In this work, we introduce task-adaptive saliency for EFCIL and propose a new framework, which we call Task-Adaptive Saliency Supervision (TASS), for mitigating the negative effects of saliency drift between different tasks. We first apply boundary-guided saliency to maintain task adaptivity and \textit{plasticity} on model attention. Besides, we introduce task-agnostic low-level signals as auxiliary supervision to increase the \textit{stability} of model attention. Finally, we introduce a module for injecting and recovering saliency noise to increase the robustness of saliency preservation. Our experiments demonstrate that our method can better preserve saliency maps across tasks and achieve state-of-the-art results on the CIFAR-100, Tiny-ImageNet, and ImageNet-Subset EFCIL benchmarks. Code is available at \url{https://github.com/scok30/tass}.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# ハニーポットデータにおける教師なし攻撃パターン検出のためのネストディリクレモデル

Nested Dirichlet models for unsupervised attack pattern detection in honeypot data ( http://arxiv.org/abs/2301.02505v2 )

ライセンス: Link先を確認
Francesco Sanna Passino, Anastasia Mantziou, Daniyar Ghani, Philip Thiede, Ross Bevington, Nicholas A. Heard, (参考訳) サイバーシステムは侵入の試みからほぼ一貫した脅威にさらされている。 攻撃の種類は異なるが、それぞれの試みは典型的には特定の意図を持ち、加害者は典型的には同様の目的を持った個人のグループである。 共通の意図を共有しているように見えるクラスタリング攻撃は、脅威追跡の専門家にとって非常に価値がある。 本稿では、悪意のある攻撃者を誘惑するように設計された特別なネットワークホストであるハニーポットから収集した端末セッションコマンドをクラスタリングするためのディリクレ分布トピックモデルについて検討する。 セッションをクラスタリングする主な実践的意味は2つある。 様々な統計モデルが検討され、コマンドライン構文の構造に適応している。 特に、セカンダリトピックとセカンダリトピックの概念、そしてセッションレベルおよびコマンドレベルトピックの概念が、解釈可能性を改善するためにモデルに導入される。 提案手法はさらにベイズ的非パラメトリックな方法で拡張され、語彙サイズと潜在意図数の非有界性を許容する。 これらの手法は、従来のトピックモデリングアプローチでは検出されていない、既存の暗号通貨のコインマイニングインフラを乗っ取ろうとする、珍しいMIRAI変異を発見している。

Cyber-systems are under near-constant threat from intrusion attempts. Attacks types vary, but each attempt typically has a specific underlying intent, and the perpetrators are typically groups of individuals with similar objectives. Clustering attacks appearing to share a common intent is very valuable to threat-hunting experts. This article explores Dirichlet distribution topic models for clustering terminal session commands collected from honeypots, which are special network hosts designed to entice malicious attackers. The main practical implications of clustering the sessions are two-fold: finding similar groups of attacks, and identifying outliers. A range of statistical models are considered, adapted to the structures of command-line syntax. In particular, concepts of primary and secondary topics, and then session-level and command-level topics, are introduced into the models to improve interpretability. The proposed methods are further extended in a Bayesian nonparametric fashion to allow unboundedness in the vocabulary size and the number of latent intents. The methods are shown to discover an unusual MIRAI variant which attempts to take over existing cryptocurrency coin-mining infrastructure, not detected by traditional topic-modelling approaches.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# 部分的モビライゼーション:ロシアメディアアウトレットとテレグラム間の多言語情報フローの追跡

Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram ( http://arxiv.org/abs/2301.10856v3 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric, (参考訳) ウクライナ侵攻後のロシアのオンラインメディアからの偽情報やプロパガンダを受け、ロシア・トゥデイやスプートニク・ニュースといったロシアのメディアはヨーロッパ全土で禁止された。 視聴者シップを維持するために、これらのロシアのメディアの多くは、Telegramのようなメッセージングサービスでコンテンツを強く宣伝し始めた。 本研究では、2022年を通して、ロシアのメディア16社が732のTelegramチャンネルとどのように対話し、利用したかを検討する。 基礎モデルMPNet,DP-meansクラスタリング,Hawkesプロセスを活用することで,ニュースサイトとTelegramチャンネル間での物語の拡散を追跡できる。 我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を発信していることを示す。 例えば、我々の研究のウェブサイト全体では、2.3%(ura.news)から26.7%(ukraina.ru)までの記事がTelegram上での活動から生まれたり反したりした内容について論じている。 最後に、個々のトピックの拡散を追跡することで、ロシアのメディアエコシステム内でニュースメディアやTelegramチャンネルがコンテンツを拡散する速度を測定し、ura.newsや@genshabなどのTelegramチャンネルがコンテンツを拡散するのに最も効果的であることを示す。

In response to disinformation and propaganda from Russian online media following the invasion of Ukraine, Russian media outlets such as Russia Today and Sputnik News were banned throughout Europe. To maintain viewership, many of these Russian outlets began to heavily promote their content on messaging services like Telegram. In this work, we study how 16 Russian media outlets interacted with and utilized 732 Telegram channels throughout 2022. Leveraging the foundational model MPNet, DP-means clustering, and Hawkes processes, we trace how narratives spread between news sites and Telegram channels. We show that news outlets not only propagate existing narratives through Telegram but that they source material from the messaging platform. For example, across the websites in our study, between 2.3% (ura.news) and 26.7% (ukraina.ru) of articles discussed content that originated/resulted from activity on Telegram. Finally, tracking the spread of individual topics, we measure the rate at which news outlets and Telegram channels disseminate content within the Russian media ecosystem, finding that websites like ura.news and Telegram channels such as @genshab are the most effective at disseminating their content.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# キーワード説明による視覚的バイアスの発見と緩和

Discovering and Mitigating Visual Biases through Keyword Explanation ( http://arxiv.org/abs/2301.11104v4 )

ライセンス: Link先を確認
Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo Shin, (参考訳) コンピュータビジョンモデルにおけるバイアスに対処することは、現実のAIデプロイメントにとって不可欠である。 しかし、視覚的偏見を緩和することは、説明不能な性質のために困難であり、しばしば可視化やサンプル統計を通じて間接的に識別される。 この問題に対処するために,視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。 具体的には、誤予測画像のキャプションから一般的なキーワードを抽出し、モデル内の潜在的なバイアスを特定する。 次に、視覚言語スコアリングモデルを用いて、誤予測画像との類似性を計測し、これらのキーワードを検証する。 視覚バイアスのキーワード説明形式には、偏見発見のための明確なグループ命名や、これらのグループ名を用いた偏見の自然な拡張など、いくつかの利点がある。 実験の結果,B2TはCelebAの性別バイアス,Waterbirdsの背景バイアス,ImageNet-R/Cの分布変化など,既知のバイアスを識別できることがわかった。 さらに、B2Tは、Dollar StreetやImageNetなど、大規模なデータセットに新たなバイアスを発見できる。 例えば、ImageNetでは、"bee"と"flower"の間にコンテキストバイアスがあることを発見しました。 また、バイアスドトレーニング、CLIPプロンプト、モデル比較など、B2Tキーワードの様々な応用についても強調する。

Addressing biases in computer vision models is crucial for real-world AI deployments. However, mitigating visual biases is challenging due to their unexplainable nature, often identified indirectly through visualization or sample statistics, which necessitates additional human supervision for interpretation. To tackle this issue, we propose the Bias-to-Text (B2T) framework, which interprets visual biases as keywords. Specifically, we extract common keywords from the captions of mispredicted images to identify potential biases in the model. We then validate these keywords by measuring their similarity to the mispredicted images using a vision-language scoring model. The keyword explanation form of visual bias offers several advantages, such as a clear group naming for bias discovery and a natural extension for debiasing using these group names. Our experiments demonstrate that B2T can identify known biases, such as gender bias in CelebA, background bias in Waterbirds, and distribution shifts in ImageNet-R/C. Additionally, B2T uncovers novel biases in larger datasets, such as Dollar Street and ImageNet. For example, we discovered a contextual bias between "bee" and "flower" in ImageNet. We also highlight various applications of B2T keywords, including debiased training, CLIP prompting, and model comparison.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# Stackelberg ゲームにおけるより低速なアグノスティック手法

Follower Agnostic Methods for Stackelberg Games ( http://arxiv.org/abs/2302.01421v3 )

ライセンス: Link先を確認
Chinmay Maheshwari, James Cheng, S. Shankar Sasty, Lillian Ratliff, Eric Mazumdar, (参考訳) 本稿では,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。 従来の作業とは異なり、私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。 アルゴリズムは、特別な設計の戦略を利用してフォロワーを探索する独自の勾配推定器を導入する。 最適な遊びの伝統的な仮定から離れて、収束適応規則を用いてフォロワーの反応をモデル化し、現実的でダイナミックな相互作用を可能にする。 リーダーは、フォロワーの行動の観察のみに基づいて勾配推定器を構築する。 我々は、リーダーの目的の定常点に非漸近収束率を提供し、また \emph{local Stackelberg equilibrium} への漸近収束を示す。 提案アルゴリズムの有効性を検証するため,大規模交通ネットワークにおけるインセンティブ設計の問題を解決するため,リーダがフォロワーの要求に応えていない場合でも,その堅牢性を示す。

In this paper, we present an efficient algorithm to solve online Stackelberg games, featuring multiple followers, in a follower-agnostic manner. Unlike previous works, our approach works even when leader has no knowledge about the followers' utility functions or strategy space. Our algorithm introduces a unique gradient estimator, leveraging specially designed strategies to probe followers. In a departure from traditional assumptions of optimal play, we model followers' responses using a convergent adaptation rule, allowing for realistic and dynamic interactions. The leader constructs the gradient estimator solely based on observations of followers' actions. We provide both non-asymptotic convergence rates to stationary points of the leader's objective and demonstrate asymptotic convergence to a \emph{local Stackelberg equilibrium}. To validate the effectiveness of our algorithm, we use this algorithm to solve the problem of incentive design on a large-scale transportation network, showcasing its robustness even when the leader lacks access to followers' demand.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# 対人強化学習におけるレグレト・ベース・ディフェンス

Regret-Based Defense in Adversarial Reinforcement Learning ( http://arxiv.org/abs/2302.06912v4 )

ライセンス: Link先を確認
Roman Belaire, Pradeep Varakantham, Thanh Nguyen, David Lo, (参考訳) 深層強化学習(DRL)の政策は、観測において小さな敵対的雑音に弱いことが示されている。 このような敵対的ノイズは、安全クリティカルな環境において破滅的な結果をもたらす可能性がある。 例えば、近傍の標識(例えば、速度制限標識として知覚されるように物理的に変更される停止標識)や物体(例えば、木として認識されるように変更される車両)に関する逆向きに乱れた感覚観察を受ける自動運転車は致命的となる。 既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、各イテレーションで生成された敵の例に対して反復的に改善するリアクティブアプローチに重点を置いている。 このような手法は、通常のRL法よりも改善されていることが示されているが、それらは反応性が高く、訓練中に特定のカテゴリの逆例が生成されない場合、著しく悪化する可能性がある。 そのために私たちは、期待された価値ではなく後悔して、十分に研究された堅牢性尺度を直接最適化することに依存する、より積極的なアプローチを追求します。 我々は、受信した「観測」に対する観察の「近隣」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。 我々の後悔の基準は、既存の値およびポリシーベースのDeep RLメソッドを変更するのに使える。 当社のアプローチは,より堅牢なDeep RLに対する主要なアプローチに対して,さまざまなベンチマークで大幅なパフォーマンス向上を実現していることを実証する。

Deep Reinforcement Learning (DRL) policies have been shown to be vulnerable to small adversarial noise in observations. Such adversarial noise can have disastrous consequences in safety-critical environments. For instance, a self-driving car receiving adversarially perturbed sensory observations about nearby signs (e.g., a stop sign physically altered to be perceived as a speed limit sign) or objects (e.g., cars altered to be recognized as trees) can be fatal. Existing approaches for making RL algorithms robust to an observation-perturbing adversary have focused on reactive approaches that iteratively improve against adversarial examples generated at each iteration. While such approaches have been shown to provide improvements over regular RL methods, they are reactive and can fare significantly worse if certain categories of adversarial examples are not generated during training. To that end, we pursue a more proactive approach that relies on directly optimizing a well-studied robustness measure, regret instead of expected value. We provide a principled approach that minimizes maximum regret over a "neighborhood" of observations to the received "observation". Our regret criterion can be used to modify existing value- and policy-based Deep RL methods. We demonstrate that our approaches provide a significant improvement in performance across a wide variety of benchmarks against leading approaches for robust Deep RL.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# ファウショット・テーブル・トゥ・テキスト生成のための知識の適応

Adapting Knowledge for Few-shot Table-to-Text Generation ( http://arxiv.org/abs/2302.12468v3 )

ライセンス: Link先を確認
Zhixin Guo, Minyxuan Yan, Jiexing Qi, Jianping Zhou, Ziwei He, Guanjie Zheng, Xinbing Wang, (参考訳) 事前訓練された言語モデル (PLM) は、テーブル・ツー・テキスト生成タスクにおいて顕著な進歩を遂げている。 しかし、ドメイン固有の知識の欠如により、特に限られたリソースを持つ現実世界のアプリケーションにおいて、表データとテキストの間のトポロジ的ギャップを埋めることが困難になる。 ラベル付きデータの制限を緩和するため,AKG (Adapt-Knowledge-to-Generate) という新しいフレームワークを提案する。 AKGのコアとなる洞察は、ラベルのないドメイン固有の知識をモデルに適応させることで、(1)表データとテキストの間のトポロジ的ギャップを埋めるために、通常のテーブル関連の記述を注入すること、(2)大量のラベルのないドメイン固有の知識を完全に使用できるようにすること、(3)ドメイン固有の知識を欠くPLM固有の欠点を緩和すること、(3)ドメイン固有の知識を活用するために様々なタスクを設計すること、の3つの利点をもたらす。 大規模な実験と分析は、3つのオープンドメイン、少数ショット自然言語生成(NLG)データセット(人間、歌、本)で行われている。 従来の最先端手法と比較して,人間の評価と自動評価の両面において,流速と精度の両面で優れた性能が得られた。

Pretrained language models (PLMs) have made remarkable progress in table-to-text generation tasks. However, the lack of domain-specific knowledge makes it challenging to bridge the topological gap between tabular data and text, especially in real-world applications with limited resources. To mitigate the limitation of insufficient labeled data, we propose a novel framework: Adapt-Knowledge-to-Generate (AKG). The core insight of AKG is to adapt unlabeled domain-specific knowledge into the model, which brings at least three benefits: (1) it injects representation of normal table-related descriptions to bridge the topological gap between tabular data and texts; (2) it enables us to use large amounts of unlabeled domain-specific knowledge fully, which can alleviate the PLMs' inherent shortcomings of lacking domain knowledge; (3) it allows us to design various tasks to employ the domain-specific knowledge. Extensive experiments and analyses are conducted on three open-domain, few-shot natural language generation (NLG) data sets: Humans, Songs, and Books. Compared to previous state-of-the-art approaches, our model achieves superior performance in terms of both fluency and accuracy as judged by human and automatic evaluations.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# CrystalBox: 入力駆動型深部RLシステムの将来的な説明

CrystalBox: Future-Based Explanations for Input-Driven Deep RL Systems ( http://arxiv.org/abs/2302.13483v4 )

ライセンス: Link先を確認
Sagar Patel, Sangeetha Abdu Jyothi, Nina Narodytska, (参考訳) 本稿では,コンピュータシステムを含む入力駆動環境の大規模ファミリにおける深層強化学習(DRL)コントローラのための,新しい,モデルに依存しない,ポストホックな説明可能性フレームワークであるCrystalBoxを紹介する。 入力駆動環境における報酬関数の自然な分解可能性と分解された還元の説明力を組み合わせる。 離散制御環境と連続制御環境の両方にまたがって将来的な説明を生成するための効率的なアルゴリズムを提案する。 適応ビットレートストリーミングや混雑制御などのアプリケーションを用いて,高忠実度説明を生成するCrystalBoxの能力を示す。 さらに,従来の有能な特徴を識別する説明可能性技術とは対照的に,コントラスト的説明,ネットワーク可観測性,ガイド付き報酬設計の3つの実践事例にまたがって,その高機能性について述べる。

We present CrystalBox, a novel, model-agnostic, posthoc explainability framework for Deep Reinforcement Learning (DRL) controllers in the large family of input-driven environments which includes computer systems. We combine the natural decomposability of reward functions in input-driven environments with the explanatory power of decomposed returns. We propose an efficient algorithm to generate future-based explanations across both discrete and continuous control environments. Using applications such as adaptive bitrate streaming and congestion control, we demonstrate CrystalBox's capability to generate high-fidelity explanations. We further illustrate its higher utility across three practical use cases: contrastive explanations, network observability, and guided reward design, as opposed to prior explainability techniques that identify salient features.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# 点群マッチングのための回転不変変圧器

Rotation-Invariant Transformer for Point Cloud Matching ( http://arxiv.org/abs/2303.08231v3 )

ライセンス: Link先を確認
Hao Yu, Zheng Qin, Ji Hou, Mahdi Saleh, Dongsheng Li, Benjamin Busam, Slobodan Ilic, (参考訳) 内在的な回転不変性は、手作りのディスクリプタと一致する点雲の中核にある。 しかし、データ拡張によって外在的に回転不変性を得る最近のディープ・マーカによって広く軽蔑されている。 有限個の増進回転が連続な SO(3) 空間にまたがることができないので、これらの方法は通常、まれに見られるような対向回転の不安定性を示す。 この目的のために,回転不変変換器であるRoITrを導入し,点雲マッチングタスクにおけるポーズ変動に対処する。 我々は地域レベルとグローバルレベルの両方に貢献する。 局所レベルから,新しいアテンションベースのエンコーダデコーダアーキテクチャを構築したポーズ不変幾何を記述するために,ポイントペア特徴(PPF)ベースの座標を組み込んだアテンション機構を導入する。 さらに,自己認識機構によって学習された回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。 厳密なベンチマークと非厳密なベンチマークの両方で実験が行われ、RoITrは低い重なり合うシナリオにおいて、すべての最先端モデルよりもかなりのマージンでパフォーマンスを向上する。 特に、挑戦的な3DLoMatchベンチマークでローテーションが拡大された場合、RoITrは、それぞれインリエ比とレジストレーションリコールの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。

The intrinsic rotation invariance lies at the core of matching point clouds with handcrafted descriptors. However, it is widely despised by recent deep matchers that obtain the rotation invariance extrinsically via data augmentation. As the finite number of augmented rotations can never span the continuous SO(3) space, these methods usually show instability when facing rotations that are rarely seen. To this end, we introduce RoITr, a Rotation-Invariant Transformer to cope with the pose variations in the point cloud matching task. We contribute both on the local and global levels. Starting from the local level, we introduce an attention mechanism embedded with Point Pair Feature (PPF)-based coordinates to describe the pose-invariant geometry, upon which a novel attention-based encoder-decoder architecture is constructed. We further propose a global transformer with rotation-invariant cross-frame spatial awareness learned by the self-attention mechanism, which significantly improves the feature distinctiveness and makes the model robust with respect to the low overlap. Experiments are conducted on both the rigid and non-rigid public benchmarks, where RoITr outperforms all the state-of-the-art models by a considerable margin in the low-overlapping scenarios. Especially when the rotations are enlarged on the challenging 3DLoMatch benchmark, RoITr surpasses the existing methods by at least 13 and 5 percentage points in terms of Inlier Ratio and Registration Recall, respectively.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# 医療・医療における時間-時間予測のための解釈型機械学習

Interpretable machine learning for time-to-event prediction in medicine and healthcare ( http://arxiv.org/abs/2303.09817v2 )

ライセンス: Link先を確認
Hubert Baniecki, Bartlomiej Sobieski, Patryk Szatkowski, Przemyslaw Bombinski, Przemyslaw Biecek, (参考訳) タイム・ツー・イベント予測(Time-to-event prediction)、例えば、がん生存率分析(英語版)または入院期間分析(英語版)は、医療および医療応用において非常に顕著な機械学習タスクである。 しかし、いくつかの解釈可能な機械学習手法がその課題に適合する。 生存モデルの包括的な説明的分析を容易にするため,時間依存的特徴効果とグローバルな特徴重要説明を導入する。 本稿では,1235のX線画像から生成した新しいマルチモーダルデータセットと,人間の専門家が注釈を付けたテキストラジオグラフィーレポートを用いて,AIシステム内のバイアスを検出する方法を示す。 さらに,The Cancer Genome Atlas (TCGA)の11データセットからなる大規模ベンチマークに基づいて,癌生存モデルの評価を行い,マルチオミクスの特徴群の重要性を考察した。 モデル開発者は、提案された手法を使用して機械学習アルゴリズムのデバッグと改善を行うことができ、医師は病気のバイオマーカーを発見し、その重要性を評価することができる。 我々は、貢献したオープンデータとコードリソースが、説明可能な生存分析の新たな研究方向における将来の作業を促進することを願っている。

Time-to-event prediction, e.g. cancer survival analysis or hospital length of stay, is a highly prominent machine learning task in medical and healthcare applications. However, only a few interpretable machine learning methods comply with its challenges. To facilitate a comprehensive explanatory analysis of survival models, we formally introduce time-dependent feature effects and global feature importance explanations. We show how post-hoc interpretation methods allow for finding biases in AI systems predicting length of stay using a novel multi-modal dataset created from 1235 X-ray images with textual radiology reports annotated by human experts. Moreover, we evaluate cancer survival models beyond predictive performance to include the importance of multi-omics feature groups based on a large-scale benchmark comprising 11 datasets from The Cancer Genome Atlas (TCGA). Model developers can use the proposed methods to debug and improve machine learning algorithms, while physicians can discover disease biomarkers and assess their significance. We hope the contributed open data and code resources facilitate future work in the emerging research direction of explainable survival analysis.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# LION:インシシシト・ビジョン・プロンプト・チューニング

LION: Implicit Vision Prompt Tuning ( http://arxiv.org/abs/2303.09992v3 )

ライセンス: Link先を確認
Haixin Wang, Jianlong Chang, Xiao Luo, Jinan Sun, Zhouchen Lin, Qi Tian, (参考訳) 近年の視覚タスクの競争性能にもかかわらず、視覚変換器には計算コストの重い問題がある。 近年、視覚素早い学習は、大規模なモデル全体を微調整することなく、この問題に対する経済的解決策を提供している。 しかしながら、既存のモデルの効率は、広範囲なプロンプトブロックとトリックプロンプトの設計が挿入されたため、まだ満足できない。 本稿では,様々な複雑なタスクに対して,メモリコストの安定な暗黙的モデルによって動機付けられた,p ImpLicit vIsion prOmpt tuNing (LION) という効率的な視覚モデルを提案する。 特に、トレーニング済みのメインバックボーンの両端に2つの平衡暗黙の層を投射するだけで、バックボーンのパラメータは凍結した。 さらに,この2つの層におけるパラメータを,宝くじの仮説に従ってプルークする。 LIONによって得られたパフォーマンスは、幅広いデータセットで保証されています。 特にLIONはトレーニングパラメータの最大11.5%を削減し、最先端のベースラインVPTよりも高いパフォーマンスを実現しています。 さらに,提案する LION の一般化性能が良好であることから,将来的なトランスファー学習の促進も容易であることがわかった。

Despite recent competitive performance across a range of vision tasks, vision Transformers still have an issue of heavy computational costs. Recently, vision prompt learning has provided an economic solution to this problem without fine-tuning the whole large-scale models. However, the efficiency of existing models are still far from satisfactory due to insertion of extensive prompts blocks and trick prompt designs. In this paper, we propose an efficient vision model named impLicit vIsion prOmpt tuNing (LION), which is motivated by deep implicit models with stable memory costs for various complex tasks. In particular, we merely insect two equilibrium implicit layers in two ends of the pre-trained main backbone with parameters in the backbone frozen. Moreover, we prune the parameters in these two layers according to lottery hypothesis. The performance obtained by our LION are promising on a wide range of datasets. In particular, our LION reduces up to 11.5% of training parameter numbers while obtaining higher performance compared with the state-of-the-art baseline VPT, especially under challenging scenes. Furthermore, we find that our proposed LION had a good generalization performance, making it an easy way to boost transfer learning in the future.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# Crosel: 部分ラベル学習のための信頼された擬似ラベルのクロスセレクション

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label Learning ( http://arxiv.org/abs/2303.10365v3 )

ライセンス: Link先を確認
Shiyu Tian, Hongxin Wei, Yiqun Wang, Lei Feng, (参考訳) 部分ラベル学習(Partial-label Learning, PLL)は, 弱い教師付き学習問題である。 同定に基づく手法は、真ラベルを識別すべき潜在変数とみなすPLLのラベル曖昧性問題に対処するために広く研究されている。 しかし、真のラベルを正確に同定することは困難であり、モデルトレーニング中に擬似ラベルにノイズが生じる。 本稿では,モデルからの履歴予測を利用して,ほとんどのトレーニング例において真のラベルを識別するCroSelという新しい手法を提案する。 まず,2つの深層モデルでラベル付きデータの真のラベルを相互に選択できるクロスセレクション戦略を提案する。 また, サンプル廃棄物や誤選択による微小ノイズを回避するために, コミックスと呼ばれる新しい整合性正規化項を提案する。 このようにして、CroSelは、ほとんどの例の本当のラベルを高い精度で取り出すことができる。 大規模な実験は、ベンチマークデータセットにおける従来の最先端メソッドを一貫して上回るクロセルの優越性を実証している。 さらに,提案手法は,CIFAR型データセットの真のラベルを選択する際の精度と量を90%以上向上する。

Partial-label learning (PLL) is an important weakly supervised learning problem, which allows each training example to have a candidate label set instead of a single ground-truth label. Identification-based methods have been widely explored to tackle label ambiguity issues in PLL, which regard the true label as a latent variable to be identified. However, identifying the true labels accurately and completely remains challenging, causing noise in pseudo labels during model training. In this paper, we propose a new method called CroSel, which leverages historical predictions from the model to identify true labels for most training examples. First, we introduce a cross selection strategy, which enables two deep models to select true labels of partially labeled data for each other. Besides, we propose a novel consistency regularization term called co-mix to avoid sample waste and tiny noise caused by false selection. In this way, CroSel can pick out the true labels of most examples with high precision. Extensive experiments demonstrate the superiority of CroSel, which consistently outperforms previous state-of-the-art methods on benchmark datasets. Additionally, our method achieves over 90\% accuracy and quantity for selecting true labels on CIFAR-type datasets under various settings.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# オープンセット半教師あり学習のための適応的負の証拠深層学習

Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning ( http://arxiv.org/abs/2303.12091v3 )

ライセンス: Link先を確認
Yang Yu, Danruo Deng, Furui Liu, Yueming Jin, Qi Dou, Guangyong Chen, Pheng-Ann Heng, (参考訳) 半教師付き学習(SSL)法は、ラベル付きデータ、ラベルなしデータ、テストデータが同じ分布から来ていると仮定する。 オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。 これまでのほとんどの研究は、スケーラビリティが不十分で、異なるタイプの不確実性を区別できないバイナリ分類器による外部検出に重点を置いていた。 本稿では,これらの制約に対処するための新しいフレームワークである適応負の証拠深層学習(ANEDL)を提案する。 具体的には,まず,不確実性の種類を定量化し,自己学習と推論のための異なる不確実性指標を設計するために,外乱検出器として顕在的深層学習(EDL)を導入する。 さらに,新しい適応的負の最適化手法を提案し,不整合と外れ値の両方を含むラベル付きデータセットに適合するようにした。 実証実験により,提案手法は4つのデータセットにまたがる既存の最先端手法よりも優れていた。

Semi-supervised learning (SSL) methods assume that labeled data, unlabeled data and test data are from the same distribution. Open-set semi-supervised learning (Open-set SSL) considers a more practical scenario, where unlabeled data and test data contain new categories (outliers) not observed in labeled data (inliers). Most previous works focused on outlier detection via binary classifiers, which suffer from insufficient scalability and inability to distinguish different types of uncertainty. In this paper, we propose a novel framework, Adaptive Negative Evidential Deep Learning (ANEDL) to tackle these limitations. Concretely, we first introduce evidential deep learning (EDL) as an outlier detector to quantify different types of uncertainty, and design different uncertainty metrics for self-training and inference. Furthermore, we propose a novel adaptive negative optimization strategy, making EDL more tailored to the unlabeled dataset containing both inliers and outliers. As demonstrated empirically, our proposed method outperforms existing state-of-the-art methods across four datasets.
翻訳日:2024-03-28 23:31:58 公開日:2024-03-27
# イノベーションパラドックス:オリジナル性と創造的AIの約束を損なう概念空間の拡大

The Innovation Paradox: Concept Space Expansion with Diminishing Originality and the Promise of Creative AI ( http://arxiv.org/abs/2303.13300v3 )

ライセンス: Link先を確認
Serhad Sarica, Jianxi Luo, (参考訳) イノベーションは、通常、既存の概念の再利用、再結合、合成によって引き起こされ、時間の経過とともに概念空間が指数関数的に成長すると予想される。 しかし,特許文書から400万を超える概念を包含する包括的技術セマンティックネットワークであるTechNetの統計的分析により,総合的技術概念空間の指数関数的拡大というよりも,線形性を示す。 また、新たに作られた概念の独創性も著しく低下している。 これらの傾向は、人間の認知能力の制約が、成長を続ける先行技術の領域を超えて革新する、などの要因に起因している可能性がある。 創造的人工知能(CAI)をイノベーションプロセスに統合することは、これらの制限を克服し、将来観察されるトレンドを変更する可能性を秘めている。

Innovation, typically spurred by reusing, recombining, and synthesizing existing concepts, is expected to result in an exponential growth of the concept space over time. However, our statistical analysis of TechNet, which is a comprehensive technology semantic network encompassing over four million concepts derived from patent texts, reveals a linear rather than exponential expansion of the overall technological concept space. Moreover, there is a notable decline in the originality of newly created concepts. These trends can be attributed to the constraints of human cognitive abilities to innovate beyond an ever-growing space of prior art, among other factors. Integrating creative artificial intelligence (CAI) into the innovation process holds the potential to overcome these limitations and alter the observed trends in the future.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 社会ボット研究における誤解の解き方

Demystifying Misconceptions in Social Bots Research ( http://arxiv.org/abs/2303.17251v2 )

ライセンス: Link先を確認
Stefano Cresci, Kai-Cheng Yang, Angelo Spognardi, Roberto Di Pietro, Filippo Menczer, Marinella Petrocchi, (参考訳) ソーシャルボットの研究は、知識の進歩と、最も議論を呼んだオンライン操作のソリューションの提供を目的としている。 しかし、社会ボットの研究は、広く偏見、誇張された結果、曖昧さ、非現実的な期待、そして一見不可能な発見の舞台となった誤解に悩まされている。 このような問題を克服することは、信頼性の高い解決策の確保と、科学的方法の有効性の再確認に有効である。 本稿では,社会的ボット研究の最近の成果を概観し,事実的誤りと方法論的,概念的バイアスを強調・修正する。 さらに重要なことは、社会ボットの研究の議論に関する基本的な点に対処しながら、一般的な誤解を軽視することです。 我々の分析は、厳格で曖昧で責任ある方法で、オンラインの偽情報や操作に関する研究を議論する必要性を浮き彫りにしている。 本稿では,社会ボット研究の支持者と反対者の両方が用いている共通の誤った議論を特定し,否定することで,このような取り組みを加速させ,今後の研究に向けての健全な方法論の方向性を提供する。

Research on social bots aims at advancing knowledge and providing solutions to one of the most debated forms of online manipulation. Yet, social bot research is plagued by widespread biases, hyped results, and misconceptions that set the stage for ambiguities, unrealistic expectations, and seemingly irreconcilable findings. Overcoming such issues is instrumental towards ensuring reliable solutions and reaffirming the validity of the scientific method. In this contribution, we review some recent results in social bots research, highlighting and revising factual errors as well as methodological and conceptual biases. More importantly, we demystify common misconceptions, addressing fundamental points on how social bots research is discussed. Our analysis surfaces the need to discuss research about online disinformation and manipulation in a rigorous, unbiased, and responsible way. This article bolsters such effort by identifying and refuting common fallacious arguments used by both proponents and opponents of social bots research, as well as providing directions toward sound methodologies for future research in the field.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# InfoCTM: 言語横断トピックモデリングにおける相互情報最大化の視点

InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling ( http://arxiv.org/abs/2304.03544v2 )

ライセンス: Link先を確認
Xiaobao Wu, Xinshuai Dong, Thong Nguyen, Chaoqun Liu, Liangming Pan, Anh Tuan Luu, (参考訳) 言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。 しかし、既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックを生み出すことに悩まされている。 本稿では,相互情報を用いた言語間トピックモデリング(InfoCTM)を提案する。 従来の作業の直接的なアライメントの代わりに,相互情報手法によるトピックアライメントを提案する。 これは、トピックを適切に整列させ、繰り返しトピック問題を緩和する単語の縮退したトピック表現を防止するための正規化として機能する。 また、低被覆辞書問題に対処するため、与えられた辞書の翻訳を超えたトピックアライメントのために、よりリンクされた言語間単語を見つける言語間語彙リンク手法を提案する。 英語,中国語,日本語のデータセットに対する大規模な実験により,我々の手法は最先端のベースラインより優れており,より一貫性があり,多様で,整合性の高いトピックが得られ,言語間分類タスクの伝達性が向上することが示された。

Cross-lingual topic models have been prevalent for cross-lingual text analysis by revealing aligned latent topics. However, most existing methods suffer from producing repetitive topics that hinder further analysis and performance decline caused by low-coverage dictionaries. In this paper, we propose the Cross-lingual Topic Modeling with Mutual Information (InfoCTM). Instead of the direct alignment in previous work, we propose a topic alignment with mutual information method. This works as a regularization to properly align topics and prevent degenerate topic representations of words, which mitigates the repetitive topic issue. To address the low-coverage dictionary issue, we further propose a cross-lingual vocabulary linking method that finds more linked cross-lingual words for topic alignment beyond the translations of a given dictionary. Extensive experiments on English, Chinese, and Japanese datasets demonstrate that our method outperforms state-of-the-art baselines, producing more coherent, diverse, and well-aligned topics and showing better transferability for cross-lingual classification tasks.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 不整脈検出のための自己管理型心電図表現学習

In-Distribution and Out-of-Distribution Self-supervised ECG Representation Learning for Arrhythmia Detection ( http://arxiv.org/abs/2304.06427v2 )

ライセンス: Link先を確認
Sahar Soltanieh, Javad Hashemi, Ali Etemad, (参考訳) 本稿では,心電図不整脈検出のための自己監督学習法(SSL)の有効性について,系統的検討を行った。 まず、一般的なECGベースの不整脈データセットであるTB-XL、Chapman、Ribeiroの3つのデータ分布を新たに解析することから始める。 我々の知る限りでは、この地域でこれらの分布を定量的に探索し、特徴付けるのはこれが初めてである。 次に、SimCRL、BYOL、SwaVといった様々なSSLメソッドの有効性を評価するために、異なる拡張とパラメータを用いて総合的な実験を行い、SwaVが達成した最高の性能を観察する。 さらに, SSL手法は, 教師付き最先端手法により達成された手法に対して, 高い競争力を発揮することを示す。 In-Distribution(ID)とOut-of-Distribution(OOD)のECGデータにおいて,これらの手法の性能をさらに評価するために,クロスデータセットトレーニングと試験実験を実施している。 包括的実験により,IDとOODのスキームを比較するとほぼ同じ結果が得られ,SSL技術は様々なOODデータセットにまたがる高い効率の表現を学習できることが示唆された。 この発見は心電図による不整脈検出に大きな影響を及ぼす可能性がある。 最後に, この結果をさらに分析するため, 3つのデータセット上でのSSLメソッドの性能について, ディスリーズ当たりの詳細な研究を行った。

This paper presents a systematic investigation into the effectiveness of Self-Supervised Learning (SSL) methods for Electrocardiogram (ECG) arrhythmia detection. We begin by conducting a novel analysis of the data distributions on three popular ECG-based arrhythmia datasets: PTB-XL, Chapman, and Ribeiro. To the best of our knowledge, our study is the first to quantitatively explore and characterize these distributions in the area. We then perform a comprehensive set of experiments using different augmentations and parameters to evaluate the effectiveness of various SSL methods, namely SimCRL, BYOL, and SwAV, for ECG representation learning, where we observe the best performance achieved by SwAV. Furthermore, our analysis shows that SSL methods achieve highly competitive results to those achieved by supervised state-of-the-art methods. To further assess the performance of these methods on both In-Distribution (ID) and Out-of-Distribution (OOD) ECG data, we conduct cross-dataset training and testing experiments. Our comprehensive experiments show almost identical results when comparing ID and OOD schemes, indicating that SSL techniques can learn highly effective representations that generalize well across different OOD datasets. This finding can have major implications for ECG-based arrhythmia detection. Lastly, to further analyze our results, we perform detailed per-disease studies on the performance of the SSL methods on the three datasets.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# シングルモーダル・マルチモーダル・ビジュアル・オブジェクト・トラッキングのための統一シーケンス・ツー・シーケンス・ラーニング

Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking ( http://arxiv.org/abs/2304.14394v3 )

ライセンス: Link先を確認
Xin Chen, Ben Kang, Jiawen Zhu, Dong Wang, Houwen Peng, Huchuan Lu, (参考訳) 本稿では,RGBベースおよびマルチモーダルオブジェクト追跡のためのシーケンス・ツー・シーケンス学習フレームワークを提案する。 まず、RGBベースのトラッキングのためのSeqTrackを紹介する。 視覚的なトラッキングをシーケンス生成タスクとして、自動回帰的な方法でオブジェクト境界ボックスを予測します。 これは従来のトラッカーと異なり、分類や回帰ヘッドといった複雑なヘッドネットワークの設計に依存している。 SeqTrackは基本的なエンコーダ・デコーダ変換アーキテクチャを採用している。 エンコーダは特徴抽出に双方向変換器を用い、デコーダは因果変換器を用いて有界箱列を自己回帰的に生成する。 損失関数はプレーンなクロスエントロピーである。 第2に,マルチモーダルトラッキングタスクのためのシーケンス・ツー・シーケンス統合フレームワークであるSeqTrackv2を紹介する。 SeqTrackを拡張したSeqTrackv2は、補助的なモダリティのための統一インターフェースと、タスクを指定するためのタスクプロンプトトークンのセットを統合する。 これにより、統一モデルとパラメータセットを使用してマルチモーダルトラッキングタスクを管理することができる。 このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、5つのシングルモーダルおよびマルチモーダルトラッキングタスクにまたがる14の課題ベンチマークにおいて優れたパフォーマンスを示す。 コードとモデルはhttps://github.com/chenxin-dlut/SeqTrackv2.comで公開されている。

In this paper, we introduce a new sequence-to-sequence learning framework for RGB-based and multi-modal object tracking. First, we present SeqTrack for RGB-based tracking. It casts visual tracking as a sequence generation task, forecasting object bounding boxes in an autoregressive manner. This differs from previous trackers, which depend on the design of intricate head networks, such as classification and regression heads. SeqTrack employs a basic encoder-decoder transformer architecture. The encoder utilizes a bidirectional transformer for feature extraction, while the decoder generates bounding box sequences autoregressively using a causal transformer. The loss function is a plain cross-entropy. Second, we introduce SeqTrackv2, a unified sequence-to-sequence framework for multi-modal tracking tasks. Expanding upon SeqTrack, SeqTrackv2 integrates a unified interface for auxiliary modalities and a set of task-prompt tokens to specify the task. This enables it to manage multi-modal tracking tasks using a unified model and parameter set. This sequence learning paradigm not only simplifies the tracking framework, but also showcases superior performance across 14 challenging benchmarks spanning five single- and multi-modal tracking tasks. The code and models are available at https://github.com/chenxin-dlut/SeqTrackv2.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 多言語表現空間における言語距離と言語間移動の関係の同定

Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space ( http://arxiv.org/abs/2305.02151v2 )

ライセンス: Link先を確認
Fred Philippy, Siwen Guo, Shohreh Haddadan, (参考訳) 従来,言語的特徴が言語間伝達性能に与える影響について検討してきた。 本研究では,この効果を表現空間にマッピングする方法を検討する。 過去の研究は、微調整中の多言語モデルにおける言語間アライメントの影響に焦点を当ててきたが、MLLMによって生成された言語表現空間の絶対的な進化について検討した。 本稿では,言語的特徴の役割に特に重点を置いて,表現空間への影響と言語間移動性能との関連について検討する。 さらに,言語的に離れた言語への移動を促進するために,これらの知見をどのように活用できるかを予備的な証拠として提示する。

Prior research has investigated the impact of various linguistic features on cross-lingual transfer performance. In this study, we investigate the manner in which this effect can be mapped onto the representation space. While past studies have focused on the impact on cross-lingual alignment in multilingual language models during fine-tuning, this study examines the absolute evolution of the respective language representation spaces produced by MLLMs. We place a specific emphasis on the role of linguistic characteristics and investigate their inter-correlation with the impact on representation spaces and cross-lingual transfer performance. Additionally, this paper provides preliminary evidence of how these findings can be leveraged to enhance transfer to linguistically distant languages.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 数千のGPUに並列トレーニングをスケールする4Dハイブリッドアルゴリズム

A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs ( http://arxiv.org/abs/2305.13525v2 )

ライセンス: Link先を確認
Siddharth Singh, Prajwal Singhania, Aditya K. Ranjan, Zack Sating, Abhinav Bhatele, (参考訳) 大規模通信コストは、分散システム上で最先端のニューラルネットワークをトレーニングする上で、重要なボトルネックとなる。 本稿では,AxoNNを提案する。AxoNNは,Agarwalの行列乗算アルゴリズムに触発されて,ディープラーニングにおけるテンソル計算を並列化する4次元並列化手法であり,通信オーバーヘッドを最小限に抑えるために2つの重要な戦略を採用している。 まず,高コストな集合演算(reduce-scatter, all-gather, all-reduce)と計算処理を重畳して通信を最適化する。 20ビリオンのパラメータ変換器モデルによる実験により、これらの最適化は53倍近い改善をもたらすことが示された。 第2に,我々の4Dアルゴリズムが定義する膨大な検索空間内における通信最小化構成の同定を支援する解析モデルを提案する。 このモデルは、特定のトレーニングワークロードのチューニングプロセスをシンプルにすることで、実践者に力を与えます。 Perlmutterの1024 GPU上で80ビリオンのパラメータモデルをトレーニングする場合、AxoNNは最先端のフレームワークであるMegatron-LMを26%上回った。 さらに、理論的ピークFLOP/sの57%を達成している。

Large communication costs are a critical bottleneck in training state-of-the-art neural networks on distributed systems. This paper introduces AxoNN, a novel four-dimensional (4D) parallelization approach, inspired by Agarwal's algorithm for matrix multiplication, for parallelizing tensor computations in deep learning, AxoNN employs two key strategies to minimize communication overhead. First, we optimize communication by overlapping expensive collective operations (reduce-scatter, all-gather, all-reduce) with computations. Our experiments with a 20-billion parameter transformer model demonstrate that these optimizations deliver nearly 53\% improvement. Second, we present an analytical model to assist users in identifying communication-minimizing configurations within the vast search space defined by our 4D algorithm. This model empowers practitioners by simplifying the tuning process for their specific training workloads. When training an 80-billion parameter model on 1024 GPUs of Perlmutter, AxoNN surpasses Megatron-LM, a state-of-the-art framework, by a significant 26%. Additionally, it achieves 57% of the theoretical peak FLOP/s.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 弱々しいAUC最適化:統一された部分的AUCアプローチ

Weakly Supervised AUC Optimization: A Unified Partial AUC Approach ( http://arxiv.org/abs/2305.14258v2 )

ライセンス: Link先を確認
Zheng Xie, Yu Liu, Hao-Yuan He, Ming Li, Zhi-Hua Zhou, (参考訳) 完全な監視を得ることは通常難しいため、現実の機械学習タスクは、しばしば不正確な、不完全な、あるいは不正確な監督に直面する。 本稿では,AUC最適化問題を弱教師付けする統合フレームワークであるWSAUCについて述べる。 WSAUCフレームワーク内では、まず、汚染された集合上でのAUCリスクを最小限に抑える共通の定式化として、様々な弱教師付きシナリオにおけるAUC最適化問題をモデル化し、経験的リスク最小化問題と真のAUCとの整合性を実証する。 そこで我々は, 汚染ラベルの存在下でのAUC最大化のための堅牢なトレーニング目標として, 逆部分AUC (rpAUC) を新たに導入した。 WSAUCは、経験的rpAUCを最大化することにより、様々な弱教師付きシナリオにおいてAUC最適化のための普遍的なソリューションを提供する。 複数の条件下での理論的および実験的結果は、弱い教師付きAUC最適化タスクにおけるWSAUCの有効性を支持する。

Since acquiring perfect supervision is usually difficult, real-world machine learning tasks often confront inaccurate, incomplete, or inexact supervision, collectively referred to as weak supervision. In this work, we present WSAUC, a unified framework for weakly supervised AUC optimization problems, which covers noisy label learning, positive-unlabeled learning, multi-instance learning, and semi-supervised learning scenarios. Within the WSAUC framework, we first frame the AUC optimization problems in various weakly supervised scenarios as a common formulation of minimizing the AUC risk on contaminated sets, and demonstrate that the empirical risk minimization problems are consistent with the true AUC. Then, we introduce a new type of partial AUC, specifically, the reversed partial AUC (rpAUC), which serves as a robust training objective for AUC maximization in the presence of contaminated labels. WSAUC offers a universal solution for AUC optimization in various weakly supervised scenarios by maximizing the empirical rpAUC. Theoretical and experimental results under multiple settings support the effectiveness of WSAUC on a range of weakly supervised AUC optimization tasks.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 参照ビジュアル検索のための弱改良された条件付き埋め込み

Weakly-Supervised Conditional Embedding for Referred Visual Search ( http://arxiv.org/abs/2306.02928v2 )

ライセンス: Link先を確認
Simon Lepage, Jérémie Mary, David Picard, (参考訳) 本稿では、複雑な画像から生じる領域内固有のあいまいさに対処するため、ファッションの文脈における画像類似性検索の新たな課題を提案する。 我々は、最近業界への関心が高まり、ユーザが望ましい類似性をより正確に定義できるタスクであるReferred Visual Search(RVS)を提示する。 LAION-RVS-Fashionは272Kのファッション製品で、LAIONから842kの画像が抽出され、このタスクのために明示的に設計されている。 しかし、業界における従来の視覚探索法とは異なり、明示的な対象検出を回避し、画像タプルに弱教師付き条件付きコントラスト学習を採用することにより、優れた性能が得られることを示す。 提案手法は軽量でロバスト性を示し,2Mイントラクタに対する強力な検出ベースラインよりも優れたリコールを実現する。 コード、データ、モデルはhttps://www.github.com/Simon-Lepage/CondViT-LRVSFで入手できる。

This paper introduces a new challenge for image similarity search in the context of fashion, addressing the inherent ambiguity in this domain stemming from complex images. We present Referred Visual Search (RVS), a task allowing users to define more precisely the desired similarity, following recent interest in the industry. We release a new large public dataset, LAION-RVS-Fashion, consisting of 272k fashion products with 842k images extracted from LAION, designed explicitly for this task. However, unlike traditional visual search methods in the industry, we demonstrate that superior performance can be achieved by bypassing explicit object detection and adopting weakly-supervised conditional contrastive learning on image tuples. Our method is lightweight and demonstrates robustness, reaching Recall at one superior to strong detection-based baselines against 2M distractors. Code, data and models are available at https://www.github.com/Simon-Lepage/CondViT-LRVSF .
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# ViDA: 継続的なテスト時間適応のためのホメオスタティックなビジュアルドメインアダプタ

ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation ( http://arxiv.org/abs/2306.04344v3 )

ライセンス: Link先を確認
Jiaming Liu, Senqiao Yang, Peidong Jia, Renrui Zhang, Ming Lu, Yandong Guo, Wei Xue, Shanghang Zhang, (参考訳) 実世界のマシンシステムは静止しない環境で動作しているため、継続テスト時間適応(CTTA)タスクは、トレーニング済みモデルに継続的なターゲットドメインの変更を適用するために提案される。 近年,既存の手法は主にモデルに基づく適応に焦点をあてており,対象分野の知識を抽出するために自己学習手法を活用することを目的としている。 しかし、擬似ラベルはノイズがあり、更新されたモデルパラメータは動的データ分布では信頼できないため、連続的な適応プロセスにおいてエラーの蓄積と破滅的な忘れが生じる。 これらの課題に対処し、モデル可塑性を維持するために、我々は、ドメイン固有知識とドメイン共有知識の両方を明示的に扱いながら、CTTA用のVisual Domain Adapter (ViDA) を設計する。 具体的には、まず、トレーニング可能な高階または低ランクの埋め込み空間を持つアダプタの異なるドメイン表現を包括的に探索する。 次に、VDAを事前学習モデルに注入し、高階と低階の機能を活用して、現在のドメイン分布に適応し、連続的なドメイン共有知識を維持する。 さらに,低ランクかつ高ランクなViDAをより効果的に活用するために,各ViDAから異なる知識を適応的に組み合わせたHKA戦略を提案する。 広範に用いられている4つのベンチマーク実験の結果,提案手法は分類処理とセグメント化処理の両方において,最先端の性能を達成できることが示された。 なお,本手法は大規模モデルにおける新しい伝達パラダイムとみなすことができ,連続的に変化する分布への適応において有望な結果をもたらすことができる。 プロジェクトページ: https://sites.google.com/view/iclr2024-vida/home

Since real-world machine systems are running in non-stationary environments, Continual Test-Time Adaptation (CTTA) task is proposed to adapt the pre-trained model to continually changing target domains. Recently, existing methods mainly focus on model-based adaptation, which aims to leverage a self-training manner to extract the target domain knowledge. However, pseudo labels can be noisy and the updated model parameters are unreliable under dynamic data distributions, leading to error accumulation and catastrophic forgetting in the continual adaptation process. To tackle these challenges and maintain the model plasticity, we design a Visual Domain Adapter (ViDA) for CTTA, explicitly handling both domain-specific and domain-shared knowledge. Specifically, we first comprehensively explore the different domain representations of the adapters with trainable high-rank or low-rank embedding spaces. Then we inject ViDAs into the pre-trained model, which leverages high-rank and low-rank features to adapt the current domain distribution and maintain the continual domain-shared knowledge, respectively. To exploit the low-rank and high-rank ViDAs more effectively, we further propose a Homeostatic Knowledge Allotment (HKA) strategy, which adaptively combines different knowledge from each ViDA. Extensive experiments conducted on four widely used benchmarks demonstrate that our proposed method achieves state-of-the-art performance in both classification and segmentation CTTA tasks. Note that, our method can be regarded as a novel transfer paradigm for large-scale models, delivering promising results in adaptation to continually changing distributions. Project page: https://sites.google.com/view/iclr2024-vida/home.
翻訳日:2024-03-28 23:22:06 公開日:2024-03-27
# 共振強結合によるキャビティ誘起分子偏極機構の解明

Unraveling a cavity induced molecular polarization mechanism from collective vibrational strong coupling ( http://arxiv.org/abs/2306.06004v4 )

ライセンス: Link先を確認
Dominik Sidler, Thomas Schnappinger, Anatoly Obzhirov, Michael Ruggenthaler, Markus Kowalewski, Angel Rubio, (参考訳) 熱平衡における分子の集合振動強い結合は、熱力学の限界において大きな局所的な電子分極を引き起こすことを実証する。 希薄ガス限界における強結合分子のアンサンブルの完全非相対論的パウリ・フィエルツ問題(英語版)は、電子構造に対するキャビティ・ハートリー方程式へのボルン・オッペンハイマー近似(英語版)において減少することを示した。 その結果、各分子は他の全ての分子の双極子と自己整合結合を経験し、熱力学的極限(大きなアンサンブル)では無視できない値になる。 したがって、集合振動の強い結合は、アンサンブル内の局所的な「ホットスポット」のために個々の分子を強く変えることができる。 さらに、発見された空洞誘起偏光パターンは、スピンガラス(またはより良い偏光ガラス)の連続した形に類似したゼロネット偏光を持つ。 この結果から, 偏光化学の完全理解には, 着飾った電子構造の自己持続的処理が必要であることが示唆された。

We demonstrate that collective vibrational strong coupling of molecules in thermal equilibrium can give rise to significant local electronic polarizations in the thermodynamic limit. We do so by first showing that the full non-relativistic Pauli-Fierz problem of an ensemble of strongly-coupled molecules in the dilute-gas limit reduces in the cavity Born-Oppenheimer approximation to a cavity-Hartree equation for the electronic structure. Consequently, each individual molecule experiences a self-consistent coupling to the dipoles of all other molecules, which amount to non-negligible values in the thermodynamic limit (large ensembles). Thus collective vibrational strong coupling can alter individual molecules strongly for localized "hotspots" within the ensemble. Moreover, the discovered cavity-induced polarization pattern possesses a zero net polarization, which resembles a continuous form of a spin glass (or better polarization glass). Our findings suggest that the thorough understanding of polaritonic chemistry, requires a self-consistent treatment of dressed electronic structure, which can give rise to numerous, so far overlooked, physical mechanisms.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# メモリ付きリカレントアクショントランス

Recurrent Action Transformer with Memory ( http://arxiv.org/abs/2306.09459v3 )

ライセンス: Link先を確認
Alexey Staroverov, Egor Cherepanov, Dmitry Yudin, Alexey K. Kovalev, Aleksandr I. Panov, (参考訳) 近年,オフライン強化学習における変圧器の利用が急速に発展している。 これは、環境中のエージェントの軌道をシーケンスとして扱う能力のためであり、それによってポリシー学習問題をシーケンスモデリングに還元する。 エージェントの判断が過去のイベントに依存する環境では、モデルコンテキストにおけるイベント自体と決定ポイントの両方をキャプチャすることが不可欠である。 しかし、注意機構の二次的な複雑さは、文脈展開の可能性を制限する。 この問題の解決策の1つは、メモリ機構によるトランスフォーマーの強化である。 本稿では、リカレントメモリを組み込んだモデルであるRecurrent Action Transformer with Memory (RATE)を提案する。 本研究では,メモリ集約環境 (VizDoom-Two-Color, T-Maze) と古典的アタリゲーム, MuJoCo 制御環境 (MuJoCo 制御環境) の両環境について広範な実験を行った。 その結果、メモリの使用は、古典的な環境における結果を維持・改善しながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。 オフライン強化学習に適用可能な変圧器の記憶機構の研究が促進されることを願っている。

Recently, the use of transformers in offline reinforcement learning has become a rapidly developing area. This is due to their ability to treat the agent's trajectory in the environment as a sequence, thereby reducing the policy learning problem to sequence modeling. In environments where the agent's decisions depend on past events, it is essential to capture both the event itself and the decision point in the context of the model. However, the quadratic complexity of the attention mechanism limits the potential for context expansion. One solution to this problem is to enhance transformers with memory mechanisms. In this paper, we propose the Recurrent Action Transformer with Memory (RATE) - a model that incorporates recurrent memory. To evaluate our model, we conducted extensive experiments on both memory-intensive environments (VizDoom-Two-Color, T-Maze) and classic Atari games and MuJoCo control environments. The results show that the use of memory can significantly improve performance in memory-intensive environments while maintaining or improving results in classic environments. We hope that our findings will stimulate research on memory mechanisms for transformers applicable to offline reinforcement learning.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# レギュラブルAIシステムに向けて - 技術的ギャップと政策機会

Towards Regulatable AI Systems: Technical Gaps and Policy Opportunities ( http://arxiv.org/abs/2306.12609v2 )

ライセンス: Link先を確認
Xudong Shen, Hannah Brown, Jiashu Tao, Martin Strobel, Yao Tong, Akshay Narayan, Harold Soh, Finale Doshi-Velez, (参考訳) AIシステムの規制方法に注目が集まっている。 AIの専門家は、規制要件に準拠するために、AIシステムをどの程度精査できるだろうか? 我々は、この疑問を、2つの公共セクターの調達チェックリストのレンズを通して調査し、現在何ができるか、技術的革新で何が可能か、より専門的なアプローチが必要かを特定します。

There is increasing attention being given to how to regulate AI systems. As governing bodies grapple with what values to encapsulate into regulation, we consider the technical half of the question: To what extent can AI experts vet an AI system for adherence to regulatory requirements? We investigate this question through the lens of two public sector procurement checklists, identifying what we can do now, what should be possible with technical innovation, and what requirements need a more interdisciplinary approach.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# フラグフォールトトレラント誤り訂正のための距離保存ツール

Optimization tools for distance-preserving flag fault-tolerant error correction ( http://arxiv.org/abs/2306.12862v4 )

ライセンス: Link先を確認
Balint Pato, Theerapat Tansuwannont, Shilin Huang, Kenneth R. Brown, (参考訳) ルックアップテーブルの復号化は高速かつ遠隔保存が可能であり、量子エラー訂正符号の少ない、短期的な量子コンピュータアーキテクチャにとって魅力的である。 本研究では,Calderbank-Shor-Steane (CSS) 符号のルックアップテーブルデコードにより,耐故障性量子誤り訂正(FTQEC)のフラグ化に必要な時間的オーバーヘッドを低減できる最適化ツールを開発した。 我々の技術には、コンパクトなルックアップテーブルの構築、Meet-in-the-Middle技術、フラグFTQECの適応時間デコード、フラグ情報のための古典的処理技術、分離された$X$と$Z$カウント技術が含まれる。 距離3, 5, 7, 9の六角形カラーコードの回路レベルの雑音下での数値シミュレーションにより, ツールの性能評価を行った。 すべてのツールを組み合わせると、長さ9の六角形の色符号の擬似閾値が1.34 \pm 0.01 \times 10^{-4}$から$(1.42 \pm 0.12) \times 10^{-3}$に大きくなる。

Lookup table decoding is fast and distance-preserving, making it attractive for near-term quantum computer architectures with small-distance quantum error-correcting codes. In this work, we develop several optimization tools that can potentially reduce the space and time overhead required for flag fault-tolerant quantum error correction (FTQEC) with lookup table decoding on Calderbank-Shor-Steane (CSS) codes. Our techniques include the compact lookup table construction, the Meet-in-the-Middle technique, the adaptive time decoding for flag FTQEC, the classical processing technique for flag information, and the separated $X$ and $Z$ counting technique. We evaluate the performance of our tools using numerical simulation of hexagonal color codes of distances 3, 5, 7, and 9 under circuit-level noise. Combining all tools can result in more than an order of magnitude increase in pseudothreshold for the hexagonal color code of distance 9, from $(1.34 \pm 0.01) \times 10^{-4}$ to $(1.42 \pm 0.12) \times 10^{-3}$.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# 3次元シミュレーションアンサンブルにおける統計的依存性の対話的可視化のためのニューラルネットワーク

Neural Fields for Interactive Visualization of Statistical Dependencies in 3D Simulation Ensembles ( http://arxiv.org/abs/2307.02203v5 )

ライセンス: Link先を確認
Fatemeh Farokhmanesh, Kevin Höhlein, Christoph Neuhauser, Tobias Necker, Martin Weissmann, Takemasa Miyoshi, Rüdiger Westermann, (参考訳) 大規模な3次元シミュレーションアンサンブルにおいて,物理変数の値間の統計的依存関係をコンパクトに表現し,効率的に再構築することのできる,最初のニューラルネットワークを提案する。 線形依存を超えて、我々は相互情報を非線形依存の尺度とみなす。 シミュレーショングリッド250 x 352 x 20 に複数の物理変数を格納し,1000人のメンバからなる大規模な天気予報アンサンブルによる学習と再構築を実演する。 計算集約型統計推定器を実行時に回避することにより、主要な依存構造を再構築するためのメモリと計算要求を著しく低減することを示した。 これにより、GPUアクセラレーションされた直接ボリュームレンダラーに推定器を埋め込むことができ、選択されたドメインポイントに対するすべての相互依存関係をインタラクティブに視覚化することができる。

We present the first neural network that has learned to compactly represent and can efficiently reconstruct the statistical dependencies between the values of physical variables at different spatial locations in large 3D simulation ensembles. Going beyond linear dependencies, we consider mutual information as a measure of non-linear dependence. We demonstrate learning and reconstruction with a large weather forecast ensemble comprising 1000 members, each storing multiple physical variables at a 250 x 352 x 20 simulation grid. By circumventing compute-intensive statistical estimators at runtime, we demonstrate significantly reduced memory and computation requirements for reconstructing the major dependence structures. This enables embedding the estimator into a GPU-accelerated direct volume renderer and interactively visualizing all mutual dependencies for a selected domain point.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# デコヒーレンスを考慮したコヒーレント拡散1次元系の普遍安定性

Universal stability of coherently diffusive 1D systems with respect to decoherence ( http://arxiv.org/abs/2307.05656v3 )

ライセンス: Link先を確認
F. S. Lozano-Negro, E. Alvarez Navarro, N. C. Chávez, F. Mattiotti, F. Borgonovi, H. M. Pastawski, G. L. Celardo, (参考訳) 3次元結晶の静的障害は、局所的な状態を生み出すまで理想的な弾道力学を劣化させる。 この金属絶縁体転移はコヒーレント拡散に先行することが多い。 Harper-Hofstadter-Aubry-Andr\'e と Fibonacci の密結合鎖とパワーバンドランダム行列モデルという3つのパラダイム的 1D モデルを研究することにより、コヒーレント拡散が存在する場合、輸送はデコヒーレントノイズに対して例外的に安定であることを示す。 これは、拡散係数が環境デコヒーレンスに強く依存する、コヒーレントな弾道的および局所的なダイナミクスに何が起こるかと完全に一致している。 拡散係数は、コヒーレンス時間が平均弾性散乱時間に匹敵するまでほぼ非コヒーレンス非依存のままである。 したがって、量子拡散状態を持つシステムは、堅牢な量子ワイヤの設計に使用できる。 さらに、我々の結果は、多くの生物学的システムの機能に新たな光を当てるかもしれない。

Static disorder in a 3D crystal degrades the ideal ballistic dynamics until it produces a localized regime. This Metal-Insulator Transition is often preceded by coherent diffusion. By studying three paradigmatic 1D models, namely the Harper-Hofstadter-Aubry-Andr\'e and Fibonacci tight-binding chains, along with the power-banded random matrix model, we show that whenever coherent diffusion is present, transport is exceptionally stable against decoherent noise. This is completely at odds with what happens for coherently ballistic and localized dynamics, where the diffusion coefficient strongly depends on the environmental decoherence. A universal dependence of the diffusion coefficient on the decoherence strength is analytically derived: the diffusion coefficient remains almost decoherence-independent until the coherence time becomes comparable with the mean elastic scattering time. Thus, systems with a quantum diffusive regime could be used to design robust quantum wires. Moreover our results might shed new light on the functionality of many biological systems, which often operate at the border between the ballistic and localized regimes.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# 混合サンプルデータ拡張の効果はクラス依存である

The Effects of Mixed Sample Data Augmentation are Class Dependent ( http://arxiv.org/abs/2307.09136v2 )

ライセンス: Link先を確認
Haeil Lee, Hansang Lee, Junmo Kim, (参考訳) Mixup、CutMix、PuzzleMixなどのMixed Sample Data Augmentation (MSDA)技術は、様々なタスクのパフォーマンス向上に広く認識されている。 前回の研究では、従来のデータ拡張(DA)のクラス依存性を報告した。 本稿では,MSDAのクラス依存効果を明らかにし,クラスによっては性能が向上し,他のクラスでは性能が劣化していることを示す。 本研究は,MSDAにおけるクラス依存の問題に対処し,その軽減のためのアルゴリズムを提案する。 このアプローチでは、MSDAと非MSDAデータの混合をトレーニングすることで、影響を受けるクラスに対する負の影響を軽減するだけでなく、全体的な精度も向上する。 さらに、MSDAがなぜクラス依存を導入したのか、どのクラスがそれを持つ可能性が高いのかを詳細に分析し、議論する。

Mixed Sample Data Augmentation (MSDA) techniques, such as Mixup, CutMix, and PuzzleMix, have been widely acknowledged for enhancing performance in a variety of tasks. A previous study reported the class dependency of traditional data augmentation (DA), where certain classes benefit disproportionately compared to others. This paper reveals a class dependent effect of MSDA, where some classes experience improved performance while others experience degraded performance. This research addresses the issue of class dependency in MSDA and proposes an algorithm to mitigate it. The approach involves training on a mixture of MSDA and non-MSDA data, which not only mitigates the negative impact on the affected classes, but also improves overall accuracy. Furthermore, we provide in-depth analysis and discussion of why MSDA introduced class dependencies and which classes are most likely to have them.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# 量子エラー訂正のためのハードウェア接続要件を緩和するTangling schedules

Tangling schedules eases hardware connectivity requirements for quantum error correction ( http://arxiv.org/abs/2307.10147v3 )

ライセンス: Link先を確認
Gyorgy P. Geher, Ophelia Crawford, Earl T. Campbell, (参考訳) 量子コンピュータは、計算問題の解法を変える可能性がある。 量子ビットのノイズの性質のため、計算中に発生する物理誤差を修正する必要がある。 サーフェスコードは、高いしきい値を示し、既に存在するタイプのデバイスである平方グリッド接続を持つハードウェアに論理量子状態を保存できるようなエラー訂正の候補である。 しかし、論理量子計算には不規則で非局所的な安定化器の測定が必要であり、ハードウェアの接続性を変更することなくその方法が現在分かっていない。 ここでは、フォールトトレラント量子計算の経路におけるこのギャップを埋めて、これを実現する方法を提案する。 本稿では,遠方量子ビット間の観測可能性の測定が可能なタングルドシンドローム抽出回路を提案する。 本手法の適用例として,ハードウェア自体を物理的に変更することなく,前述の不規則な非局所安定化器の計測方法を示す。 本稿では,平面コードを用いた一般的な格子手術を可能にする具体的なスキームを提案する。 したがって、タングリングは正方形グリッド接続アーキテクチャ上の曲面コードを用いて、フォールトトレラントな論理量子計算を可能にする。

Quantum computers have the potential to change the way we solve computational problems. Due to the noisy nature of qubits, the need arises to correct physical errors occurring during computation. The surface code is a promising candidate for such error correction that shows high threshold and which can store a logical quantum state on hardware with square-grid connectivity, a type of device that already exists. However, for logical quantum computation, the measurement of some irregular, non-local stabilisers is required, and it is not currently known how to do this without modifying the connectivity of the hardware. Here, we present a method to achieve this, closing this gap on the path to fault-tolerant quantum computation. We introduce a method of tangled syndrome extraction circuits, which enables measurement of observables between distant qubits. As an application of our tangling technique, we show how to measure the aforementioned irregular non-local stabilisers, without physically modifying the hardware itself. We present a concrete scheme that enables general lattice surgery with the planar code. Therefore, tangling enables fault-tolerant logical quantum computation using the surface code on square-grid connectivity architectures.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# 完全エンタングル回路の特性, 実装, 応用

Characteristics, Implementation and Applications of Special Perfect Entangler Circuits ( http://arxiv.org/abs/2307.12599v4 )

ライセンス: Link先を確認
M. Karthick Selvan, S. Balakrishnan, (参考訳) 特殊完全エンタングルの特性を考察し、特殊完全エンタングルと局所的に等価な単一パラメータ2量子回路を構成する。 本稿では、相互共振相互作用を用いた回路の実装から得られた結果について述べ、それらの応用について議論する。 まず、2量子ゲートの非局所部分の平方固有値のアーガン図に現れる弦を用いて、2量子ゲートが絡み合った状態を生成する能力を記述する。 2ビットゲートの絡み合う力は、弦の平均2乗長に比例することを示す。 我々は、これらに関連付けられたアーガンド図から、特殊完全エンタングルの絡み合い特性を推定する。 我々は,9つの異なる回路パラメータに対して,エコー共振ゲートとパルスレベルプログラミングを用いた特別な完全エンタングル回路を実装した。 特定の入力状態に対して、量子状態トモグラフィーを行い、得られた出力密度行列の状態忠実度と一致度を算出する。 また,Bゲート回路の平均ゲート忠実度を測定した。 特殊完全エンタングル回路を用いて2つの普遍2量子ビット量子回路を構築する。 これらの普遍回路は、全ての2ビットゲートを生成するのに使うことができる。 我々は、(n-1)Bゲート回路を用いて、n-qubit GHZと完全W状態を生成することを示す。 3量子完全 W 状態を生成する。 パルスレベルプログラミングを用いて生成された完全W状態は、エコー共振ゲートを用いて生成された状態よりも忠実である。

We discuss the characteristics of special perfect entanglers and construct single parameter two-qubit circuits which are locally equivalent to special perfect entanglers. We present the results obtained from the implementation of one of the circuits using cross-resonance interaction and discuss their applications. First, we show that the ability of two-qubit gates to create entangled states can be described using the chords present in the argand diagram of squared eigenvalues of nonlocal part of two-qubit gates. We show that the entangling power of a two-qubit gate is proportional to the mean squared length of the chords. We deduce the entangling characteristics of special perfect entanglers from the argand diagram associated with them. We implement a special perfect entangler circuit using echoed cross-resonance gate and pulse-level programming for nine different circuit parameters. For a particular input state, we perform quantum state tomography and calculate state fidelity and concurrence of the obtained output density matrices. We also measure the average gate fidelity for B gate circuit. We construct two universal two-qubit quantum circuits using the special perfect entangler circuits. These universal circuits can be used to generate all two-qubit gates. We show that (n-1) B gate circuits can be used to generate n-qubit GHZ and perfect W states. We generate three-qubit perfect W state. Perfect W state generated using pulse-level programming shows better fidelity than the state generated using echoed cross-resonance gate.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# 任意数のビザンチン系アタッカーを用いた高次元分布勾配発振

High Dimensional Distributed Gradient Descent with Arbitrary Number of Byzantine Attackers ( http://arxiv.org/abs/2307.13352v2 )

ライセンス: Link先を確認
Puning Zhao, Zhiguo Wan, (参考訳) ビザンツの失敗によるロバストな分散学習は近年、広範な研究の関心を集めている。 しかし、既存の手法のほとんどは次元の呪いに悩まされており、現代の機械学習モデルの複雑さが増すにつれ、ますます深刻なものになっている。 本稿では,ビザンツ人攻撃者の任意個数で,高次元問題に適した新しい手法を設計する。 我々の設計の中核は、直接高次元半検証平均推定法である。 我々の考えは、まず部分空間を特定することである。 この部分空間に垂直な平均値の成分は、ワーカマシンからアップロードされた勾配ベクトルによって推定できる。 次に、分散学習問題の集合体として、新しい手法を用いる。 理論解析により,本手法は最小最適統計率を有することが示された。 特に、従来の作品に比べて寸法依存性は著しく改善されている。

Robust distributed learning with Byzantine failures has attracted extensive research interests in recent years. However, most of existing methods suffer from curse of dimensionality, which is increasingly serious with the growing complexity of modern machine learning models. In this paper, we design a new method that is suitable for high dimensional problems, under arbitrary number of Byzantine attackers. The core of our design is a direct high dimensional semi-verified mean estimation method. Our idea is to identify a subspace first. The components of mean value perpendicular to this subspace can be estimated via gradient vectors uploaded from worker machines, while the components within this subspace are estimated using auxiliary dataset. We then use our new method as the aggregator of distributed learning problems. Our theoretical analysis shows that the new method has minimax optimal statistical rates. In particular, the dependence on dimensionality is significantly improved compared with previous works.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# 多目的ヨルバ音声コーパス

ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus ( http://arxiv.org/abs/2307.16071v2 )

ライセンス: Link先を確認
Tolulope Ogunremi, Kola Tubosun, Anuoluwapo Aremu, Iroro Orife, David Ifeoluwa Adelani, (参考訳) 高品質なYor\`{u}b\'{a}音声データに影響を及ぼす新しいコーパスである ‘`{I}r\`{o}y\`{i}nSpeech を導入する。 オープン・ライセンスCC-BY-4.0でニュース・クリエイティブ・ライティング・ドメインから約23,000のテキストをキュレートした。 データ作成への参加的アプローチを促進するために、Yor\`{u}b\'{a} 音声データの録音と検証をクラウドソースするために、5000のキュレートされた文をMozilla Common Voiceプラットフォームに提供します。 合計して、80人のボランティアが社内で記録した約42時間の音声データと、Mozilla Common Voiceプラットフォーム上で検証された6時間の録音を作成しました。 TTSの評価は,高忠実で汎用的な単一話者Yor\`{u}b\'{a}音声が5時間以内の音声で可能であることを示唆している。 同様に、ASRでは23.8のベースライン単語誤り率(WER)を得た。

We introduce \`{I}r\`{o}y\`{i}nSpeech, a new corpus influenced by the desire to increase the amount of high quality, contemporary Yor\`{u}b\'{a} speech data, which can be used for both Text-to-Speech (TTS) and Automatic Speech Recognition (ASR) tasks. We curated about 23000 text sentences from news and creative writing domains with the open license CC-BY-4.0. To encourage a participatory approach to data creation, we provide 5000 curated sentences to the Mozilla Common Voice platform to crowd-source the recording and validation of Yor\`{u}b\'{a} speech data. In total, we created about 42 hours of speech data recorded by 80 volunteers in-house, and 6 hours of validated recordings on Mozilla Common Voice platform. Our TTS evaluation suggests that a high-fidelity, general domain, single-speaker Yor\`{u}b\'{a} voice is possible with as little as 5 hours of speech. Similarly, for ASR we obtained a baseline word error rate (WER) of 23.8.
翻訳日:2024-03-28 23:12:22 公開日:2024-03-27
# ストリートビュー映像系列を用いた交通分析のための時間空間図の自動構築

Automated Construction of Time-Space Diagrams for Traffic Analysis Using Street-View Video Sequence ( http://arxiv.org/abs/2308.06098v2 )

ライセンス: Link先を確認
Tanay Rastogi, Mårten Björkman, (参考訳) 時間空間図は、交通パターンを分析し、交通インフラと交通管理戦略を最適化するための重要なツールである。 これらの図の伝統的なデータ収集方法は、時間的および空間的範囲の制限がある。 カメラ技術の最近の進歩は、これらの制限を克服し、広範な都市データを提供してきた。 本研究では,移動車に搭載されたカメラで撮影したストリートビュー映像系列を利用して,時間空間図を作成するための革新的な手法を提案する。 距離計算に最先端のYOLOv5,StrongSORT,フォトグラム計測技術を用いて,映像データから車両軌跡を推定し,時間空間図を生成する。 提案手法の有効性を評価するために,KITTIコンピュータビジョンベンチマークスイートのデータセットを利用した。 評価結果は,ビデオデータからトラジェクトリを生成することができることを示すが,検出器,トラッカー,距離計算部品の性能を向上させることで誤差を軽減できることを示した。 結論として、移動車に搭載されたカメラが捉えたストリートビュー映像シーケンスと、最先端のコンピュータビジョン技術を組み合わせることで、総合的な時間空間図を構築する大きな可能性を秘めている。 これらの図は交通パターンに関する貴重な洞察を与え、交通インフラや交通管理戦略の設計に貢献する。

Time-space diagrams are essential tools for analyzing traffic patterns and optimizing transportation infrastructure and traffic management strategies. Traditional data collection methods for these diagrams have limitations in terms of temporal and spatial coverage. Recent advancements in camera technology have overcome these limitations and provided extensive urban data. In this study, we propose an innovative approach to constructing time-space diagrams by utilizing street-view video sequences captured by cameras mounted on moving vehicles. Using the state-of-the-art YOLOv5, StrongSORT, and photogrammetry techniques for distance calculation, we can infer vehicle trajectories from the video data and generate time-space diagrams. To evaluate the effectiveness of our proposed method, we utilized datasets from the KITTI computer vision benchmark suite. The evaluation results demonstrate that our approach can generate trajectories from video data, although there are some errors that can be mitigated by improving the performance of the detector, tracker, and distance calculation components. In conclusion, the utilization of street-view video sequences captured by cameras mounted on moving vehicles, combined with state-of-the-art computer vision techniques, has immense potential for constructing comprehensive time-space diagrams. These diagrams offer valuable insights into traffic patterns and contribute to the design of transportation infrastructure and traffic management strategies.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# 消費者苦情の物語におけるNLPによる系統的異常の検出

NLP-based detection of systematic anomalies among the narratives of consumer complaints ( http://arxiv.org/abs/2308.11138v3 )

ライセンス: Link先を確認
Peiheng Gao, Ning Sun, Xuefeng Wang, Chen Yang, Ričardas Zitikis, (参考訳) そこで我々は,NLPをベースとした,系統的非商業的消費者苦情(単に系統的異常と呼ばれる)を検出する手法を開発した。 分類アルゴリズムは発音異常を検出するのに使用されるが、より小さく頻繁な体系的異常の場合、そのアルゴリズムは、技術的理由や人間のアナリストの自然な制限など、様々な理由により、混乱する可能性がある。 そこで, 分類後の次のステップとして, 苦情を定量的なデータに変換し, 系統的異常を検出するアルゴリズムを用いて分析する。 本稿では, 消費者金融保護局の消費者苦情データベース(Consumer Complaint Database)の苦情談話を用いて, 全手順について解説する。

We develop an NLP-based procedure for detecting systematic nonmeritorious consumer complaints, simply called systematic anomalies, among complaint narratives. While classification algorithms are used to detect pronounced anomalies, in the case of smaller and frequent systematic anomalies, the algorithms may falter due to a variety of reasons, including technical ones as well as natural limitations of human analysts. Therefore, as the next step after classification, we convert the complaint narratives into quantitative data, which are then analyzed using an algorithm for detecting systematic anomalies. We illustrate the entire procedure using complaint narratives from the Consumer Complaint Database of the Consumer Financial Protection Bureau.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# CARE: 共同エンティティと関係抽出のためのコアテンションネットワーク

CARE: Co-Attention Network for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2308.12531v2 )

ライセンス: Link先を確認
Wenjun Kong, Yamei Xia, (参考訳) 統合エンティティと関係抽出は、名前付きエンティティ認識と関係抽出という2つのサブタスクからなる情報抽出の基本的なタスクである。 しかし,既存の関節抽出法の多くは,2つのサブタスク間の特徴的混乱や不適切な相互作用の問題に悩まされている。 本稿では,これらの課題に対処するため,共同エンティティと関係抽出(CARE)のためのコ・アテンション・ネットワークを提案する。 提案手法では,各サブタスク毎に異なる表現を学習するための並列符号化方式を採用し,機能の重複や混乱を回避することを目的としている。 提案手法のコアとなるのは,2つのサブタスク間の双方向の相互作用を捕捉するコアテンションモジュールである。 結合エンティティと関係抽出のための3つのベンチマークデータセット(NYT,WebNLG,SciERC)の広範な実験を通じて,提案モデルが既存のベースラインモデルより優れていることを示す。 私たちのコードはhttps://github.com/kwj0x7f/CAREで公開されます。

Joint entity and relation extraction is the fundamental task of information extraction, consisting of two subtasks: named entity recognition and relation extraction. However, most existing joint extraction methods suffer from issues of feature confusion or inadequate interaction between the two subtasks. Addressing these challenges, in this work, we propose a Co-Attention network for joint entity and Relation Extraction (CARE). Our approach includes adopting a parallel encoding strategy to learn separate representations for each subtask, aiming to avoid feature overlap or confusion. At the core of our approach is the co-attention module that captures two-way interaction between the two subtasks, allowing the model to leverage entity information for relation prediction and vice versa, thus promoting mutual enhancement. Through extensive experiments on three benchmark datasets for joint entity and relation extraction (NYT, WebNLG, and SciERC), we demonstrate that our proposed model outperforms existing baseline models. Our code will be available at https://github.com/kwj0x7f/CARE.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# LCANets++: 横方向競合を持つ多層ニューラルネットワークを用いたロバスト音声分類

LCANets++: Robust Audio Classification using Multi-layer Neural Networks with Lateral Competition ( http://arxiv.org/abs/2308.12882v2 )

ライセンス: Link先を確認
Sayanton V. Dibbo, Juston S. Moore, Garrett T. Kenyon, Michael A. Teti, (参考訳) 音声分類は、音声コマンドや音声イベントを含む音声信号の認識を目的としている。 しかし、現在の音声分類器は摂動や敵対攻撃の影響を受けやすい。 さらに、実世界の音声分類タスクはラベル付きデータに制限されることが多い。 これらのギャップを埋めるために、以前の研究はコンピュータビジョンのための第1層(すなわちLCANet)の局所競合アルゴリズム(LCA)によるスパースコーディングを備えた神経インスパイアされた畳み込みニューラルネットワーク(CNN)を開発した。 LCANetは教師付き学習と教師なし学習の組み合わせで学習し、ラベル付きサンプルへの依存を減らす。 聴覚野もスパースであるという事実に触発され、LCANetsを音声認識タスクに拡張し、LCAを介して複数の層でスパースコーディングを行うCNNであるLCANets++を導入する。 我々は、LCANets++が通常のCNNやLCANetよりも、例えば、バックグラウンドノイズ、ブラックボックスやホワイトボックスアタック、例えば、回避や高速勾配標識(FGSM)アタックに対して堅牢であることを示した。

Audio classification aims at recognizing audio signals, including speech commands or sound events. However, current audio classifiers are susceptible to perturbations and adversarial attacks. In addition, real-world audio classification tasks often suffer from limited labeled data. To help bridge these gaps, previous work developed neuro-inspired convolutional neural networks (CNNs) with sparse coding via the Locally Competitive Algorithm (LCA) in the first layer (i.e., LCANets) for computer vision. LCANets learn in a combination of supervised and unsupervised learning, reducing dependency on labeled samples. Motivated by the fact that auditory cortex is also sparse, we extend LCANets to audio recognition tasks and introduce LCANets++, which are CNNs that perform sparse coding in multiple layers via LCA. We demonstrate that LCANets++ are more robust than standard CNNs and LCANets against perturbations, e.g., background noise, as well as black-box and white-box attacks, e.g., evasion and fast gradient sign (FGSM) attacks.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# 一般化境界:情報理論とPAC-Bayes

Generalization Bounds: Perspectives from Information Theory and PAC-Bayes ( http://arxiv.org/abs/2309.04381v2 )

ライセンス: Link先を確認
Fredrik Hellström, Giuseppe Durisi, Benjamin Guedj, Maxim Raginsky, (参考訳) 理論的機械学習の基本的な問題は一般化である。 過去数十年にわたって、PAC-Bayesianアプローチは、機械学習アルゴリズムの一般化能力に対処し、新しいものを設計するための柔軟なフレームワークとして確立されてきた。 近年、ディープニューラルネットワークを含むさまざまな学習アルゴリズムの適用可能性から、関心が高まっている。 並行して、一般化に関する情報理論的な視点が発達し、一般化と様々な情報対策の関係が確立された。 このフレームワークはPAC-ベイジアンアプローチと密接に結びついており、両方の鎖で独立に多くの結果が発見されている。 このモノグラフでは、この強い接続を強調し、PAC-ベイジアンおよび情報理論の一般化境界を統一的に扱う。 本稿では,2つの視点が共通する手法と結果を提示し,異なるアプローチと解釈について議論する。 特に、この領域の証明がモジュラー構造を共有しているかを示す。 我々は、条件付き相互情報(CMI)フレームワーク、学習アルゴリズムの情報複雑性の分析研究、提案手法の深層学習への応用に特に注目する。 このモノグラフは、情報理論の一般化境界とPAC-Bayesとの関係を包括的に紹介することを目的としており、最新の開発が利用できる基盤となっている。 一般化と理論的機械学習に関心を持つ研究者を対象とする。

A fundamental question in theoretical machine learning is generalization. Over the past decades, the PAC-Bayesian approach has been established as a flexible framework to address the generalization capabilities of machine learning algorithms, and design new ones. Recently, it has garnered increased interest due to its potential applicability for a variety of learning algorithms, including deep neural networks. In parallel, an information-theoretic view of generalization has developed, wherein the relation between generalization and various information measures has been established. This framework is intimately connected to the PAC-Bayesian approach, and a number of results have been independently discovered in both strands. In this monograph, we highlight this strong connection and present a unified treatment of PAC-Bayesian and information-theoretic generalization bounds. We present techniques and results that the two perspectives have in common, and discuss the approaches and interpretations that differ. In particular, we demonstrate how many proofs in the area share a modular structure, through which the underlying ideas can be intuited. We pay special attention to the conditional mutual information (CMI) framework; analytical studies of the information complexity of learning algorithms; and the application of the proposed methods to deep learning. This monograph is intended to provide a comprehensive introduction to information-theoretic generalization bounds and their connection to PAC-Bayes, serving as a foundation from which the most recent developments are accessible. It is aimed broadly towards researchers with an interest in generalization and theoretical machine learning.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# A2V:2相訓練血管造影-心電図変換による脳血管分割のための半監督的ドメイン適応フレームワーク

A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation ( http://arxiv.org/abs/2309.06075v2 )

ライセンス: Link先を確認
Francesco Galati, Daniele Falcetta, Rosa Cortese, Barbara Casolla, Ferran Prados, Ninon Burgos, Maria A. Zuluaga, (参考訳) 画像の異なる脳血管セグメンテーションのための半教師付きドメイン適応フレームワークを提案する。 既存の最先端の手法は、利用可能な脳血管画像技術が広範囲にあるにもかかわらず、単一のモダリティに焦点を当てている。 これは、モダリティ間の一般化に悪影響を及ぼす大きな分布シフトをもたらす可能性がある。 アノテーション付血管造影と限られた数の血管造影に頼って画像から画像への翻訳とセマンティックセマンティックセグメンテーションを実現し、不均一なデータを表現し、ソースからターゲットドメインへの画像レベルの適応を行う。 さらに、サイクルベースアーキテクチャの典型的な複雑さを減らし、敵対的トレーニングの使用を最小限に抑え、安定したトレーニングを伴う効率的で直感的なモデルを構築することができる。 我々は磁気共鳴血管造影法と血管造影法について検討した。 本手法は,ソース領域における最先端性能を達成する一方で,目標領域におけるDiceスコア係数をわずか8.9%以下で達成し,脳血管画像の高機能化の可能性を強調した。

We present a semi-supervised domain adaptation framework for brain vessel segmentation from different image modalities. Existing state-of-the-art methods focus on a single modality, despite the wide range of available cerebrovascular imaging techniques. This can lead to significant distribution shifts that negatively impact the generalization across modalities. By relying on annotated angiographies and a limited number of annotated venographies, our framework accomplishes image-to-image translation and semantic segmentation, leveraging a disentangled and semantically rich latent space to represent heterogeneous data and perform image-level adaptation from source to target domains. Moreover, we reduce the typical complexity of cycle-based architectures and minimize the use of adversarial training, which allows us to build an efficient and intuitive model with stable training. We evaluate our method on magnetic resonance angiographies and venographies. While achieving state-of-the-art performance in the source domain, our method attains a Dice score coefficient in the target domain that is only 8.9% lower, highlighting its promising potential for robust cerebrovascular image segmentation across different modalities.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# 半導体製造における教師なし故障検出のための時系列データの生成前評価

Generative Pre-Training of Time-Series Data for Unsupervised Fault Detection in Semiconductor Manufacturing ( http://arxiv.org/abs/2309.11427v2 )

ライセンス: Link先を確認
Sewoong Lee, JinKyou Choi, Min Su Kim, (参考訳) 本稿では,畳み込み・生成事前学習型変換器を用いた時系列異常検出のためのTRACE-GPTを提案する。 TRACE-GPTは、単変量時系列センサデータを事前訓練し、半導体製造におけるラベルなしデータセット上の障害を検出するように設計されている。 半導体産業では、ウエハ欠陥に直接関係しているため、正常データから異常時系列センサデータを分類することが重要である。 しかし、十分な異常のない小さな、ラベルなし、さらには混合トレーニングデータさえも、分類タスクを困難にしている。 本研究では,時間的畳み込み埋め込みと生成事前学習変換器(GPT)を用いた時系列データの特徴を抽出し,クロスエントロピー損失を用いた正規シーケンスから異常シーケンスを分類する。 我々は,オープンデータセット,カリフォルニア大学リバーサイド校(UCR)時系列分類アーカイブ,CVD機器のプロセスログの両方を用いて,従来の教師なしモデルよりも優れた性能を示すことを示す。 私たちのモデルは、すべてのデータセットでEER(Equal Error Rate)が最も高いF1スコアを持ち、オープンデータセットの監督された最先端ベースラインよりわずか0.026低い。

This paper introduces TRACE-GPT, which stands for Time-seRies Anomaly-detection with Convolutional Embedding and Generative Pre-trained Transformers. TRACE-GPT is designed to pre-train univariate time-series sensor data and detect faults on unlabeled datasets in semiconductor manufacturing. In semiconductor industry, classifying abnormal time-series sensor data from normal data is important because it is directly related to wafer defect. However, small, unlabeled, and even mixed training data without enough anomalies make classification tasks difficult. In this research, we capture features of time-series data with temporal convolutional embedding and Generative Pre-trained Transformer (GPT) to classify abnormal sequences from normal sequences using cross entropy loss. We prove that our model shows better performance than previous unsupervised models with both an open dataset, the University of California Riverside (UCR) time-series classification archive, and the process log of our Chemical Vapor Deposition (CVD) equipment. Our model has the highest F1 score at Equal Error Rate (EER) across all datasets and is only 0.026 below the supervised state-of-the-art baseline on the open dataset.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# グラフにおけるコミュニティ検出の概観

A Comprehensive Review of Community Detection in Graphs ( http://arxiv.org/abs/2309.11798v3 )

ライセンス: Link先を確認
Jiakang Li, Songning Lai, Zhihao Shuai, Yuan Tan, Yifan Jia, Mianyang Yu, Zichen Song, Xiaokang Peng, Ziyang Xu, Yongxin Ni, Haifeng Qiu, Jiayu Yang, Yutong Liu, Yonggang Lu, (参考訳) 複雑なネットワークの研究は、実世界のグラフの重要な特徴となるコミュニティ構造の理解を著しく前進させてきた。 グラフ内のコミュニティを検出することは、社会学、生物学、計算機科学の応用において難しい問題である。 学際的な科学者コミュニティの努力にもかかわらず、この問題に対する十分な解決策はまだ得られていない。 この記事では、モジュラリティに基づく手法、スペクトルクラスタリング、確率論的モデリング、ディープラーニングの観点から、様々なコミュニティ検出手法の徹底的な説明として機能するグラフにおけるコミュニティ検出のトピックについて論じる。 また,提案手法とともに,私たちによって設計されたコミュニティ検出手法についても紹介する。 さらに,これらの手法の真理と非真理のデータセット上での性能を比較した。 結論として、この包括的なレビューは、グラフにおけるコミュニティ検出の深い理解を提供する。

The study of complex networks has significantly advanced our understanding of community structures which serves as a crucial feature of real-world graphs. Detecting communities in graphs is a challenging problem with applications in sociology, biology, and computer science. Despite the efforts of an interdisciplinary community of scientists, a satisfactory solution to this problem has not yet been achieved. This review article delves into the topic of community detection in graphs, which serves as a thorough exposition of various community detection methods from perspectives of modularity-based method, spectral clustering, probabilistic modelling, and deep learning. Along with the methods, a new community detection method designed by us is also presented. Additionally, the performance of these methods on the datasets with and without ground truth is compared. In conclusion, this comprehensive review provides a deep understanding of community detection in graphs.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# GlotScript: 低リソース記述システム識別のためのリソースとツール

GlotScript: A Resource and Tool for Low Resource Writing System Identification ( http://arxiv.org/abs/2309.13320v2 )

ライセンス: Link先を確認
Amir Hossein Kargaran, François Yvon, Hinrich Schütze, (参考訳) 本稿では,低リソース記述システム識別のためのオープンリソースおよびツールであるGlotScriptを紹介する。 GlotScript-Rは7000以上の言語に対して証明済みの書記システムを提供するリソースである。 既存の書記システムリソースから情報を集約してコンパイルする。 GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。 入力テキストに対して、ISO 15924コードでスクリプトが識別されるスクリプト配布を返却する。 また、GlotScriptのユースケースを2つ提示します。 まず、GlotScriptがmC4やOSCARといった多言語コーパスのクリーニングに役立つことを実証する。 第2に,GlotScript を用いた GPT-4 などの言語モデルのトークン化を解析し,各言語モデルによる低リソーススクリプトおよび言語カバレッジに関する洞察を提供する。 私たちは、GlotScriptがNLPコミュニティで低リソース言語に取り組む上で有用なリソースになることを望んでいます。 GlotScript-RとGlotScript-Tはhttps://github.com/cisnlp/GlotScriptで入手できる。

We present GlotScript, an open resource and tool for low resource writing system identification. GlotScript-R is a resource that provides the attested writing systems for more than 7,000 languages. It is compiled by aggregating information from existing writing system resources. GlotScript-T is a writing system identification tool that covers all 161 Unicode 15.0 scripts. For an input text, it returns its script distribution where scripts are identified by ISO 15924 codes. We also present two use cases for GlotScript. First, we demonstrate that GlotScript can help cleaning multilingual corpora such as mC4 and OSCAR. Second, we analyze the tokenization of a number of language models such as GPT-4 using GlotScript and provide insights on the coverage of low resource scripts and languages by each language model. We hope that GlotScript will become a useful resource for work on low resource languages in the NLP community. GlotScript-R and GlotScript-T are available at https://github.com/cisnlp/GlotScript.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# テキストからソースへ:大規模言語モデル生成コンテンツの検出結果

From Text to Source: Results in Detecting Large Language Model-Generated Content ( http://arxiv.org/abs/2309.13322v2 )

ライセンス: Link先を確認
Wissam Antoun, Benoît Sagot, Djamé Seddah, (参考訳) 言語モデル(LLM)の広汎な利用は、人間のようなテキストを生成する能力で祝われ、誤情報や倫理的意味に関する懸念を提起している。 これらの懸念に対処するには、LSMによって生成されたテキストを検出し、属性付けするための堅牢な方法の開発が必要である。 本稿では,LLM生成テキストと人文テキストを区別するために訓練された分類器が,それ以上の訓練を行なわずに目標LLMからテキストを検出することができるかどうかを評価することで,Cross-Model Detectionについて検討する。 本研究は,様々なLLMサイズと家族を包括的に検討し,対話型微調整技術,量子化,透かしが分類器の一般化に与える影響を評価する。 この研究では、量化と透かし検出に加えて、ソースモデル識別、モデルファミリー、モデルサイズ分類を含むモデル属性についても検討している。 分類器の有効性とモデルサイズとの間には明確な逆関係があり,特により小さなモデルからのデータに基づいて分類器を訓練する場合,より大きなLLMの検出が困難である。 同様のサイズのLLMからのデータによるトレーニングは、より大きなモデルからの検出性能を向上させることができるが、より小さなモデルを扱う際には性能が低下する可能性がある。 さらに、モデル属性実験は、LLM生成テキスト中の検出可能なシグネチャを強調し、特にウォーターマーキング検出において顕著な結果を示すとともに、量子化の検出可能なシグネチャは観察されなかった。 本研究は,LLM検出および帰属におけるモデルサイズ,家族,およびトレーニングデータの相互作用に関する貴重な知見を提供する。

The widespread use of Large Language Models (LLMs), celebrated for their ability to generate human-like text, has raised concerns about misinformation and ethical implications. Addressing these concerns necessitates the development of robust methods to detect and attribute text generated by LLMs. This paper investigates "Cross-Model Detection," by evaluating whether a classifier trained to distinguish between source LLM-generated and human-written text can also detect text from a target LLM without further training. The study comprehensively explores various LLM sizes and families, and assesses the impact of conversational fine-tuning techniques, quantization, and watermarking on classifier generalization. The research also explores Model Attribution, encompassing source model identification, model family, and model size classification, in addition to quantization and watermarking detection. Our results reveal several key findings: a clear inverse relationship between classifier effectiveness and model size, with larger LLMs being more challenging to detect, especially when the classifier is trained on data from smaller models. Training on data from similarly sized LLMs can improve detection performance from larger models but may lead to decreased performance when dealing with smaller models. Additionally, model attribution experiments show promising results in identifying source models and model families, highlighting detectable signatures in LLM-generated text, with particularly remarkable outcomes in watermarking detection, while no detectable signatures of quantization were observed. Overall, our study contributes valuable insights into the interplay of model size, family, and training data in LLM detection and attribution.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# 分数量子ホール超伝導ヘテロ構造のパラフェミオン零モードのシグナチャ

Signatures of Parafermion Zero Modes in Fractional Quantum Hall-Superconductor Heterostructures ( http://arxiv.org/abs/2309.14411v2 )

ライセンス: Link先を確認
Junyi Cao, Angela Kou, Eduardo Fradkin, (参考訳) パラフェミオンゼロモードは、s波超伝導体で放射された$\nu=1/m$分数量子ホールエッジからなるハイブリッド構造で生じる。 ここでは、パラフェミオンとクーパー対トンネル、およびそのようなハイブリッド構造に形成される接合における後方散乱について考察する。 パラフェミオンのみのトンネルによる4.pi m$周期性は、後方散乱の有無で0温度で4.pi $-周期性、フェルミオンパリティが固定されない限り2.pi $-周期性に還元される。 それでも、パラフェルミオントンネルの明確なサインは、電流-位相関係の形で残っている。

Parafermion zero modes can arise in hybrid structures composed of $\nu=1/m$ fractional quantum Hall edges proximitized with an s-wave superconductor. Here we consider parafermion and Cooper pair tunneling, and backscattering in a junction formed in such hybrid structures. We find that the $4\pi m$ periodicity due to parafermion-only tunneling reduces, in the presence of backscattering, to $4\pi$-periodic at zero temperature and $2\pi$-periodic at finite temperature unless the fermion parity is fixed. Nevertheless, a clear signature of parafermion tunneling remains in the shape of the current-phase relation.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# 拡散モデルのより小さなステップへの蒸留ODE解法

Distilling ODE Solvers of Diffusion Models into Smaller Steps ( http://arxiv.org/abs/2309.16421v2 )

ライセンス: Link先を確認
Sanghwan Kim, Hao Tang, Fisher Yu, (参考訳) 抽象拡散モデル(Abstract Diffusion model)は、最近、生成モデルの新たなカテゴリとして注目されている。 その成功にもかかわらず、これらのモデルはサンプリング速度の遅い点で顕著な欠点に直面し、数百から数千の順序で大量の関数評価(NFE)を必要とする。 これに対し,学習不要と学習ベースの両方のサンプリング戦略が検討され,サンプリングプロセスの迅速化が図られた。 学習自由サンプリングは拡散ODEの定式化に基づく様々な常微分方程式(ODE)の解法を用いる。 しかし、特に小型のNFEにおいて、真のサンプリング軌道を忠実に追跡することは困難に直面している。 逆に、知識蒸留のような学習に基づくサンプリング手法は、その実践的適用性を制限し、広範な追加訓練を必要としている。 これらの制限を克服するために,D-ODEソルバ (D-ODE solver) を導入し, ODEソルバの定式化を基礎とした簡単な蒸留法を提案する。 本手法は学習自由サンプリングと学習ベースサンプリングの両方の長所をシームレスに統合する。 D-ODEソルバは、既存のODEソルバに単一のパラメータ調整を導入することで構成される。 さらに,D-ODEソルバをより小さなステップで最適化し,一組のサンプルに対してより大きなステップでODEソルバから知識を蒸留する手法を提案する。 包括的実験により, DDIM, PNDM, DPM-Solver, DEIS, EDMを含む既存のODEソルバと比較して, 特にNFEの少ないシナリオでは, D-ODEソルバの方が優れた性能を示した。 特に, 従来の蒸留法と比較して計算オーバーヘッドが無視できるため, 既存のサンプリング装置との直接的かつ迅速な統合が容易である。 定性的解析により、D-ODEソルバは画像品質を向上するだけでなく、ターゲットのODE軌道を忠実に追従することが明らかとなった。

Abstract Diffusion models have recently gained prominence as a novel category of generative models. Despite their success, these models face a notable drawback in terms of slow sampling speeds, requiring a high number of function evaluations (NFE) in the order of hundreds or thousands. In response, both learning-free and learning-based sampling strategies have been explored to expedite the sampling process. Learning-free sampling employs various ordinary differential equation (ODE) solvers based on the formulation of diffusion ODEs. However, it encounters challenges in faithfully tracking the true sampling trajectory, particularly for small NFE. Conversely, learning-based sampling methods, such as knowledge distillation, demand extensive additional training, limiting their practical applicability. To overcome these limitations, we introduce Distilled-ODE solvers (D-ODE solvers), a straightforward distillation approach grounded in ODE solver formulations. Our method seamlessly integrates the strengths of both learning-free and learning-based sampling. D-ODE solvers are constructed by introducing a single parameter adjustment to existing ODE solvers. Furthermore, we optimize D-ODE solvers with smaller steps using knowledge distillation from ODE solvers with larger steps across a batch of samples. Comprehensive experiments demonstrate the superior performance of D-ODE solvers compared to existing ODE solvers, including DDIM, PNDM, DPM-Solver, DEIS, and EDM, particularly in scenarios with fewer NFE. Notably, our method incurs negligible computational overhead compared to previous distillation techniques, facilitating straightforward and rapid integration with existing samplers. Qualitative analysis reveals that D-ODE solvers not only enhance image quality but also faithfully follow the target ODE trajectory.
翻訳日:2024-03-28 23:02:36 公開日:2024-03-27
# ABScribe:大規模言語モデルを用いた人間とAIの共筆作業における複数筆記変異の迅速探索と整理

ABScribe: Rapid Exploration & Organization of Multiple Writing Variations in Human-AI Co-Writing Tasks using Large Language Models ( http://arxiv.org/abs/2310.00117v4 )

ライセンス: Link先を確認
Mohi Reza, Nathan Laundry, Ilya Musabirov, Peter Dushniku, Zhi Yuan "Michael" Yu, Kashish Mittal, Tovi Grossman, Michael Liut, Anastasia Kuzminykh, Joseph Jay Williams, (参考訳) テキストの書き直しによる代替アイデアの探索は、記述プロセスに不可欠である。 State-of-the-art Large Language Models (LLMs) は、変更文の生成を簡単にする。 テキストを上書きせずに新しいバリエーションを作成することは困難であり、それらを逐次貼り付けることは文書を散らかすことができ、作業負荷を増大させ、ライターのフローを乱す。 ABScribeは、人間とAIの共筆タスクにおいて、迅速かつ視覚的に構造化された、書込みのバリエーションを探索し、組織化するためのインタフェースである。 ABScribeでは、再利用可能なボタンに自動変換されるLSMプロンプトを使用して、変更を迅速に修正することができる。 変化はテキストフィールドに隣接して格納され、ポップアップツールバー上のマウスオーバーインタラクションを用いた高速なインプレース比較を行う。 12名のライターによるユーザスタディでは、ABScribeはタスクの負荷(d = 1.20, p < 0.001)を著しく低減し、リビジョンプロセス(d = 2.41, p < 0.001)のユーザ認識を一般的なベースラインワークフローと比較して向上させ、LLMを用いたバリエーションの探索方法に関する洞察を提供する。

Exploring alternative ideas by rewriting text is integral to the writing process. State-of-the-art Large Language Models (LLMs) can simplify writing variation generation. However, current interfaces pose challenges for simultaneous consideration of multiple variations: creating new variations without overwriting text can be difficult, and pasting them sequentially can clutter documents, increasing workload and disrupting writers' flow. To tackle this, we present ABScribe, an interface that supports rapid, yet visually structured, exploration and organization of writing variations in human-AI co-writing tasks. With ABScribe, users can swiftly modify variations using LLM prompts, which are auto-converted into reusable buttons. Variations are stored adjacently within text fields for rapid in-place comparisons using mouse-over interactions on a popup toolbar. Our user study with 12 writers shows that ABScribe significantly reduces task workload (d = 1.20, p < 0.001), enhances user perceptions of the revision process (d = 2.41, p < 0.001) compared to a popular baseline workflow, and provides insights into how writers explore variations using LLMs.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# 視覚計画のための概念に基づく因果遷移とシンボリック推論

Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning ( http://arxiv.org/abs/2310.03325v2 )

ライセンス: Link先を確認
Yilue Qian, Peiyu Yu, Ying Nian Wu, Yao Su, Wei Wang, Lifeng Fan, (参考訳) ビジュアルプランニングは、人間が望ましい目標を達成するための決定を、初期視覚状態と最終視覚目標状態の間の視覚因果遷移を探索する形でシミュレートする。 複雑な環境で日々のタスクを行うエージェントを指導する上でのアドバンテージによって、エゴセントリックなビジョンにおいてますます重要になっている。 本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。 一 視覚的入力を不整合概念表現に抽象化する新規な代替型概念学習者(SCL) 二 自己学習記号による課題計画を行う記号抽象化及び推論 三 視覚因果遷移モデル(ViCT)で、視覚因果遷移を意味的に類似した現実世界の行動に基礎付ける。 初期状態が与えられた場合、学習された表現と因果遷移を刺激して目標状態に到達するシンボリック推論手法を用いてゴール条件付きビジュアルプランニングを行う。 提案モデルの有効性を検証するため,CCTPと呼ばれるAI2-THORに基づく大規模視覚計画データセットを収集する。 この挑戦的なデータセットに対する大規模な実験は、視覚的なタスク計画において、我々の手法の優れた性能を示す。 実験により、我々のフレームワークは、未確認のタスク軌跡、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを実証的に示す。 この作業の詳細はhttps://fqyqc.github.io/ConTranPlan/.com/で公開されている。

Visual planning simulates how humans make decisions to achieve desired goals in the form of searching for visual causal transitions between an initial visual state and a final visual goal state. It has become increasingly important in egocentric vision with its advantages in guiding agents to perform daily tasks in complex environments. In this paper, we propose an interpretable and generalizable visual planning framework consisting of i) a novel Substitution-based Concept Learner (SCL) that abstracts visual inputs into disentangled concept representations, ii) symbol abstraction and reasoning that performs task planning via the self-learned symbols, and iii) a Visual Causal Transition model (ViCT) that grounds visual causal transitions to semantically similar real-world actions. Given an initial state, we perform goal-conditioned visual planning with a symbolic reasoning method fueled by the learned representations and causal transitions to reach the goal state. To verify the effectiveness of the proposed model, we collect a large-scale visual planning dataset based on AI2-THOR, dubbed as CCTP. Extensive experiments on this challenging dataset demonstrate the superior performance of our method in visual task planning. Empirically, we show that our framework can generalize to unseen task trajectories, unseen object categories, and real-world data. Further details of this work are provided at https://fqyqc.github.io/ConTranPlan/.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# ディフプロンプター : 副次的条件における意味分離のための識別不能視覚プロンプター

DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions ( http://arxiv.org/abs/2310.04181v2 )

ライセンス: Link先を確認
Sanket Kalwar, Mihir Ungarala, Shruti Jain, Aaron Monis, Krishna Reddy Konda, Sourav Garg, K Madhava Krishna, (参考訳) 悪天候シナリオにおけるセマンティックセグメンテーションは、自律運転システムにとって重要な課題である。 基礎モデルは将来性を示しているが、より困難なシナリオを扱うためには、特別なアダプタの必要性が明らかになる。 DiffPrompterは、基礎モデルにおける既存アダプタの学習能力を拡大することを目的とした、新しい視覚的および潜時的プロンプト機構である。 提案した$\nabla$HFC画像処理ブロックは,特に悪天候条件下では,従来の手法が不十分な場合が多い。 さらに,視覚的プロンプトと潜伏的プロンプトの併用による学習の利点について検討し,この組み合わせがアウト・オブ・ディストリビューションのシナリオにおける性能を著しく向上させることを示した。 我々の微分可能視覚プロンプトは並列および直列アーキテクチャを利用してプロンプトを生成し、悪条件下でのオブジェクトセグメンテーションタスクを効果的に改善する。 総合的な実験と評価を通じて、我々のアプローチの有効性を支える実証的な証拠を提供する。 Project page at https://diffprompter.github.io.com

Semantic segmentation in adverse weather scenarios is a critical task for autonomous driving systems. While foundation models have shown promise, the need for specialized adaptors becomes evident for handling more challenging scenarios. We introduce DiffPrompter, a novel differentiable visual and latent prompting mechanism aimed at expanding the learning capabilities of existing adaptors in foundation models. Our proposed $\nabla$HFC image processing block excels particularly in adverse weather conditions, where conventional methods often fall short. Furthermore, we investigate the advantages of jointly training visual and latent prompts, demonstrating that this combined approach significantly enhances performance in out-of-distribution scenarios. Our differentiable visual prompts leverage parallel and series architectures to generate prompts, effectively improving object segmentation tasks in adverse conditions. Through a comprehensive series of experiments and evaluations, we provide empirical evidence to support the efficacy of our approach. Project page at https://diffprompter.github.io.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# オフライン・オンライン強化学習におけるアウト・オブ・ディストリビューションの計画

Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2310.05723v2 )

ライセンス: Link先を確認
Trevor McInroe, Adam Jelley, Stefano V. Albrecht, Amos Storkey, (参考訳) 静的データセットによるオフライン事前トレーニングに続いて、オンラインファインチューニング(オフラインからオフライン、あるいはOtO)は、現実世界のRLデプロイメントプロセスによくマッチするパラダイムである。 このシナリオでは、オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目的としている。 OtO設定における以前の研究は、オフラインRLアルゴリズムのポリシー制約機構によって導入されたバイアスの修正に重点を置いていた。 このような制約は、学習したポリシーをデータセットを収集した行動ポリシーに近く保ちますが、行動ポリシーが最適ではない場合、この制約はポリシーのパフォーマンスを不必要に制限する可能性があることを示します。 代わりに、オンラインデータ収集のメリットを最大化することを目的とした探索問題として、制約を廃止し、OtO RLを定めています。 OtO設定における固有報酬と UCB に基づく主要なオンライン RL 探索手法を最初に研究し、固有報酬が報酬-機能修正によるトレーニング不安定性を高め、UTB 法が筋電図であり、学習者がどのアンサンブルを用いて行動選択を行うかは不明確であることを示した。 次に,これらの問題を回避するために,配電所外(PTGOOD)を計画するアルゴリズムを導入する。 PTGOODは、行動方針によって訪れる可能性が低い比較的高水準の国家行動空間における探索を対象とする、非明視的な計画手順を使用している。 Conditional Entropy Bottleneckの概念を活用することで、PTGOODはオンラインで収集されたデータを奨励し、報酬を変更することなく最終的なデプロイメントポリシを改善するための新たな情報を提供する。 我々は、PTGOODがオンラインの微調整中にエージェントリターンを大幅に改善する連続制御タスクを経験的に示し、我々のベースラインの多くがいくつかの環境で示している最適政策収束を回避する。

Offline pretraining with a static dataset followed by online fine-tuning (offline-to-online, or OtO) is a paradigm well matched to a real-world RL deployment process. In this scenario, we aim to find the best-performing policy within a limited budget of online interactions. Previous work in the OtO setting has focused on correcting for bias introduced by the policy-constraint mechanisms of offline RL algorithms. Such constraints keep the learned policy close to the behavior policy that collected the dataset, but we show this can unnecessarily limit policy performance if the behavior policy is far from optimal. Instead, we forgo constraints and frame OtO RL as an exploration problem that aims to maximize the benefit of online data-collection. We first study the major online RL exploration methods based on intrinsic rewards and UCB in the OtO setting, showing that intrinsic rewards add training instability through reward-function modification, and UCB methods are myopic and it is unclear which learned-component's ensemble to use for action selection. We then introduce an algorithm for planning to go out-of-distribution (PTGOOD) that avoids these issues. PTGOOD uses a non-myopic planning procedure that targets exploration in relatively high-reward regions of the state-action space unlikely to be visited by the behavior policy. By leveraging concepts from the Conditional Entropy Bottleneck, PTGOOD encourages data collected online to provide new information relevant to improving the final deployment policy without altering rewards. We show empirically in several continuous control tasks that PTGOOD significantly improves agent returns during online fine-tuning and avoids the suboptimal policy convergence that many of our baselines exhibit in several environments.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# 一般化ロジット調整:基礎モデルにおけるラベルバイアスの除去による微調整モデルの校正

Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models ( http://arxiv.org/abs/2310.08106v3 )

ライセンス: Link先を確認
Beier Zhu, Kaihua Tang, Qianru Sun, Hanwang Zhang, (参考訳) CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。 しかし、ゼロショットのパフォーマンスは、完全に教師されたパフォーマンスよりも競争力が少ない。 したがって、性能を向上させるために、ダウンストリームタスクをよりよく適合させるために、微調整とアンサンブルが一般的に採用されている。 しかし、このような先行研究は基礎モデルに固有のバイアスを見落としていると論じる。 高度にバランスの取れないWebスケールのトレーニングセットのため、これらの基礎モデルは必然的に頻繁なセマンティクスに向かって歪められ、その後の微調整やアンサンブルはいまだに偏っている。 本研究では,基礎モデルのバイアスを系統的に検討し,提案手法の有効性を実証する。 基礎モデルのバイアス推定は、従来の長い尾の分類タスクのように、ほとんどのプレトレインデータが明示的にアクセスできないため、困難である。 この目的のために、GLAは基礎モデルの偏りを抑えるために最適化に基づくバイアス推定アプローチを採用している。 我々の研究は事前トレーニングの根本的な欠陥を解決しているため、提案したGLAは、ImageNetで1.5ppの精度向上、11のショットデータセットで1.4-4.6ppの大幅な平均改善、長い尾の分類で2.4ppの精度向上を達成している。 コードは \url{https://github.com/BeierZhu/GLA} にある。

Foundation models like CLIP allow zero-shot transfer on various tasks without additional training data. Yet, the zero-shot performance is less competitive than a fully supervised one. Thus, to enhance the performance, fine-tuning and ensembling are also commonly adopted to better fit the downstream tasks. However, we argue that such prior work has overlooked the inherent biases in foundation models. Due to the highly imbalanced Web-scale training set, these foundation models are inevitably skewed toward frequent semantics, and thus the subsequent fine-tuning or ensembling is still biased. In this study, we systematically examine the biases in foundation models and demonstrate the efficacy of our proposed Generalized Logit Adjustment (GLA) method. Note that bias estimation in foundation models is challenging, as most pre-train data cannot be explicitly accessed like in traditional long-tailed classification tasks. To this end, GLA has an optimization-based bias estimation approach for debiasing foundation models. As our work resolves a fundamental flaw in the pre-training, the proposed GLA demonstrates significant improvements across a diverse range of tasks: it achieves 1.5 pp accuracy gains on ImageNet, an large average improvement (1.4-4.6 pp) on 11 few-shot datasets, 2.4 pp gains on long-tailed classification. Codes are in \url{https://github.com/BeierZhu/GLA}.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# InferDPT:ブラックボックス大言語モデルのプライバシ保護推論

InferDPT: Privacy-Preserving Inference for Black-box Large Language Model ( http://arxiv.org/abs/2310.12214v6 )

ライセンス: Link先を確認
Meng Tong, Kejiang Chen, Jie Zhang, Yuang Qi, Weiming Zhang, Nenghai Yu, Tianwei Zhang, Zhikun Zhang, (参考訳) 大型言語モデル(LLM)は、ChatGPTと同様、テキスト生成タスクを非常に単純化している。 しかし、データ漏洩や不正なデータ収集などのプライバシーリスクへの懸念も持ち上がっている。 既存のプライバシ保護推論のソリューションは、計算時間と通信コストに関連する現実的な課題に直面している。 本稿では,テキスト生成における差分プライバシーを実装した,ブラックボックスLLMのプライバシ保護のための最初の実践的フレームワークであるInferDPTを提案する。 InferDPTは、2つの主要なモジュールから構成される:「摂動モジュール」は、指数的なメカニズムを利用して摂動的なプロンプトを生成し、ブラックボックスのLCMとのプライバシー保護推論を容易にし、"抽出モジュール"は知識の蒸留と検索拡張生成にインスパイアされ、摂動生成結果から一貫性のある一貫性のあるテキストを抽出し、テキスト生成を成功させる。 InferDPTの摂動モジュールに組み込まれた新たな差分プライバシー機構であるRANTEXTを導入し、そのプロンプト内でのTEXT摂動に対する「ランダム・アジャクティ」の概念を導入する。 3つのデータセットにわたる実験結果から、InferDPTのテキスト生成品質は非プライベートなGPT-4と同等であり、プライバシとユーティリティのトレードオフにおいて、RANTEXTは既存の最先端メカニズムであるSANTEXT+とCUSTEXT+を上回っていることが示されている。 プライバシーパラメータのepsilon値が6.0であっても、RANTEXTは埋め込みリビジョン攻撃に対して90%を超える平均プライバシー保護率を達成する。

Large language models (LLMs), like ChatGPT, have greatly simplified text generation tasks. However, they have also raised concerns about privacy risks such as data leakage and unauthorized data collection. Existing solutions for privacy-preserving inference face practical challenges related to computation time and communication costs. In this paper, we propose InferDPT, the first practical framework for the privacy-preserving Inference of black-box LLMs, implementing Differential Privacy in Text generation. InferDPT comprises two key modules: the "perturbation module" utilizes the exponential mechanism to generate a perturbed prompt, facilitating privacy-preserving inference with black-box LLMs, and the "extraction module", inspired by knowledge distillation and retrieval-augmented generation, extracts coherent and consistent text from the perturbed generation result, ensuring successful text generation completion. To address privacy concerns related to previous exponential mechanisms' susceptibility to embedding revision attacks, we introduce RANTEXT, a novel differential privacy mechanism integrated into the perturbation module of InferDPT, which introduces the concept of "RANdom adjacency" for TEXT perturbation within the prompt. Experimental results across three datasets demonstrate that the text generation quality of InferDPT is comparable to that of non-private GPT-4, and RANTEXT surpasses existing state-of-the-art mechanisms, namely, SANTEXT+ and CUSTEXT+ in the trade-off between privacy and utility. Even with an privacy parameter epsilon value of 6.0, RANTEXT achieves an average privacy protection rate exceeding 90% against embedding revision attacks, which is 0.58 times higher than that of SANTEXT+ and 3.35 times higher than that of CUSTEXT+.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# グローバル・バジェット・バランスによる二国間貿易におけるノンレグレット・ラーニング

No-Regret Learning in Bilateral Trade via Global Budget Balance ( http://arxiv.org/abs/2310.12370v2 )

ライセンス: Link先を確認
Martino Bernasconi, Matteo Castiglioni, Andrea Celli, Federico Fusco, (参考訳) バイラテラル取引は、売り手と買い手という2人の合理的エージェントの仲介に関する問題をモデル化している。 オンライン学習版の問題を調査し,新たな売り手と買い手が到着する度に,学習者は,その評価(逆生成)について何の知識も持たずに価格を設定する必要がある。 この設定では、既知の不合理性の結果は、予算の均衡を各ステップで実施しなければならない場合、非レグレットアルゴリズムの存在を規定する。 本稿では,時間的地平線上での予算バランスを学習者にのみ要求する「emph{global budget balance}」の概念を紹介する。 この自然緩和の下では、様々なフィードバックモデルの下で対向的二元貿易のための最初の非相対的アルゴリズムを提供する。 まず、フルフィードバックモデルにおいて、学習者は後述の最高の固定価格に対して$\tilde O(\sqrt{T})$ regretを保証でき、この境界は多対数項まで最適であることを示す。 第二に、2ビットフィードバックモデルにおいても保たれる$\Omega(T^{5/7})$ローバウンドを補完する1ビットフィードバックを持つ、$\tilde O(T^{3/4})$残念な上限を保証する学習アルゴリズムを提供する。 最後に、後見において最高の固定価格よりも確実に強い代替ベンチマークを導入・分析し、クナップサックによる盗賊に関する文献から着想を得た。

Bilateral trade models the problem of intermediating between two rational agents -- a seller and a buyer -- both characterized by a private valuation for an item they want to trade. We study the online learning version of the problem, in which at each time step a new seller and buyer arrive and the learner has to set prices for them without any knowledge about their (adversarially generated) valuations. In this setting, known impossibility results rule out the existence of no-regret algorithms when budget balanced has to be enforced at each time step. In this paper, we introduce the notion of \emph{global budget balance}, which only requires the learner to fulfill budget balance over the entire time horizon. Under this natural relaxation, we provide the first no-regret algorithms for adversarial bilateral trade under various feedback models. First, we show that in the full-feedback model, the learner can guarantee $\tilde O(\sqrt{T})$ regret against the best fixed prices in hindsight, and that this bound is optimal up to poly-logarithmic terms. Second, we provide a learning algorithm guaranteeing a $\tilde O(T^{3/4})$ regret upper bound with one-bit feedback, which we complement with a $\Omega(T^{5/7})$ lower bound that holds even in the two-bit feedback model. Finally, we introduce and analyze an alternative benchmark that is provably stronger than the best fixed prices in hindsight and is inspired by the literature on bandits with knapsacks.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# E4S:地域GANインバージョン編集による顔のきめ細かいスワップ

E4S: Fine-grained Face Swapping via Editing With Regional GAN Inversion ( http://arxiv.org/abs/2310.15081v3 )

ライセンス: Link先を確認
Maomao Li, Ge Yuan, Cairong Wang, Zhian Liu, Yong Zhang, Yongwei Nie, Jue Wang, Dong Xu, (参考訳) 本稿では, 顔のきめ細かい編集の観点から, 顔のスワップに対する新しいアプローチを提案し, 「顔のスワップのための編集」 (E4S) について述べる。 従来のフェイススワップ方式はグローバルな特徴抽出に依存しており、詳細な情報源のアイデンティティを保存できない。 対照的に、形状とテクスチャの明示的な乱れを可能にするRegional GAN Inversion(RGI)手法を提案する。 具体的には,各顔成分のテクスチャを局所的なスタイルコードに投影するマルチスケールマスク誘導エンコーダと,特徴マップをスタイルコードで操作するマスク誘導インジェクションモジュールを用いて,事前訓練されたスタイルGANの潜時空間で顔交換を行う。 この絡み合いに基づいて、フェイススワップはスタイルやマスクスワップとして単純化することができる。 また、照明条件のギャップが大きいため、ターゲット画像に原肌を移すと不規則な点灯につながる可能性がある。 そこで本研究では,スワップされた顔が元の皮膚を保ちながら目標の照明条件を維持するための再色ネットワークを提案する。 さらに,マスク交換時の潜在的なミスマッチ領域に対処するために,顔形状を洗練するための顔塗装モジュールを設計する。 我々のE4Sはテクスチャ、形状、照明の保存において既存の方法よりも優れています。 私たちの実装はhttps://github.com/e4s2024/E4S2024で公開されています。

This paper proposes a novel approach to face swapping from the perspective of fine-grained facial editing, dubbed "editing for swapping" (E4S). The traditional face swapping methods rely on global feature extraction and fail to preserve the detailed source identity. In contrast, we propose a Regional GAN Inversion (RGI) method, which allows the explicit disentanglement of shape and texture. Specifically, our E4S performs face swapping in the latent space of a pretrained StyleGAN, where a multi-scale mask-guided encoder is applied to project the texture of each facial component into regional style codes and a mask-guided injection module manipulating feature maps with the style codes. Based on this disentanglement, face swapping can be simplified as style and mask swapping. Besides, due to the large lighting condition gap, transferring the source skin into the target image may lead to disharmony lighting. We propose a re-coloring network to make the swapped face maintain the target lighting condition while preserving the source skin. Further, to deal with the potential mismatch areas during mask exchange, we design a face inpainting module to refine the face shape. The extensive comparisons with state-of-the-art methods demonstrate that our E4S outperforms existing methods in preserving texture, shape, and lighting. Our implementation is available at https://github.com/e4s2024/E4S2024.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# 準周期回路量子電磁力学によるモアレ物質のエミュレーション

Emulating moiré materials with quasiperiodic circuit quantum electrodynamics ( http://arxiv.org/abs/2310.15103v2 )

ライセンス: Link先を確認
Tobias Herrig, Christina Koliofoti, Jedediah H. Pixley, Elio J. König, Roman-Pascal Riwar, (参考訳) モワール超構造と干渉するトポロジカルバンド構造は、ツイストトロニクス材料の絶縁状態と超伝導状態の相関に重要な創発現象の多元性を引き起こす。 準周期性は現在まで、主に固体物質や低温原子に限られる概念であったが、ここでは、電荷空間におけるモワール物理学をエミュレートする従来の超伝導回路の能力を実証する。 2つの例で、ホフスタッターの蝶と魔法の角効果が分光輸送測定で直接見えることを示した。 重要なことに、これらの特徴は寄生線容量によるハーモニックトラップ電位の存在下で生き残る。 提案するプラットフォームは, 前例のないチューニング能力の恩恵を受け, ほぼ任意の空間次元で不規則な物理を探索する扉を開く。

Topological bandstructures interfering with moir\'e superstructures give rise to a plethora of emergent phenomena, which are pivotal for correlated insulating and superconducting states of twisttronics materials. While quasiperiodicity was up to now a notion mostly reserved for solid-state materials and cold atoms, we here demonstrate the capacity of conventional superconducting circuits to emulate moir\'e physics in charge space. With two examples, we show that Hofstadter's butterfly and the magic-angle effect, are directly visible in spectroscopic transport measurements. Importantly, these features survive in the presence of harmonic trapping potentials due to parasitic linear capacitances. Our proposed platform benefits from unprecedented tuning capabilities, and opens the door to probe incommensurate physics in virtually any spatial dimension.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# 非線形付加雑音モデルの全体的および部分的因果的健全性評価

Assessing the overall and partial causal well-specification of nonlinear additive noise models ( http://arxiv.org/abs/2310.16502v3 )

ライセンス: Link先を確認
Christoph Schultheiss, Peter Bühlmann, (参考訳) 非線形因果加法および潜在的にヘテロシダスティックノイズモデルにおけるモデルの誤特定を検出する手法を提案する。 このような不特定の場合であっても因果関係を推測できる予測変数を同定することを目的としている。 我々は多変量観測データ分布の知識に基づく一般的なフレームワークを開発する。 次に、有限サンプルデータに対するアルゴリズムを提案し、その漸近特性について議論し、シミュレーションおよび実データ上での性能を示す。

We propose a method to detect model misspecifications in nonlinear causal additive and potentially heteroscedastic noise models. We aim to identify predictor variables for which we can infer the causal effect even in cases of such misspecification. We develop a general framework based on knowledge of the multivariate observational data distribution. We then propose an algorithm for finite sample data, discuss its asymptotic properties, and illustrate its performance on simulated and real data.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# エンタングルメントスペクトルの微細レベル抽出のためのサンプリング縮小密度行列

Sampling reduced density matrix to extract fine levels of entanglement spectrum ( http://arxiv.org/abs/2310.16709v2 )

ライセンス: Link先を確認
Bin-Bin Mao, Yi-Ming Ding, Zheng Yan, (参考訳) 低いエンタングルメントスペクトルは、高エンタングルド量子物質を位相的および共形場理論的性質で同定するためのクインテシデントフィンガーを与える。 しかし、絡み合い領域が長い結合鎖や2次元以上の環境との長い境界を取得すると、計算コストで絡み合いスペクトルを計算するための普遍的かつ実用的な方法が存在しない。 本稿では,このような難易度を克服し,低層微細絡み合いスペクトル(ES)の抽出に成功した新しい手法を提案する。 量子モンテカルロシミュレーションを用いて環境をトレースし、還元密度行列を対角化してESを得る。 我々は、長い結合スピン鎖による手法の強さと信頼性を示し、その長年の論争に答える。 我々のシミュレーション結果は、前例のないほど大きなシステムサイズで、環境自由度の高い絡み合いスペクトルの実用的な計算方法を確立した。

Low-lying entanglement spectrum provides the quintessential fingerprint to identify the highly entangled quantum matter with topological and conformal field-theoretical properties. However, when the entangling region acquires long boundary with the environment, such as that between long coupled chains or in two or higher dimensions, there unfortunately exists no universal yet practical method to compute the entanglement spectra with affordable computational cost. Here we propose a new scheme to overcome such difficulty and successfully extract the low-lying fine entanglement spectrum (ES). We trace out the environment via quantum Monte Carlo simulation and diagonalize the reduced density matrix to gain the ES. We demonstrate the strength and reliability of our method through long coupled spin chains and answer its long-standing controversy. Our simulation results, with unprecedentedly large system sizes, establish the practical computation scheme of the entanglement spectrum with a huge freedom degree of environment.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# MMP++:パラメトリック曲線モデルを用いたモーションマニフォールドプリミティブ

MMP++: Motion Manifold Primitives with Parametric Curve Models ( http://arxiv.org/abs/2310.17072v3 )

ライセンス: Link先を確認
Yonghyeon Lee, (参考訳) MMP(Motion Manifold Primitives)は、基本的なモーションスキルを符号化するための多様体ベースのアプローチであり、様々な軌道を生成できるため、システムは目に見えない制約に適応できる。 しかしながら,現在のMMPモデルには,時間的・経点的変調などの運動プリミティブの重要な機能がない。 この欠点は、主にMMPが離散時間軌道に依存していることに起因している。 これらの制限を克服するために,MMPフレームワークにパラメトリック曲線表現を組み込むことで,MMPと従来の手法の長所を統合する新しいモデルであるMotion Manifold Primitives++ (MMP++)を導入する。 さらに,MMP++における重要な課題として,潜在空間における幾何学的歪みによる性能劣化がある。 これを解決するため、Isometric Motion Manifold Primitives++ (IMMP++) が提案され、潜在空間が多様体の幾何を正確に保存することを保証する。 また,2-DoF平面運動,7-DoFロボットアーム動作,SE(3)軌道計画などの実験結果から,MMP++とIMMP++が既存のトラジェクティブ生成タスクよりも優れており,いくつかのケースにおいて大幅に改善されていることが示された。 さらに, 動的環境への効率的なオンライン適応を可能にするため, 潜時座標と透視点の変調が可能となる。

Motion Manifold Primitives (MMP), a manifold-based approach for encoding basic motion skills, can produce diverse trajectories, enabling the system to adapt to unseen constraints. Nonetheless, we argue that current MMP models lack crucial functionalities of movement primitives, such as temporal and via-points modulation, found in traditional approaches. This shortfall primarily stems from MMP's reliance on discrete-time trajectories. To overcome these limitations, we introduce Motion Manifold Primitives++ (MMP++), a new model that integrates the strengths of both MMP and traditional methods by incorporating parametric curve representations into the MMP framework. Furthermore, we identify a significant challenge with MMP++: performance degradation due to geometric distortions in the latent space, meaning that similar motions are not closely positioned. To address this, Isometric Motion Manifold Primitives++ (IMMP++) is proposed to ensure the latent space accurately preserves the manifold's geometry. Our experimental results across various applications, including 2-DoF planar motions, 7-DoF robot arm motions, and SE(3) trajectory planning, show that MMP++ and IMMP++ outperform existing methods in trajectory generation tasks, achieving substantial improvements in some cases. Moreover, they enable the modulation of latent coordinates and via-points, thereby allowing efficient online adaptation to dynamic environments.
翻訳日:2024-03-28 22:52:43 公開日:2024-03-27
# 超伝導およびトラップイオンクォートを用いたパリティ時対称性破壊相転移の実証

Demonstration of a parity-time symmetry breaking phase transition using superconducting and trapped-ion qutrits ( http://arxiv.org/abs/2310.20432v3 )

ライセンス: Link先を確認
Alena S. Kazmina, Ilia V. Zalivako, Alexander S. Borisenko, Nikita A. Nemkov, Anastasiia S. Nikolaeva, Ilya A. Simakov, Arina V. Kuznetsova, Elena Yu. Egorova, Kristina P. Galstyan, Nikita V. Semenin, Andrey E. Korolkov, Ilya N. Moskalenko, Nikolay N. Abramov, Ilya S. Besedin, Daria A. Kalacheva, Viktor B. Lubsanov, Aleksey N. Bolgar, Evgeniy O. Kiktenko, Ksenia Yu. Khabarova, Alexey Galda, Ilya A. Semerikov, Nikolay N. Kolachevsky, Nataliya Maleeva, Aleksey K. Fedorov, (参考訳) スケーラブルな量子コンピュータは、素因数分解、組合せ最適化、多体物理学のシミュレーション、量子化学といった難しい計算問題を解くことを約束している。 多くの実世界の現象を理解する上で鍵となる一方で、非保守量子力学のシミュレーションはユニタリ量子計算の課題である。 本研究は,非単項パリティ時間対称系のシミュレーションに焦点をあてるものである。 我々は、この非平衡相転移を実現することができる3レベル量子系であるクォートリットを示す。 捕捉されたイオンの配列と超伝導トランスモンの2つの物理プラットフォームを使用し、それらの3つのエネルギーレベルをデジタル的に制御することにより、パリティ時対称性破壊相転移を実験的にシミュレートする。 以上の結果から,物理効果をシミュレートするマルチレベル(量子)プロセッサの利点が示唆された。

Scalable quantum computers hold the promise to solve hard computational problems, such as prime factorization, combinatorial optimization, simulation of many-body physics, and quantum chemistry. While being key to understanding many real-world phenomena, simulation of non-conservative quantum dynamics presents a challenge for unitary quantum computation. In this work, we focus on simulating non-unitary parity-time symmetric systems, which exhibit a distinctive symmetry-breaking phase transition as well as other unique features that have no counterpart in closed systems. We show that a qutrit, a three-level quantum system, is capable of realizing this non-equilibrium phase transition. By using two physical platforms -- an array of trapped ions and a superconducting transmon -- and by controlling their three energy levels in a digital manner, we experimentally simulate the parity-time symmetry-breaking phase transition. Our results indicate the potential advantage of multi-level (qudit) processors in simulating physical effects, where additional accessible levels can play the role of a controlled environment.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# VIGraph: クラス不均衡ノード分類のための生成的自己教師型学習

VIGraph: Generative Self-supervised Learning for Class-Imbalanced Node Classification ( http://arxiv.org/abs/2311.01191v2 )

ライセンス: Link先を確認
Yulan Hu, Sheng Ouyang, Zhirui Yang, Yong Liu, (参考訳) グラフデータのクラス不均衡はノード分類において重要な課題である。 SMOTEベースのアプローチのような既存の手法は、この問題を部分的に緩和するが、不均衡グラフの構築には限界がある。 グラフオートエンコーダ(GAE)によって実証された生成自己教師付き学習(SSL)メソッドは、データ自身から少数ノードを直接生成することで、有望なソリューションを提供するが、その可能性はまだ過小評価されていない。 本稿では,不均衡グラフ構築におけるSMOTEに基づくアプローチの欠点について考察する。 さらに,変分GAEを基本モデルとする簡易かつ効果的な生成型SSL手法であるVIGraphを導入する。 VIGraphは、不均衡グラフを構成する際の不均衡の概念に厳格に固執し、変分GAEの変動推論能力(VI)を革新的に活用して少数クラスのノードを生成する。 VIGraphは、セマンティック知識を捉えるためのデコードフェーズでのクロスビューコントラスト学習、グラフ構造を保存するための隣接行列再構成、安定したトレーニングを確保するためのアライメント戦略など、包括的なトレーニング戦略を導入している。 VIGraphは、分類に使用可能な高品質なノードを生成することができ、生成されたノードをグラフに統合する必要がなくなり、SMOTEベースのメソッドで見られる追加のトレーニングも不要になる。 我々は広範な実験を行い、その結果、我々のアプローチの優位性と一般化性を実証した。

Class imbalance in graph data presents significant challenges for node classification. While existing methods, such as SMOTE-based approaches, partially mitigate this issue, they still exhibit limitations in constructing imbalanced graphs. Generative self-supervised learning (SSL) methods, exemplified by graph autoencoders (GAEs), offer a promising solution by directly generating minority nodes from the data itself, yet their potential remains underexplored. In this paper, we delve into the shortcomings of SMOTE-based approaches in the construction of imbalanced graphs. Furthermore, we introduce VIGraph, a simple yet effective generative SSL approach that relies on the Variational GAE as the fundamental model. VIGraph strictly adheres to the concept of imbalance when constructing imbalanced graphs and innovatively leverages the variational inference (VI) ability of Variational GAE to generate nodes for minority classes. VIGraph introduces comprehensive training strategies, including cross-view contrastive learning at the decoding phase to capture semantic knowledge, adjacency matrix reconstruction to preserve graph structure, and alignment strategy to ensure stable training. VIGraph can generate high-quality nodes directly usable for classification, eliminating the need to integrate the generated nodes back to the graph as well as additional retraining found in SMOTE-based methods. We conduct extensive experiments, results from which demonstrate the superiority and generality of our approach.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# FedSN: LEO衛星ネットワーク上の新しいフェデレーション学習フレームワーク

FedSN: A Novel Federated Learning Framework over LEO Satellite Networks ( http://arxiv.org/abs/2311.01483v3 )

ライセンス: Link先を確認
Zheng Lin, Zhe Chen, Zihan Fang, Xianhao Chen, Xiong Wang, Yue Gao, (参考訳) 最近、SpaceXなどの商業企業によって、多くの低軌道軌道(LEO)衛星が打ち上げられ、宇宙展開に成功している。 LEO衛星が搭載するマルチモーダルセンサにより、通信だけでなく、空間変調認識やリモートセンシング画像分類など、さまざまな機械学習アプリケーションにも機能する。 しかし、地上局(GS)は、LEO衛星との接触時間(例えば5分)が限られているため、このような大量の生のセンシングデータをダウンロードできない可能性がある。 そのため、デバイス上でのトレーニングを通じてこの問題に対処するための有望なソリューションとして、フェデレートラーニング(FL)が登場している。 残念ながら、LEO衛星でFLを有効にするには、我々は3つの重要な課題に直面している。 一 異種計算及び記憶能力 二 アップリンク率の制限、及び 三 モデル安定度 この目的のために,これらの課題に対処するための一般FLフレームワークとしてFedSNを提案し,LEO衛星上でのデータ多様性について検討する。 具体的には、LEO衛星上の異なる計算、メモリ、通信制約を考慮した異種局所モデルトレーニングを可能にする新しいサブ構造スキームを提案する。 さらに,モデルの安定化を補うために,モデルアグリゲーションを動的にスケジュールする擬似同期モデルアグリゲーション戦略を提案する。 FedSNの有効性をさらに実証するため,実世界の衛星ネットワークからのデータを活用し,空間変調認識とリモートセンシング画像分類タスクを用いて評価を行った。 大規模な実験結果から,FedSNフレームワークは最先端ベンチマークよりも高い精度,低演算,通信オーバヘッドを実現し,FedSNの各コンポーネントの有効性が示された。

Recently, a large number of Low Earth Orbit (LEO) satellites have been launched and deployed successfully in space by commercial companies, such as SpaceX. Due to multimodal sensors equipped by the LEO satellites, they serve not only for communication but also for various machine learning applications, such as space modulation recognition, remote sensing image classification, etc. However, the ground station (GS) may be incapable of downloading such a large volume of raw sensing data for centralized model training due to the limited contact time with LEO satellites (e.g. 5 minutes). Therefore, federated learning (FL) has emerged as the promising solution to address this problem via on-device training. Unfortunately, to enable FL on LEO satellites, we still face three critical challenges that are i) heterogeneous computing and memory capabilities, ii) limited uplink rate, and iii) model staleness. To this end, we propose FedSN as a general FL framework to tackle the above challenges, and fully explore data diversity on LEO satellites. Specifically, we first present a novel sub-structure scheme to enable heterogeneous local model training considering different computing, memory, and communication constraints on LEO satellites. Additionally, we propose a pseudo-synchronous model aggregation strategy to dynamically schedule model aggregation for compensating model staleness. To further demonstrate the effectiveness of the FedSN, we evaluate it using space modulation recognition and remote sensing image classification tasks by leveraging the data from real-world satellite networks. Extensive experimental results demonstrate that FedSN framework achieves higher accuracy, lower computing, and communication overhead than the state-of-the-art benchmarks and the effectiveness of each components in FedSN.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# 点推定判別ニューラルネットワークにおける遠距離データへの任意高信頼の防止

Preventing Arbitrarily High Confidence on Far-Away Data in Point-Estimated Discriminative Neural Networks ( http://arxiv.org/abs/2311.03683v2 )

ライセンス: Link先を確認
Ahmad Rashid, Serena Hacker, Guojun Zhang, Agustinus Kristiadi, Pascal Poupart, (参考訳) 差別的に訓練された決定論的ニューラルネットワークは、分類問題の事実上の選択である。 しかし、ドメイン内テストセットで最先端の結果を得たとしても、オフ・オブ・ディストリビューション(OOD)データに過信される傾向にある。 例えば、一般的なニューラルネットワークアーキテクチャのクラスであるReLUネットワークは、テストデータがトレーニングセットから遠く離れている場合、OODデータでトレーニングされている場合であっても、ほぼ常に高い信頼性の予測が得られることが示されている。 我々は、トレーニングデータから離れる際に、元のクラスのロジットを支配できるように設計した、余分なクラスのロジットに対応するニューラルネットワークの出力に項を追加することで、この問題を克服する。この技術は、単純な識別的ポイント推定トレーニングを維持しながら、遠距離テストデータに対する任意に高い信頼を確実に防止する。 様々なベンチマークによる評価は、遠距離およびリアルなOODデータにおいて、競合するベースラインに対して強い性能を示す。

Discriminatively trained, deterministic neural networks are the de facto choice for classification problems. However, even though they achieve state-of-the-art results on in-domain test sets, they tend to be overconfident on out-of-distribution (OOD) data. For instance, ReLU networks - a popular class of neural network architectures - have been shown to almost always yield high confidence predictions when the test data are far away from the training set, even when they are trained with OOD data. We overcome this problem by adding a term to the output of the neural network that corresponds to the logit of an extra class, that we design to dominate the logits of the original classes as we move away from the training data.This technique provably prevents arbitrarily high confidence on far-away test data while maintaining a simple discriminative point-estimate training. Evaluation on various benchmarks demonstrates strong performance against competitive baselines on both far-away and realistic OOD data.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# マルチタスク学習における共通パラダイムの適応

Challenging Common Paradigms in Multi-Task Learning ( http://arxiv.org/abs/2311.04698v3 )

ライセンス: Link先を確認
Cathrin Elich, Lukas Kirchdorfer, Jan M. Köhler, Lukas Schott, (参考訳) 近年,マルチタスク学習(MTL)が注目されているが,その基盤となるメカニズムはよく分かっていない。 最近の手法では、単一タスク学習(STL)ベースラインよりも一貫したパフォーマンス向上は得られず、MTL固有の課題についてより深い洞察を得ることの重要性が強調されている。 第一に、最適化器の選択による影響は、MLLにおいて緩やかに研究されているだけである。 我々は,様々な実験において,MTLにおけるAdam Optimizationrのような一般的なSTLツールの重要な役割を実証的に示す。 アダムの有効性をさらに調査するため、理論上は軽微な仮定の下で部分的に損失スケールの不変性を導出する。 第二に、勾配衝突の概念は、しばしばMTLの特定の問題として表現される。 MTLにおける勾配衝突の役割を探求し、STLと比較する。 角勾配アライメントに対しては、これが MTL の唯一の問題であることを示す証拠は見つからない。 主な差別化要因として,勾配の等級差を強調した。 最後に,MTL と STL を用いて学習した特徴の変換可能性を比較し,MTL がより優れた転送可能性をもたらすことを示す光証拠を見出した。 全体として、STLとMTLの驚くほどの類似性は、より広い文脈で両方の分野からの手法を検討することを示唆している。

While multi-task learning (MTL) has gained significant attention in recent years, its underlying mechanisms remain poorly understood. Recent methods did not yield consistent performance improvements over single task learning (STL) baselines, underscoring the importance of gaining more profound insights about challenges specific to MTL. In our study, we challenge paradigms in MTL in the context of STL: First, the impact of the choice of optimizer has only been mildly investigated in MTL. We show the pivotal role of common STL tools such as the Adam optimizer in MTL empirically in various experiments. To further investigate Adam's effectiveness, we theoretical derive a partial loss-scale invariance under mild assumptions. Second, the notion of gradient conflicts has often been phrased as a specific problem in MTL. We delve into the role of gradient conflicts in MTL and compare it to STL. For angular gradient alignment we find no evidence that this is a unique problem in MTL. We emphasize differences in gradient magnitude as the main distinguishing factor. Lastly, we compare the transferability of features learned through MTL and STL on common image corruptions, and find light evidence that MTL can lead to superior transferability. Overall, we find surprising similarities between STL and MTL suggesting to consider methods from both fields in a broader context.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# LLatrieval: 検証可能な生成のためのLLM検証検索

LLatrieval: LLM-Verified Retrieval for Verifiable Generation ( http://arxiv.org/abs/2311.07838v3 )

ライセンス: Link先を確認
Xiaonan Li, Changtai Zhu, Linyang Li, Zhangyue Yin, Tianxiang Sun, Xipeng Qiu, (参考訳) 検証可能な生成は、大きな言語モデル(LLM)が文書をサポートするテキストを生成することを目的としており、ユーザが柔軟に回答を検証し、LLMの出力をより信頼性の高いものにすることを目的としている。 検索は、検証可能な世代において重要な役割を果たす。 具体的には、検索した文書は、LCMが正しい回答を生成するのを助けるために知識を補うだけでなく、LCMの出力を検証するための支援証拠としても機能する。 しかし、広く使われているレトリバーはパイプライン全体のボトルネックとなり、全体的なパフォーマンスを制限します。 通常、LLMは大きな言語モデルよりもパラメータがはるかに少ないため、LLMよりも劣る。 検索者がサポートされた文書を正しく見つけられなかった場合、LLMは正しい検証可能な回答を生成できず、LLMの顕著な能力は覆い隠される。 これらの制約に対処するため,LLMは検索結果を更新し,検索した文書が十分な回答を支持できることを確認した。 これにより、LLMは、検索に対するフィードバックを反復的に提供し、検索結果を容易にして、検証可能な生成を完全に支援することができる。 実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。

Verifiable generation aims to let the large language model (LLM) generate text with supporting documents, which enables the user to flexibly verify the answer and makes the LLM's output more reliable. Retrieval plays a crucial role in verifiable generation. Specifically, the retrieved documents not only supplement knowledge to help the LLM generate correct answers, but also serve as supporting evidence for the user to verify the LLM's output. However, the widely used retrievers become the bottleneck of the entire pipeline and limit the overall performance. Their capabilities are usually inferior to LLMs since they often have much fewer parameters than the large language model and have not been demonstrated to scale well to the size of LLMs. If the retriever does not correctly find the supporting documents, the LLM can not generate the correct and verifiable answer, which overshadows the LLM's remarkable abilities. To address these limitations, we propose \LLatrieval (Large Language Model Verified Retrieval), where the LLM updates the retrieval result until it verifies that the retrieved documents can sufficiently support answering the question. Thus, the LLM can iteratively provide feedback to retrieval and facilitate the retrieval result to fully support verifiable generation. Experiments show that LLatrieval significantly outperforms extensive baselines and achieves state-of-the-art results.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# PPAD:エンドツーエンド自動運転の予測と計画の反復的相互作用

PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving ( http://arxiv.org/abs/2311.08100v3 )

ライセンス: Link先を確認
Zhili Chen, Maosheng Ye, Shuangjie Xu, Tongyi Cao, Qifeng Chen, (参考訳) 本稿では, 予測と計画の時間的相互作用を考慮した, PPAD (Iterative Interaction of Prediction and Planning autonomous Driving) と呼ばれる, エンドツーエンドの自動運転の予測と計画のための新たなインタラクション機構を提案する。 エゴ車両は、周囲のエージェント(例えば、車両、歩行者)とその局所道路条件の軌跡予測に基づいて、各タイミングで運動計画を実行する。 既存のエンドツーエンドの自律走行フレームワークとは異なり、PPADは、予測と計画のプロセスを各タイミングでインターリーブすることで、エゴ、エージェント、動的環境間の相互作用を自己回帰的にモデル化する。 具体的には,ego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,階層的動的キーオブジェクトに着目し,インタラクションをモデル化する。 nuScenesベンチマークの実験により、我々の手法は最先端の手法よりも優れていることが示された。

We present a new interaction mechanism of prediction and planning for end-to-end autonomous driving, called PPAD (Iterative Interaction of Prediction and Planning Autonomous Driving), which considers the timestep-wise interaction to better integrate prediction and planning. An ego vehicle performs motion planning at each timestep based on the trajectory prediction of surrounding agents (e.g., vehicles and pedestrians) and its local road conditions. Unlike existing end-to-end autonomous driving frameworks, PPAD models the interactions among ego, agents, and the dynamic environment in an autoregressive manner by interleaving the Prediction and Planning processes at every timestep, instead of a single sequential process of prediction followed by planning. Specifically, we design ego-to-agent, ego-to-map, and ego-to-BEV interaction mechanisms with hierarchical dynamic key objects attention to better model the interactions. The experiments on the nuScenes benchmark show that our approach outperforms state-of-the-art methods.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# 分散(非)-ベイジアン推論の周波数保証

Frequentist Guarantees of Distributed (Non)-Bayesian Inference ( http://arxiv.org/abs/2311.08214v2 )

ライセンス: Link先を確認
Bohan Wu, César A. Uribe, (参考訳) 大規模で分散化されたデータセットを分析する必要性から、分散ベイズ推論は統計学、電気工学、経済学など、様々な分野において重要な研究領域となっている。 本稿では、通信ネットワークを介して接続されたエージェント間の分散(非)ベイズ推論問題に対して、後続一貫性、漸近正規性、後続収縮率などの周波数特性を確立する。 この結果から,分散ベイズ推定は不確実性定量化におけるロバスト性を高めつつ,パラメトリックな効率を保ちながら,通信グラフ上の適切な仮定の下で分散ベイズ推定が維持されることが示唆された。 また,通信グラフの設計とサイズが後部収縮率にどのように影響するかを検討することで,統計的効率と通信効率のトレードオフについても検討する。 さらに,解析結果を時間変化グラフに拡張し,指数関数系モデル,分散ロジスティック回帰モデル,分散検出モデルに適用する。

Motivated by the need to analyze large, decentralized datasets, distributed Bayesian inference has become a critical research area across multiple fields, including statistics, electrical engineering, and economics. This paper establishes Frequentist properties, such as posterior consistency, asymptotic normality, and posterior contraction rates, for the distributed (non-)Bayes Inference problem among agents connected via a communication network. Our results show that, under appropriate assumptions on the communication graph, distributed Bayesian inference retains parametric efficiency while enhancing robustness in uncertainty quantification. We also explore the trade-off between statistical efficiency and communication efficiency by examining how the design and size of the communication graph impact the posterior contraction rate. Furthermore, We extend our analysis to time-varying graphs and apply our results to exponential family models, distributed logistic regression, and decentralized detection models.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# シープの衣服の狼:一般化されたネストド・ジェイルブレイク・プラットは、大きな言語モデルを簡単に作成できる

A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily ( http://arxiv.org/abs/2311.08268v3 )

ライセンス: Link先を確認
Peng Ding, Jun Kuang, Dan Ma, Xuezhi Cao, Yunsen Xian, Jiajun Chen, Shujian Huang, (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。 しかし、"jailbreaks"と呼ばれる敵のプロンプトは、LLMが潜在的に有害な内容を生成するため、保護を回避することができる。 ジェイルブレイクのプロンプトを探索することは、LSMの弱点を明らかにするのに役立ちます。 残念ながら、既存のjailbreakメソッドは複雑な手動設計に悩まされるか、他のホワイトボックスモデルの最適化を必要とする。 本稿では,(1)プロンプトリライトと(2)シナリオネスティングの2つの側面にジェイルブレイク即時攻撃を一般化する。 そこで本研究では,LDM自体を利用して効果的なジェイルブレイクプロンプトを生成する自動フレームワークReNeLLMを提案する。 大規模な実験により、ReNeLLMは攻撃成功率を大幅に改善し、既存のベースラインと比較して時間コストを大幅に削減することが示された。 また,LLMの保護における現行の防御方法の欠如も明らかにした。 最後に、迅速な実行優先の観点からLLMの防衛失敗を分析し、対応する防衛戦略を提案する。 我々の研究が学術コミュニティとLLM開発者の両方を、より安全でより規制されたLLMの提供に向けて触媒化できることを願っています。 コードはhttps://github.com/NJUNLP/ReNeLLMで入手できる。

Large Language Models (LLMs), such as ChatGPT and GPT-4, are designed to provide useful and safe responses. However, adversarial prompts known as 'jailbreaks' can circumvent safeguards, leading LLMs to generate potentially harmful content. Exploring jailbreak prompts can help to better reveal the weaknesses of LLMs and further steer us to secure them. Unfortunately, existing jailbreak methods either suffer from intricate manual design or require optimization on other white-box models, which compromises either generalization or efficiency. In this paper, we generalize jailbreak prompt attacks into two aspects: (1) Prompt Rewriting and (2) Scenario Nesting. Based on this, we propose ReNeLLM, an automatic framework that leverages LLMs themselves to generate effective jailbreak prompts. Extensive experiments demonstrate that ReNeLLM significantly improves the attack success rate while greatly reducing the time cost compared to existing baselines. Our study also reveals the inadequacy of current defense methods in safeguarding LLMs. Finally, we analyze the failure of LLMs defense from the perspective of prompt execution priority, and propose corresponding defense strategies. We hope that our research can catalyze both the academic community and LLMs developers towards the provision of safer and more regulated LLMs. The code is available at https://github.com/NJUNLP/ReNeLLM.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# PEMA: 言語モデルのための外部変更可能なプラグイン外部メモリ適応

PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models ( http://arxiv.org/abs/2311.08590v2 )

ライセンス: Link先を確認
HyunJin Kim, Young Jin Kim, JinYeong Bak, (参考訳) プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクにおいて顕著な性能を示す。 しかし、事前学習された大きな言語モデルには、かなりのメモリとトレーニング計算が必要である。 さらに、大量の資源を必要とするため、多くのPLM重みは機密である。 その結果、ユーザーは特定のタスクを微調整するために、モデルオーナーとデータを共有せざるを得なくなる。 この制限を克服するために,パラメータ効率の良い微細チューニング (PEFT) 法であるプラグイン外部メモリ適応 (PEMA) を導入する。 PEMAは、ダウンストリームタスクを実行するために、推論中のテストデータからコンテキスト表現を統合する。 外部メモリを使用して、ターゲットトークンでマップされたPLM生成コンテキスト表現を格納する。 本手法は,PLMの最終層におけるLoRA様ボトルネックアダプタの重量行列を利用して効率を向上する。 我々のアプローチには、生成品質を改善するための新しい補間戦略であるGradual Unrollingも含まれている。 我々はPEMAの有効性を,機械翻訳とスタイル転送のための構文および実データセットの実験を通じて検証する。 本研究により,PEMAは,学習におけるメモリと遅延効率において他のPEFTアプローチよりも優れており,文の意味の維持や適切な言語やスタイルの生成に優れることがわかった。

Pre-trained language models (PLMs) show impressive performance in various downstream NLP tasks. However, pre-training large language models demands substantial memory and training compute. Furthermore, due to the substantial resources required, many PLM weights are confidential. Consequently, users are compelled to share their data with model owners for fine-tuning specific tasks. To overcome the limitations, we introduce Plug-in External Memory Adaptation (PEMA), a Parameter-Efficient Fine-Tuning (PEFT) method, enabling PLM fine-tuning without requiring access to all the weights. PEMA integrates with context representations from test data during inference to perform downstream tasks. It uses external memory to store PLM-generated context representations mapped with target tokens. Our method utilizes weight matrices of LoRA-like bottlenecked adapter in the PLM's final layer to enhance efficiency. Our approach also includes Gradual Unrolling, a novel interpolation strategy to improve generation quality. We validate PEMA's effectiveness through experiments on syntactic and real datasets for machine translation and style transfer. Our findings show that PEMA outperforms other PEFT approaches in memory and latency efficiency for training, and also excels in maintaining sentence meaning and generating appropriate language and styles.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# 機械スーパービジョンへのシフト:自動医用画像分割・分類のための注釈効率の良いセミ・セルフ・スーパービジョン学習

Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification ( http://arxiv.org/abs/2311.10319v4 )

ライセンス: Link先を確認
Pranav Singh, Raviteja Chukkapalli, Shravan Chaudhari, Luoyao Chen, Mei Chen, Jinqian Pan, Craig Smuda, Jacopo Cirrone, (参考訳) 臨床治療の進歩は、大量の注釈付きデータに依存する教師付き学習技術の限界によって、ますます制限されている。 アノテーションのプロセスは費用がかかるだけでなく、臨床専門家にかなりの時間を要する。 本稿では,S4MI(Self-Supervision and Semi-Supervision for Medical Imaging)パイプラインを導入する。 これらの技術はラベリングを必要としない補助的なタスクに携わり、完全に教師された手法に比べて機械の監督のスケーリングを簡素化する。 本研究は、これらの手法を3つの異なる医用画像データセット上で評価し、分類と分割作業の有効性を評価する。 特に, 自己教師付き学習が, 全ての評価データセットの分類において, 教師付き手法の性能を大幅に上回っていることがわかった。 注目すべきは、半教師付きアプローチはセグメンテーションにおいて優れた結果を示し、全データセットで50%少ないラベルを使用しながら、完全な教師付き手法よりも優れた結果を示したことだ。 科学コミュニティへのコントリビューションへのコミットメントに合わせて、私たちはS4MIコードを公開して、より広範な適用とこれらの手法のさらなる開発を可能にしました。

Advancements in clinical treatment are increasingly constrained by the limitations of supervised learning techniques, which depend heavily on large volumes of annotated data. The annotation process is not only costly but also demands substantial time from clinical specialists. Addressing this issue, we introduce the S4MI (Self-Supervision and Semi-Supervision for Medical Imaging) pipeline, a novel approach that leverages advancements in self-supervised and semi-supervised learning. These techniques engage in auxiliary tasks that do not require labeling, thus simplifying the scaling of machine supervision compared to fully-supervised methods. Our study benchmarks these techniques on three distinct medical imaging datasets to evaluate their effectiveness in classification and segmentation tasks. Notably, we observed that self supervised learning significantly surpassed the performance of supervised methods in the classification of all evaluated datasets. Remarkably, the semi-supervised approach demonstrated superior outcomes in segmentation, outperforming fully-supervised methods while using 50% fewer labels across all datasets. In line with our commitment to contributing to the scientific community, we have made the S4MI code openly accessible, allowing for broader application and further development of these methods.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# レイアウト・ツー・イメージ合成におけるオブジェクトコヒーレンス向上

Enhancing Object Coherence in Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.10522v4 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, (参考訳) レイアウト・ツー・イメージ合成は条件付き画像生成において新たな技術である。 複雑なシーンを生成することを目的としており、ユーザーはシーン内のオブジェクトのレイアウトを細かく制御する必要がある。 しかし、セマンティックコヒーレンス(例:猫が花を見るかどうか)や物理的コヒーレンス(例:手とラケットを間違えてはならない)など、オブジェクトコヒーレンスを制御することは依然として困難である。 本稿では,グローバルな意味融合(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。 セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。 本実験では, キャプションと生成画像間の相互アテンションを別々に扱うのではなく, レイアウト制約とセマンティックコヒーレンスを個別に扱うことで, レイアウト制約とセマンティックコヒーレンス要求から監督を解き放ち, 画像合成プロセスの指導に役立てるため, GSFを開発した。 さらに、物理コヒーレンスを改善するために、各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発する。 具体的には,コヒーレンス制約を符号化する自己相似写像を採用し,テキスト埋め込みからコヒーレント特徴を抽出する。 自己相似性マップの可視化を通じて、SCAの本質を探求し、その効果が信頼性の高い物理的コヒーレンスパターンのキャプチャだけでなく、複雑なテクスチャ生成の強化にも有効であることを明らかにした。 画像生成品質と制御性の両方において,提案手法の優位性を示す実験を行った。

Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and generated images, which addresses the highly relevant layout restriction and semantic coherence separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence into each pixel's generation process. Specifically, we adopt a self-similarity map to encode the coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# 効率的な変圧器を用いた3次元人物位置推定のための時間ガラストケナイザ

Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation ( http://arxiv.org/abs/2311.12028v2 )

ライセンス: Link先を確認
Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Jialun Cai, Nicu Sebe, (参考訳) トランスフォーマーはビデオベースの人間のポーズ推定の分野でうまく応用されている。 しかし、これらのビデオポーズ変換器(VPT)の計算コストが高いため、リソース制約のあるデバイスでは実用的ではない。 本稿では,Hourglass Tokenizer (HoT) と呼ばれる,効率的なトランスフォーマーに基づく3次元ポーズ推定のためのプラグアンドプレイ・プルーニング・リカバリ・フレームワークを提案する。 我々のHoTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで、中間トランスフォーマーブロックにいくつかのポーズトークンが発生し、モデル効率が向上する。 これを実現するために,ビデオフレームの冗長性を排除しつつ,意味的多様性の高いいくつかの代表トークンを動的に選択するトークンプルーニングクラスタ(TPC)を提案する。 さらに、選択したトークンに基づいて詳細な時空間情報を復元するトークン復元用トークン(TRA)を開発し、高速な推論のために、ネットワーク出力を元のフル長時空間分解に拡張する。 2つのベンチマークデータセット(Human3.6MとMPI-INF-3DHP)の大規模な実験により、本手法は元のVPTモデルと比較して高い効率と推定精度を達成できることを示した。 例えば、Human3.6M上でMotionBERTとMixSTEを適用すると、私たちのHoTは精度を犠牲にすることなく50%近いFLOPを節約できます。 コードとモデルはhttps://github.com/NationalGAILab/HoT.comで入手できる。

Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a plug-and-play pruning-and-recovering framework, called Hourglass Tokenizer (HoT), for efficient transformer-based 3D human pose estimation from videos. Our HoT begins with pruning pose tokens of redundant frames and ends with recovering full-length tokens, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency. To effectively achieve this, we propose a token pruning cluster (TPC) that dynamically selects a few representative tokens with high semantic diversity while eliminating the redundancy of video frames. In addition, we develop a token recovering attention (TRA) to restore the detailed spatio-temporal information based on the selected tokens, thereby expanding the network output to the original full-length temporal resolution for fast inference. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our method can achieve both high efficiency and estimation accuracy compared to the original VPT models. For instance, applying to MotionBERT and MixSTE on Human3.6M, our HoT can save nearly 50% FLOPs without sacrificing accuracy and nearly 40% FLOPs with only 0.2% accuracy drop, respectively. Code and models are available at https://github.com/NationalGAILab/HoT.
翻訳日:2024-03-28 22:42:58 公開日:2024-03-27
# Point, Segment and Count: オブジェクトカウントのための汎用フレームワーク

Point, Segment and Count: A Generalized Framework for Object Counting ( http://arxiv.org/abs/2311.12386v3 )

ライセンス: Link先を確認
Zhizhong Huang, Mingliang Dai, Yi Zhang, Junping Zhang, Hongming Shan, (参考訳) クラス非依存のオブジェクトカウントは、例ボックスやクラス名、 \emph{a.k.a} 少数ショットとゼロショットカウントに関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。 本稿では,検出に基づく少数ショットとゼロショットの両方のオブジェクトカウントのための一般化されたフレームワークを提案する。 我々のフレームワークは、ゼロショット能力を損なうことなく、2つの基盤モデルの優れた利点を組み合わせている。 (\textbf{i}) SAM はすべての可能なオブジェクトをマスクの提案としてセグメント化し、 (\textbf{ii}) CLIP は正確なオブジェクト数を得るための提案を分類する。 しかし、この戦略は、効率のオーバーヘッドと、局所化や区別ができない小さな混み合ったオブジェクトの障害を満たす。 これらの問題に対処するため、私たちのフレームワークはPseCoと呼ばれ、ポイント、セグメント、カウントの3つのステップに従っています。 具体的には、SAMの精度が低いが最小点のプロンプトを提供するために、クラスに依存しないオブジェクトローカライゼーションを提案する。 さらに,CLIP画像/テキスト埋め込みを分類器として活用する汎用オブジェクト分類を提案し,階層的知識蒸留に続き,階層的マスク提案の識別的分類を得る。 FSC-147, COCO, LVISの広範囲な実験結果から, PseCoは小ショット・ゼロショット・オブジェクトの計数・検出において最先端の性能を発揮することが示された。 コード:https://github.com/Hzzone/PseCo

Class-agnostic object counting aims to count all objects in an image with respect to example boxes or class names, \emph{a.k.a} few-shot and zero-shot counting. In this paper, we propose a generalized framework for both few-shot and zero-shot object counting based on detection. Our framework combines the superior advantages of two foundation models without compromising their zero-shot capability: (\textbf{i}) SAM to segment all possible objects as mask proposals, and (\textbf{ii}) CLIP to classify proposals to obtain accurate object counts. However, this strategy meets the obstacles of efficiency overhead and the small crowded objects that cannot be localized and distinguished. To address these issues, our framework, termed PseCo, follows three steps: point, segment, and count. Specifically, we first propose a class-agnostic object localization to provide accurate but least point prompts for SAM, which consequently not only reduces computation costs but also avoids missing small objects. Furthermore, we propose a generalized object classification that leverages CLIP image/text embeddings as the classifier, following a hierarchical knowledge distillation to obtain discriminative classifications among hierarchical mask proposals. Extensive experimental results on FSC-147, COCO, and LVIS demonstrate that PseCo achieves state-of-the-art performance in both few-shot/zero-shot object counting/detection. Code: https://github.com/Hzzone/PseCo
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# SOAC: ニューラルラジアンス場を用いた時空間オーバーラップ対応マルチセンサ校正

SOAC: Spatio-Temporal Overlap-Aware Multi-Sensor Calibration using Neural Radiance Fields ( http://arxiv.org/abs/2311.15803v3 )

ライセンス: Link先を確認
Quentin Herau, Nathan Piasco, Moussab Bennehar, Luis Roldão, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur, Cédric Demonceaux, (参考訳) 自律運転のような急速に進化する領域では、高い操作精度と安定性を確保するために、異なるモードの複数のセンサーを使用することが不可欠である。 各センサが提供した情報を単一の共通フレームで正確に活用するためには、これらのセンサを正確に校正することが不可欠である。 本稿では,ニューラル・ラジアンス・フィールド(NeRF)を用いて,一般的なボリューム表現における異なるセンサのモダリティを表現し,ロバストかつ高精度な時空間センサキャリブレーションを実現する。 各センサのシーンの可視部分に基づいて分割法を設計することにより,重なり合う領域のみを用いてキャリブレーション問題を定式化する。 この戦略は、より堅牢で正確なキャリブレーションをもたらし、失敗しにくくなります。 提案手法は、複数の確立された運転データセット上で検証することにより、屋外の都市景観に作用することを示す。 その結果,本手法は既存手法に比べて精度と堅牢性が高いことがわかった。

In rapidly-evolving domains such as autonomous driving, the use of multiple sensors with different modalities is crucial to ensure high operational precision and stability. To correctly exploit the provided information by each sensor in a single common frame, it is essential for these sensors to be accurately calibrated. In this paper, we leverage the ability of Neural Radiance Fields (NeRF) to represent different sensors modalities in a common volumetric representation to achieve robust and accurate spatio-temporal sensor calibration. By designing a partitioning approach based on the visible part of the scene for each sensor, we formulate the calibration problem using only the overlapping areas. This strategy results in a more robust and accurate calibration that is less prone to failure. We demonstrate that our approach works on outdoor urban scenes by validating it on multiple established driving datasets. Results show that our method is able to get better accuracy and robustness compared to existing methods.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# InterControl: 全関節制御による人間の動作インタラクションの生成

InterControl: Generate Human Motion Interactions by Controlling Every Joint ( http://arxiv.org/abs/2311.15864v2 )

ライセンス: Link先を確認
Zhenzhi Wang, Jingbo Wang, Yixuan Li, Dahua Lin, Bo Dai, (参考訳) テキスト条件付きヒトの運動合成は,近年の拡散モデルの出現とともに顕著な進歩を遂げている。 しかしながら、これらの運動拡散モデルの大部分は、主に1つのキャラクタのために設計され、マルチヒューマンインタラクションを見落としている。 提案手法では,任意の大きさのキャラクタのグループに対して,人間の動作と相互作用を合成することによってこの問題を解明する。 このアプローチのキーとなる側面は、人間の関節のペアとして人間のインタラクションを適応させることです。 固定数の文字を持つ多人数動作データセット上でのトレーニング動作生成モデルを必要とする既存の手法とは対照的に,本手法は,任意の個数を含む人間のインタラクションをモデル化する柔軟性を本質的に有しており,トレーニングデータに課される制限を超越している。 関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。 モーションコントローラと逆キネマティクス誘導モジュールで構成されており、合成された文字の関節を所望の場所に現実的に正確に整列させる。 さらに, 既成のLarge Language Model (LLM) を用いて, ヒューマンインタラクションのための接合対間距離を生成できることを実証した。 実験結果から,本フレームワークが複数の人体文字とのインタラクションを生成する能力と,既成の物理系シミュレータで作業する可能性を強調した。

Text-conditioned human motion synthesis has made remarkable progress with the emergence of diffusion models in recent research. However, the majority of these motion diffusion models are primarily designed for a single character and overlook multi-human interactions. In our approach, we strive to explore this problem by synthesizing human motion with interactions for a group of characters of any size. The key aspect of our approach is the adaptation of human-wise interactions as pairs of human joints that can be either in contact or separated by a desired distance. In contrast to existing methods that necessitate training motion generation models on multi-human motion datasets with a fixed number of characters, our approach inherently possesses the flexibility to model human interactions involving an arbitrary number of individuals, thereby transcending the limitations imposed by the training data. We introduce a novel controllable motion generation method, InterControl, to encourage the synthesized motions maintaining the desired distance between joint pairs. It consists of a motion controller and an inverse kinematics guidance module that realistically and accurately aligns the joints of synthesized characters to the desired location. Furthermore, we demonstrate that the distance between joint pairs for human-wise interactions can be generated using an off-the-shelf Large Language Model (LLM). Experimental results highlight the capability of our framework to generate interactions with multiple human characters and its potential to work with off-the-shelf physics-based character simulators.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# DifFlow3D:反復拡散に基づくリファインメントによるロバスト不確実性を考慮したシーンフロー推定

DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement ( http://arxiv.org/abs/2311.17456v3 )

ライセンス: Link先を確認
Jiuming Liu, Guangming Wang, Weicai Ye, Chaokang Jiang, Jinru Han, Zhe Liu, Guofeng Zhang, Dalong Du, Hesheng Wang, (参考訳) 動的シーンの点当たりの3次元変位を予測することを目的としたシーンフロー推定は,コンピュータビジョン分野における基本的な課題である。 しかし,従来の研究は,局所的に制約された探索範囲による信頼性の低い相関や,粗い構造から生じる不正確な蓄積に悩まされることが一般的である。 これらの問題を緩和するために,拡散確率モデルを用いた不確実性を考慮したシーンフロー推定ネットワーク(DifFlow3D)を提案する。 反復拡散に基づく改良は、例えば、ダイナミックス、ノイズインプット、反復パターンなどの課題に対する相関堅牢性とレジリエンスを高めるように設計されている。 生成の多様性を抑えるため,拡散モデルにおける3つの主要なフロー関連特徴を条件として利用した。 さらに,推定シーンフローの信頼性を評価するため,拡散中の不確実性推定モジュールも開発した。 我々のDifFlow3Dは、FlyingThings3DとKITTI 2015データセットでそれぞれ24.0%と29.1%のEPE3Dを削減した最先端のパフォーマンスを実現しています。 特に,本手法は,KITTIデータセット上での前例のないミリレベルの精度(EPE3Dで0.0078m)を達成する。 さらに,既存のシーンフローネットワークにプラグイン・アンド・プレイモジュールとして組み込むことができ,その推定精度を大幅に向上させることができる。 コードはhttps://github.com/IRMVLab/DifFlow3Dで公開されている。

Scene flow estimation, which aims to predict per-point 3D displacements of dynamic scenes, is a fundamental task in the computer vision field. However, previous works commonly suffer from unreliable correlation caused by locally constrained searching ranges, and struggle with accumulated inaccuracy arising from the coarse-to-fine structure. To alleviate these problems, we propose a novel uncertainty-aware scene flow estimation network (DifFlow3D) with the diffusion probabilistic model. Iterative diffusion-based refinement is designed to enhance the correlation robustness and resilience to challenging cases, e.g. dynamics, noisy inputs, repetitive patterns, etc. To restrain the generation diversity, three key flow-related features are leveraged as conditions in our diffusion model. Furthermore, we also develop an uncertainty estimation module within diffusion to evaluate the reliability of estimated scene flow. Our DifFlow3D achieves state-of-the-art performance, with 24.0% and 29.1% EPE3D reduction respectively on FlyingThings3D and KITTI 2015 datasets. Notably, our method achieves an unprecedented millimeter-level accuracy (0.0078m in EPE3D) on the KITTI dataset. Additionally, our diffusion-based refinement paradigm can be readily integrated as a plug-and-play module into existing scene flow networks, significantly increasing their estimation accuracy. Codes are released at https://github.com/IRMVLab/DifFlow3D.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# 逆3次元音声合成のための弱教師付き感情遷移学習

Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation ( http://arxiv.org/abs/2311.17532v3 )

ライセンス: Link先を確認
Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo, (参考訳) 人-機械インタラクションアプリケーションにおける仮想アバターアニメーションには、鮮明で感情的な3D合成ジェスチャーの生成が不可欠である。 既存の方法では、単一の感情ラベルに従うジェスチャーを生成することができるが、実際のシーンでは、感情遷移を伴う長いジェスチャーシーケンスモデリングの方がより実用的であると、彼らは見落としている。 さらに、感情的遷移音声とそれに対応する3D人間のジェスチャーを備えた大規模データセットの欠如により、このタスクのアドレッシングも制限される。 この目的を達成するために、我々はまずChatGPT-4と音声塗装アプローチを取り入れ、高忠実度感情遷移人間の音声を構築する。 動的に塗布された感情遷移音声に対応するリアルな3Dポーズアノテーションを得るのは非常に難しいことを考慮し、権威のジェスチャー遷移を促進するための弱い教師付きトレーニング戦略を提案する。 具体的には、2つの異なる感情的ジェスチャー列間の時間的関連表現をスタイルガイダンスとしてモデル化し、遷移生成に注入する。 さらに、遷移ジェスチャーのための学習可能な混合感情ラベルに基づいて、弱い監視を提供する感情混合機構を考案する。 最後に、キーフレームのサンプルを用いて、長いシーケンスで効果的な初期姿勢情報を提供し、多様なジェスチャーを生成できるようにする。 本手法は,新たに定義された感情遷移タスクとデータセットに対して,単一の感情条件付きモデルを適用することによって構築された最先端モデルより優れていることを示す。 私たちのコードとデータセットはプロジェクトのページでリリースされます。

Generating vivid and emotional 3D co-speech gestures is crucial for virtual avatar animation in human-machine interaction applications. While the existing methods enable generating the gestures to follow a single emotion label, they overlook that long gesture sequence modeling with emotion transition is more practical in real scenes. In addition, the lack of large-scale available datasets with emotional transition speech and corresponding 3D human gestures also limits the addressing of this task. To fulfill this goal, we first incorporate the ChatGPT-4 and an audio inpainting approach to construct the high-fidelity emotion transition human speeches. Considering obtaining the realistic 3D pose annotations corresponding to the dynamically inpainted emotion transition audio is extremely difficult, we propose a novel weakly supervised training strategy to encourage authority gesture transitions. Specifically, to enhance the coordination of transition gestures w.r.t different emotional ones, we model the temporal association representation between two different emotional gesture sequences as style guidance and infuse it into the transition generation. We further devise an emotion mixture mechanism that provides weak supervision based on a learnable mixed emotion label for transition gestures. Last, we present a keyframe sampler to supply effective initial posture cues in long sequences, enabling us to generate diverse gestures. Extensive experiments demonstrate that our method outperforms the state-of-the-art models constructed by adapting single emotion-conditioned counterparts on our newly defined emotion transition task and datasets. Our code and dataset will be released on the project page: https://xingqunqi-lab.github.io/Emo-Transition-Gesture/.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# Back to 3D: バックプロジェクションされた2D機能付きFew-Shot 3Dキーポイント検出

Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features ( http://arxiv.org/abs/2311.18113v2 )

ライセンス: Link先を確認
Thomas Wimmer, Peter Wonka, Maks Ovsjanikov, (参考訳) 近年,データセットのサイズや計算資源の大幅な増加に伴い,NLPやビジョンタスクにおいて,いわゆるファンデーションモデルが人気を集めている。 本研究では,3次元形状のキーポイント検出のための基礎モデルを提案する。 キーポイント検出のユニークな特徴は、高い位置化精度を要求しながら意味的および幾何学的認識を必要とすることである。 この問題に対処するために,我々はまず,大規模な事前学習型2次元視覚モデルから3次元形状へのバックプロジェクト機能を提案する。 本研究では,リッチな意味情報を含むロバストな3次元特徴を抽出し,異なる2次元基礎モデルから得られた複数の候補特徴を解析する。 第二に、キーポイント候補最適化モジュールを用いて、キーポイントの形状に対する平均的な分布を一致させることを目的として、バックプロジェクションされた特徴によって導かれる。 その結果得られたアプローチは、KeyPointNetデータセット上の数ショットのキーポイント検出のための新しい最先端のキーポイント検出を実現し、以前のベストメソッドのパフォーマンスをほぼ2倍にします。

With the immense growth of dataset sizes and computing resources in recent years, so-called foundation models have become popular in NLP and vision tasks. In this work, we propose to explore foundation models for the task of keypoint detection on 3D shapes. A unique characteristic of keypoint detection is that it requires semantic and geometric awareness while demanding high localization accuracy. To address this problem, we propose, first, to back-project features from large pre-trained 2D vision models onto 3D shapes and employ them for this task. We show that we obtain robust 3D features that contain rich semantic information and analyze multiple candidate features stemming from different 2D foundation models. Second, we employ a keypoint candidate optimization module which aims to match the average observed distribution of keypoints on the shape and is guided by the back-projected features. The resulting approach achieves a new state of the art for few-shot keypoint detection on the KeyPointNet dataset, almost doubling the performance of the previous best methods.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# 非エルミート二階トポロジー超伝導体

Non-Hermitian second-order topological superconductors ( http://arxiv.org/abs/2311.18325v2 )

ライセンス: Link先を確認
Xaing Ji, Wenchen Ding, Yuanping Chen, Xiaosen Yang, (参考訳) 非エルミート系の位相は、非エルミートスキン効果によって根本的に変化し、一般化されたバルク境界対応をもたらす。 非ブロックバンド理論に基づき、2次元の非ハーミティシティと2階トポロジカル超伝導体の間の相互作用について考察する。 非ハーミティシティは、粒子-ホール対称性によって保護される自由度と自由度に依存する系の反対側の角に向かって、バルク状態とトポロジカルエッジモードの両方を蓄積させる。 さらに、マヨラナコーナーモードの縮退は、固有エネルギーと固有状態の両方の観点から破壊することができる。 エッジ理論解析により、非ハーミティティーの影響を解明し、高次トポロジカル超伝導体を非エルミティアン系の領域に拡張することができる。 我々は,非エルミート2次トポロジカル超伝導体の普遍的特性をZ_2$スキン効果およびZ_2$スキントポロジカルモードで示し,一般化バルクバウンダリー対応を粒子-ホール対称性によりさらにリッチ化することを示した。

The topology of non-Hermitian systems is fundamentally changed by the non-Hermitian skin effect, which leads to the generalized bulk-boundary correspondence. Based on the non-Bloch band theory, we get insight into the interplay between the non-Hermiticity and the second-order topological superconductors in two spatial dimensions. We investigate that the non-Hermiticity drives both the bulk states and topological edge modes to accumulate toward opposite corners of the system depending on the particle and hole degrees of freedom protected by the particle-hole symmetry. Furthermore, the degeneracy of the Majorana corner modes can be broken in terms of both the eigenenergies and the eigenstates. Through an edge theory analysis, we elucidate the impact of non-Hermiticity and enable the extension of higher-order topological superconductors to the realm of non-Hermitian systems. We show that $Z_2$ skin effect and $Z_2$ skin-topological modes reveal the universal characteristics of non-Hermitian second-order topological superconductors and the generalized bulk-boundary correspondence is further enriched by the particle-hole symmetry.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# オープン量子回路における量子カオスと異常緩和のロバスト性

Robustness of Quantum Chaos and Anomalous Relaxation in Open Quantum Circuits ( http://arxiv.org/abs/2312.00649v2 )

ライセンス: Link先を確認
Takato Yoshimura, Lucas Sá, (参考訳) 散逸は自然界において、カオス量子力学の運命に影響を与えるユビキタス現象である。 汎用量子多体系における量子カオスと散逸の相互作用を特徴付けるために、最小の散逸性フロッケ多体回路を考える。 特に、量子チャネルによってモデル化された任意のオンサイト消散の存在下で、フレッケ系の開量子系へのスペクトル形因子の拡張である散逸形因子(DFF)について検討する。 可解モデルの場合、大きな局所ヒルベルト空間次元の極限において、ランダムなユニタリゲート上で平均化された DFF の正確な式を得る。 十分に長い時間の間、系は常に緩やかに(つまりDFF崩壊)、ギャップ閉ざしの存在や欠如を特徴とする2つの特徴的な状態を持つ。 システムは、ギャップ閉鎖状態において長い(しかし有限な)時間間隔で堅牢なランプを維持することができるが、ギャップがゼロのままである状態において量子カオスによって緩和は「補助」される。 後者の体制では、熱力学的限界が最初に取られると、散逸のない極限でもギャップは閉じない。 我々は、ヒルベルト空間次元が小さい量子回路の数値計算結果を補完する。

Dissipation is a ubiquitous phenomenon in nature that affects the fate of chaotic quantum dynamics. To characterize the interplay between quantum chaos and dissipation in generic quantum many-body systems, we consider a minimal dissipative Floquet many-body circuit. In particular, we study the dissipative form factor (DFF), an extension of the spectral form factor to open quantum systems, of Floquet systems in the presence of arbitrary on-site dissipation modeled by quantum channels. For a solvable model, in the limit of large local Hilbert space dimension, we obtain an exact expression for the DFF averaged over the random unitary gates, with simple, closed-form expressions in the limit of large times. We find that, for long enough times, the system always relaxes (i.e., the DFF decays) with two distinctive regimes characterized by the presence or absence of gap-closing. While the system can sustain a robust ramp for a long (but finite) time interval in the gap-closing regime, relaxation is "assisted" by quantum chaos in the regime where the gap remains nonzero. In the latter regime, we find that, if the thermodynamic limit is taken first, the gap does not close even in the dissipationless limit, a recently uncovered phenomenon dubbed anomalous relaxation. We complement our findings with numerical results for quantum circuits with a small Hilbert space dimension.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# ゼロショットデイナイト領域適応による物体検出の高速化

Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation ( http://arxiv.org/abs/2312.01220v2 )

ライセンス: Link先を確認
Zhipeng Du, Miaojing Shi, Jiankang Deng, (参考訳) 低照度データでトレーニングされた検出器は、低照度データに対して、低照度データに対して顕著な性能低下を示すため、低照度シナリオにおけるオブジェクトの検出は永続的な課題を示す。 従来の手法では、実際の低照度画像データセットを用いた画像強調や物体検出技術を探ることでこの問題を緩和している。 しかし、この進歩は低照度画像の収集と注釈付けに固有の困難によって妨げられている。 この課題に対処するため,本研究では,高照度シナリオから低照度シナリオへの検出器の一般化を目的とした,ゼロショット昼夜ドメイン適応による低照度物体検出の高速化を提案する。 低レベルのビジョンでRetinex理論を再考し、まず反射率表現学習モジュールを設計し、慎重に設計された照度不変性強化戦略を用いて画像中のRetinexベースの照度不変性を学習する。 次に、2つの逐次画像分解を行い、再分解コヒーレンス損失を導入することにより、バニラレチネックス画像分解プロセスを改善するために、インターチェンジ再分解コヒーレンス手順を導入する。 ExDark, DARK FACE, CODaN データセットの大規模な実験により, 本手法の低照度一般化性を示す。 私たちのコードはhttps://github.com/ZPDu/DAI-Net.comで公開されています。

Detecting objects in low-light scenarios presents a persistent challenge, as detectors trained on well-lit data exhibit significant performance degradation on low-light data due to low visibility. Previous methods mitigate this issue by exploring image enhancement or object detection techniques with real low-light image datasets. However, the progress is impeded by the inherent difficulties about collecting and annotating low-light images. To address this challenge, we propose to boost low-light object detection with zero-shot day-night domain adaptation, which aims to generalize a detector from well-lit scenarios to low-light ones without requiring real low-light data. Revisiting Retinex theory in the low-level vision, we first design a reflectance representation learning module to learn Retinex-based illumination invariance in images with a carefully designed illumination invariance reinforcement strategy. Next, an interchange-redecomposition-coherence procedure is introduced to improve over the vanilla Retinex image decomposition process by performing two sequential image decompositions and introducing a redecomposition cohering loss. Extensive experiments on ExDark, DARK FACE, and CODaN datasets show strong low-light generalizability of our method. Our code is available at https://github.com/ZPDu/DAI-Net.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# 重み付きデータベース上の量子探索アルゴリズム

Quantum search algorithm on weighted databases ( http://arxiv.org/abs/2312.01590v2 )

ライセンス: Link先を確認
Yifan Sun, Lian-Ao Wu, (参考訳) グロバーアルゴリズムは、構造化されていない探索問題に対処するための重要な解であり、様々な複雑なアルゴリズムにおいて重要な量子サブルーチンとして登場した。 本研究では,非一様分散データベースにおけるGroverの探索手法を幅広く検討する。 解析の結果,非一様データベースに適用した場合のGrover進化の挙動は,一様データベースや「非構造データベース」と比較して大きく異なることがわかった。 この進化によって促進される探索過程が常にスピードアップするわけではないことが観察され、そのような状況に対する具体的な基準が特定された。 さらに、この調査をコヒーレントな状態が特徴とするデータベースに拡張し、厳密な数値検証によってGroverの進化を通じて達成されたスピードアップを確認した。 結論として,本研究ではGroverアルゴリズムを改良し,実装戦略を最適化し,適用範囲を広げるための洞察を提供する。

The Grover algorithm is a crucial solution for addressing unstructured search problems and has emerged as an essential quantum subroutine in various complex algorithms. This research extensively investigates Grover's search methodology within non-uniformly distributed databases, a scenario frequently encountered in practical applications. Our analysis reveals that the behavior of the Grover evolution differs significantly when applied to non-uniform databases compared to uniform or 'unstructured databases'. It is observed that the search process facilitated by this evolution does not consistently result in a speed-up, and we have identified specific criteria for such situations. Furthermore, we have extended this investigation to databases characterized by coherent states, confirming the speed-up achieved through Grover evolution via rigorous numerical verification. In conclusion, our study provides an enhancement to the original Grover algorithm, offering insights to optimize implementation strategies and broaden its range of applications.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# SchurVINS: Schur補充型軽量ビジュアル慣性ナビゲーションシステム

SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System ( http://arxiv.org/abs/2312.01616v2 )

ライセンス: Link先を確認
Yunfei Fan, Tianyu Zhao, Guidong Wang, (参考訳) 精度と計算効率は、視覚慣性ナビゲーションシステム(VINS)にとって最も重要な指標である。 既存のVINSアルゴリズムは精度が高いか計算量が少ないかのどちらかで、リソース制約のあるデバイスに高精度なローカライゼーションを提供することは困難である。 そこで本研究では, 完全残差モデルを構築し, シュル補数を用いた計算複雑性を低くすることで, 高い精度を保証できる新しいフィルタベースのVINSフレームワークであるSchurVINSを提案する。 技術的には、グラディエント、ヘッセン、観測共分散が明示的にモデル化された完全残留モデルを最初に定式化する。 シュア補数は、完全なモデルをエゴモーション残留モデルとランドマーク残留モデルに分解するために用いられる。 最後に, 拡張カルマンフィルタ (EKF) を高効率で2つのモデルに実装した。 EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。 SchurVINSの実験コードはhttps://github.com/bytedance/SchurVINSで公開されている。

Accuracy and computational efficiency are the most important metrics to Visual Inertial Navigation System (VINS). The existing VINS algorithms with either high accuracy or low computational complexity, are difficult to provide the high precision localization in resource-constrained devices. To this end, we propose a novel filter-based VINS framework named SchurVINS, which could guarantee both high accuracy by building a complete residual model and low computational complexity with Schur complement. Technically, we first formulate the full residual model where Gradient, Hessian and observation covariance are explicitly modeled. Then Schur complement is employed to decompose the full model into ego-motion residual model and landmark residual model. Finally, Extended Kalman Filter (EKF) update is implemented in these two models with high efficiency. Experiments on EuRoC and TUM-VI datasets show that our method notably outperforms state-of-the-art (SOTA) methods in both accuracy and computational complexity. The experimental code of SchurVINS is available at https://github.com/bytedance/SchurVINS.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# CAFE: 大規模レコメンデーションモデルのためのコンパクトで適応的で高速な埋め込みを目指して

CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models ( http://arxiv.org/abs/2312.03256v2 )

ライセンス: Link先を確認
Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, Bin Cui, (参考訳) 近年,DLRM(Deep Learning Recommendation Models)にテーブルを埋め込むことによるメモリ需要の増加は,モデルトレーニングやデプロイメントにおいて大きな課題となっている。 既存の埋め込み圧縮ソリューションは、メモリ効率、低レイテンシ、動的データ分散への適応性の3つの重要な設計要件を同時に満たすことはできない。 本稿では、上記の要件に対処する、コンパクトで適応的で高速な埋め込み圧縮フレームワークであるCAFEについて述べる。 CAFEの設計哲学は、重要な機能(ホット機能と呼ばれる)により多くのメモリリソースを動的に割り当て、重要でない機能にメモリを割り当てることである。 本稿では,高速かつ軽量なスケッチデータ構造であるHotSketchを提案する。 報告されたホットな機能ごとに、ユニークな埋め込みを割り当てます。 ホットでない機能については、ハッシュ埋め込み技術を用いて複数の機能を1つの埋め込みで共有できるようにします。 設計思想を参考に,非ホット機能の埋め込みテーブルを最適化するマルチレベルハッシュ埋め込みフレームワークを提案する。 理論的にはHotSketchの精度を解析し,モデル収束度を偏差に対して解析する。 大規模な実験により、CAFEは既存の埋め込み圧縮法を著しく上回り、Criteo KaggleデータセットとCriteoTBデータセットで10000倍の圧縮比でAUCを3.92%と3.68%上回った。 CAFEのソースコードはGitHubで入手できる。

Recently, the growing memory demands of embedding tables in Deep Learning Recommendation Models (DLRMs) pose great challenges for model training and deployment. Existing embedding compression solutions cannot simultaneously meet three key design requirements: memory efficiency, low latency, and adaptability to dynamic data distribution. This paper presents CAFE, a Compact, Adaptive, and Fast Embedding compression framework that addresses the above requirements. The design philosophy of CAFE is to dynamically allocate more memory resources to important features (called hot features), and allocate less memory to unimportant ones. In CAFE, we propose a fast and lightweight sketch data structure, named HotSketch, to capture feature importance and report hot features in real time. For each reported hot feature, we assign it a unique embedding. For the non-hot features, we allow multiple features to share one embedding by using hash embedding technique. Guided by our design philosophy, we further propose a multi-level hash embedding framework to optimize the embedding tables of non-hot features. We theoretically analyze the accuracy of HotSketch, and analyze the model convergence against deviation. Extensive experiments show that CAFE significantly outperforms existing embedding compression methods, yielding 3.92% and 3.68% superior testing AUC on Criteo Kaggle dataset and CriteoTB dataset at a compression ratio of 10000x. The source codes of CAFE are available at GitHub.
翻訳日:2024-03-28 22:33:12 公開日:2024-03-27
# 異なるX線レンダリングによる術中2D/3D画像の登録

Intraoperative 2D/3D Image Registration via Differentiable X-ray Rendering ( http://arxiv.org/abs/2312.06358v2 )

ライセンス: Link先を確認
Vivek Gopalakrishnan, Neel Dey, Polina Golland, (参考訳) 高速携帯型2次元術中画像(eg,X線)を高忠実度3D術前基準スキャン(eg,CT)に整列させることで、外科的判断を通知する。 2D/3D画像の登録は実際には失敗することが多い: 従来の最適化手法は、局所的なミニマの影響を受けにくいが、小さなデータセットで訓練されたニューラルネットワークは、新しい患者で失敗するか、実践的なランドマークの監督を必要とする。 DiffPoseは、患者固有のシミュレーションと微分可能な物理ベースのレンダリングを利用して、手動でラベル付けされたデータに頼ることなく正確な2D/3D登録を実現する自己教師型アプローチである。 術前に、CNNは、術前CTからレンダリングされたランダムに配向した合成X線のポーズを遅らせるように訓練される。 CNNはその後、X線レンダラーを使ってソリューションを洗練する、迅速な術中テストタイム最適化を初期化する。 我々の研究は、疎微分可能なレンダリングのための$\mathbf{SE}(3)$と、測地的およびマルチスケールの局所性に敏感な損失を伴う接空間$\mathfrak{se}(3)$における登録を駆動する$\mathbf{SE}(3)$からカメラのポーズをサンプリングする幾何的に原理化された方法を提案する。 DiffPoseは手術用データセット全体の術速でサブミリ精度を達成し、既存の教師なしの手法を桁違いに改善し、教師付きベースラインよりも優れています。 私たちのコードはhttps://github.com/eigenvivek/DiffPose.comで公開されています。

Surgical decisions are informed by aligning rapid portable 2D intraoperative images (e.g., X-rays) to a high-fidelity 3D preoperative reference scan (e.g., CT). 2D/3D image registration often fails in practice: conventional optimization methods are prohibitively slow and susceptible to local minima, while neural networks trained on small datasets fail on new patients or require impractical landmark supervision. We present DiffPose, a self-supervised approach that leverages patient-specific simulation and differentiable physics-based rendering to achieve accurate 2D/3D registration without relying on manually labeled data. Preoperatively, a CNN is trained to regress the pose of a randomly oriented synthetic X-ray rendered from the preoperative CT. The CNN then initializes rapid intraoperative test-time optimization that uses the differentiable X-ray renderer to refine the solution. Our work further proposes several geometrically principled methods for sampling camera poses from $\mathbf{SE}(3)$, for sparse differentiable rendering, and for driving registration in the tangent space $\mathfrak{se}(3)$ with geodesic and multiscale locality-sensitive losses. DiffPose achieves sub-millimeter accuracy across surgical datasets at intraoperative speeds, improving upon existing unsupervised methods by an order of magnitude and even outperforming supervised baselines. Our code is available at https://github.com/eigenvivek/DiffPose.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# TULIP: LiDAR Point Cloudのアップサンプリング用トランスフォーマー

TULIP: Transformer for Upsampling of LiDAR Point Cloud ( http://arxiv.org/abs/2312.06733v3 )

ライセンス: Link先を確認
Bin Yang, Patrick Pfreundschuh, Roland Siegwart, Marco Hutter, Peyman Moghadam, Vaishakh Patil, (参考訳) LiDAR Upsamplingは、大規模なシーンコンテキストのスパースで不規則な構造のため、ロボットや自動運転車の認識システムにとって困難なタスクである。 近年の研究では、3次元ユークリッド空間からのLiDARデータを2次元画像空間の超解像問題に変換することでこの問題を解決することを提案する。 これらの手法は細かな詳細で高解像度のレンジ画像を生成することができるが、3Dポイントの雲は詳細を曖昧にし、無効な点を予測する。 本稿では,低分解能LiDAR入力から高分解能LiDAR点雲を再構成する新しい方法であるTULIPを提案する。 また、レンジ画像に基づくアプローチにも従うが、特にSwin-Transformerベースのネットワークのパッチとウィンドウのジオメトリを変更して、レンジ画像の特性をよりよく適合させる。 我々は3つの公開現実世界およびシミュレーションデータセットについていくつかの実験を行った。 TULIPは、すべての関連するメトリクスにおいて最先端の手法より優れており、以前の作業よりも堅牢でより現実的な点雲を生成する。

LiDAR Upsampling is a challenging task for the perception systems of robots and autonomous vehicles, due to the sparse and irregular structure of large-scale scene contexts. Recent works propose to solve this problem by converting LiDAR data from 3D Euclidean space into an image super-resolution problem in 2D image space. Although their methods can generate high-resolution range images with fine-grained details, the resulting 3D point clouds often blur out details and predict invalid points. In this paper, we propose TULIP, a new method to reconstruct high-resolution LiDAR point clouds from low-resolution LiDAR input. We also follow a range image-based approach but specifically modify the patch and window geometries of a Swin-Transformer-based network to better fit the characteristics of range images. We conducted several experiments on three public real-world and simulated datasets. TULIP outperforms state-of-the-art methods in all relevant metrics and generates robust and more realistic point clouds than prior works.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# 量子光学における次元還元

Dimensional Reduction in Quantum Optics ( http://arxiv.org/abs/2312.06764v2 )

ライセンス: Link先を確認
Jannik Ströhle, Richard Lopp, (参考訳) 1次元の量子光学モデルは、例えば準1次元の原子動力学を研究する際に、大きな分離や異なる空間次元に関連する凍結力学の直観に基づいており、3+1D$マクスウェルの理論に違反する可能性がある。 ここでは、光-物質相互作用による近似の厳密な基礎を提供する。 我々は、量子化された電磁場を、光ファイバー、レーザービーム、導波路などの軸対称な構成を研究する際に、低次元のサブ空間に住み、スペクトルの全体を含む無限個のサブフィールドに正確に$-$$で分解できることを示す。 次元還元近似は、例えば原子との相互作用を考えると、原子空間プロファイルの修正に対応するようなサブフィールドの数のトランケーションに対応する。 我々は,標準アプローチの正当性や,無視された空間次元によるダイナミクスを考慮に入れた修正が必要な状況について検討する。 特に, 真空揺らぎと構造レーザモードが近似の妥当性に果たす役割について検討する。

One-dimensional quantum optical models usually rest on the intuition of large scale separation or frozen dynamics associated with the different spatial dimensions, for example when studying quasi one-dimensional atomic dynamics, potentially resulting in the violation of $3+1D$ Maxwell's theory. Here, we provide a rigorous foundation for this approximation by means of the light-matter interaction. We show how the quantized electromagnetic field can be decomposed $-$ exactly $-$ into an infinite number of subfields living on a lower dimensional subspace and containing the entirety of the spectrum when studying axially symmetric setups, such as with an optical fiber, a laser beam or a waveguide. The dimensional reduction approximation then corresponds to a truncation in the number of such subfields that in turn, when considering the interaction with for instance an atom, corresponds to a modification to the atomic spatial profile. We explore under what conditions the standard approach is justified and when corrections are necessary in order to account for the dynamics due to the neglected spatial dimensions. In particular we will examine what role vacuum fluctuations and structured laser modes play in the validity of the approximation.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# 半教師型医用画像分割のための二重構造対応画像フィルタリング

Dual Structure-Aware Image Filterings for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2312.07264v2 )

ライセンス: Link先を確認
Yuliang Gu, Zhichao Sun, Tian Chen, Xin Xiao, Yepeng Liu, Yongchao Xu, Laurent Najman, (参考訳) 近年,半教師付き画像セグメンテーションが注目されている。 鍵となるのは、トレーニングプロセスでラベルのないイメージをどのように活用するかだ。 ほとんどの手法は、画像および/またはモデルレベルでラベル付けされていない画像の一貫性のある予測(例えば、ノイズ/摂動の追加、代替バージョンの作成など)を維持している。 ほとんどの画像レベルの変化では、医用画像はしばしば事前構造情報を持ち、十分に調査されていない。 本稿では、半教師付き医用画像分割のための画像レベルのバリエーションとして、新しい二重構造対応画像フィルタリング(DSAIF)を提案する。 構造を意識したツリーベース画像表現におけるフィルタリングによる画像の簡易化を行うコネクテッドフィルタリングによって動機づけられた、二重コントラスト不変の Max-tree と Min-tree 表現を利用する。 具体的には、Max/Min-tree に兄弟関係を持たない位相的に等価なノード(すなわち連結成分)を除去する新しい連結フィルタリングを提案する。 これにより、位相的に重要な構造を保持する2つのフィルタ画像が得られる。 提案したDSAIFを相互に教師付きネットワークに適用することにより、ラベルのない画像に対する誤った予測のコンセンサスを減少させる。 これにより、ラベルのない画像の偽ラベルに過度に適合するという確認バイアスの問題が軽減され、セグメンテーション性能が効果的に向上する。 3つのベンチマークデータセットの大規模な実験結果から,提案手法が最先端の手法を著しく上回る結果が得られた。 ソースコードは公開されます。

Semi-supervised image segmentation has attracted great attention recently. The key is how to leverage unlabeled images in the training process. Most methods maintain consistent predictions of the unlabeled images under variations (e.g., adding noise/perturbations, or creating alternative versions) in the image and/or model level. In most image-level variation, medical images often have prior structure information, which has not been well explored. In this paper, we propose novel dual structure-aware image filterings (DSAIF) as the image-level variations for semi-supervised medical image segmentation. Motivated by connected filtering that simplifies image via filtering in structure-aware tree-based image representation, we resort to the dual contrast invariant Max-tree and Min-tree representation. Specifically, we propose a novel connected filtering that removes topologically equivalent nodes (i.e. connected components) having no siblings in the Max/Min-tree. This results in two filtered images preserving topologically critical structure. Applying the proposed DSAIF to mutually supervised networks decreases the consensus of their erroneous predictions on unlabeled images. This helps to alleviate the confirmation bias issue of overfitting to noisy pseudo labels of unlabeled images, and thus effectively improves the segmentation performance. Extensive experimental results on three benchmark datasets demonstrate that the proposed method significantly/consistently outperforms some state-of-the-art methods. The source codes will be publicly available.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# CBQ:大規模言語モデルのためのクロスブロック量子化

CBQ: Cross-Block Quantization for Large Language Models ( http://arxiv.org/abs/2312.07950v3 )

ライセンス: Link先を確認
Xin Ding, Xiaoyu Liu, Zhijun Tu, Yun Zhang, Wei Li, Jie Hu, Hanting Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang, (参考訳) ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を超低コストで圧縮する上で重要な役割を果たしている。 しかし、既存のPTQメソッドは、ブロックの依存性を無視し、低ビット設定でパフォーマンスが著しく低下する1つの層または1つのブロック内でのアウトレイラの処理にのみフォーカスする。 本稿では,LLMのためのブロック間再構成に基づくPTQ手法CBQを提案する。 CBQは、複数のブロックにまたがる長距離依存関係を確立し、エラーの蓄積を最小限に抑える。 さらに、CBQは、重みとアクティベーションアウトリアを抑制するための粗大な前処理(CFP)戦略と、高精度な重み量子化のための適応的なLoRA-Rounding技術が組み込まれている。 これらの革新によりCBQは極端な外れ値の処理を効果的に行うだけでなく、全体的な量子化精度を向上させることができる。 広範な実験により、CBQは優れた低ビット量子化(W4A4、W4A8、W2A16)を達成し、様々なLCMやデータセットで既存の最先端の手法より優れていることが示された。 CBQは4ビットのLAMA1-65Bモデルを1つのGPUでわずか4.3時間で量子化し、性能と量子化効率の相違点を達成する。

Post-training quantization (PTQ) has played a key role in compressing large language models (LLMs) with ultra-low costs. However, existing PTQ methods only focus on handling the outliers within one layer or one block, which ignores the dependency of blocks and leads to severe performance degradation in low-bit settings. In this paper, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. CBQ employs a cross-block dependency using a homologous reconstruction scheme, establishing long-range dependencies across multiple blocks to minimize error accumulation. Furthermore, CBQ incorporates a coarse-to-fine preprocessing (CFP) strategy for suppressing weight and activation outliers, coupled with an adaptive LoRA-Rounding technique for precise weight quantization. These innovations enable CBQ to not only handle extreme outliers effectively but also improve overall quantization accuracy. Extensive experiments show that CBQ achieves superior low-bit quantization (W4A4, W4A8, W2A16) and outperforms existing state-of-the-art methods across various LLMs and datasets. Notably, CBQ quantizes the 4-bit LLAMA1-65B model within only 4.3 hours on a single GPU, achieving a commendable tradeoff between performance and quantization efficiency.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# 子宮内膜癌の組織学的分類のためのビジョントランスフォーマーを用いた深層学習

Vision Transformer-Based Deep Learning for Histologic Classification of Endometrial Cancer ( http://arxiv.org/abs/2312.08479v2 )

ライセンス: Link先を確認
Manu Goyal, Laura J. Tafe, James X. Feng, Kristen E. Muller, Liesbeth Hondelink, Jessica L. Bentz, Saeed Hassanpour, (参考訳) 子宮内膜癌(英: Endometrial cancer)は、アメリカ合衆国の女性で4番目に多いがんであり、この疾患を発症するリスクは約2.8%である。 子宮内膜癌の正確な組織学的評価と分子分類は,効果的な患者管理と治療方法の決定に重要である。 本研究では,畳み込みニューラルネットワークを用いて組織学的特徴を抽出するEndoNetと,それらの特徴を集約し,その視覚的特徴からハイグレードとローグレードに分類する視覚変換器を紹介する。 このモデルは、ダートマス・ヘルスにおける子宮内膜癌に対する929のデジタル化ヘマトキシリンとエオシン染色による全スライディング画像に基づいて訓練された。 これらのスライドは,低等級(Endometroid Grades 1, 2),高等級(Endometroid carcinoma FIGO grade 3, 子宮体節癌, 癌肉腫)に分類される。 内耳検査は110例, 内耳検査は100例, 内耳検査は100例, 内耳検査は100例であった。 このモデルは、内部試験で平均F1スコアが0.91(95% CI: 0.86-0.95)、AUCが0.95(95% CI: 0.89-0.99)、F1スコアが0.86(95% CI: 0.80-0.94)、外部試験が0.86(95% CI: 0.75-0.93)であった。 さらなる検証を控えて、EndoNetは、婦人科腫瘍のグレードを分類する手動アノテーションを必要とせずに、病理医を支援する可能性がある。

Endometrial cancer, the fourth most common cancer in females in the United States, with the lifetime risk for developing this disease is approximately 2.8% in women. Precise histologic evaluation and molecular classification of endometrial cancer is important for effective patient management and determining the best treatment modalities. This study introduces EndoNet, which uses convolutional neural networks for extracting histologic features and a vision transformer for aggregating these features and classifying slides based on their visual characteristics into high- and low- grade. The model was trained on 929 digitized hematoxylin and eosin-stained whole-slide images of endometrial cancer from hysterectomy cases at Dartmouth-Health. It classifies these slides into low-grade (Endometroid Grades 1 and 2) and high-grade (endometroid carcinoma FIGO grade 3, uterine serous carcinoma, carcinosarcoma) categories. EndoNet was evaluated on an internal test set of 110 patients and an external test set of 100 patients from the public TCGA database. The model achieved a weighted average F1-score of 0.91 (95% CI: 0.86-0.95) and an AUC of 0.95 (95% CI: 0.89-0.99) on the internal test, and 0.86 (95% CI: 0.80-0.94) for F1-score and 0.86 (95% CI: 0.75-0.93) for AUC on the external test. Pending further validation, EndoNet has the potential to support pathologists without the need of manual annotations in classifying the grades of gynecologic pathology tumors.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# FoMo-Bench:リモートセンシング基礎モデルのためのマルチモーダル・マルチスケール・マルチタスク森林モニタリングベンチマーク

FoMo-Bench: a multi-modal, multi-scale and multi-task Forest Monitoring Benchmark for remote sensing foundation models ( http://arxiv.org/abs/2312.10114v2 )

ライセンス: Link先を確認
Nikolaos Ioannis Bountos, Arthur Ouaknine, David Rolnick, (参考訳) 森林は地球の生態系や自然システムの重要な部分であり、人類が依存するサービスを提供しているが、土地利用の決定や気候変動によって急速に変化している。 負の効果の理解と緩和には、広範囲の感覚モーダルから世界規模で森林のデータを解析する必要があるが、近年、リモートセンシングのための機械学習アルゴリズムを用いて、そのような問題に多くのアプローチがなされている。 これまで、森林モニタリングの問題は、主に孤立して対処されてきた。 コンピュータビジョンとリモートセンシングの基礎モデルの発展に触発されて,我々はFoMo-Bench(FoMo-Bench)を初めて統合したフォレストモニタリングベンチマーク(FoMo-Bench)を紹介した。 FoMo-Benchは、衛星、航空、在庫データを含む15の多様なデータセットで構成され、多スペクトル、赤緑色、合成開口レーダ(SAR)およびLiDARデータを含む様々な地理的領域をカバーする。 FoMo-Benchには、複数のタイプの森林モニタリングタスク、スパンニング分類、セグメンテーション、オブジェクト検出が含まれている。 また,FoMo-Benchで表されるタスクや地理の多様性をさらに高めるために,衛星画像と木種分類のための地上アノテーションを組み合わせた新しいグローバルデータセットであるTalloSを導入し,複数の階層的な分類レベル(種,属,科)に1,000以上のカテゴリを包含した。 最後に,FoMo-Netを提案する。FoMo-Netは,リモートセンシングにおいて広く使用されるスペクトル帯域の組み合わせを,世界中の多様な地中サンプリング距離と地理的位置で処理できる基盤モデルである。 この研究は、森林モニタリングのためのスケーラブルなマルチモーダルモデルとマルチタスクモデルを探索するために、機械学習と森林生物学研究者の協力を刺激することを目的としている。 すべてのコードとデータは公開されます。

Forests are an essential part of Earth's ecosystems and natural systems, as well as providing services on which humanity depends, yet they are rapidly changing as a result of land use decisions and climate change. Understanding and mitigating negative effects requires parsing data on forests at global scale from a broad array of sensory modalities, and recently many such problems have been approached using machine learning algorithms for remote sensing. To date, forest-monitoring problems have largely been addressed in isolation. Inspired by the rise of foundation models for computer vision and remote sensing, we here present the first unified Forest Monitoring Benchmark (FoMo-Bench). FoMo-Bench consists of 15 diverse datasets encompassing satellite, aerial, and inventory data, covering a variety of geographical regions, and including multispectral, red-green-blue, synthetic aperture radar (SAR) and LiDAR data with various temporal, spatial and spectral resolutions. FoMo-Bench includes multiple types of forest-monitoring tasks, spanning classification, segmentation, and object detection. To further enhance the diversity of tasks and geographies represented in FoMo-Bench, we introduce a novel global dataset, TalloS, combining satellite imagery with ground-based annotations for tree species classification, encompassing 1,000+ categories across multiple hierarchical taxonomic levels (species, genus, family). Finally, we propose FoMo-Net, a baseline foundation model with the capacity to process any combination of commonly used spectral bands in remote sensing, across diverse ground sampling distances and geographical locations worldwide. This work aims to inspire research collaborations between machine learning and forest biology researchers in exploring scalable multi-modal and multi-task models for forest monitoring. All code and data will be made publicly available.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# アクションなしで行動することを学ぶ

Learning to Act without Actions ( http://arxiv.org/abs/2312.10812v2 )

ライセンス: Link先を確認
Dominik Schmidt, Minqi Jiang, (参考訳) 大量のWebデータを事前学習することは、言語や視覚などの領域において、強力な汎用モデルを得るための効果的なアプローチであることが証明されている。 しかし、このパラダイムはまだ強化学習に留まっていない。 これは、Web上の行動データを具現化した最も豊富な形式であるビデオが、デモから振る舞いを模倣する既存の方法に必要なアクションラベルを欠いているためである。 本稿では,潜時行動情報を復元する手法であるLatent Action Policies (LAPO)を紹介した。 LAPOは、観察されたダイナミックスからのみ真のアクション空間の構造を復元できる最初の方法である。 LAPOは、小さなアクションラベル付きデータセットを使用してオフラインで、専門家レベルのポリシに迅速に微調整可能な、潜在アクションポリシーのトレーニングを可能にする。 LAPOは、Web上で利用できる膨大な量のビデオで、強力でジェネラリスト的なポリシーと世界モデルを事前訓練する第一歩を踏み出した。

Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in domains such as language and vision. However, this paradigm has not yet taken hold in reinforcement learning. This is because videos, the most abundant form of embodied behavioral data on the web, lack the action labels required by existing methods for imitating behavior from demonstrations. We introduce Latent Action Policies (LAPO), a method for recovering latent action information, and thereby latent-action policies, world models, and inverse dynamics models, purely from videos. LAPO is the first method able to recover the structure of the true action space just from observed dynamics, even in challenging procedurally-generated environments. LAPO enables training latent-action policies that can be rapidly fine-tuned into expert-level policies, either offline using a small action-labeled dataset, or online with rewards. LAPO takes a first step towards pre-training powerful, generalist policies and world models on the vast amounts of videos readily available on the web.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# 大規模言語モデルのための検索強化ジェネレーション:サーベイ

Retrieval-Augmented Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2312.10997v5 )

ライセンス: Link先を確認
Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang, (参考訳) 大きな言語モデル(LLM)には印象的な能力があるが、幻覚、時代遅れの知識、不透明で追跡不能な推論プロセスといった課題に直面している。 Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。 これにより、特に知識集約的なタスクにおいて、生成の正確性と信頼性が向上し、継続的な知識更新とドメイン固有の情報の統合が可能になる。 RAG は LLM の本質的な知識と外部データベースの巨大な動的リポジトリを相乗的に統合する。 本稿では,RAGパラダイムの進展を概観し,Naive RAG,Advanced RAG,Modular RAGを包括的に検討する。 検索,生成,拡張技術を含むRAGフレームワークのトリパルタイト基盤を慎重に精査する。 本稿は、それぞれの重要なコンポーネントに組み込まれた最先端技術に注目し、RAGシステムの進歩を深く理解する。 さらに,最新の評価フレームワークとベンチマークを紹介する。 最後に、本稿は、現在直面している課題を概説し、研究開発の道筋を指摘する。

Large Language Models (LLMs) showcase impressive capabilities but encounter challenges like hallucination, outdated knowledge, and non-transparent, untraceable reasoning processes. Retrieval-Augmented Generation (RAG) has emerged as a promising solution by incorporating knowledge from external databases. This enhances the accuracy and credibility of the generation, particularly for knowledge-intensive tasks, and allows for continuous knowledge updates and integration of domain-specific information. RAG synergistically merges LLMs' intrinsic knowledge with the vast, dynamic repositories of external databases. This comprehensive review paper offers a detailed examination of the progression of RAG paradigms, encompassing the Naive RAG, the Advanced RAG, and the Modular RAG. It meticulously scrutinizes the tripartite foundation of RAG frameworks, which includes the retrieval, the generation and the augmentation techniques. The paper highlights the state-of-the-art technologies embedded in each of these critical components, providing a profound understanding of the advancements in RAG systems. Furthermore, this paper introduces up-to-date evaluation framework and benchmark. At the end, this article delineates the challenges currently faced and points out prospective avenues for research and development.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# CLIP-DINOiser:オープン語彙セマンティックセグメンテーションのためのいくつかのDINOトリックを教えるCLIP-DINOiser

CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation ( http://arxiv.org/abs/2312.12359v2 )

ライセンス: Link先を確認
Monika Wysoczańska, Oriane Siméoni, Michaël Ramamonjisoa, Andrei Bursuc, Tomasz Trzciński, Patrick Pérez, (参考訳) 人気のCLIPモデルは、任意のテキストプロンプトとのシームレスな相互作用のおかげで、印象的なゼロショット機能を示している。 しかし、空間認識の欠如は、しばしばアノテーションを使用し、元のオープン語彙特性を抑える可能性のある追加の微調整ステップなしで、例えばセマンティックセグメンテーションのような高密度なコンピュータビジョンタスクには適さない。 一方、自己監督的表現法は、人為的なアノテーションや明示的な監督を伴わない、優れた位置化特性を示してきた。 本研究では,両世界の最善を尽くし,アノテーションを必要としないオープン語彙セマンティックセマンティックセマンティクス法を提案する。 本稿では,CLIPの最終プーリング層を簡易に修正したMaskCLIP機能を局所的に改善し,自己管理機能から抽出した局所化事前情報を統合することを提案する。 これにより、MaskCLIPの性能を大幅に改善し、スムーズな出力を生成する。 さらに,CLIP機能から直接,使用済みの自己教師機能プロパティを学習できることも示す。 私たちの方法であるCLIP-DINOiserでは,COCO,Pascal Context,Cityscapes,ADE20kなどの難易度の高いベンチマークにおいて,CLIPの1つの前方パスと2つのライト畳み込み層,余分な監視と余分なメモリを必要とせず,最新かつ詳細な結果が得られる。 結果を再現するコードはhttps://github.com/wysoczanska/clip_dinoiser.comで公開されている。

The popular CLIP model displays impressive zero-shot capabilities thanks to its seamless interaction with arbitrary text prompts. However, its lack of spatial awareness makes it unsuitable for dense computer vision tasks, e.g., semantic segmentation, without an additional fine-tuning step that often uses annotations and can potentially suppress its original open-vocabulary properties. Meanwhile, self-supervised representation methods have demonstrated good localization properties without human-made annotations nor explicit supervision. In this work, we take the best of both worlds and propose an open-vocabulary semantic segmentation method, which does not require any annotations. We propose to locally improve dense MaskCLIP features, which are computed with a simple modification of CLIP's last pooling layer, by integrating localization priors extracted from self-supervised features. By doing so, we greatly improve the performance of MaskCLIP and produce smooth outputs. Moreover, we show that the used self-supervised feature properties can directly be learnt from CLIP features. Our method CLIP-DINOiser needs only a single forward pass of CLIP and two light convolutional layers at inference, no extra supervision nor extra memory and reaches state-of-the-art results on challenging and fine-grained benchmarks such as COCO, Pascal Context, Cityscapes and ADE20k. The code to reproduce our results is available at https://github.com/wysoczanska/clip_dinoiser.
翻訳日:2024-03-28 22:23:24 公開日:2024-03-27
# Continual-MAE:Continuous Test-Time Adaptationのための適応分布マスク付きオートエンコーダ

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation ( http://arxiv.org/abs/2312.12480v2 )

ライセンス: Link先を確認
Jiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, Shanghang Zhang, (参考訳) 実世界のダイナミズムに対処するため,CTTA (Continuous Test-Time Adaptation) が提案されている。 既存のCTTA法は、主にエントロピーの最小化や教師による擬似ラベル方式に頼っている。 しかし、動的データ分布は、既存の自己教師付き学習手法における誤校正予測やノイズのある擬似ラベルを引き起こし、継続的な適応過程におけるエラー蓄積と破滅的な忘れの問題の効果的軽減を妨げている。 これらの課題に対処するため,適応分布マスケドオートエンコーダ (ADMA) を連続的に提案し,分散シフトの蓄積を軽減しつつ,対象領域の知識の抽出を強化する。 具体的には、マスクされた位置を適応的にサンプリングする分散対応マスキング(DaM)機構を提案し、マスクされたターゲットサンプルと元のターゲットサンプルとの一貫性の制約を確立する。 さらに,マスク付きトークンに対しては,手作りの特徴記述子(例えば,向き付け勾配のヒストグラム)の再構成に効率的なデコーダを用い,その不変性を利用してタスク関連表現を向上する。 提案手法は,広く認識されている4つのベンチマークに対して広範な実験を行うことで,分類および分割CTTAタスクにおける最先端のパフォーマンスを実現する。 私たちのプロジェクトページは、https://sites.google.com/view/continual-mae/homeです。

Continual Test-Time Adaptation (CTTA) is proposed to migrate a source pre-trained model to continually changing target distributions, addressing real-world dynamism. Existing CTTA methods mainly rely on entropy minimization or teacher-student pseudo-labeling schemes for knowledge extraction in unlabeled target domains. However, dynamic data distributions cause miscalibrated predictions and noisy pseudo-labels in existing self-supervised learning methods, hindering the effective mitigation of error accumulation and catastrophic forgetting problems during the continual adaptation process. To tackle these issues, we propose a continual self-supervised method, Adaptive Distribution Masked Autoencoders (ADMA), which enhances the extraction of target domain knowledge while mitigating the accumulation of distribution shifts. Specifically, we propose a Distribution-aware Masking (DaM) mechanism to adaptively sample masked positions, followed by establishing consistency constraints between the masked target samples and the original target samples. Additionally, for masked tokens, we utilize an efficient decoder to reconstruct a hand-crafted feature descriptor (e.g., Histograms of Oriented Gradients), leveraging its invariant properties to boost task-relevant representations. Through conducting extensive experiments on four widely recognized benchmarks, our proposed method attains state-of-the-art performance in both classification and segmentation CTTA tasks. Our project page: https://sites.google.com/view/continual-mae/home.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# 部分動力学知識を用いたサンプル高能率強化学習

Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge ( http://arxiv.org/abs/2312.12558v2 )

ライセンス: Link先を確認
Meshal Alharbi, Mardavij Roozbehani, Munther Dahleh, (参考訳) オンライン強化学習のサンプル複雑性の問題は、学習過程を加速させる可能性のあるシステム力学に関する部分的な知識を考慮せずに、文献でしばしば研究される。 本稿では,オンラインQ-ラーニング手法のサンプル複雑性について,ダイナミックスに関する事前知識が利用可能であったり,効率的に学習できたりした場合に検討する。 S_{h+1} = f(S_h, A_h) + W_h$, ここで$f$は基礎となるシステムダイナミクスを表し、$W_h$は状態や動作に依存しない未知の乱れである。 S$状態、$A$アクション、およびエピソード長$H$の有限エピソードマルコフ決定プロセスの設定において、$\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{T})$を達成できる楽観的なQ学習アルゴリズムを示す。 これは、既存のQ-ラーニングメソッドに対する典型的な $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{SAT})$ regret とは対照的である。 さらに、ノイズの多い$\hat{f}$ of $f$しか得られない場合、状態空間と作用空間の濃度に依存しない多くのサンプルにおいて、我々の手法は、ほぼ最適なポリシーを学習することができる。 準最適性ギャップは近似誤差 $\hat{f}-f$ と対応する最適値関数のリプシッツ定数に依存する。 我々の手法は遷移確率のモデリングを必要とせず、モデルフリーの手法と同じメモリの複雑さを享受する。

The problem of sample complexity of online reinforcement learning is often studied in the literature without taking into account any partial knowledge about the system dynamics that could potentially accelerate the learning process. In this paper, we study the sample complexity of online Q-learning methods when some prior knowledge about the dynamics is available or can be learned efficiently. We focus on systems that evolve according to an additive disturbance model of the form $S_{h+1} = f(S_h, A_h) + W_h$, where $f$ represents the underlying system dynamics, and $W_h$ are unknown disturbances independent of states and actions. In the setting of finite episodic Markov decision processes with $S$ states, $A$ actions, and episode length $H$, we present an optimistic Q-learning algorithm that achieves $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{T})$ regret under perfect knowledge of $f$, where $T$ is the total number of interactions with the system. This is in contrast to the typical $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{SAT})$ regret for existing Q-learning methods. Further, if only a noisy estimate $\hat{f}$ of $f$ is available, our method can learn an approximately optimal policy in a number of samples that is independent of the cardinalities of state and action spaces. The sub-optimality gap depends on the approximation error $\hat{f}-f$, as well as the Lipschitz constant of the corresponding optimal value function. Our approach does not require modeling of the transition probabilities and enjoys the same memory complexity as model-free methods.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# SAR-Net:グローバル・インフォメーション・フュージョンによるマルチスケール指向型SARネットワーク

SAR-Net: Multi-scale Direction-aware SAR Network via Global Information Fusion ( http://arxiv.org/abs/2312.16943v2 )

ライセンス: Link先を確認
Mingxiang Cao, Jie Lei, Weiying Xie, Jiaqing Zhang, Daixun Li, Yunsong Li, (参考訳) ディープラーニングは、SAR(Synthetic Aperture Radar)画像を用いた物体検出において大きな進歩をもたらした。 既存の手法は、有望な結果を達成する一方で、ローカルおよびグローバルな情報、特に方向対応の機能の効果的な統合に苦慮することが多い。 本稿では,SARオブジェクト検出における方向認識情報のグローバルな融合を目的とした新しいフレームワークであるSAR-Netを提案する。 SAR-Netは、UCM(Unity Compensation Mechanism)とDAM(Direction-aware Attention Module)という2つの重要なイノベーションを活用している。 UCMは、様々な規模の機能間の補完関係の確立を促進し、効率的なグローバル情報融合を可能にする。 このうち、マルチスケールアライメントモジュール(MAM)とMFM(Multi-level Fusion Module)は、テクスチャの詳細とセマンティック情報の両方をキャプチャすることで機能統合を強化する。 次に、MEM(Multi-feature Embedding Module)は、グローバルな機能をプライマリブランチにフィードバックし、情報伝達をさらに改善する。 さらに、DAMは双方向の注意重合を通じて方向認識情報を捕捉し、背景干渉を効果的に除去する。 広範囲にわたる実験は、SAR-Netの有効性を実証し、航空機(SAR-AIRcraft-1.0)と船舶データセット(SSDD, HRSID)に対して最先端の結果を達成し、その一般化能力と堅牢性を確認した。

Deep learning has driven significant progress in object detection using Synthetic Aperture Radar (SAR) imagery. Existing methods, while achieving promising results, often struggle to effectively integrate local and global information, particularly direction-aware features. This paper proposes SAR-Net, a novel framework specifically designed for global fusion of direction-aware information in SAR object detection. SAR-Net leverages two key innovations: the Unity Compensation Mechanism (UCM) and the Direction-aware Attention Module (DAM). UCM facilitates the establishment of complementary relationships among features across different scales, enabling efficient global information fusion. Among them, Multi-scale Alignment Module (MAM) and distinct Multi-level Fusion Module (MFM) enhance feature integration by capturing both texture detail and semantic information. Then, Multi-feature Embedding Module (MEM) feeds back global features into the primary branches, further improving information transmission. Additionally, DAM, through bidirectional attention polymerization, captures direction-aware information, effectively eliminating background interference. Extensive experiments demonstrate the effectiveness of SAR-Net, achieving state-of-the-art results on aircraft (SAR-AIRcraft-1.0) and ship datasets (SSDD, HRSID), confirming its generalization capability and robustness.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# SIGNeRF:ニューラルラジアンスフィールドのためのシーン統合生成

SIGNeRF: Scene Integrated Generation for Neural Radiance Fields ( http://arxiv.org/abs/2401.01647v2 )

ライセンス: Link先を確認
Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch, (参考訳) 画像拡散モデルの進歩は、最近、高品質な画像の生成において顕著な改善をもたらした。 ニューラル・レージアンス・フィールド(Neural Radiance Fields、NeRF)と組み合わせることで、彼らは3D生成の新しい機会を可能にした。 しかし、ほとんどの生成的3Dアプローチはオブジェクト指向であり、既存のフォトリアリスティックシーンの編集に適用することは簡単ではない。 高速かつ制御可能なNeRFシーン編集とシーン統合オブジェクト生成のための新しいアプローチであるSIGNeRFを提案する。 新しい生成的更新戦略により、反復的な最適化を必要とせずに、編集された画像全体の3D一貫性が保証される。 奥行き条件付き拡散モデルには、単一のビューではなく、画像のグリッドをリクエストすることで、本質的に3次元一貫したビューを生成する能力があることがわかった。 これらの知見に基づき、修正画像のマルチビュー参照シートを導入する。 提案手法は,参照シートに基づいて画像コレクションを一貫した更新を行い,新たに生成された画像セットを1行にすることで,元のNeRFを改良する。 画像拡散モデルの深度条件付け機構を利用して、編集の空間的位置を細かく制御し、選択した領域または外部メッシュによる形状誘導を強制する。

Advances in image diffusion models have recently led to notable improvements in the generation of high-quality images. In combination with Neural Radiance Fields (NeRFs), they enabled new opportunities in 3D generation. However, most generative 3D approaches are object-centric and applying them to editing existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel approach for fast and controllable NeRF scene editing and scene-integrated object generation. A new generative update strategy ensures 3D consistency across the edited images, without requiring iterative optimization. We find that depth-conditioned diffusion models inherently possess the capability to generate 3D consistent views by requesting a grid of images instead of single views. Based on these insights, we introduce a multi-view reference sheet of modified images. Our method updates an image collection consistently based on the reference sheet and refines the original NeRF with the newly generated image set in one go. By exploiting the depth conditioning mechanism of the image diffusion model, we gain fine control over the spatial location of the edit and enforce shape guidance by a selected region or an external mesh.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# 自己コントラスト: 一貫性のない問題解決の観点からの反射性向上

Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives ( http://arxiv.org/abs/2401.02009v2 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu, (参考訳) LLM(Large Language Model)のリフレクション能力は注目されている。 ポストホック・プロンプト戦略(例えば、反射と自己精製)は、自己評価または外部からのフィードバックに基づいてLSMの反応を洗練させる。 しかし、最近の研究では外部からのフィードバックがないため、LLMの内在反射は不安定である。 我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。 LLMは自己評価時に過剰な自信や高いランダム性を示し、頑固なフィードバックや一貫性のないフィードバックを与え、反射を弱める。 これを改善するために、私たちはセルフコントラスト(Self-Contrast)を提唱する。 要求に合わせて様々な解決の観点を適応的に探求し、違いを対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。 本手法は, 頑健なバイアスを軽減するため, LLM を多種多様な視点で適用する。 さらに、それらの相違は、LLMがしばしば見落としている潜在的な誤りや固有の不確実性を示している。 これらの反射はより正確で安定した反射を触媒することができる。 様々なLSMを用いた一連の推論および翻訳タスクの実験は、我々の戦略の有効性と汎用性を明らかにするのに役立ちます。

The reflection capacity of Large Language Model (LLM) has garnered extensive attention. A post-hoc prompting strategy, e.g., reflexion and self-refine, refines LLM's response based on self-evaluated or external feedback. However, recent research indicates without external feedback, LLM's intrinsic reflection is unstable. Our investigation unveils that the key bottleneck is the quality of the self-evaluated feedback. We find LLMs often exhibit overconfidence or high randomness when self-evaluate, offering stubborn or inconsistent feedback, which causes poor reflection. To remedy this, we advocate Self-Contrast: It adaptively explores diverse solving perspectives tailored to the request, contrasts the differences, and summarizes these discrepancies into a checklist which could be used to re-examine and eliminate discrepancies. Our method endows LLM with diverse perspectives to alleviate stubborn biases. Moreover, their discrepancies indicate potential errors or inherent uncertainties that LLM often overlooks. Reflecting upon these can catalyze more accurate and stable reflection. Experiments conducted on a series of reasoning and translation tasks with different LLMs serve to underscore the effectiveness and generality of our strategy.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# EASYTOOL: 簡潔ツール指導によるLCMエージェントの強化

EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction ( http://arxiv.org/abs/2401.06201v3 )

ライセンス: Link先を確認
Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Yongliang Shen, Ren Kan, Dongsheng Li, Deqing Yang, (参考訳) 現実世界の複雑なタスクに対処するため、大規模言語モデル(LLM)の応用におけるツール利用への関心が高まっている。 LLMベースのエージェントを開発するには、通常、異なるツールドキュメントから多くのツール機能を理解する必要がある。 しかし、これらのドキュメントは多様、冗長、あるいは不完全であり、ツールの使用におけるLLMの能力に大きな影響を及ぼす可能性がある。 そこで本稿では,多種多様なツールドキュメントを統一的かつ簡潔なツール命令に変換するためのフレームワークであるEASYTOOLを紹介する。 EasyToolは、異なるソースの広範なツールドキュメントから必須情報を浄化し、標準化されたツール記述とLLMベースのエージェントの機能を提供する統一されたインターフェース(ツールインストラクション)を精査する。 複数のタスクに関する大規模な実験は、EasyToolがトークン消費を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることを実証している。 私たちのコードは将来的には \url{https://github.com/microsoft/JARVIS/} で利用可能になります。

To address intricate real-world tasks, there has been a rising interest in tool utilization in applications of large language models (LLMs). To develop LLM-based agents, it usually requires LLMs to understand many tool functions from different tool documentation. But these documentations could be diverse, redundant or incomplete, which immensely affects the capability of LLMs in using tools. To solve this, we introduce EASYTOOL, a framework transforming diverse and lengthy tool documentation into a unified and concise tool instruction for easier tool usage. EasyTool purifies essential information from extensive tool documentation of different sources, and elaborates a unified interface (i.e., tool instruction) to offer standardized tool descriptions and functionalities for LLM-based agents. Extensive experiments on multiple different tasks demonstrate that EasyTool can significantly reduce token consumption and improve the performance of tool utilization in real-world scenarios. Our code will be available at \url{https://github.com/microsoft/JARVIS/} in the future.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# スタイル表現を用いた機械生成テキストのFew-Shot検出

Few-Shot Detection of Machine-Generated Text using Style Representations ( http://arxiv.org/abs/2401.06712v2 )

ライセンス: Link先を確認
Rafael Rivera Soto, Kailin Koch, Aleem Khan, Barry Chen, Marcus Bishop, Nicholas Andrews, (参考訳) 人間の文章を巧みに模倣する指導訓練言語モデルの出現は、乱用の大きなリスクをもたらす。 しかし、そのような悪用は、テキストが人間の著者ではなく言語モデルによって構成されているかどうかを検出する能力に反する可能性がある。 この問題に対する従来のアプローチは、確認された人文および機械文書のコーパスをトレーニングすることで、教師付き手法に依存してきた。 残念なことに、モデル過小評価は、ニューラルネットワークベースの検出器にとって避けられない課題となり、新しい言語モデルのリリースなど、データシフトに直面して不安定になる。 他のアプローチでは、問題のドキュメントを生成したかもしれないモデルにアクセスする必要があります。 これらの課題を踏まえて、トレーニング時に言語モデルの関心事のサンプルに頼らず、根本的に異なるアプローチを追求します。 そこで本研究では,人間によるテキストから推定される記述スタイルの表現を活用することを提案する。 実際,Llama-2やChatGPT,GPT-4といった最先端の大規模言語モデルを含む,人間と機械作家の区別に有効な特徴も見出した。 さらに、いくつかの特定の言語モデルによって構成された少数の例を考えると、我々の手法は、与えられた文書を生成するモデルを予測できる。 実験を再現するコードとデータはhttps://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024で公開されている。

The advent of instruction-tuned language models that convincingly mimic human writing poses a significant risk of abuse. However, such abuse may be counteracted with the ability to detect whether a piece of text was composed by a language model rather than a human author. Some previous approaches to this problem have relied on supervised methods by training on corpora of confirmed human- and machine- written documents. Unfortunately, model under-specification poses an unavoidable challenge for neural network-based detectors, making them brittle in the face of data shifts, such as the release of newer language models producing still more fluent text than the models used to train the detectors. Other approaches require access to the models that may have generated a document in question, which is often impractical. In light of these challenges, we pursue a fundamentally different approach not relying on samples from language models of concern at training time. Instead, we propose to leverage representations of writing style estimated from human-authored text. Indeed, we find that features effective at distinguishing among human authors are also effective at distinguishing human from machine authors, including state-of-the-art large language models like Llama-2, ChatGPT, and GPT-4. Furthermore, given a handful of examples composed by each of several specific language models of interest, our approach affords the ability to predict which model generated a given document. The code and data to reproduce our experiments are available at https://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# 入力凸リプシッツRNN: エンジニアリングタスクの高速かつロバストなアプローチ

Input Convex Lipschitz RNN: A Fast and Robust Approach for Engineering Tasks ( http://arxiv.org/abs/2401.07494v3 )

ライセンス: Link先を確認
Zihao Wang, P S Pravin, Zhe Wu, (参考訳) 計算効率と非敵ロバスト性は、実世界の工学的応用において重要な要素である。 しかし、従来のニューラルネットワークは、同時に、あるいは別々にの両方に対処するのに不足することが多い。 入力凸アーキテクチャは計算効率を高める一方、リプシッツに制約されたアーキテクチャは非逆の堅牢性を促進することが知られている。 凸性およびリプシッツ連続性の強みを活用することにより、入出力凸リプシッツ再帰ニューラルネットワークと呼ばれる新しいネットワークアーキテクチャを開発する。 このモデルは、シンガポールのLHTホールディングスのソーラーPVシステム計画のための現実の太陽照射予測や、非線形化学反応器のリアルタイムモデル予測制御最適化などを含む、計算効率と非敵ロバスト性の観点から、高速で堅牢な最適化に基づくタスクのために設計され、既存の繰り返しユニットよりも優れている。

Computational efficiency and non-adversarial robustness are critical factors in real-world engineering applications. Yet, conventional neural networks often fall short in addressing both simultaneously, or even separately. Drawing insights from natural physical systems and existing literature, it is known that an input convex architecture enhances computational efficiency, while a Lipschitz-constrained architecture bolsters non-adversarial robustness. By leveraging the strengths of convexity and Lipschitz continuity, we develop a novel network architecture, termed Input Convex Lipschitz Recurrent Neural Networks. This model is explicitly designed for fast and robust optimization-based tasks and outperforms existing recurrent units across a spectrum of engineering tasks in terms of computational efficiency and non-adversarial robustness, including real-world solar irradiance prediction for Solar PV system planning at LHT Holdings in Singapore and real-time Model Predictive Control optimization for a nonlinear chemical reactor.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# シングルビュー映像からの高速ダイナミック3次元オブジェクト生成

Fast Dynamic 3D Object Generation from a Single-view Video ( http://arxiv.org/abs/2401.08742v2 )

ライセンス: Link先を確認
Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang, (参考訳) シングルビュービデオから動的3Dオブジェクトを生成するのは、4Dラベル付きデータがないため困難である。 スコア蒸留サンプリングなどのオフ・ザ・シェルフ画像生成モデルを転送することで、画像から3Dのパイプラインを拡張することで、既存の手法は、大きな事前訓練されたモデルを通して情報制限された監視信号のバックプロパゲートを必要とするため、遅くてスケールする傾向がある。 そこで本研究では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。 異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用して、明示的なポイントクラウド幾何学を持つ新しい4Dガウススプラッティングモデルを直接トレーニングし、連続カメラ軌跡下でリアルタイムレンダリングを可能にする。 合成ビデオと実ビデオの大規模な実験により、Efficient4Dは、新しいビュー合成の質を保ちながら、先行技術に比べて20倍の速度向上を提供することが示された。 例えば、Efficient4Dは動的オブジェクトをモデル化するのに6分しかかからないが、Consistent4Dは120分しかかからない。

Generating dynamic 3D object from a single-view video is challenging due to the lack of 4D labeled data. Extending image-to-3D pipelines by transferring off-the-shelf image generation models such as score distillation sampling, existing methods tend to be slow and expensive to scale due to the need for back-propagating the information-limited supervision signals through a large pretrained model. To address this, we propose an efficient video-to-4D object generation framework called Efficient4D. It generates high-quality spacetime-consistent images under different camera views, and then uses them as labeled data to directly train a novel 4D Gaussian splatting model with explicit point cloud geometry, enabling real-time rendering under continuous camera trajectories. Extensive experiments on synthetic and real videos show that Efficient4D offers a remarkable 20-fold increase in speed when compared to prior art alternatives while preserving the quality of novel view synthesis. For example, Efficient4D takes only 6 mins to model a dynamic object, vs 120 mins by Consistent4D.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# 単一イオン異方性を有するフラストレーションスピン-S$強磁性鎖におけるFew-マグノン励起

Few-magnon excitations in a frustrated spin-$S$ ferromagnetic chain with single-ion anisotropy ( http://arxiv.org/abs/2401.14101v2 )

ライセンス: Link先を確認
Jiawei Li, Ye Cao, Ning Wu, (参考訳) 反強磁性next-nearest-neighbor (NNN) 相互作用は、単イオン(SI) 異方性$D$の存在下で、有限サイズのスピン-S$鎖と強磁性next-neighbor (NN) 相互作用$J>0$および反強磁性next-nearest-neighbor (NNN) 相互作用$J'<0$で研究する。 まず、ゼロ励起エネルギー状態の出現条件を明らかにする。 $\Delta=\Delta'=1$$$\Delta$ および $\Delta'$ が対応する異方性パラメータである等方性の場合、基底状態が強磁性であるしきい値である$J/|J'|$ は、短い鎖の正確な対角化によって決定される。 正確な2つのマグノンブロッホ状態の集合を用いて、2つのマグノン問題をNNとNNNのホッピングを持つ有効開鎖上の1つの粒子にマッピングする。 2つのマグノン励起スペクトル全体を大系で計算し, SI異方性相互作用とNNN相互作用の相互作用により, 最低ライディングモードにおける共分散遷移はS=1/2$と高スピンの異なる挙動を示すことがわかった。 余剰運動量$k=-\pi$ に対して、有効格子は2つのNN開鎖に分解され、平面波アンサッツによって正確に解ける。 これに基づいて、SI または NNN を支持する領域がバンドの端付近で2つのマグノン境界状態と交換する、$\Delta'-D/|J'|$平面を解析的に同定する。 特に、任意の$S\geq 1/2$ に対して、バンドエッジの近傍に下位の NN 交換 2-マグノン境界状態が常に存在することを証明している。 最後に,スピン演算行列要素法を用いて,$n$-magnon spectra for $S=1/2$ with $n\leq5$を数値計算する。 対応する$n$-magnon-commensurateの不安定性領域は有限鎖に対して決定され、先行文献と一貫した結果が観察される。

We study few-magnon excitations in a finite-size spin-$S$ chain with ferromagnetic nearest-neighbor (NN) interaction $J>0$ and antiferromagnetic next-nearest-neighbor (NNN) interaction $J'<0$, in the presence of the single-ion (SI) anisotropy $D$. We first reveal the condition for the emergence of zero-excitation-energy states. In the isotropic case with $\Delta=\Delta'=1$ ($\Delta$ and $\Delta'$ are the corresponding anisotropy parameters), a threshold of $J/|J'|$ above which the ground state is ferromagnetic is determined by exact diagonalization for short chains up to $12$ sites. Using a set of exact two-magnon Bloch states, we then map the two-magnon problem to a single-particle one on an effective open chain with both NN and NNN hoppings. The whole two-magnon excitation spectrum is calculated for large systems and the commensurate-incommensurate transition in the lowest-lying mode is found to exhibit different behaviors between $S=1/2$ and higher spins due to the interplay of the SI anisotropy and the NNN interaction. For the commensurate momentum $k=-\pi$, the effective lattice is decoupled into two NN open chains that can be exactly solved via a plane-wave ansatz. Based on this, we analytically identify in the $\Delta'-D/|J'|$ plane the regions supporting the SI or NNN exchange two-magnon bound states near the edge of the band. In particular, we prove that there always exists a lower-lying NN exchange two-magnon bound state near the band edge for arbitrary $S\geq 1/2$. Finally, we numerically calculate the $n$-magnon spectra for $S=1/2$ with $n\leq5$ by using a spin-operator matrix element method. The corresponding $n$-magnon commensurate instability regions are determined for finite chains and consistent results with prior literature are observed.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# 古典的量子貯水池計算の統一的普遍性条件

Universality conditions of unified classical and quantum reservoir computing ( http://arxiv.org/abs/2401.15067v2 )

ライセンス: Link先を確認
Francesco Monzani, Enrico Prati, (参考訳) 貯留層コンピューティング(Reservoir computing)は、計算神経科学と機械学習において汎用的なパラダイムであり、動的システム(貯水池)の非線形ダイナミクスを利用して時間依存情報を効率的に処理する。 導入以来、様々なアプリケーションで顕著な能力を発揮してきた。 広く知られているように、貯水池コンピュータのクラスは、暗くなるメモリを持つ関数の普遍的な近似器として機能する。 そのような普遍類の構成はしばしば文脈固有のように見えるが、実際にはそれらは同じ原理に従う。 ここでは、統一された理論的枠組みを示し、普遍性を確保するための準備が整った設定を提案する。 量子貯水池計算の結果を実証する。 このような統一的な定理に導かれると、空間多重化が量子レジスタを扱う際の計算資源として機能する可能性が示唆される。 この分析は古典的および量子貯水池コンピューティングの統一的な見方に光を当てている。

Reservoir computing is a versatile paradigm in computational neuroscience and machine learning, that exploits the non-linear dynamics of a dynamical system - the reservoir - to efficiently process time-dependent information. Since its introduction, it has exhibited remarkable capabilities in various applications. As widely known, classes of reservoir computers serve as universal approximators of functionals with fading memory. The construction of such universal classes often appears context-specific, but in fact, they follow the same principles. Here we present a unified theoretical framework and we propose a ready-made setting to secure universality. We test the result in the arising context of quantum reservoir computing. Guided by such a unified theorem we suggest why spatial multiplexing may serve as a computational resource when dealing with quantum registers, as empirically observed in specific implementations on quantum hardware. The analysis sheds light on a unified view of classical and quantum reservoir computing.
翻訳日:2024-03-28 22:13:36 公開日:2024-03-27
# 擬似空間文脈情報の導入によるコントラスト学習モデルの有効性向上

Incorporating simulated spatial context information improves the effectiveness of contrastive learning models ( http://arxiv.org/abs/2401.15120v2 )

ライセンス: Link先を確認
Lizhen Zhu, James Z. Wang, Wonseuk Lee, Brad Wyble, (参考訳) 視覚学習は、エージェントが一貫した環境でその位置の探索と追跡を通じてスキルを取得する、特定のコンテキストで発生することが多い。 エージェントの歴史的空間的文脈は、自己教師付きコントラスト学習のための類似性信号を提供する。 本稿では,既存のコントラスト学習手法を補完する,環境空間類似性(ESS)というユニークなアプローチを提案する。 シミュレーションされたフォトリアリスティックな環境のイメージを実験環境として使用することにより、ESSが従来のインスタンス識別手法より優れていることを示す。 さらに、同じ環境から追加データをサンプリングすることで、精度が大幅に向上し、新たな拡張が提供される。 ESSは部屋の分類や空間予測タスク、特に馴染みの無い環境での卓越した熟練を可能にします。 この学習パラダイムは、ユニークな視覚特性を持つ新しい環境で動作するエージェントにおいて、迅速な視覚学習を可能にする可能性がある。 潜在的に変革的な応用は、ロボット工学から宇宙探査まで多岐にわたる。 我々の概念実証は、広範囲で非連結なデータセットに依存する手法よりも効率が向上していることを示す。

Visual learning often occurs in a specific context, where an agent acquires skills through exploration and tracking of its location in a consistent environment. The historical spatial context of the agent provides a similarity signal for self-supervised contrastive learning. We present a unique approach, termed Environmental Spatial Similarity (ESS), that complements existing contrastive learning methods. Using images from simulated, photorealistic environments as an experimental setting, we demonstrate that ESS outperforms traditional instance discrimination approaches. Moreover, sampling additional data from the same environment substantially improves accuracy and provides new augmentations. ESS allows remarkable proficiency in room classification and spatial prediction tasks, especially in unfamiliar environments. This learning paradigm has the potential to enable rapid visual learning in agents operating in new environments with unique visual characteristics. Potentially transformative applications span from robotics to space exploration. Our proof of concept demonstrates improved efficiency over methods that rely on extensive, disconnected datasets.
翻訳日:2024-03-28 22:13:35 公開日:2024-03-27
# シンプルな政策最適化

Simple Policy Optimization ( http://arxiv.org/abs/2401.16025v2 )

ライセンス: Link先を確認
Zhengpeng Xie, (参考訳) PPO (Proximal Policy Optimization) アルゴリズムは多くの分野で優れた性能を示しており、TRPO (Trust Region Policy Optimization) アルゴリズムの単純なバージョンと見なされている。 しかし、PPOの切断操作は必ずしも信頼領域の制約を効果的に強制するわけではないため、アルゴリズムの安定性に影響を与える潜在的な要因となる可能性がある。 本稿では,従来のポリシと現在のポリシのKL分散のための新しいクリッピング手法であるSimple Policy Optimization (SPO)アルゴリズムを提案する。 Atari 2600環境における大規模な実験結果から、SPOはPPOの主流の変種と比較して、より優れたサンプル効率、極めて低いKL分散、より高いポリシーエントロピーを実現し、ネットワークの深さや複雑さの増加に対して堅牢であることが示された。 さらに重要なことに、SPOは制約のない一階法アルゴリズムの単純さを維持している。 コードはhttps://github.com/MyRepositories-hub/Simple-Policy-Optimizationで入手できる。

PPO (Proximal Policy Optimization) algorithm has demonstrated excellent performance in many fields, and it is considered as a simple version of TRPO (Trust Region Policy Optimization) algorithm. However, the ratio clipping operation in PPO may not always effectively enforce the trust region constraints, this can be a potential factor affecting the stability of the algorithm. In this paper, we propose Simple Policy Optimization (SPO) algorithm, which introduces a novel clipping method for KL divergence between the old and current policies. Extensive experimental results in Atari 2600 environments indicate that, compared to the mainstream variants of PPO, SPO achieves better sample efficiency, extremely low KL divergence, and higher policy entropy, and is robust to the increase in network depth or complexity. More importantly, SPO maintains the simplicity of an unconstrained first-order algorithm. Code is available at https://github.com/MyRepositories-hub/Simple-Policy-Optimization.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 手書き文字分類における深層学習によるアプローチ

Deep Learning-Driven Approach for Handwritten Chinese Character Classification ( http://arxiv.org/abs/2401.17098v2 )

ライセンス: Link先を確認
Boris Kriuk, Fedor Kriuk, (参考訳) 手書き文字認識(HCR)は、機械学習研究者にとって難しい問題である。 印刷されたテキストデータとは異なり、手書き文字データセットは人為的バイアスにより、よりバリエーションがある。 多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。 このようなデータセットの分類タスクでは、類似した特徴を共有する画像の高複雑さの詳細を学習する必要がある。 近年の計算資源の可用性の向上とコンピュータビジョン理論の開発により、一部の研究チームはこの問題に効果的に対処してきた。 パラメータの数を小さく保ちながら高い精度を達成することで知られているが、多くの一般的なアプローチは依然として一般化できず、より良い結果を得るためにデータセット固有のソリューションを使用する。 複雑な構造のため、既存の手法がしばしばソリューションの人気を妨げている。 本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。 また,提案手法の性能と既存手法の性能を比較し,達成した改善点を示す実験を行った。

Handwritten character recognition (HCR) is a challenging problem for machine learning researchers. Unlike printed text data, handwritten character datasets have more variation due to human-introduced bias. With numerous unique character classes present, some data, such as Logographic Scripts or Sino-Korean character sequences, bring new complications to the HCR problem. The classification task on such datasets requires the model to learn high-complexity details of the images that share similar features. With recent advances in computational resource availability and further computer vision theory development, some research teams have effectively addressed the arising challenges. Although known for achieving high accuracy while keeping the number of parameters small, many common approaches are still not generalizable and use dataset-specific solutions to achieve better results. Due to complex structure, existing methods frequently prevent the solutions from gaining popularity. This paper proposes a highly scalable approach for detailed character image classification by introducing the model architecture, data preprocessing steps, and testing design instructions. We also perform experiments to compare the performance of our method with that of existing ones to show the improvements achieved.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# AEROBLADE:オートエンコーダ再構成誤差を用いた遅延拡散画像の訓練不要検出

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error ( http://arxiv.org/abs/2401.17879v2 )

ライセンス: Link先を確認
Jonas Ricker, Denis Lukovnikov, Asja Fischer, (参考訳) 最近のテキスト・ツー・イメージモデルでは、誰でも任意の内容で視覚的にリアルな画像を生成することができ、視覚的偽情報の脅威が増大する。 計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜在拡散モデル(LDM)の開発である。 従来の拡散モデルとは対照的に、LCMは高次元画像空間の代わりに、事前学習されたオートエンコーダ(AE)の低次元潜在空間で復調処理を行う。 その関連性にもかかわらず、LDMの法医学的分析はまだ初期段階にある。 本研究では,画像と潜時空間間の画像変換に使用されるAEという,LDMの固有成分を利用した新しい検出手法であるAEROBLADEを提案する。 生成した画像は実画像よりもAEでより正確に再構成でき、再構成誤差に基づいた簡単な検出手法が可能である。 最も重要なことは、我々の方法は容易に実装でき、いかなる訓練も必要としないが、広範囲な訓練に依存する検出器の性能とほぼ一致していることだ。 AEROBLADEは安定拡散やミッドジャーニーを含む最先端のLCDに対して有効であることを示す。 検出以外にも,画像の質的解析が可能であり,塗装領域の同定に利用することができる。 コードとデータはhttps://github.com/jonasricker/aerobladeで公開しています。

With recent text-to-image models, anyone can generate deceptively realistic images with arbitrary contents, fueling the growing threat of visual disinformation. A key enabler for generating high-resolution images with low computational cost has been the development of latent diffusion models (LDMs). In contrast to conventional diffusion models, LDMs perform the denoising process in the low-dimensional latent space of a pre-trained autoencoder (AE) instead of the high-dimensional image space. Despite their relevance, the forensic analysis of LDMs is still in its infancy. In this work we propose AEROBLADE, a novel detection method which exploits an inherent component of LDMs: the AE used to transform images between image and latent space. We find that generated images can be more accurately reconstructed by the AE than real images, allowing for a simple detection approach based on the reconstruction error. Most importantly, our method is easy to implement and does not require any training, yet nearly matches the performance of detectors that rely on extensive training. We empirically demonstrate that AEROBLADE is effective against state-of-the-art LDMs, including Stable Diffusion and Midjourney. Beyond detection, our approach allows for the qualitative analysis of images, which can be leveraged for identifying inpainted regions. We release our code and data at https://github.com/jonasricker/aeroblade .
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# OpenMoE:Open Mixture-of-Experts言語モデルに対する初期の取り組み

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models ( http://arxiv.org/abs/2402.01739v2 )

ライセンス: Link先を確認
Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You, (参考訳) オープンソースコミュニティがMixture-of-Experts(LLM)ベースの大規模言語モデル(LLM)をよりよく理解できるように、OpenMoEをトレーニングしリリースします。 本研究は,MoEをベースとしたLCMが高密度LCMよりも良好なコスト効率のトレードオフを提供できることを確認し,今後のLCM開発の有効性を浮き彫りにする。 この研究のもうひとつの重要な貢献は、OpenMoEモデル内のルーティングメカニズムの詳細な分析であり、コンテキスト非依存のスペシャライゼーション、早期ルーティング学習、Drop-towards-the-Endの3つの重要な発見につながっている。 MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性があることがわかった。 トークン・ツー・エキスパートの割り当ては事前訓練フェーズの早い段階で決定され、ほとんど変わらないままである。 この不完全なルーティングは、特にマルチターン会話のようなシーケンシャルなタスクではパフォーマンスが低下する可能性がある。 最後に、上記の観察と分析に基づいて設計を再考する。 今後のMoE LLM開発を容易にするため,我々は,我々が発見した問題を緩和し,市販のMoE LLMの設計をさらに改善するための潜在的戦略を提案する。

To help the open-source community have a better understanding of Mixture-of-Experts (MoE) based large language models (LLMs), we train and release OpenMoE, a series of fully open-sourced and reproducible decoder-only MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T tokens. Our investigation confirms that MoE-based LLMs can offer a more favorable cost-effectiveness trade-off than dense LLMs, highlighting the potential effectiveness for future LLM development. One more important contribution of this study is an in-depth analysis of the routing mechanisms within our OpenMoE models, leading to three significant findings: Context-Independent Specialization, Early Routing Learning, and Drop-towards-the-End. We discovered that routing decisions in MoE models are predominantly based on token IDs, with minimal context relevance. The token-to-expert assignments are determined early in the pre-training phase and remain largely unchanged. This imperfect routing can result in performance degradation, particularly in sequential tasks like multi-turn conversations, where tokens appearing later in a sequence are more likely to be dropped. Finally, we rethink our design based on the above-mentioned observations and analysis. To facilitate future MoE LLM development, we propose potential strategies for mitigating the issues we found and further improving off-the-shelf MoE LLM designs.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# コールドスタート・アクティブ・ラーニングのためのクラスタリングがイニシアチブ化

Foundation Model Makes Clustering A Better Initialization For Cold-Start Active Learning ( http://arxiv.org/abs/2402.02561v2 )

ライセンス: Link先を確認
Han Yuan, Chuan Hong, (参考訳) アクティブラーニングは、制限されたアノテーション予算の文脈で注釈を付けるために、ラベルのないデータセットから最も情報に富んだサンプルを選択する。 初期化モデルに基づくサンプル選択のための多くの手法が提案されているが、アクティブラーニングにおいて欠かせない段階、すなわちモデルコールドスタート初期化のためのサンプルを選択することに注意が払われている。 以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。 しかし、ランダムサンプリングは変動しがちであり、特に画像データなどの高次元データを扱う場合、ナイーブクラスタリングは収束速度に悩まされる。 本研究では,冷間開始型アクティブラーニング初期化のためのサンプルを選択するために,基礎モデルとクラスタリング手法を統合することを提案する。 ファンデーションモデルは、自己監督パラダイムによって訓練された大量のデータセットに言及し、様々な下流タスクに対して情報的かつコンパクトな埋め込みを生成することができる。 これらの埋め込みを活用して、ピクセル値などの生の機能を置き換え、クラスタリングはすぐに収束し、より良い初期サンプルを識別する。 総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。 画像分類とセグメンテーションの2つの臨床課題に関する実験により、基礎モデルに基づくクラスタリングが情報的初期サンプルを効果的にピンポイントし、ベースライン法よりも優れた性能を示すモデルが示された。 本研究は,今後の冷間開始型アクティブラーニングに有効なパラダイムを提供するものと考えられる。

Active learning selects the most informative samples from the unlabelled dataset to annotate in the context of a limited annotation budget. While numerous methods have been proposed for subsequent sample selection based on an initialized model, scant attention has been paid to the indispensable phase of active learning: selecting samples for model cold-start initialization. Most of the previous studies resort to random sampling or naive clustering. However, random sampling is prone to fluctuation, and naive clustering suffers from convergence speed, particularly when dealing with high-dimensional data such as imaging data. In this work, we propose to integrate foundation models with clustering methods to select samples for cold-start active learning initialization. Foundation models refer to those trained on massive datasets by the self-supervised paradigm and capable of generating informative and compacted embeddings for various downstream tasks. Leveraging these embeddings to replace raw features such as pixel values, clustering quickly converges and identifies better initial samples. For a comprehensive comparison, we included a classic ImageNet-supervised model to acquire embeddings. Experiments on two clinical tasks of image classification and segmentation demonstrated that foundation model-based clustering efficiently pinpointed informative initial samples, leading to models showcasing enhanced performance than the baseline methods. We envisage that this study provides an effective paradigm for future cold-start active learning.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 開系におけるランダウアーの原理による純および熱状態の解消

Distinguishing pure and thermal states by Landauer's principle in open systems ( http://arxiv.org/abs/2402.04628v2 )

ライセンス: Link先を確認
Hao Xu, (参考訳) 純粋状態と熱状態の区別方法に関するポルチンスキーの思考実験から始め、より運用的な視点を提供するために、量子ビットと空洞量子場理論(QFT)の相互作用を研究するための特定のシステムを構築した。 量子ビットおよび空洞QFTの初期状態に制約を課すことなく、摂動法により系の秩序の進化を計算する。 我々は、熱状態の決定の基礎として、量子計算と量子計測において重要な境界であるランダウアーの原理を選択する。 初期状態形式を逆追跡することにより、空洞QFTで満たさなければならない条件を得る:消滅作用素の期待値はゼロであり、粒子数演算子の期待値はボース=アインシュタイン分布を満たすべきである。 また、熱状態と熱状態の代替として、正準熱純量子状態(CTPQ)の違いについても論じる。

Starting from Polchinski's thought experiment on how to distinguish between pure and thermal states, we construct a specific system to study the interaction between qubit and cavity quantum field theory (QFT) in order to provide a more operational point of view. Without imposing any restrictions on the initial states of qubit and cavity QFT, we compute the evolution of the system order by order by the perturbation method. We choose Landauer's principle, an important bound in quantum computation and quantum measurement, as the basis for the determination of the thermal state. By backtracking the initial state form, we obtain the conditions that must be satisfied by the cavity QFT: the expectation value of the annihilation operator should be zero, and the expectation value of the particle number operator should satisfy the Bose-Einstein distribution. We also discuss the difference between the thermal state and a possible alternative to the thermal state: the canonical thermal pure quantum (CTPQ) state.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 力学系における実験設計のためのネスティング粒子フィルタ

Nesting Particle Filters for Experimental Design in Dynamical Systems ( http://arxiv.org/abs/2402.07868v2 )

ライセンス: Link先を確認
Sahel Iqbal, Adrien Corenflos, Simo Särkkä, Hany Abdulsamad, (参考訳) 本稿では,リスクに敏感な政策最適化として定式化した非交換可能データに対するベイズ実験設計手法を提案する。 Inside-Out SMC$^2$ algorithm, a nested sequential Monte Carlo technique to inferimal design, and embed it into a Particle Markov chain Monte Carlo framework to perform gradient-based policy amortization。 提案手法は, コントラスト推定器に頼らないため, 他のアモータイズされた実験設計手法と異なる。 一連の力学系の数値検証は,他の最先端戦略と比較して,本手法の有効性を示す。

In this paper, we propose a novel approach to Bayesian experimental design for non-exchangeable data that formulates it as risk-sensitive policy optimization. We develop the Inside-Out SMC$^2$ algorithm, a nested sequential Monte Carlo technique to infer optimal designs, and embed it into a particle Markov chain Monte Carlo framework to perform gradient-based policy amortization. Our approach is distinct from other amortized experimental design techniques, as it does not rely on contrastive estimators. Numerical validation on a set of dynamical systems showcases the efficacy of our method in comparison to other state-of-the-art strategies.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# LLM会話安全のための攻撃・防衛・評価

Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey ( http://arxiv.org/abs/2402.09283v3 )

ライセンス: Link先を確認
Zhichen Dong, Zhanhui Zhou, Chao Yang, Jing Shao, Yu Qiao, (参考訳) 大規模言語モデル(LLM)が会話アプリケーションで一般的なものになった。 しかし, 有害反応を誘発する誤用リスクは深刻な社会的懸念を生じさせ, LLM会話の安全性に関する最近の研究を刺激している。 そこで本研究では,LLM会話の安全性の3つの重要な側面,すなわち攻撃,防御,評価について概説する。 我々のゴールは、LLM会話の安全性の理解を深め、この重要な課題のさらなる調査を促進する構造的な要約を提供することである。 簡単には、この調査で言及されたすべての研究を分類した: https://github.com/niconi19/LLM-conversation-safety。

Large Language Models (LLMs) are now commonplace in conversation applications. However, their risks of misuse for generating harmful responses have raised serious societal concerns and spurred recent research on LLM conversation safety. Therefore, in this survey, we provide a comprehensive overview of recent studies, covering three critical aspects of LLM conversation safety: attacks, defenses, and evaluations. Our goal is to provide a structured summary that enhances understanding of LLM conversation safety and encourages further investigation into this important subject. For easy reference, we have categorized all the studies mentioned in this survey according to our taxonomy, available at: https://github.com/niconi19/LLM-conversation-safety.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 遅延更新による確率近似:マルコフサンプリングにおける有限時間率

Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling ( http://arxiv.org/abs/2402.11800v3 )

ライセンス: Link先を確認
Arman Adibi, Nicolo Dal Fabbro, Luca Schenato, Sanjeev Kulkarni, H. Vincent Poor, George J. Pappas, Hamed Hassani, Aritra Mitra, (参考訳) 大規模・マルチエージェント強化学習の応用により,マルコフサンプリング下での遅延更新を伴う確率近似(SA)スキームの漸近的性能について検討した。 遅延の影響は最適化のために広く研究されているが、それらが基礎となるマルコフ過程と相互作用し、SAの有限時間性能を形成する方法はまだよく分かっていない。 この文脈において、我々の最初の主な貢献は、時間変化した有界遅延の下で、遅延SA更新規則は、SA演算子の固定点の周囲の球に \emph{last iterate} が指数関数的に高速収束することを保証していることを示すことである。 特に、我々の境界は最大遅延$\tau_{max}$と混合時間$\tau_{mix}$の両方に依存して \emph{tight} となる。 この厳密な境界を達成するために、既存の様々な遅延最適化解析とは異なり、イテレートの均一な有界性を確立することに依存する新しい帰納的証明手法を開発した。 したがって、我々の証明は独立した関心を持つかもしれない。 次に、最大遅延が収束率に与える影響を軽減するために、マルコフサンプリングの下での遅延適応型SAスキームの最初の有限時間解析を行う。 特に、このスキームの収束指数は、バニラ遅延SA則に対する$\tau_{max}$とは対照的に、$\tau_{avg}$でスケールダウンする。 さらに、適応型スキームはステップサイズチューニングのための遅延シーケンスの事前知識を必要としない。 理論的には, マルコフサンプリング下でのTD学習, Q-ラーニング, 確率勾配降下を含む, 幅広いアルゴリズムの遅延の有限時間効果に光を当てた。

Motivated by applications in large-scale and multi-agent reinforcement learning, we study the non-asymptotic performance of stochastic approximation (SA) schemes with delayed updates under Markovian sampling. While the effect of delays has been extensively studied for optimization, the manner in which they interact with the underlying Markov process to shape the finite-time performance of SA remains poorly understood. In this context, our first main contribution is to show that under time-varying bounded delays, the delayed SA update rule guarantees exponentially fast convergence of the \emph{last iterate} to a ball around the SA operator's fixed point. Notably, our bound is \emph{tight} in its dependence on both the maximum delay $\tau_{max}$, and the mixing time $\tau_{mix}$. To achieve this tight bound, we develop a novel inductive proof technique that, unlike various existing delayed-optimization analyses, relies on establishing uniform boundedness of the iterates. As such, our proof may be of independent interest. Next, to mitigate the impact of the maximum delay on the convergence rate, we provide the first finite-time analysis of a delay-adaptive SA scheme under Markovian sampling. In particular, we show that the exponent of convergence of this scheme gets scaled down by $\tau_{avg}$, as opposed to $\tau_{max}$ for the vanilla delayed SA rule; here, $\tau_{avg}$ denotes the average delay across all iterations. Moreover, the adaptive scheme requires no prior knowledge of the delay sequence for step-size tuning. Our theoretical findings shed light on the finite-time effects of delays for a broad class of algorithms, including TD learning, Q-learning, and stochastic gradient descent under Markovian sampling.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 信頼できる再評価に向けて - シンプルだが効果的な回避メカニズム

Towards Trustworthy Reranking: A Simple yet Effective Abstention Mechanism ( http://arxiv.org/abs/2402.12997v3 )

ライセンス: Link先を確認
Hippolyte Gisserot-Boukhlef, Manuel Faysse, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, (参考訳) NIR(Neural Information Retrieval)は、ヒューリスティックベースのIRシステムにおいて大幅に改善されている。 しかし、失敗は頻繁であり、使用されていたモデルは、ユーザのクエリに関連するドキュメントを取得できないことが多い。 我々は、現実世界の制約に合わせた軽量な禁制機構を提案することで、この問題に対処する。 ブラックボックスシナリオにおける禁忌戦略を評価するためのプロトコルを導入し、その効果を実証し、シンプルで効果的なデータ駆動機構を提案する。 我々は、様々な状況下で広く採用され応用されるように、実験的なレプリケーションと禁忌実装のためのオープンソースコードを提供しています。

Neural Information Retrieval (NIR) has significantly improved upon heuristic-based IR systems. Yet, failures remain frequent, the models used often being unable to retrieve documents relevant to the user's query. We address this challenge by proposing a lightweight abstention mechanism tailored for real-world constraints, with particular emphasis placed on the reranking phase. We introduce a protocol for evaluating abstention strategies in a black-box scenario, demonstrating their efficacy, and propose a simple yet effective data-driven mechanism. We provide open-source code for experiment replication and abstention implementation, fostering wider adoption and application in diverse contexts.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# SQL生成のための構造ガイド付き大規模言語モデル

Structure Guided Large Language Model for SQL Generation ( http://arxiv.org/abs/2402.13284v2 )

ライセンス: Link先を確認
Qinggang Zhang, Junnan Dong, Hao Chen, Wentao Li, Feiran Huang, Xiao Huang, (参考訳) 正確な構造化クエリ言語(SQL)を生成することは、特にユーザのセマンティッククエリと構造化データベースをマッチングし、構造化SQLを生成する場合、長年にわたる問題である。 既存のモデルは通常、LLMにクエリとデータベーススキーマを入力し、LLMに依存してセマンティック構造マッチングを実行し、構造化SQLを生成する。 しかし、そのようなソリューションは、構造化SQLの生成を促進するために利用することができるユーザクエリやデータベースの構造情報を見落としている。 この監視は、不正確なあるいは実行不可能なSQL生成につながる可能性がある。 この構造をフル活用するために,LLMのSQL生成を改善するために固有構造情報を活用する構造間SQLフレームワークを提案する。 具体的には、Structure Guided SQL~(SGU-SQL)生成モデルを紹介します。 SGU-SQLはまず、構造化された方法でユーザクエリとデータベースをリンクする。 その後、複雑な連結構造と文法木を分解し、LCMを誘導してSQLステップをステップごとに生成する。 2つのベンチマークデータセットに対する大規模な実験は、SGU-SQLが16のSQL生成ベースラインを上回っていることを示している。

Generating accurate Structured Querying Language (SQL) is a long-standing problem, especially in matching users' semantic queries with structured databases and then generating structured SQL. Existing models typically input queries and database schemas into the LLM and rely on the LLM to perform semantic-structure matching and generate structured SQL. However, such solutions overlook the structural information within user queries and databases, which can be utilized to enhance the generation of structured SQL. This oversight can lead to inaccurate or unexecutable SQL generation. To fully exploit the structure, we propose a structure-to-SQL framework, which leverages the inherent structure information to improve the SQL generation of LLMs. Specifically, we introduce our Structure Guided SQL~(SGU-SQL) generation model. SGU-SQL first links user queries and databases in a structure-enhanced manner. It then decomposes complicated linked structures with grammar trees to guide the LLM to generate the SQL step by step. Extensive experiments on two benchmark datasets illustrate that SGU-SQL can outperform sixteen SQL generation baselines.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 2次元3次元平面と3次元ウェーブレット表現を用いたハイブリッドビデオ拡散モデル

Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation ( http://arxiv.org/abs/2402.13729v2 )

ライセンス: Link先を確認
Kihong Kim, Haneol Lee, Jihye Park, Seyeon Kim, Kwanghee Lee, Seungryong Kim, Jaejun Yoo, (参考訳) 要求されるリアルなコンテンツを合成する高品質なビデオを生成することは、ビデオの複雑な高次元性と複雑さのために難しい課題である。 最近の拡散法では、従来のビデオオートエンコーダアーキテクチャを用いて、動画を低次元の潜在空間に圧縮することで、同等の性能を示す。 しかし、標準的なフレームワイド2Dと3Dコンボリューションを利用するこのような手法は、ビデオの時空間特性を完全に活用することができない。 この問題に対処するために,時空間依存性をより効果的にキャプチャできるHVDMと呼ばれるハイブリッドビデオ拡散モデルを提案する。 HVDMはハイブリッドビデオオートエンコーダによってトレーニングされ、ビデオの非絡み合った表現を抽出する。 (i)2次元投影潜水士が捉えたグローバルな文脈情報 (ii)ウェーブレット分解を伴う3次元畳み込みによる局所体積情報 三 映像再生を改善するための周波数情報 この不整合表現に基づいて、我々のハイブリッドオートエンコーダは、生成されたビデオに微細な構造と詳細を付加したより包括的なビデオラテントを提供する。 ビデオ生成ベンチラマーク(UCF101, SkyTimelapse, TaiChi)の実験は,提案手法が最先端のビデオ生成品質を達成し,幅広いビデオアプリケーション(例えば,長時間ビデオ生成,画像から映像への変換,動画のダイナミックス制御)を示すことを示した。

Generating high-quality videos that synthesize desired realistic content is a challenging task due to their intricate high-dimensionality and complexity of videos. Several recent diffusion-based methods have shown comparable performance by compressing videos to a lower-dimensional latent space, using traditional video autoencoder architecture. However, such method that employ standard frame-wise 2D and 3D convolution fail to fully exploit the spatio-temporal nature of videos. To address this issue, we propose a novel hybrid video diffusion model, called HVDM, which can capture spatio-temporal dependencies more effectively. The HVDM is trained by a hybrid video autoencoder which extracts a disentangled representation of the video including: (i) a global context information captured by a 2D projected latent (ii) a local volume information captured by 3D convolutions with wavelet decomposition (iii) a frequency information for improving the video reconstruction. Based on this disentangled representation, our hybrid autoencoder provide a more comprehensive video latent enriching the generated videos with fine structures and details. Experiments on video generation benchamarks (UCF101, SkyTimelapse, and TaiChi) demonstrate that the proposed approach achieves state-of-the-art video generation quality, showing a wide range of video applications (e.g., long video generation, image-to-video, and video dynamics control).
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# 大規模言語モデルにおける数学的推論を改善する問題解決プロンプト

Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models ( http://arxiv.org/abs/2402.15764v2 )

ライセンス: Link先を確認
Haoran Liao, Jidong Tian, Shaohua Hu, Hao He, Yaohui Jin, (参考訳) 大規模言語モデル(LLM)は、数学的推論のような複雑なタスクにまだ対応している。 プレフィックスプロンプトや推論プロセスの改善に多大な努力を払っていたにもかかわらず、問題コンテキストの重要な役割は無視されていたかもしれない。 入力の正確な認識は、LLMの推論を誤解させる可能性があるため、数学的な問題を解くのに基本的なものである。 本研究では,LLMの数学的能力を高めるために,PEP(Issue Elaboration Prompting)という新しい手法を提案する。 具体的には、PEPは推論の前に問題コンテキストを分解し、解明するので、コンテキストモデリングと解析効率が向上する。 1) PEPは、様々な数学的タスクにおける全体的な強化を示す。 例えば、GPT-3.5モデルでは、PEPはグリージーデコードと自己整合性によって、GSM8kの9.93%と8.80%の改善を示している。 2) PEPは簡単に実装でき、他のプロンプトメソッドと統合できる。 (3) PEPは, 障害問題に対処する上で, 顕著な強度を示した。

Large language models (LLMs) still grapple with complex tasks like mathematical reasoning. Despite significant efforts invested in improving prefix prompts or reasoning process, the crucial role of problem context might have been neglected. Accurate recognition of inputs is fundamental for solving mathematical tasks, as ill-formed problems could potentially mislead LLM's reasoning. In this study, we propose a new approach named Problem Elaboration Prompting (PEP) to enhance the mathematical capacities of LLMs. Specifically, PEP decomposes and elucidates the problem context before reasoning, therefore enhancing the context modeling and parsing efficiency. Experiments across datasets and models demonstrate promising performances: (1) PEP demonstrates an overall enhancement in various mathematical tasks. For instance, with the GPT-3.5 model, PEP exhibits improvements of 9.93% and 8.80% on GSM8k through greedy decoding and self-consistency, respectively. (2) PEP can be easily implemented and integrated with other prompting methods. (3) PEP shows particular strength in handling distraction problems.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# グローバルおよび局所意味表現のための多モーダル大言語モデルの提案

Probing Multimodal Large Language Models for Global and Local Semantic Representations ( http://arxiv.org/abs/2402.17304v2 )

ライセンス: Link先を確認
Mingxu Tao, Quzhe Huang, Kun Xu, Liwei Chen, Yansong Feng, Dongyan Zhao, (参考訳) MLLM(Multimodal Large Language Models)の進歩により、統合されたテキストや画像を理解するアプリケーションの開発が大幅に加速した。 最近の研究は、画像キャプチャデータセットを活用してMLLMをトレーニングし、画像からテキストまでのタスクで最先端のパフォーマンスを達成する。 しかし、MLLMのどの層がグローバルな画像情報に最も力を注いでいるかを探求する研究はほとんどなく、マルチモーダル理解と生成において重要な役割を担っている。 本研究では,モデル中間層がよりグローバルな意味情報を符号化できることを示す。 さらに、オブジェクト認識タスクを通して局所的な意味表現に関するモデルを探索する。 最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。 私たちのコードとデータはhttps://github.com/kobayashikanna01/probing_MLLM_repを介してリリースされます。

The advancement of Multimodal Large Language Models (MLLMs) has greatly accelerated the development of applications in understanding integrated texts and images. Recent works leverage image-caption datasets to train MLLMs, achieving state-of-the-art performance on image-to-text tasks. However, there are few studies exploring which layers of MLLMs make the most effort to the global image information, which plays vital roles in multimodal comprehension and generation. In this study, we find that the intermediate layers of models can encode more global semantic information, whose representation vectors perform better on visual-language entailment tasks, rather than the topmost layers. We further probe models regarding local semantic representations through object recognition tasks. We find that the topmost layers may excessively focus on local information, leading to a diminished ability to encode global information. Our code and data are released via https://github.com/kobayashikanna01/probing_MLLM_rep.
翻訳日:2024-03-28 22:03:50 公開日:2024-03-27
# Agent-Pro: ポリシーレベルリフレクションと最適化による進化の学習

Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization ( http://arxiv.org/abs/2402.17574v2 )

ライセンス: Link先を確認
Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, Weiming Lu, (参考訳) 大規模言語モデルは多様なタスクに対して堅牢な問題解決能力を示す。 しかし、ほとんどのLSMベースのエージェントは、対話を通じて学習し、進化するエージェントではなく、高度な迅速なエンジニアリングを備えた特定のタスクソルバとして設計されている。 これらのタスクソルバは、手作業で作成したプロンプトを使用してタスクルールを通知し、LLMの動作を規制する。 そこで我々は,対話的な経験から豊富な専門知識を習得し,その行動方針を漸進的に向上させるLLMベースのエージェント,Agent-Proを提案する。 具体的には、政策進化のための動的信念の生成とリフレクションプロセスを含む。 エージェントプロは行動レベルの反映ではなく、過去の軌道や信念を反復的に反映し、その不合理な信念をより良い政策のために微調整する。 さらに、政策最適化のために奥行き優先探索が採用され、政策ペイオフの継続的な強化が保証される。 Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。 この結果から,Agent-Proは複雑でダイナミックなシーンで学習し,進化できることを示す。

Large Language Models exhibit robust problem-solving capabilities for diverse tasks. However, most LLM-based agents are designed as specific task solvers with sophisticated prompt engineering, rather than agents capable of learning and evolving through interactions. These task solvers necessitate manually crafted prompts to inform task rules and regulate LLM behaviors, inherently incapacitating to address complex dynamic scenarios e.g., large interactive games. In light of this, we propose Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization that can learn a wealth of expertise from interactive experiences and progressively elevate its behavioral policy. Specifically, it involves a dynamic belief generation and reflection process for policy evolution. Rather than action-level reflection, Agent-Pro iteratively reflects on past trajectories and beliefs, fine-tuning its irrational beliefs for a better policy. Moreover, a depth-first search is employed for policy optimization, ensuring continual enhancement in policy payoffs. Agent-Pro is evaluated across two games: Blackjack and Texas Hold'em, outperforming vanilla LLM and specialized models. Our results show Agent-Pro can learn and evolve in complex and dynamic scenes, which also benefits numerous LLM-based applications.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# Spectral Meets Space: Harmonising 3D Shape Matching and Interpolation

Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation ( http://arxiv.org/abs/2402.18920v5 )

ライセンス: Link先を確認
Dongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard, (参考訳) 3次元形状マッチングと補間は非常に関連性が高いが、異なる3次元形状を相互に関連付けるために、しばしば個別に研究され、順次適用され、結果として準最適性能をもたらす。 本研究では,3次元形状間の位置対応と形状補間の両方を予測する統一的な枠組みを提案する。 この目的のために、スペクトル領域と空間領域の両方の形状を地図化するために、奥行き関数写像フレームワークと古典的な曲面変形モデルを組み合わせる。 一方, 空間地図を組み込むことで, 従来の機能地図法と比較して, より正確でスムーズな対応性が得られる。 一方, スペクトル写像を導入することで, ほぼ等尺形状の変形にのみ有効な測地線距離制約を解くことができる。 さらに、ポーズ優位と形状優位の両変形をキャプチャする新しいテスト時間適応方式を提案する。 異なる挑戦的データセットを用いて、我々の手法は、教師付きアプローチと比較して、形状マッチングと補間の両方において、従来の最先端手法よりも優れていることを示す。

Although 3D shape matching and interpolation are highly interrelated, they are often studied separately and applied sequentially to relate different 3D shapes, thus resulting in sub-optimal performance. In this work we present a unified framework to predict both point-wise correspondences and shape interpolation between 3D shapes. To this end, we combine the deep functional map framework with classical surface deformation models to map shapes in both spectral and spatial domains. On the one hand, by incorporating spatial maps, our method obtains more accurate and smooth point-wise correspondences compared to previous functional map methods for shape matching. On the other hand, by introducing spectral maps, our method gets rid of commonly used but computationally expensive geodesic distance constraints that are only valid for near-isometric shape deformations. Furthermore, we propose a novel test-time adaptation scheme to capture both pose-dominant and shape-dominant deformations. Using different challenging datasets, we demonstrate that our method outperforms previous state-of-the-art methods for both shape matching and interpolation, even compared to supervised approaches.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# AI生成コンテンツの検索拡張生成:サーベイ

Retrieval-Augmented Generation for AI-Generated Content: A Survey ( http://arxiv.org/abs/2402.19473v2 )

ライセンス: Link先を確認
Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Bin Cui, (参考訳) 人工知能生成コンテンツ(AIGC)の開発は、モデルアルゴリズムの進歩、基礎モデルの規模の拡大、および十分な高品質なデータセットの可用性によって促進されている。 AIGCは目覚ましいパフォーマンスを達成したが、最新知識と長期知識の維持の難しさ、データ漏洩のリスク、トレーニングと推論に関連する高コストなど、いくつかの課題に直面している。 Retrieval-Augmented Generation(RAG)は近年,このような課題に対処するためのパラダイムとして登場した。 特に、RAGは情報検索プロセスを導入し、関連オブジェクトを利用可能なデータストアから取得することで生成プロセスを強化し、より高い精度と堅牢性を実現する。 本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。 本稿では、まず、レトリバーがジェネレータをどのように拡張するかに応じてRAG基盤を分類し、様々なレトリバーやジェネレータのための拡張手法の基本的抽象化を蒸留する。 この統合された視点は、すべてのRAGシナリオを包含し、将来の進歩に役立つ進歩と重要な技術を示します。 また、RAGシステムの効率的なエンジニアリングと実装を容易にするため、RAGのさらなる拡張手法についても要約する。 そして、別の視点から、様々なモダリティやタスクにまたがるRAGの実践的応用を調査し、研究者や実践者に貴重な参考資料を提供する。 さらに、RAGのベンチマークについて紹介し、現在のRAGシステムの限界について議論し、今後の研究の方向性を示唆する。

The development of Artificial Intelligence Generated Content (AIGC) has been facilitated by advancements in model algorithms, the increasing scale of foundation models, and the availability of ample high-quality datasets. While AIGC has achieved remarkable performance, it still faces several challenges, such as the difficulty of maintaining up-to-date and long-tail knowledge, the risk of data leakage, and the high costs associated with training and inference. Retrieval-Augmented Generation(RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances the generation process by retrieving relevant objects from available data stores, leading to higher accuracy and better robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator, distilling the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research.Project Repo: https://github.com/hymie122/RAG-Survey.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# LLMs in political science: Heralding a New Era of Visual Analysis

LLMs in Political Science: Heralding a New Era of Visual Analysis ( http://arxiv.org/abs/2403.00154v2 )

ライセンス: Link先を確認
Yu Wang, (参考訳) 画像で利用可能な広範な情報を活用することへの関心は、政治科学者の間で高まっている。 しかし、これらの画像の解釈の課題は、コンピュータビジョンの専門知識と特殊なハードウェアへのアクセスの必要性にある。 その結果、画像分析は政治科学界の比較的小さなグループに限られている。 この状況は、大きな言語モデル(LLM)の台頭によって、潜在的に変化する可能性がある。 本稿では,画像コンテンツ分析におけるジェミニの利用可能性の意識を高めることを目的とする。 688枚の画像から振り返り分析を行った。 コンテンツレポートは、各画像に対してGeminiから提供され、その後、著者によって手作業で評価された。 ジェミニは、政治的科学者にとって画像分析において最も一般的かつ基本的な課題である物体検出を行うのに非常に正確であることが判明した。 同様に、コマンド全体が自然言語の1つのプロンプトで構成されているため、実装が容易であること、実行が速く、ほとんどの研究者の時間予算を満たすこと、使用が自由であること、特別なハードウェアを必要としないこと、などが示される。 さらに、政治科学者が、顔の識別、感情分析、キャプション生成など、他の画像理解タスクにGeminiをどのように活用できるかを説明する。 我々の知見は、ジェミニや他の類似のLSMは、政治的科学や社会科学における画像研究を劇的に刺激し、加速する可能性があることを示唆している。

Interest is increasing among political scientists in leveraging the extensive information available in images. However, the challenge of interpreting these images lies in the need for specialized knowledge in computer vision and access to specialized hardware. As a result, image analysis has been limited to a relatively small group within the political science community. This landscape could potentially change thanks to the rise of large language models (LLMs). This paper aims to raise awareness of the feasibility of using Gemini for image content analysis. A retrospective analysis was conducted on a corpus of 688 images. Content reports were elicited from Gemini for each image and then manually evaluated by the authors. We find that Gemini is highly accurate in performing object detection, which is arguably the most common and fundamental task in image analysis for political scientists. Equally important, we show that it is easy to implement as the entire command consists of a single prompt in natural language; it is fast to run and should meet the time budget of most researchers; and it is free to use and does not require any specialized hardware. In addition, we illustrate how political scientists can leverage Gemini for other image understanding tasks, including face identification, sentiment analysis, and caption generation. Our findings suggest that Gemini and other similar LLMs have the potential to drastically stimulate and accelerate image research in political science and social sciences more broadly.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# オープンストリートビュー画像を用いた都市環境の人間の知覚収集のための市民科学ツールキット

A citizen science toolkit to collect human perceptions of urban environments using open street view images ( http://arxiv.org/abs/2403.00174v2 )

ライセンス: Link先を確認
Matthew Danish, SM Labib, Britta Ricker, Marco Helbich, (参考訳) ストリートビューレベルの画像(SVI)は、研究(環境評価、緑地識別、土地被覆分類など)にとって貴重なデータソースである。 商用SVIは利用可能だが、そのようなプロバイダは通常、研究に必要なコピーや再利用を制限している。 オープンなSVIデータセットは、Mapillaryのような制約の少ないソースから容易に利用できるが、画像の不均一性のため、かなりの事前処理、フィルタリング、慎重な品質チェックが必要になる。 本稿では,これらの画像に写っている道路の人間の知覚調査に使用される,自動ダウンロード,処理,収穫,フィルタリングの効率的な方法を提案する。 我々は,アムステルダム(オランダ)を事例として,オープンソースの再利用可能なSVI準備とスマートフォンフレンドリーな知覚サーベイソフトウェアを実演する。 市民科学のアプローチを用いて, 様々な基準で評価された331名, 22,637名を対象に調査を行った。 我々のソフトウェアは、将来の再利用と再現性のために、パブリックリポジトリに公開しました。

Street View-level Imagery (SVI) is a valuable data source for studies (e.g., environmental assessments, green space identification or land cover classification). While commercial SVI is available, such providers commonly restrict copying or reuse in ways necessary for research. Open SVI datasets are readily available from less restrictive sources, such as Mapillary, but due to the heterogeneity of the images, these require substantial preprocessing, filtering, and careful quality checks. We present an efficient method for automated downloading, processing, cropping, and filtering open SVI, to be used in a survey of human perceptions of the streets portrayed in these images. We demonstrate our open-source reusable SVI preparation and smartphone-friendly perception-survey software with Amsterdam (Netherlands) as the case study. Using a citizen science approach, we collected from 331 people 22,637 ratings about their perceptions for various criteria. We have published our software in a public repository for future re-use and reproducibility.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# 信頼できる自己注意:ネットワークを最も関連性の高い参照のみにフォーカスさせる

Trustworthy Self-Attention: Enabling the Network to Focus Only on the Most Relevant References ( http://arxiv.org/abs/2403.00211v2 )

ライセンス: Link先を確認
Yu Jing, Tan Yujuan, Ren Ao, Liu Duo, (参考訳) 閉塞点の光学的流れの予測は、まだ解決されていない難しい問題である。 近年の手法では、自己相似性の仮定に基づいて、隠蔽点の光学的流れを推定するための基準として、関連する非閉塞点を見つけるために自己注意を用いる。 しかし、それらは単一の画像の視覚的特徴と弱い制約に依存しており、トレーニングされたネットワークが誤った、そして弱い関連のある参照ポイントに焦点を絞るのに十分ではない。 ネットワークは,網のトレーニングに参加するために,隠蔽基盤の真理を必要とせず,最も関連性の高い参照のみに焦点を絞ることを学ぶことができる。 我々の手法は、元のフレームワークに非常に少ないネットワークパラメータを追加し、非常に軽量化します。 大規模な実験により、我々のモデルは最大のデータセット間一般化を持つことが示された。 Sintel Albedo パス上の最新 GMA-base 法である MATCHFlow(GMA) を用いて,全点,非包含点,非包含点,非包含点に対して 18.6%,16.2%,20.1% の誤差低減を実現した。 さらに,本モデルでは,Sintel のベンチマーク上での最先端性能を達成し,Sintel のクリーンパスに関する全手法のうち,#1 にランク付けした。 コードはオープンソースになる。

The prediction of optical flow for occluded points is still a difficult problem that has not yet been solved. Recent methods use self-attention to find relevant non-occluded points as references for estimating the optical flow of occluded points based on the assumption of self-similarity. However, they rely on visual features of a single image and weak constraints, which are not sufficient to constrain the trained network to focus on erroneous and weakly relevant reference points. We make full use of online occlusion recognition information to construct occlusion extended visual features and two strong constraints, allowing the network to learn to focus only on the most relevant references without requiring occlusion ground truth to participate in the training of the network. Our method adds very few network parameters to the original framework, making it very lightweight. Extensive experiments show that our model has the greatest cross-dataset generalization. Our method achieves much greater error reduction, 18.6%, 16.2%, and 20.1% for all points, non-occluded points, and occluded points respectively from the state-of-the-art GMA-base method, MATCHFlow(GMA), on Sintel Albedo pass. Furthermore, our model achieves state-of-the-art performance on the Sintel bench-marks, ranking \#1 among all published methods on Sintel clean pass. The code will be open-source.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# SoftTiger:医療ワークフローのための臨床基礎モデル

SoftTiger: A Clinical Foundation Model for Healthcare Workflows ( http://arxiv.org/abs/2403.00868v2 )

ライセンス: Link先を確認
Ye Chen, Igor Couto, Wei Cai, Cong Fu, Bruno Dorneles, (参考訳) 医療ワークフローの基礎モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。 臨床ノートの物語的・非構造的性質は、医療の知的化の大きな障害である。 我々は,臨床ノートを臨床データに構造化する上で重要な問題に対処する。 我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。 その後,公立および認証された臨床データを用いて,最先端のLCMの微調整を指導した。 トレーニングは、まず略語拡大や時間的情報抽出などの基本的な臨床タスクを対象モデルがサポートし、さらに複雑な下流臨床タスクを実行するように編成される。 さらに、医療コンテキストにおけるいくつかのモデリング課題、例えば、余分に長いコンテキストウィンドウに対処する。 我々のブラインド・ペアワイズ・アセスメントは、SoftTigerが他の人気のあるオープンソース・モデルより優れており、GPT-3.5はGemini-proに匹敵するもので、GPT-4とわずかに差があることを示している。 LLMは医療のデジタル化と民主化の足掛かりになるかもしれない。 したがって、私たちは、130億から700億のパラメータのスケールでSoftTigerモデルを公開し、革新的なスケーラブルな評価のためのデータセットとコードを公開しています。

We introduce SoftTiger, a clinical large language model (CLaM) designed as a foundation model for healthcare workflows. The narrative and unstructured nature of clinical notes is a major obstacle for healthcare intelligentization. We address a critical problem of structuring clinical notes into clinical data, according to international interoperability standards. We collect and annotate data for three subtasks, namely, international patient summary, clinical impression and medical encounter. We then supervised fine-tuned a state-of-the-art LLM using public and credentialed clinical data. The training is orchestrated in a way that the target model can first support basic clinical tasks such as abbreviation expansion and temporal information extraction, and then learn to perform more complex downstream clinical tasks. Moreover, we address several modeling challenges in the healthcare context, e.g., extra long context window. Our blind pairwise evaluation shows that SoftTiger outperforms other popular open-source models and GPT-3.5, comparable to Gemini-pro, with a mild gap from GPT-4. We believe that LLMs may become a step-stone towards healthcare digitalization and democratization. Therefore, we publicly release SoftTiger models at scales of 13 billion and 70 billion parameters, as well as datasets and code for our innovative scalable evaluation, hopefully, making a significant contribution to the healthcare industry.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# 量子熱力学における熱と仕事--サイバネティックアプローチ

Heat and Work in Quantum Thermodynamics: a Cybernetic Approach ( http://arxiv.org/abs/2403.02022v2 )

ライセンス: Link先を確認
William Rupush, Oscar Grånäs, (参考訳) 制御理論による可観測性分解に基づく仕事と熱を区別する新しい提案を提案する。 観測可能エネルギーの即時散逸を表すエルミート作用素を導出し、測定された可観測物が情報的に不完全である場合にも純状態に存在するモデル不確かさを考慮に入れたフォン・ノイマンエントロピーの一般化を提案する。 この観点では、基本密度行列から熱力学モデルへの遷移は、一般的に低次元の有効密度行列にマッピングし、センサとアクチュエータの能力の制約から観測可能なもののみを符号化する。 一般化エントロピーは、このマッピングで得られた情報損失をキャプチャする。 この理論は中心スピンモデルに対して説明され、外部制御の適用により熱ゆらぎが増大しエントロピーが低下することを示す。

We present a new proposal for distinguishing heat from work based on a control-theoretic observability decomposition. We derive a Hermitian operator representing instantaneous dissipation of observable energy, and suggest a generalization of the von-Neumann entropy which can account for the model-uncertainty also present in pure states if the measured observables are informationally incomplete. In this view, the transition from a fundamental to a thermodynamic model consists in mapping the fundamental density matrix to an effective one, generally of lower dimension, encoding only what is observable given the constraints of our sensor and actuator capabilities. The generalized entropy captures the information loss incurred in this mapping. The theory is illustrated for the central spin model, where we show that the application of external controls can increase the size of thermal fluctuations and lower the entropy.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# 拡散時間ステップによる数ショット学習者のパラメータ化

Few-shot Learner Parameterization by Diffusion Time-steps ( http://arxiv.org/abs/2403.02649v2 )

ライセンス: Link先を確認
Zhongqi Yue, Pan Zhou, Richang Hong, Hanwang Zhang, Qianru Sun, (参考訳) 大規模なマルチモーダルファウンデーションモデルを使用しても、ほとんどショット学習は難しい - もし適切な帰納的バイアスがなければ、クラスラベルと突発的に相関する視覚的に顕著な属性を取り除きながら、ニュアンスされたクラス属性を保持することはほとんど不可能である。 この目的のために、拡散モデル(DM)の時間ステップがニュアンスクラス属性を分離できる誘導バイアス、すなわち前方拡散が各時間ステップで画像にノイズを加えると、通常、視覚的に顕著なスプリアス属性よりも早い時間ステップでニュアンス属性が失われる。 そこで本研究では,TiF(Time-step Few-shot)学習者を提案する。 我々は、テキスト条件のDMに対してクラス固有の低ランクアダプタを訓練し、失われた属性を補う。 したがって、小さな段階において、アダプタとプロンプトは本質的に、ニュアンス付きクラス属性のみのパラメータ化である。 テスト画像では、パラメータ化を使用して、分類のためのニュアンス付きクラス属性のみを抽出できる。 TiF学習者は、OpenCLIPとそのアダプタを様々な細粒度でカスタマイズされた数発の学習タスクで大幅に上回っている。 コードはhttps://github.com/yue-zhongqi/tifにある。

Even when using large multi-modal foundation models, few-shot learning is still challenging -- if there is no proper inductive bias, it is nearly impossible to keep the nuanced class attributes while removing the visually prominent attributes that spuriously correlate with class labels. To this end, we find an inductive bias that the time-steps of a Diffusion Model (DM) can isolate the nuanced class attributes, i.e., as the forward diffusion adds noise to an image at each time-step, nuanced attributes are usually lost at an earlier time-step than the spurious attributes that are visually prominent. Building on this, we propose Time-step Few-shot (TiF) learner. We train class-specific low-rank adapters for a text-conditioned DM to make up for the lost attributes, such that images can be accurately reconstructed from their noisy ones given a prompt. Hence, at a small time-step, the adapter and prompt are essentially a parameterization of only the nuanced class attributes. For a test image, we can use the parameterization to only extract the nuanced class attributes for classification. TiF learner significantly outperforms OpenCLIP and its adapters on a variety of fine-grained and customized few-shot learning tasks. Codes are in https://github.com/yue-zhongqi/tif.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# NaturalSpeech 3:分解コーデックと拡散モデルを用いたゼロショット音声合成

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models ( http://arxiv.org/abs/2403.03100v2 )

ライセンス: Link先を確認
Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao, (参考訳) 最近の大規模音声合成(TTS)モデルは大きな進歩を遂げているが、音声品質、類似性、韻律に乏しい。 音声は、様々な属性(例えば、内容、韻律、音色、音色など)を複雑に包含し、生成に重大な課題を生じさせることを考えると、自然な考え方は、異なる属性を表す個々の部分空間に分解し、個別に生成することである。 そこで本研究では,ゼロショット方式で自然言語を生成するために,新しい因子化拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。 具体的には 1)因子化ベクトル量子化(FVQ)を用いたニューラルコーデックを設計し,音声波形をコンテンツ,韻律,音韻,音響的詳細の部分空間に分解する。 2) 各部分空間の属性を対応するプロンプトに従って生成する因子拡散モデルを提案する。 この因子化設計により、NaturalSpeech 3 は、分割とコンカレントな方法で、非絡み合った部分空間を持つ複雑な音声を効果的に、効率的にモデル化することができる。 実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れており、人間の録音によるオンパー品質を実現していることが示された。 さらに、1Bパラメータと200K時間のトレーニングデータにスケーリングすることで、より良いパフォーマンスを実現しています。

While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility, and achieves on-par quality with human recordings. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# 独自の対応を拡張する: プログレッシブ距離拡張による教師なし遠隔地クラウド登録

Extend Your Own Correspondences: Unsupervised Distant Point Cloud Registration by Progressive Distance Extension ( http://arxiv.org/abs/2403.03532v2 )

ライセンス: Link先を確認
Quan Liu, Hongzi Zhu, Zhenxi Wang, Yunsong Zhou, Shan Chang, Minyi Guo, (参考訳) 一対の遠距離車両から収集された点雲の登録は、運転シナリオの総合的かつ正確な3次元ビューを提供する。これは安全関連アプリケーションの運転に不可欠であるが、既存の文献は、新しいデータ分布に一般化するための高価なポーズラベルの取得と不足に悩まされている。 本稿では,地球規模のポーズラベルを必要とせず,新たな点雲分布に適応する遠隔地クラウド登録手法であるEYOCを提案する。 EYOCの中核となる考え方は、プログレッシブな方法で機能抽出器をトレーニングすることであり、各ラウンドにおいて、近点のクラウドペアでトレーニングされた機能抽出器は、少し離れた点のクラウドペアにラベルを付けることができ、そのような遠点のクラウドペアの自己監督を可能にする。 この過程は、抽出された抽出器が遠点の雲を登録するまで続く。 特に、高忠実度対応ラベル生成を可能にするために、最も代表的な対応を選択して点雲ペアを登録し、整列した点雲を用いてより正確な対応を見つけるための効果的な空間フィルタリング手法を考案する。 実験により、EYOCは、最先端の教師付き手法と同等の性能を、より低いトレーニングコストで達成できることが示されている。 さらに,新たなデータ分布の一般化性能について,教師付き手法を駆使した。

Registration of point clouds collected from a pair of distant vehicles provides a comprehensive and accurate 3D view of the driving scenario, which is vital for driving safety related applications, yet existing literature suffers from the expensive pose label acquisition and the deficiency to generalize to new data distributions. In this paper, we propose EYOC, an unsupervised distant point cloud registration method that adapts to new point cloud distributions on the fly, requiring no global pose labels. The core idea of EYOC is to train a feature extractor in a progressive fashion, where in each round, the feature extractor, trained with near point cloud pairs, can label slightly farther point cloud pairs, enabling self-supervision on such far point cloud pairs. This process continues until the derived extractor can be used to register distant point clouds. Particularly, to enable high-fidelity correspondence label generation, we devise an effective spatial filtering scheme to select the most representative correspondences to register a point cloud pair, and then utilize the aligned point clouds to discover more correct correspondences. Experiments show that EYOC can achieve comparable performance with state-of-the-art supervised methods at a lower training cost. Moreover, it outwits supervised methods regarding generalization performance on new data distributions.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# 基礎モデルを用いた解釈可能な画像分類のためのスケーラブル・ロバスト変換器デコーダ

Scalable and Robust Transformer Decoders for Interpretable Image Classification with Foundation Models ( http://arxiv.org/abs/2403.04125v2 )

ライセンス: Link先を確認
Evelyn Mannix, Howard Bondell, (参考訳) 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それら間の類似性が分類の基礎となる、透過的な予測を生成することができる。 それでもこれらの手法は、トレーニングに計算コストがかかり、さらなる複雑さを導入し、新しいデータセットにハイパーパラメータを適用するためにドメイン知識を必要とする可能性がある。 オブジェクト検出,セグメンテーション,大規模自己監督型基盤視モデルの開発に触発されて,トランスフォーマデコーダヘッドと階層的混合モデリングを用いた,新しい画像分類手法であるComFe(Component Features)を導入する。 グローバルなイメージラベルのみを使用し、セグメンテーションやアノテーションを含まないことで、ComFeは、鳥の頭、体、翼、尾などの一貫したイメージコンポーネントと画像背景を識別し、これらの特徴のうちどれが予測を行うに有益かを決定することができる。 我々はComFeが、データセットごとにハイパーパラメータを個別にチューニングすることなく、様々な細粒度ビジョンベンチマークにおける従来の解釈可能なモデルと比較して高い精度が得られることを示した。 また、ComFeは、ImageNetを含むさまざまなデータセットで非解釈可能な線形ヘッドよりも優れており、一般化や堅牢性ベンチマークのパフォーマンスが向上していることを示す。

Interpretable computer vision models can produce transparent predictions, where the features of an image are compared with prototypes from a training dataset and the similarity between them forms a basis for classification. Nevertheless these methods are computationally expensive to train, introduce additional complexity and may require domain knowledge to adapt hyper-parameters to a new dataset. Inspired by developments in object detection, segmentation and large-scale self-supervised foundation vision models, we introduce Component Features (ComFe), a novel explainable-by-design image classification approach using a transformer-decoder head and hierarchical mixture-modelling. With only global image labels and no segmentation or part annotations, ComFe can identify consistent image components, such as the head, body, wings and tail of a bird, and the image background, and determine which of these features are informative in making a prediction. We demonstrate that ComFe obtains higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks, without the need to individually tune hyper-parameters for each dataset. We also show that ComFe outperforms a non-interpretable linear head across a range of datasets, including ImageNet, and improves performance on generalisation and robustness benchmarks.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# NLPre:自然言語前処理システムの言語中心ベンチマークへの改訂アプローチ

NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems ( http://arxiv.org/abs/2403.04507v2 )

ライセンス: Link先を確認
Martyna Wiącek, Piotr Rybak, Łukasz Pszenny, Alina Wróblewska, (参考訳) トランスフォーマーアーキテクチャの進歩により、外部の言語指導なしに、予備的なNLPタスク(例えば、トークン化、音声タグ付け、依存性解析、形態解析)を解くことができる自然言語前処理(NLPre)ツールの台頭が観察される。 規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。 既存のNLPre評価手法の欠点に気付き、信頼性と公正な評価と性能報告の新しい手法について検討する。 GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールを総合的に評価し、その性能を確実に追跡する。 プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。 このベンチマークに基づいて,ポーランドのNLPreシステムを広範囲に評価する。 アイルランド語用NLPre-GAや中国語用NLPre-ZHなど,他の言語用ベンチマーク環境の構築を容易にするため,ベンチマークシステムの公開ソースコードの完全なカスタマイズを確実にする。 すべてのリソース(デプロイされたプラットフォーム、ソースコード、トレーニング済みモデル、データセットなど)へのリンクは、プロジェクトのWebサイト(https://sites.google.com/view/nlpre-benchmark)で見ることができる。

With the advancements of transformer-based architectures, we observe the rise of natural language preprocessing (NLPre) tools capable of solving preliminary NLP tasks (e.g. tokenisation, part-of-speech tagging, dependency parsing, or morphological analysis) without any external linguistic guidance. It is arduous to compare novel solutions to well-entrenched preprocessing toolkits, relying on rule-based morphological analysers or dictionaries. Aware of the shortcomings of existing NLPre evaluation approaches, we investigate a novel method of reliable and fair evaluation and performance reporting. Inspired by the GLUE benchmark, the proposed language-centric benchmarking system enables comprehensive ongoing evaluation of multiple NLPre tools, while credibly tracking their performance. The prototype application is configured for Polish and integrated with the thoroughly assembled NLPre-PL benchmark. Based on this benchmark, we conduct an extensive evaluation of a variety of Polish NLPre systems. To facilitate the construction of benchmarking environments for other languages, e.g. NLPre-GA for Irish or NLPre-ZH for Chinese, we ensure full customization of the publicly released source code of the benchmarking system. The links to all the resources (deployed platforms, source code, trained models, datasets etc.) can be found on the project website: https://sites.google.com/view/nlpre-benchmark.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# スペクトルベースグラフ畳み込みエンコーダを用いた3次元顔再構成

3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder ( http://arxiv.org/abs/2403.05218v2 )

ライセンス: Link先を確認
Haoxin Xu, Zezheng Zhao, Yuxin Cao, Chunyu Chen, Hao Ge, Ziyao Liu, (参考訳) モノクロ3D顔の再構成はアバター生成において重要な役割を担い、FinTechにおける仮想金融アドバイザの生成などWeb関連のアプリケーションにかなりの需要がある。 現在の再構築手法は主に深層学習技術に依存しており,モデル学習の指導手段として2次元自己スーパービジョンを採用している。 しかし, これらの手法は, モデルトレーニングに2次元画像を利用するため, 顔の包括的3次元構造情報を収集する際の課題に直面する。 この制限を克服し、3次元構造的特徴の再構築を強化するために、既存の2次元特徴と3次元特徴を統合してモデル学習プロセスを導く革新的なアプローチを提案する。 具体的には、顔メッシュに適用したスペクトルベースのグラフ畳み込みエンコーダから抽出した高次元構造特徴を利用する3D-IDロスを導入する。 このアプローチは、顔メッシュ頂点座標によって提供される3D情報にのみ依存する。 我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。

Monocular 3D face reconstruction plays a crucial role in avatar generation, with significant demand in web-related applications such as generating virtual financial advisors in FinTech. Current reconstruction methods predominantly rely on deep learning techniques and employ 2D self-supervision as a means to guide model learning. However, these methods encounter challenges in capturing the comprehensive 3D structural information of the face due to the utilization of 2D images for model training purposes. To overcome this limitation and enhance the reconstruction of 3D structural features, we propose an innovative approach that integrates existing 2D features with 3D features to guide the model learning process. Specifically, we introduce the 3D-ID Loss, which leverages the high-dimensional structure features extracted from a Spectral-Based Graph Convolution Encoder applied to the facial mesh. This approach surpasses the sole reliance on the 3D information provided by the facial mesh vertices coordinates. Our model is trained using 2D-3D data pairs from a combination of datasets and achieves state-of-the-art performance on the NoW benchmark.
翻訳日:2024-03-28 21:54:06 公開日:2024-03-27
# マルチモーダル大言語モデルのデバイアス化

Debiasing Multimodal Large Language Models ( http://arxiv.org/abs/2403.05262v2 )

ライセンス: Link先を確認
Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan, (参考訳) コンピュータビジョンと自然言語処理の分野では、LVLM(Large Vision-Language Models)が欠かせないツールとなり、視覚入力に基づくテキスト記述の生成に長けている。 それらの進歩にもかかわらず,本研究は,入力画像よりも基礎となるLarge Language Models (LLM) の影響を主に受け,生成コンテンツに顕著なバイアスを生じさせる。 LVLMは、関連画像の欠如や、不連続な視覚入力であっても、自信ある回答を提供することが多いため、我々の経験的実験は、このバイアスの持続性を強調している。 これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。 まず、分類や複数選択質問応答(QA)といったタスクに対して、アフィン変換による「校正」ステップを提案し、出力分布の調整を行う。 この `post-Hoc debias' アプローチは、画像が存在しないときに各回答に対して一様スコアを保証し、LLM の先行の影響を軽減する効果的な正規化手法として機能する。 より複雑なオープンエンド生成タスクに対しては、このメソッドを `Debias sample'' に拡張し、対照的な復号法からインスピレーションを引き出す。 さらに,本研究では,様々な復号化構成におけるLVLMの不安定性について検討した。 異なる設定の体系的な探索を通じて、我々は性能を著しく向上させ、報告結果を超越し、既存の評価の公平性に対する懸念を提起する。 包括的実験は、バイアス軽減のための提案された戦略の有効性を裏付けるものである。 これらの戦略は幻覚の最小化に有益であるだけでなく、より有用で正確な図面の生成にも寄与している。

In the realms of computer vision and natural language processing, Large Vision-Language Models (LVLMs) have become indispensable tools, proficient in generating textual descriptions based on visual inputs. Despite their advancements, our investigation reveals a noteworthy bias in the generated content, where the output is primarily influenced by the underlying Large Language Models (LLMs) prior rather than the input image. Our empirical experiments underscore the persistence of this bias, as LVLMs often provide confident answers even in the absence of relevant images or given incongruent visual input. To rectify these biases and redirect the model's focus toward vision information, we introduce two simple, training-free strategies. Firstly, for tasks such as classification or multi-choice question-answering (QA), we propose a ``calibration'' step through affine transformation to adjust the output distribution. This ``Post-Hoc debias'' approach ensures uniform scores for each answer when the image is absent, serving as an effective regularization technique to alleviate the influence of LLM priors. For more intricate open-ended generation tasks, we extend this method to ``Debias sampling'', drawing inspirations from contrastive decoding methods. Furthermore, our investigation sheds light on the instability of LVLMs across various decoding configurations. Through systematic exploration of different settings, we significantly enhance performance, surpassing reported results and raising concerns about the fairness of existing evaluations. Comprehensive experiments substantiate the effectiveness of our proposed strategies in mitigating biases. These strategies not only prove beneficial in minimizing hallucinations but also contribute to the generation of more helpful and precise illustrations.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# 画像復元のための拡散浄化を伴うデカップリングデータ整合性

Decoupled Data Consistency with Diffusion Purification for Image Restoration ( http://arxiv.org/abs/2403.06054v4 )

ライセンス: Link先を確認
Xiang Li, Soo Min Kwon, Ismail R. Alkhouri, Saiprasad Ravishankar, Qing Qu, (参考訳) 拡散モデルは最近、データ分布をモデル化する能力に優れ、幅広い画像復元タスクに優れており、強力な生成前駆体として注目を集めている。 画像復元の問題を解決するために,拡散モデルの逆サンプリングプロセスに追加の確率勾配ステップを組み込むことで,データ一貫性を実現する手法が多数存在する。 しかし、さらなる勾配のステップは、計算オーバーヘッドが大きくなり、推論時間が増大するにつれて、現実の実用的な応用に挑戦する。 また、データ一貫性ステップの数は、逆サンプリングステップの数によって制限されるため、加速拡散モデルサンプリング器を使用する際のさらなる困難が生じる。 本研究では,データ整合性から逆処理を分離することにより,これらの問題に対処する新しい拡散型画像復元法を提案する。 本手法は,データの整合性を維持するための再構成フェーズと,拡散浄化による事前処理を行う精製フェーズの交互化を含む。 我々の手法は多目的性を示し、潜在空間における効率的な問題解決に高い適応性を与える。 さらに、一貫性モデルを統合することで、多数のサンプリングステップの必要性を低減する。 提案手法の有効性は,画像のデノイング,デブロアリング,インペイント,超解像など,画像修復作業における総合的な実験を通じて検証される。

Diffusion models have recently gained traction as a powerful class of deep generative priors, excelling in a wide range of image restoration tasks due to their exceptional ability to model data distributions. To solve image restoration problems, many existing techniques achieve data consistency by incorporating additional likelihood gradient steps into the reverse sampling process of diffusion models. However, the additional gradient steps pose a challenge for real-world practical applications as they incur a large computational overhead, thereby increasing inference time. They also present additional difficulties when using accelerated diffusion model samplers, as the number of data consistency steps is limited by the number of reverse sampling steps. In this work, we propose a novel diffusion-based image restoration solver that addresses these issues by decoupling the reverse process from the data consistency steps. Our method involves alternating between a reconstruction phase to maintain data consistency and a refinement phase that enforces the prior via diffusion purification. Our approach demonstrates versatility, making it highly adaptable for efficient problem-solving in latent space. Additionally, it reduces the necessity for numerous sampling steps through the integration of consistency models. The efficacy of our approach is validated through comprehensive experiments across various image restoration tasks, including image denoising, deblurring, inpainting, and super-resolution.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# FSC:Few-point Shape Completion

FSC: Few-point Shape Completion ( http://arxiv.org/abs/2403.07359v4 )

ライセンス: Link先を確認
Xianzu Wu, Xianfeng Wu, Tianyu Luan, Yajing Bai, Zhongyuan Lai, Junsong Yuan, (参考訳) これまでの研究では、十分な数の点で3次元オブジェクトの形状を完遂することに成功したが、数点(例えば数十点)が観測された場合、しばしば失敗する。 驚くべきことに、エントロピー解析により、いくつかの点、例えば64点でさえ、物体の3次元形状を復元するのに十分な情報を保持できることが判明した。 極めてスパースな点雲による形状完備化の課題に対処するため, 極めてスパースな入力を処理するための新しいデュアルブランチ特徴抽出器と, 動的に重要な割り当てを行うためのサリエンシブランチを併用したFew-point Shape Completion (FSC)モデルを提案する。 このモデルは、抽出された特徴とデコーダ出力の両方を洗練し、完了した点雲の詳細と信頼性を高める2段階のリビジョンネットワークによってさらに強化されている。 実験では,数点から3次元形状を復元できる可能性を示した。 提案したFew-point Shape Completion (FSC) モデルは、小点入力と多点入力の両方において従来の手法よりも優れ、異なる対象カテゴリに対して優れた一般化性を示す。

While previous studies have demonstrated successful 3D object shape completion with a sufficient number of points, they often fail in scenarios when a few points, e.g. tens of points, are observed. Surprisingly, via entropy analysis, we find that even a few points, e.g. 64 points, could retain substantial information to help recover the 3D shape of the object. To address the challenge of shape completion with very sparse point clouds, we then propose Few-point Shape Completion (FSC) model, which contains a novel dual-branch feature extractor for handling extremely sparse inputs, coupled with an extensive branch for maximal point utilization with a saliency branch for dynamic importance assignment. This model is further bolstered by a two-stage revision network that refines both the extracted features and the decoder output, enhancing the detail and authenticity of the completed point cloud. Our experiments demonstrate the feasibility of recovering 3D shapes from a few points. The proposed Few-point Shape Completion (FSC) model outperforms previous methods on both few-point inputs and many-point inputs, and shows good generalizability to different object categories.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# ViT-CoMer:Dense予測のための畳み込みマルチスケール特徴相互作用を用いた視覚変換器

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions ( http://arxiv.org/abs/2403.07392v3 )

ライセンス: Link先を確認
Chunlong Xia, Xinliang Wang, Feng Lv, Xin Hao, Yifeng Shi, (参考訳) Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、内部パッチ情報相互作用の欠如や機能スケールの多様性の制限により、密集した予測タスクではうまく機能しない。 既存の研究の多くは、上記の問題を解決するために視覚特異的なトランスフォーマーを設計することに集中しており、追加の事前学習コストがもたらされる。 そこで我々は,CNNとトランスフォーマーの双方向インタラクションを容易にする,畳み込み型マルチスケール機能インタラクションを備えた,平らで事前学習のない,機能強化型VTバックボーンViT-CoMerを提案する。 現状と比較して、VT-CoMerには次のような利点がある: 1) 空間ピラミッドの多受容場畳み込み特性をViTアーキテクチャに注入することで、VTにおける限られた局所情報相互作用や単一機能表現の問題を効果的に軽減する。 2) 階層的特徴にまたがるマルチスケールの融合を行うCNN-Transformer双方向融合モジュールを提案する。 (3)ViT-CoMerの性能は,多種多彩な予測タスク,異なるフレームワーク,複数の先進的な事前学習で評価する。 特に、私たちのViT-CoMer-Lは、余分なトレーニングデータなしでCOCO val2017で64.3%AP、ADE20K valで62.1%mIoUを達成した。 ViT-CoMerは、より密集した予測タスクのための新しいバックボーンとして機能し、将来の研究を促進することを願っている。 コードはhttps://github.com/Traffic-X/ViT-CoMerで公開される。

Although Vision Transformer (ViT) has achieved significant success in computer vision, it does not perform well in dense prediction tasks due to the lack of inner-patch information interaction and the limited diversity of feature scale. Most existing studies are devoted to designing vision-specific transformers to solve the above problems, which introduce additional pre-training costs. Therefore, we present a plain, pre-training-free, and feature-enhanced ViT backbone with Convolutional Multi-scale feature interaction, named ViT-CoMer, which facilitates bidirectional interaction between CNN and transformer. Compared to the state-of-the-art, ViT-CoMer has the following advantages: (1) We inject spatial pyramid multi-receptive field convolutional features into the ViT architecture, which effectively alleviates the problems of limited local information interaction and single-feature representation in ViT. (2) We propose a simple and efficient CNN-Transformer bidirectional fusion interaction module that performs multi-scale fusion across hierarchical features, which is beneficial for handling dense prediction tasks. (3) We evaluate the performance of ViT-CoMer across various dense prediction tasks, different frameworks, and multiple advanced pre-training. Notably, our ViT-CoMer-L achieves 64.3% AP on COCO val2017 without extra training data, and 62.1% mIoU on ADE20K val, both of which are comparable to state-of-the-art methods. We hope ViT-CoMer can serve as a new backbone for dense prediction tasks to facilitate future research. The code will be released at https://github.com/Traffic-X/ViT-CoMer.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# SSMがビデオ拡散モデルを発表:構造化状態空間を用いた効率的なビデオ生成

SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces ( http://arxiv.org/abs/2403.07711v2 )

ライセンス: Link先を確認
Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo, (参考訳) 拡散モデルによる画像生成における顕著な成果を考えると、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。 映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。 しかし、アテンション層はメモリ消費によって制限され、シーケンスの長さとともに2次的に増加する。 この制限は拡散モデルを用いてより長いビデオシーケンスを生成しようとする際の大きな課題となる。 この課題を克服するために、状態空間モデル(SSM)の活用を提案する。 SSMは、最近、シーケンス長に対する線形メモリ消費のために、有効な代替手段として注目されている。 実験では、まず、ビデオ生成の標準ベンチマークであるUCF101を用いて、SSMベースのモデルを評価した。 さらに,より長いビデオ生成のためのSSMの可能性を調べるために,MineRL Navigateデータセットを用いて,フレーム数を64,200,400に変更する実験を行った。 これらの設定では、我々のSSMベースのモデルは、注意ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。 私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。

Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their memory consumption, which increases quadratically with the length of the sequence. This limitation presents significant challenges when attempting to generate longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs). SSMs have recently gained attention as viable alternatives due to their linear memory consumption relative to sequence length. In the experiments, we first evaluate our SSM-based model with UCF101, a standard benchmark of video generation. In addition, to investigate the potential of SSMs for longer video generation, we perform an experiment using the MineRL Navigate dataset, varying the number of frames to 64, 200, and 400. In these settings, our SSM-based model can considerably save memory consumption for longer sequences, while maintaining competitive FVD scores to the attention-based models. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# 直交基底方向の多項式近似を最適化した機械学習

Machine Learning Optimized Orthogonal Basis Piecewise Polynomial Approximation ( http://arxiv.org/abs/2403.08579v2 )

ライセンス: Link先を確認
Hannes Waclawek, Stefan Huber, (参考訳) Piecewise Polynomials (PP) は、軌道計画のようないくつかの工学分野において、点の集合の形で与えられる位置プロファイルを近似するために用いられる。 近似対象は Ck-連続性のような領域固有の要件とともに方程式の体系として定式化でき、結果を直接計算できるが、そのような閉形式解は多項式次数や多項式基底に関して限られた柔軟性を持ち、さらに領域固有の要求を加えることができる。 十分複雑な最適化のゴールは、勾配降下のような数値的な手法をすぐに呼び出す。 勾配降下はANN(Artificial Neural Networks)のトレーニングの中心にあるため、TensorFlowのような現代的な機械学習(ML)フレームワークには、ANNのトレーニングタスクを超えた幅広い最適化問題に適した勾配ベースのオプティマイザセットが付属している。 提案手法は, PPモデルの汎用性を活用し, 電子カメラ設計の文脈における1次元軌道計画における関数近似の活用を目的とした, 現代のMLオプティマイザの可能性と組み合わせることである。 ANNのスコープ外から直接、MLフレームワークTensorFlowの利用可能なオプティマイザを使用して、PPモデルのモデルパラメータを最適化します。 本稿では,直交多項式基底が近似および連続性最適化性能の向上にどのように貢献するかを示す。 第1種のチェビシェフ多項式を用いることで、収束挙動を明確に改善できる新しい正規化手法を開発する。 この正則化手法を用いて、Chebyshev ベースは、近似と連続性最適化の組合せにおいて、すべての関連する最適化器に対して、電力ベースよりも優れた性能を示し、電子カム領域における提案手法のユーザビリティを示す。

Piecewise Polynomials (PPs) are utilized in several engineering disciplines, like trajectory planning, to approximate position profiles given in the form of a set of points. While the approximation target along with domain-specific requirements, like Ck -continuity, can be formulated as a system of equations and a result can be computed directly, such closed-form solutions posses limited flexibility with respect to polynomial degrees, polynomial bases or adding further domain-specific requirements. Sufficiently complex optimization goals soon call for the use of numerical methods, like gradient descent. Since gradient descent lies at the heart of training Artificial Neural Networks (ANNs), modern Machine Learning (ML) frameworks like TensorFlow come with a set of gradient-based optimizers potentially suitable for a wide range of optimization problems beyond the training task for ANNs. Our approach is to utilize the versatility of PP models and combine it with the potential of modern ML optimizers for the use in function approximation in 1D trajectory planning in the context of electronic cam design. We utilize available optimizers of the ML framework TensorFlow directly, outside of the scope of ANNs, to optimize model parameters of our PP model. In this paper, we show how an orthogonal polynomial basis contributes to improving approximation and continuity optimization performance. Utilizing Chebyshev polynomials of the first kind, we develop a novel regularization approach enabling clearly improved convergence behavior. We show that, using this regularization approach, Chebyshev basis performs better than power basis for all relevant optimizers in the combined approximation and continuity optimization setting and demonstrate usability of the presented approach within the electronic cam domain.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# ストロンチウム結合Rydberg状態の多チャンネル量子欠陥理論

Multichannel quantum defect theory of strontium bound Rydberg states ( http://arxiv.org/abs/2403.08742v2 )

ライセンス: Link先を確認
C. L. Vaillant, M. P. A. Jones, R. M. Potvliege, (参考訳) 新規に算出されたマルチチャネル量子欠陥理論パラメータとチャネル分画を、ストロンチウムの1重項および3重項S,P,D系列および1重項F系列に対して提示する。 これらの結果は、Vayllant C L, Jones M P A および Potvliege R M 2014 J. Phys で報告されているものを修正した。 B: です。 Mol Opt Phys 47 155001

Newly calculated multichannel quantum defect theory parameters and channel fractions are presented for the singlet and triplet S, P and D series and singlet F series of strontium. These results correct those reported in Vaillant C L, Jones M P A and Potvliege R M 2014 J. Phys. B: At. Mol. Opt. Phys. 47 155001.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# 社会的行動生成のための動的相互作用モデリング

Dyadic Interaction Modeling for Social Behavior Generation ( http://arxiv.org/abs/2403.09069v2 )

ライセンス: Link先を確認
Minh Tran, Di Chang, Maksim Siniukov, Mohammad Soleymani, (参考訳) 人間と人間のコミュニケーションは、リスナーと話者が同時に対話して会話のダイナミクスを維持する、繊細なダンスのようなものです。 したがって、リスナー非言語行動を生成する効果的なモデルには、ダイアドの文脈と相互作用を理解する必要がある。 本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。 既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。 我々のフレームワークの核心はDyadic Interaction Modeling (DIM) である。これは、Dyadicコンテキストをキャプチャする表現を学ぶために、マスキングと対照的な学習を通じて、話者とリスナーの動作を共同でモデル化する訓練前のアプローチである。 非決定論的行動の生成を可能にするため、VQ-VAEを介してリスナーと話者の動作を個別の潜在表現に符号化する。 事前訓練されたモデルは、モーション生成のためにさらに微調整される。 広範にわたる実験は, 聴取者の動作生成における枠組みの優位性を実証し, 生成した動きの多様性とリアリズムを定量的に把握し, 新たな最先端技術を確立した。 定性的な結果は、多様で現実的な表現、目まき、頭部ジェスチャーの生成における提案手法の優れた能力を示している。

Human-human communication is like a delicate dance where listeners and speakers concurrently interact to maintain conversational dynamics. Hence, an effective model for generating listener nonverbal behaviors requires understanding the dyadic context and interaction. In this paper, we present an effective framework for creating 3D facial motions in dyadic interactions. Existing work consider a listener as a reactive agent with reflexive behaviors to the speaker's voice and facial motions. The heart of our framework is Dyadic Interaction Modeling (DIM), a pre-training approach that jointly models speakers' and listeners' motions through masking and contrastive learning to learn representations that capture the dyadic context. To enable the generation of non-deterministic behaviors, we encode both listener and speaker motions into discrete latent representations, through VQ-VAE. The pre-trained model is further fine-tuned for motion generation. Extensive experiments demonstrate the superiority of our framework in generating listener motions, establishing a new state-of-the-art according to the quantitative measures capturing the diversity and realism of generated motions. Qualitative results demonstrate the superior capabilities of the proposed approach in generating diverse and realistic expressions, eye blinks and head gestures.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# ProSwitch: 専門的および非専門的なスタイルのテキストを生成するための知識誘導型言語モデルファインチューニング

ProSwitch: Knowledge-Guided Language Model Fine-Tuning to Generate Professional and Non-Professional Styled Text ( http://arxiv.org/abs/2403.09131v2 )

ライセンス: Link先を確認
Chang Zong, Yuyan Chen, Weiming Lu, Jian Shao, Yueting Zhuang, (参考訳) 大規模言語モデル(LLM)は、テキスト要約や制御されたテキスト生成など、様々な言語応用において有効であることを示す。 しかし、細調整によってスタイルを切り替える能力についての研究は、いまだに過小評価されている。 本研究は、テキストプロフェッショナル主義に焦点をあて、知識誘導型指導チューニングを通じて専門的・非専門的応答を生成できる言語モデルを備えたProSwitchという新しい方法論を導入する。 ProSwitchは、ドメイン知識とトレーニングコーパスを収集するためのデータ準備、複数のレベルの命令形式で言語モデルを最適化するための命令チューニング、生成したテキストのプロフェッショナル差別と参照ベースの品質を評価するための包括的な評価の3段階に展開する。 汎用言語モデルと特殊言語モデルの比較分析により,プロと非プロのテキスト生成の切り替えにおいて,本手法がベースラインを上回っていることが判明した。

Large Language Models (LLMs) have demonstrated efficacy in various linguistic applications, including text summarization and controlled text generation. However, studies into their capacity of switching between styles via fine-tuning remain underexplored. This study concentrates on textual professionalism and introduces a novel methodology, named ProSwitch, which equips a language model with the ability to produce both professional and non-professional responses through knowledge-guided instruction tuning. ProSwitch unfolds across three phases: data preparation for gathering domain knowledge and training corpus; instruction tuning for optimizing language models with multiple levels of instruction formats; and comprehensive evaluation for assessing the professionalism discrimination and reference-based quality of generated text. Comparative analysis of ProSwitch against both general and specialized language models reveals that our approach outperforms baselines in switching between professional and non-professional text generation.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# 動的回路を用いた量子フーリエ変換

Quantum Fourier Transform using Dynamic Circuits ( http://arxiv.org/abs/2403.09514v2 )

ライセンス: Link先を確認
Elisa Bäumer, Vinay Tripathi, Alireza Seif, Daniel Lidar, Derek S. Wang, (参考訳) 動的量子回路では、回路実行中に中間回路の測定から古典的な情報がフォワードされる。 この量子コンピュータの出現する能力は、特定のコアアルゴリズムプリミティブのリソース要求を大幅に削減することで、より効率的で強力なプロトコルを可能にする、数多くの利点を提供する。 特に、$n$-qubit 量子フーリエ変換がすぐに測定された場合、標準ユニタリ定式における全接続におけるリソース要求のスケーリングは、接続の制約なく、動的にそれに対応する場合、$O(n)$2-qubit ゲートから$O(n)$2-qubit ゲートに還元される。 ここでは、IBMの超伝導量子ハードウェア上での量子フーリエ変換に対する動的量子回路の利点を、最大16ドルキュービットで50\%、最大37ドルキュービットで1\%と認定されたプロセスフィデリティで示し、全ての量子コンピューティングプラットフォームで以前の報告を上回った。 これらの結果は、プロセスの忠実性を証明する効率的な方法と、中間回路測定時のエラー抑制のための動的デカップリングプロトコルの寄与と、'feed-forward-compensated dynamical decoupling' (FC-DD)と呼ばれる動的量子回路内でのフィードフォワードにより実現された。 本研究は,量子アルゴリズムの最適化における動的回路の利点を示すものである。

In dynamic quantum circuits, classical information from mid-circuit measurements is fed forward during circuit execution. This emerging capability of quantum computers confers numerous advantages that can enable more efficient and powerful protocols by drastically reducing the resource requirements for certain core algorithmic primitives. In particular, in the case of the $n$-qubit quantum Fourier transform followed immediately by measurement, the scaling of resource requirements is reduced from $O(n^2)$ two-qubit gates in an all-to-all connectivity in the standard unitary formulation to $O(n)$ mid-circuit measurements in its dynamic counterpart without any connectivity constraints. Here, we demonstrate the advantage of dynamic quantum circuits for the quantum Fourier transform on IBM's superconducting quantum hardware with certified process fidelities of $>50\%$ on up to $16$ qubits and $>1\%$ on up to $37$ qubits, exceeding previous reports across all quantum computing platforms. These results are enabled by our contribution of an efficient method for certifying the process fidelity, as well as of a dynamical decoupling protocol for error suppression during mid-circuit measurements and feed-forward within a dynamic quantum circuit that we call ``feed-forward-compensated dynamical decoupling" (FC-DD). Our results demonstrate the advantages of leveraging dynamic circuits in optimizing the compilation of quantum algorithms.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# GenAIによるコンテンツにおける公平なリワードスプリットのための共有価値駆動型フレームワーク

Shapley Values-Powered Framework for Fair Reward Split in Content Produced by GenAI ( http://arxiv.org/abs/2403.09700v2 )

ライセンス: Link先を確認
Alex Glinsky, Alexey Sokolsky, (参考訳) 現在、生成モデルは人間のプロフェッショナルによって品質を上回っていることは明らかである。 しかし、人工知能の進歩により、このギャップは狭まり、高いコストでスキルを習得するために長年を捧げてきた個人が時代遅れになるシナリオへと繋がる。 将来的な社会的不況を避けるために、私たちは今でも、生成モデルの訓練において、そのような個人の貢献を公平に評価する方法や、収入の減少や完全な損失を補う方法を考えなければならない。 本研究では,モデル開発者とデータ提供者間のコラボレーションを構築する手法を提案する。 そこで我々はShapley Valuesを用いて,Stable Diffusion-v1.5モデルによって生成された画像におけるアーティストの貢献度を定量化し,その報酬を公平に割り当てる。

It is evident that, currently, generative models are surpassed in quality by human professionals. However, with the advancements in Artificial Intelligence, this gap will narrow, leading to scenarios where individuals who have dedicated years of their lives to mastering a skill become obsolete due to their high costs, which are inherently linked to the time they require to complete a task -- a task that AI could accomplish in minutes or seconds. To avoid future social upheavals, we must, even now, contemplate how to fairly assess the contributions of such individuals in training generative models and how to compensate them for the reduction or complete loss of their incomes. In this work, we propose a method to structure collaboration between model developers and data providers. To achieve this, we employ Shapley Values to quantify the contribution of artist(s) in an image generated by the Stable Diffusion-v1.5 model and to equitably allocate the reward among them.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# マルコフ的および非マルコフ的マスター方程式と空洞内のキュービットの正確に解けるモデル

Markovian and non-Markovian master equations versus an exactly solvable model of a qubit in a cavity ( http://arxiv.org/abs/2403.09944v2 )

ライセンス: Link先を確認
Zihan Xia, Juan Garcia-Nila, Daniel Lidar, (参考訳) 量子マスター方程式は一般に開量子系の力学をモデル化するために用いられるが、その精度は正確に解けるモデルの解析解と比較されることは稀である。 本研究では, 漏洩キャビティ内の量子ビットの減衰したJaynes-Cummingsモデルとの比較を行い, 一励起部分空間で解析解が利用できることを示した。 我々は、非マルコフ的時間畳み込みマスター方程式を2階(レッドフィールド)と4階(レッドフィールド)まで、およびマルコフ的マスター方程式の3種類の種類(粗粒度、累積、標準回転波近似(RWA)リンドブラッド方程式)を考える。 これらのマスター方程式の正確な解を、インパルス、オーミック、三角形の3つの異なるスペクトル密度に対して比較する。 粗粒度マスター方程式は、マルコフ近似が有効であるような(スペクトル密度の高い高周波カットオフ$\omega_c$)弱結合または高量子周波数に対する標準RWAベースのリンドブラッドマスター方程式よりも優れていることを示す。 非マルコフ効果の存在下では、TCL近似は、マルコフ近似の妥当性の条件外でさえ短い進化時間($\omega_c^{-1}$の単位)の正確な解と密接に一致している。 長い進化時間の間、すべてのマスター方程式は、正確な解から北緯線までの距離で定量化されるように、不十分に機能する。 4階の時間畳み込みのないマスター方程式は、すべての場合において最高性能を達成する。 この結果から,短時間の限界を超えて,オープンシステム量子力学を記述するための信頼性近似法の必要性が浮き彫りになった。

Quantum master equations are commonly used to model the dynamics of open quantum systems, but their accuracy is rarely compared with the analytical solution of exactly solvable models. In this work, we perform such a comparison for the damped Jaynes-Cummings model of a qubit in a leaky cavity, for which an analytical solution is available in the one-excitation subspace. We consider the non-Markovian time-convolutionless master equation up to the second (Redfield) and fourth orders as well as three types of Markovian master equations: the coarse-grained, cumulant, and standard rotating-wave approximation (RWA) Lindblad equations. We compare the exact solution to these master equations for three different spectral densities: impulse, Ohmic, and triangular. We demonstrate that the coarse-grained master equation outperforms the standard RWA-based Lindblad master equation for weak coupling or high qubit frequency (relative to the spectral density high-frequency cutoff $\omega_c$), where the Markovian approximation is valid. In the presence of non-Markovian effects characterized by oscillatory, non-decaying behavior, the TCL approximation closely matches the exact solution for short evolution times (in units of $\omega_c^{-1}$) even outside the regime of validity of the Markovian approximations. For long evolution times, all master equations perform poorly, as quantified in terms of the trace-norm distance from the exact solution. The fourth-order time-convolutionless master equation achieves the top performance in all cases. Our results highlight the need for reliable approximation methods to describe open-system quantum dynamics beyond the short-time limit.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# 高能率視覚変換器の1ステップアテンションによる多基準トークン核融合

Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers ( http://arxiv.org/abs/2403.10030v2 )

ライセンス: Link先を確認
Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim, (参考訳) Vision Transformer (ViT) はコンピュータビジョンのバックボーンとして登場した。 より効率的なViTのために、最近の研究は、冗長トークンをプルーニングまたはファンクションすることにより、自己保持層の二次コストを低減している。 しかし、これらの作品は情報の喪失によって引き起こされた速度精度のトレードオフに直面した。 ここでは,トークンの融合は情報損失を最小限に抑えるために,トークン間の多様な関係を考慮する必要があると論じる。 本稿では,多基準トークン(例えば,類似性,情報性,および溶解トークンのサイズ)に基づいて,トークンを徐々に融合させる多基準トークン融合(MCTF)を提案する。 さらに,トークンの情報を捉えるための改良されたアプローチである,ワンステップアヘッドアテンションを利用する。 トークン還元整合性を用いたMCTF搭載モデルの訓練により,画像分類(ImageNet1K)において,最高速度精度のトレードオフを実現する。 実験結果から,MCTF は従来に比べてトレーニングと無トレーニングで常に上回っていることがわかった。 具体的には、MCTFを用いたDeiT-TとDeiT-SはFLOPを約44%削減し、それぞれベースモデルよりも性能(+0.5%、+0.3%)が向上した。 また、様々なビジョン変換器(例えば、T2T-ViT、LV-ViT)におけるMCTFの適用性を実証し、性能劣化を伴わずに少なくとも31%の高速化を実現した。 コードはhttps://github.com/mlvlab/MCTFで入手できる。

Vision Transformer (ViT) has emerged as a prominent backbone for computer vision. For more efficient ViTs, recent works lessen the quadratic cost of the self-attention layer by pruning or fusing the redundant tokens. However, these works faced the speed-accuracy trade-off caused by the loss of information. Here, we argue that token fusion needs to consider diverse relations between tokens to minimize information loss. In this paper, we propose a Multi-criteria Token Fusion (MCTF), that gradually fuses the tokens based on multi-criteria (e.g., similarity, informativeness, and size of fused tokens). Further, we utilize the one-step-ahead attention, which is the improved approach to capture the informativeness of the tokens. By training the model equipped with MCTF using a token reduction consistency, we achieve the best speed-accuracy trade-off in the image classification (ImageNet1K). Experimental results prove that MCTF consistently surpasses the previous reduction methods with and without training. Specifically, DeiT-T and DeiT-S with MCTF reduce FLOPs by about 44% while improving the performance (+0.5%, and +0.3%) over the base model, respectively. We also demonstrate the applicability of MCTF in various Vision Transformers (e.g., T2T-ViT, LV-ViT), achieving at least 31% speedup without performance degradation. Code is available at https://github.com/mlvlab/MCTF.
翻訳日:2024-03-28 21:44:21 公開日:2024-03-27
# 機能グラフ畳み込みネットワーク:健康・社会・ケアの洞察を促進するための統合型マルチタスク・マルチモーダル学習フレームワーク

Functional Graph Convolutional Networks: A unified multi-task and multi-modal learning framework to facilitate health and social-care insights ( http://arxiv.org/abs/2403.10158v2 )

ライセンス: Link先を確認
Tobia Boschi, Francesca Bonin, Rodrigo Ordonez-Hurtado, Cécile Rousseau, Alessandra Pascale, John Dinsmore, (参考訳) 本稿では,デジタル健康・縦断研究におけるマルチタスク・マルチモーダル学習の複雑さに対処するため,関数型データ解析とグラフ型畳み込みネットワークを組み合わせた新しい関数型グラフ畳み込みネットワーク(funGCN)を提案する。 医療と社会的支援を改善するための医療ソリューションの重要性の高まり、健康な生活の確保、あらゆる年齢での幸福感の促進により、 funGCNは複数のエンティティの多変量長大データを扱う統一的なアプローチを提供し、小さなサンプルサイズでも解釈可能である。 主なイノベーションは、異なるデータタイプを管理するタスク固有の埋め込みコンポーネント、分類、回帰、予測を行う機能、洞察に富んだデータ解釈のための知識グラフの作成である。 funGCNの有効性はシミュレーション実験と実データ応用によって検証される。

This paper introduces a novel Functional Graph Convolutional Network (funGCN) framework that combines Functional Data Analysis and Graph Convolutional Networks to address the complexities of multi-task and multi-modal learning in digital health and longitudinal studies. With the growing importance of health solutions to improve health care and social support, ensure healthy lives, and promote well-being at all ages, funGCN offers a unified approach to handle multivariate longitudinal data for multiple entities and ensures interpretability even with small sample sizes. Key innovations include task-specific embedding components that manage different data types, the ability to perform classification, regression, and forecasting, and the creation of a knowledge graph for insightful data interpretation. The efficacy of funGCN is validated through simulation experiments and a real-data application.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# 複数スケールにおける特徴対応による自己教師付き協調物体検出

Self-supervised co-salient object detection via feature correspondence at multiple scales ( http://arxiv.org/abs/2403.11107v2 )

ライセンス: Link先を確認
Souradeep Chakraborty, Dimitris Samaras, (参考訳) そこで本稿では,画像群における2段階の自己教師型アプローチを用いて,セグメンテーションアノテーションを必要とせず,共起サラリアンオブジェクト(CoSOD)を検出する手法を提案する。 パッチレベルの情報(例えばクラスタリングパッチ記述子)やCoSODの重いオフザシェルフコンポーネントにのみ依存する既存の教師なし手法とは異なり、我々の軽量モデルはパッチレベルとリージョンレベルの特徴対応を活用し、予測性能を大幅に向上させる。 第1段階では、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。 信頼度に基づくアダプティブしきい値を用いたセグメンテーション予測を行う。 次の段階では、各画像から検出された領域(各画像を含む)を排除し、これらの中間区分けを洗練し、平均された特徴表現は、すべての横断的地図(前段から)で平均化された前景の特徴表現と相違する。 3つのCoSODベンチマークデータセットに対する大規模な実験により、我々の自己教師型モデルは、対応する最先端モデルよりも大きなマージンで優れていることが示されている(例えば、CoCAデータセットでは、私たちのモデルはSOTA非教師型CoSODモデルよりも13.7%のF測定得ている)。 特に、我々の自己監督モデルは、3つのテストデータセット(例えば、CoCAデータセットでは、我々のモデルは、最近の教師付きCoSODモデルよりも4.6%のF測定ゲインを持つ)で、最近完全に教師付きCoSODモデルよりも優れています。

Our paper introduces a novel two-stage self-supervised approach for detecting co-occurring salient objects (CoSOD) in image groups without requiring segmentation annotations. Unlike existing unsupervised methods that rely solely on patch-level information (e.g. clustering patch descriptors) or on computation heavy off-the-shelf components for CoSOD, our lightweight model leverages feature correspondences at both patch and region levels, significantly improving prediction performance. In the first stage, we train a self-supervised network that detects co-salient regions by computing local patch-level feature correspondences across images. We obtain the segmentation predictions using confidence-based adaptive thresholding. In the next stage, we refine these intermediate segmentations by eliminating the detected regions (within each image) whose averaged feature representations are dissimilar to the foreground feature representation averaged across all the cross-attention maps (from the previous stage). Extensive experiments on three CoSOD benchmark datasets show that our self-supervised model outperforms the corresponding state-of-the-art models by a huge margin (e.g. on the CoCA dataset, our model has a 13.7% F-measure gain over the SOTA unsupervised CoSOD model). Notably, our self-supervised model also outperforms several recent fully supervised CoSOD models on the three test datasets (e.g., on the CoCA dataset, our model has a 4.6% F-measure gain over a recent supervised CoSOD model).
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# 静的評価を超えて - AIアシスタントのAPI呼び出し能力を評価するための動的アプローチ

Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities ( http://arxiv.org/abs/2403.11128v2 )

ライセンス: Link先を確認
Honglin Mu, Yang Xu, Yunlong Feng, Xiaofeng Han, Yitong Li, Yutai Hou, Wanxiang Che, (参考訳) 大規模言語モデル(LLM)の台頭により、AIアシスタントが特にAPIコールを通じてツールを利用する能力は顕著に進歩した。 この進歩はより正確な評価方法を必要としている。 既存の研究の多くは静的評価を採用しており、事前に定義された対話履歴に基づいてAIアシスタントのAPI呼び出しを評価する。 しかし、そのような評価手法は、AIアシスタントが実際のケースで先行する人間のインタラクションからAPIコールを生成するのに失敗する可能性があるため、誤解を招く可能性がある。 そこで本研究では,人的介在なしにアシスタントのAPIコール能力を評価するために,人間と機械の直接インタラクションの資源集約的な手法の代わりに,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。 本フレームワークでは,LLMベースのユーザエージェントを用いて,人間と機械のインタラクションにおいて,人間の会話パターンを忠実に反映し,人間のアライメントを確保する。 実験の結果、AutoDEは静的評価によって見落とされたエラーを明らかにし、人間の評価とより密接に一致している。 提案手法は, 従来の静的評価と比較して, 人間の評価をさらに反映した。

With the rise of Large Language Models (LLMs), AI assistants' ability to utilize tools, especially through API calls, has advanced notably. This progress has necessitated more accurate evaluation methods. Many existing studies adopt static evaluation, where they assess AI assistants' API call based on pre-defined dialogue histories. However, such evaluation method can be misleading, as an AI assistant might fail in generating API calls from preceding human interaction in real cases. Instead of the resource-intensive method of direct human-machine interactions, we propose Automated Dynamic Evaluation (AutoDE) to assess an assistant's API call capability without human involvement. In our framework, we endeavor to closely mirror genuine human conversation patterns in human-machine interactions, using a LLM-based user agent, equipped with a user script to ensure human alignment. Experimental results highlight that AutoDE uncovers errors overlooked by static evaluations, aligning more closely with human assessment. Testing four AI assistants using our crafted benchmark, our method further mirrored human evaluation compared to conventional static evaluations.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# X-LLaVA: バイリンガル大視野アライメントの最適化

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment ( http://arxiv.org/abs/2403.11399v2 )

ライセンス: Link先を確認
Dongjae Shin, Hyunseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim, (参考訳) 大規模言語モデル(LLM)の印象的な開発は、テキスト以外の複数の種類のデータを含む大規模マルチモーダルモデル(LMM)の領域に拡大している。 しかし、マルチモーダルモデルの性質は、トレーニングデータの作成に多大な費用をもたらす。 さらに、LMMのための多言語データの構築は、言語多様性と複雑さのために、独自の課題セットを提示している。 そこで本研究では,(1)特定の言語に対する多言語 LLM の語彙展開と事前学習,(2) GPT4-V を用いたマルチモーダルデータセットの自動構築,という2つのコスト効率な手法を提案する。 これらの手法に基づいて,91Kの英語・韓国語・中国語多言語・マルチモーダル学習データセットを構築した。 さらに、韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダルモデルを開発し、既存のアプローチを超越した。

The impressive development of large language models (LLMs) is expanding into the realm of large multimodal models (LMMs), which incorporate multiple types of data beyond text. However, the nature of multimodal models leads to significant expenses in the creation of training data. Furthermore, constructing multilingual data for LMMs presents its own set of challenges due to language diversity and complexity. Therefore, in this study, we propose two cost-effective methods to solve this problem: (1) vocabulary expansion and pretraining of multilingual LLM for specific languages, and (2) automatic and elaborate construction of multimodal datasets using GPT4-V. Based on015 these methods, we constructed a 91K English-Korean-Chinese multilingual, multimodal training dataset. Additionally, we developed a bilingual multimodal model that exhibits excellent performance in both Korean and English, surpassing existing approaches.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# LocalStyleFool:セグメンテーションモデルによる地域ビデオスタイルの転送攻撃

LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model ( http://arxiv.org/abs/2403.11656v2 )

ライセンス: Link先を確認
Yuxin Cao, Jinghao Li, Xi Xiao, Derui Wang, Minhui Xue, Hao Ge, Wei Liu, Guangwu Hu, (参考訳) 従来の研究は、よく構築された敵対的摂動が、ビデオ認識システムのセキュリティを脅かす可能性があることを示してきた。 攻撃者は、StyleFoolのような摂動が意味的に不変な場合、クエリ予算の低いモデルに侵入することができる。 StyleFoolは各フレームのすべてのピクセルへのスタイル転送を利用するため、クエリ効率にもかかわらず、ミツイア領域の自然さは依然として改善が必要である。 このギャップを埋めるために、我々はローカルStyleFoolを提案する。これは、ビデオに局所的なスタイル変換に基づく摂動を重畳する、改良されたブラックボックスビデオ対逆攻撃である。 SAM(Segment Anything Model)の人気と使いやすさから、まず意味情報に基づいて異なる領域を抽出し、ビデオストリームを通じて追跡し、時間的整合性を維持する。 そこで我々は,移動に基づく勾配情報や地域情報の連想基準に基づいて選択された複数の領域に,スタイル・トランスファーに基づく摂動を加える。 摂動の微調整が続き、スタイリングされたビデオが逆転する。 そこで我々は、LocalStyleFoolが、人間による調査を通じてフレーム内およびフレーム間自然性の両方を改善しつつ、競争力のある愚かさとクエリ効率を維持できることを実証した。 高解像度データセットで成功した実験は、SAMの急激なセグメンテーションが高解像度データによる敵攻撃のスケーラビリティ向上に役立つことを示した。

Previous work has shown that well-crafted adversarial perturbations can threaten the security of video recognition systems. Attackers can invade such models with a low query budget when the perturbations are semantic-invariant, such as StyleFool. Despite the query efficiency, the naturalness of the minutia areas still requires amelioration, since StyleFool leverages style transfer to all pixels in each frame. To close the gap, we propose LocalStyleFool, an improved black-box video adversarial attack that superimposes regional style-transfer-based perturbations on videos. Benefiting from the popularity and scalably usability of Segment Anything Model (SAM), we first extract different regions according to semantic information and then track them through the video stream to maintain the temporal consistency. Then, we add style-transfer-based perturbations to several regions selected based on the associative criterion of transfer-based gradient information and regional area. Perturbation fine adjustment is followed to make stylized videos adversarial. We demonstrate that LocalStyleFool can improve both intra-frame and inter-frame naturalness through a human-assessed survey, while maintaining competitive fooling rate and query efficiency. Successful experiments on the high-resolution dataset also showcase that scrupulous segmentation of SAM helps to improve the scalability of adversarial attacks under high-resolution data.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# 衣服シミュレーションのための物理組込みディープラーニングフレームワーク

A Physics-embedded Deep Learning Framework for Cloth Simulation ( http://arxiv.org/abs/2403.12820v2 )

ライセンス: Link先を確認
Zhiwei Zhao, (参考訳) コンピュータグラフィックスでは、複雑な布のシミュレーションが長年望まれてきた。 力の相互作用、衝突処理、数値積分を改善するための様々な手法が提案された。 ディープラーニングは高速かつリアルタイムなシミュレーションを実現する可能性があるが、一般的なニューラルネットワーク構造では、布のダイナミクスを捉えるために多くのパラメータを必要とすることが多い。 本稿では,布地シミュレーションの物理特性を直接エンコードする物理組込み学習フレームワークを提案する。 畳み込みニューラルネットワークは、質量スプリング系の空間的相関を表現するために使用され、その後、3つの枝は、織物物理学の線形、非線形、時間的特徴を学習するために設計される。 このフレームワークは、従来のシミュレータやサブニューラルネットワークを通じて、外部の力や衝突処理と統合することもできる。 モデルは、新しいデータでトレーニングすることなく、さまざまな布のアニメーションケースでテストされる。 ベースラインと予測現実主義との合意は、その一般化能力の検証に成功している。 提案モデルの推論効率も従来の物理シミュレーションを破る。 また、このフレームワークは、他の視覚的洗練技術と簡単に統合できるように設計されており、3D布のアミネートに一般的なメイシング学習技術を組み込む大きなチャンスを残している。

Delicate cloth simulations have long been desired in computer graphics. Various methods were proposed to improve engaged force interactions, collision handling, and numerical integrations. Deep learning has the potential to achieve fast and real-time simulation, but common neural network structures often demand many parameters to capture cloth dynamics. This paper proposes a physics-embedded learning framework that directly encodes physical features of cloth simulation. The convolutional neural network is used to represent spatial correlations of the mass-spring system, after which three branches are designed to learn linear, nonlinear, and time derivate features of cloth physics. The framework can also integrate with other external forces and collision handling through either traditional simulators or sub neural networks. The model is tested across different cloth animation cases, without training with new data. Agreement with baselines and predictive realism successfully validate its generalization ability. Inference efficiency of the proposed model also defeats traditional physics simulation. This framework is also designed to easily integrate with other visual refinement techniques like wrinkle carving, which leaves significant chances to incorporate prevailing macing learning techniques in 3D cloth amination.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# データ不均一性を考慮したビザンチン耐性フェデレーション学習

Byzantine-resilient Federated Learning With Adaptivity to Data Heterogeneity ( http://arxiv.org/abs/2403.13374v3 )

ライセンス: Link先を確認
Shiyuan Zuo, Xingrun Yan, Rongfei Fan, Han Hu, Hangguan Shan, Tony Q. S. Quek, (参考訳) 本稿では、悪意のあるビザンツ人攻撃やデータ不均一性の存在下での連邦学習(FL)を扱う。 新しいロバスト平均勾配アルゴリズム (RAGA) が提案され、このアルゴリズムは幾何中央値を利用してアグリゲーションを行い、局所更新のためにラウンド番号を自由に選択できる。 強凸損失関数や均質分布データセットに基づく収束解析を行う既存のレジリエントアプローチとは異なり、強凸損失関数だけでなく、不均一なデータセット上の非凸損失関数に対しても収束解析を行う。 我々の理論分析によると、悪意のあるユーザーのデータセットの分数の半分以下である限り、RAGAは、$T$が反復数、$\delta \in (0, 2/3)$が非凸損失関数、および強凸損失関数の線形レートで収束することができる。 さらに、データ不均一性がなくなると、定常点または大域最適解が得られることが証明される。 実験結果は、ビザンチン攻撃に対するRAGAのロバスト性を相関させ、不均一なデータセットに対して、ビザンチン攻撃の様々な強度下での収束性能に基づくRAGAの優位性を検証した。

This paper deals with federated learning (FL) in the presence of malicious Byzantine attacks and data heterogeneity. A novel Robust Average Gradient Algorithm (RAGA) is proposed, which leverages the geometric median for aggregation and can freely select the round number for local updating. Different from most existing resilient approaches, which perform convergence analysis based on strongly-convex loss function or homogeneously distributed dataset, we conduct convergence analysis for not only strongly-convex but also non-convex loss function over heterogeneous dataset. According to our theoretical analysis, as long as the fraction of dataset from malicious users is less than half, RAGA can achieve convergence at rate $\mathcal{O}({1}/{T^{2/3- \delta}})$ where $T$ is the iteration number and $\delta \in (0, 2/3)$ for non-convex loss function, and at linear rate for strongly-convex loss function. Moreover, stationary point or global optimal solution is proved to obtainable as data heterogeneity vanishes. Experimental results corroborate the robustness of RAGA to Byzantine attacks and verifies the advantage of RAGA over baselines on convergence performance under various intensity of Byzantine attacks, for heterogeneous dataset.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# 2粒子伝送を用いたセキュアな量子鍵分配プロトコル

A Secure Quantum Key Distribution Protocol Using Two-Particle Transmission ( http://arxiv.org/abs/2403.13634v2 )

ライセンス: Link先を確認
Pratapaditya Bej, Vinod Jayakeerthi, (参考訳) 量子鍵分布(QKD)の進化は、そのセキュリティと効率を高める革新的な方法に依存している。 Unextendible Product Bases (UPB) は、その固有の不明瞭さのため、量子暗号において約束を守るが、QKDプロトコルでは未利用である。 本研究は, UPBを用いて遠隔者間の量子鍵を確立するプロトコルを提案する。 具体的には、AliceがBobに連続的に量子チャネルを通してサブシステム状態を送信する3ドル3ドルタイルUPBを利用するプロトコルを提案する。 プロトコルのセキュリティは、直交状態のクローンを禁じる非閉鎖定理によって支えられている。 我々は、量子チャネルがノイズのないときのインターセプション・リセプションやディテクター・ブラインド攻撃を含む潜在的な攻撃を分析し、盗聴者に対するプロトコルの不明瞭さによる課題について議論し、QKDセキュリティを向上させる。

The evolution of Quantum Key Distribution (QKD) relies on innovative methods to enhance its security and efficiency. Unextendible Product Bases (UPBs) hold promise in quantum cryptography due to their inherent indistinguishability, yet they are underutilized in QKD protocols. This work introduces a protocol utilizing UPBs to establish quantum keys between distant parties. Specifically, we propose a protocol utilizing a $3\times 3$ tile UPB, where Alice sequentially transmits subsystem states to Bob through quantum channels. The protocol's security is underpinned by the no-cloning theorem, prohibiting the cloning of orthogonal states. We analyze potential attacks, including intercept-resend and detector blinding attacks when quantum channels are noiseless, and discuss the challenges posed by the indistinguishability of our protocol for eavesdroppers, thereby enhancing QKD security.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# 学術文献からのオープンソース臨床情報リポジトリの自動抽出と成熟度解析

Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature ( http://arxiv.org/abs/2403.14721v2 )

ライセンス: Link先を確認
Jeremy R. Harper, (参考訳) 臨床情報学の進化する展望の中で、政府資金を通じて開発されたソフトウェアツールの統合と利用は、研究と応用において重要な進歩を示している。 しかし、これらのツールの分散は、中央集権的な知識ベースを持たない様々なリポジトリに分散しており、その潜在能力を最大限活用するための大きな課題となっている。 本研究では, arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出し, 臨床情報学の分野に着目し, このギャップを埋める自動化手法を提案する。 当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。 プロセスは堅牢で、エラー処理とレート制限を組み込んで、API制約の遵守を保証するように設計されている。 NIHが支援するソフトウェアツールの集中的知識基盤を編纂する上で,本手法が有効であることを示す予備的な知見が得られた。 ツールの簡潔な要約と評価を生成するために,Large Language Models (LLMs) の今後の統合を提案する。 このアプローチは、臨床情報ツールの発見と評価を容易にし、また、研究者が連邦政府が資金提供したソフトウェアにアクセスし、活用する方法に革命をもたらす、新しく活発に更新されたリポジトリの継続的な監視を可能にする。 この研究の意義は、価値あるリソースへのアクセスを単純化することを超えて、科学的ソフトウェアを動的に集約し評価するためのスケーラブルなモデルを提案し、臨床情報学などにおけるより協調的で透明で効率的な研究プラクティスを奨励する。

In the evolving landscape of clinical informatics, the integration and utilization of software tools developed through governmental funding represent a pivotal advancement in research and application. However, the dispersion of these tools across various repositories, with no centralized knowledge base, poses significant challenges to leveraging their full potential. This study introduces an automated methodology to bridge this gap by systematically extracting GitHub repository URLs from academic papers indexed in arXiv, focusing on the field of clinical informatics. Our approach encompasses querying the arXiv API for relevant papers, cleaning extracted GitHub URLs, fetching comprehensive repository information via the GitHub API, and analyzing repository maturity based on defined metrics such as stars, forks, open issues, and contributors. The process is designed to be robust, incorporating error handling and rate limiting to ensure compliance with API constraints. Preliminary findings demonstrate the efficacy of this methodology in compiling a centralized knowledge base of NIH-funded software tools, laying the groundwork for an enriched understanding and utilization of these resources within the clinical informatics community. We propose the future integration of Large Language Models (LLMs) to generate concise summaries and evaluations of the tools. This approach facilitates the discovery and assessment of clinical informatics tools and also enables ongoing monitoring of new and actively updated repositories, revolutionizing how researchers access and leverage federally funded software. The implications of this study extend beyond simplification of access to valuable resources; it proposes a scalable model for the dynamic aggregation and evaluation of scientific software, encouraging more collaborative, transparent, and efficient research practices in clinical informatics and beyond.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# ChatGPTによるプログラミング教育の強化--Pythonコースにおける学生の知覚とインタラクションを事例として

Enhancing Programming Education with ChatGPT: A Case Study on Student Perceptions and Interactions in a Python Course ( http://arxiv.org/abs/2403.15472v2 )

ライセンス: Link先を確認
Boxaun Ma, Li Chen, Shin'ichi Konomi, (参考訳) ChatGPTは、特にプログラミングコースにおける支援ツールとして統合されており、デバッグ、コード生成、説明などの支援を提供することで、プログラミング教育の独特な課題に対処している。 ChatGPTの有効性を検証している既存の研究にもかかわらず、大学レベルのプログラミング教育におけるChatGPTの適用と、学生の相互作用と視点の詳細な理解は限定的のままである。 本稿では,8週間にわたる1年生向けのPythonプログラミングコースにおいて,ChatGPTが学習に与える影響について検討する。 調査,オープンエンド質問,学生-ChatGPTダイアログデータからの回答を分析して,ChatGPTの有用性を包括的に把握し,その利点と限界を学生が認識する。 本研究は,ChatGPTに対する肯定的な反応を明らかにし,プログラミング教育経験の向上におけるChatGPTの役割について考察する。 これらの発見は、教育におけるAIの可能性についての幅広い議論に寄与し、将来の研究と応用への道筋を示唆している。

The integration of ChatGPT as a supportive tool in education, notably in programming courses, addresses the unique challenges of programming education by providing assistance with debugging, code generation, and explanations. Despite existing research validating ChatGPT's effectiveness, its application in university-level programming education and a detailed understanding of student interactions and perspectives remain limited. This paper explores ChatGPT's impact on learning in a Python programming course tailored for first-year students over eight weeks. By analyzing responses from surveys, open-ended questions, and student-ChatGPT dialog data, we aim to provide a comprehensive view of ChatGPT's utility and identify both its advantages and limitations as perceived by students. Our study uncovers a generally positive reception toward ChatGPT and offers insights into its role in enhancing the programming education experience. These findings contribute to the broader discourse on AI's potential in education, suggesting paths for future research and application.
翻訳日:2024-03-28 21:34:33 公開日:2024-03-27
# 時空アクティブディレクトリネットワークにおけるデコイを用いたサイバー応答時間最適化

Optimizing Cyber Response Time on Temporal Active Directory Networks Using Decoys ( http://arxiv.org/abs/2403.18162v1 )

ライセンス: Link先を確認
Huy Q. Ngo, Mingyu Guo, Hung Nguyen, (参考訳) Microsoft Active Directory (AD)は、Windowsドメインネットワークのデフォルトセキュリティ管理システムである。 我々はADネットワークにデコイを配置して潜在的な攻撃を検出する問題について検討する。 我々は,攻撃者がドメインアドミン(DA)に向かう途中で攻撃者を検出するために,ディフェンダーがデコイを使用するようなAD攻撃グラフ上で,攻撃者とディフェンダーとの間のスタックルバーグゲームとしてこの問題をモデル化する。 以前の研究とは対照的に、時間変化(時間変化)のアタックグラフを考える。 我々は、時間的攻撃グラフにおけるデコイ配置の有効性を測定するために、応答時間と呼ばれる新しい指標を提案した。 応答時間は、攻撃者がDAを侵害したときの最初のデコイをトリガーする時点までの時間として定義される。 我々の目標は、最悪の攻撃経路に対するディフェンダーの対応時間を最大化することです。 我々は,ディフェンダの最適化問題のNPハード性を確立し,進化的多様性最適化(EDO)アルゴリズムを開発する。 EDOアルゴリズムは最適化問題に対する様々な高品質な解の集合を同定する。 適合関数の多項式の性質にもかかわらず、より大きなグラフに対して実験的に遅いことが証明される。 拡張性を向上させるため,時相設定におけるADインフラストラクチャの静的特性を利用したアルゴリズムを提案する。 そして、我々は、より大規模なグラフのスケーラビリティを維持しながら、より良い結果に収束することを保証する、調整された修復操作を導入する。

Microsoft Active Directory (AD) is the default security management system for Window domain network. We study the problem of placing decoys in AD network to detect potential attacks. We model the problem as a Stackelberg game between an attacker and a defender on AD attack graphs where the defender employs a set of decoys to detect the attacker on their way to Domain Admin (DA). Contrary to previous works, we consider time-varying (temporal) attack graphs. We proposed a novel metric called response time, to measure the effectiveness of our decoy placement in temporal attack graphs. Response time is defined as the duration from the moment attackers trigger the first decoy to when they compromise the DA. Our goal is to maximize the defender's response time to the worst-case attack paths. We establish the NP-hard nature of the defender's optimization problem, leading us to develop Evolutionary Diversity Optimization (EDO) algorithms. EDO algorithms identify diverse sets of high-quality solutions for the optimization problem. Despite the polynomial nature of the fitness function, it proves experimentally slow for larger graphs. To enhance scalability, we proposed an algorithm that exploits the static nature of AD infrastructure in the temporal setting. Then, we introduce tailored repair operations, ensuring the convergence to better results while maintaining scalability for larger graphs.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# 言語モデルにおける非事実幻覚のメカニズム

Mechanisms of non-factual hallucinations in language models ( http://arxiv.org/abs/2403.18167v1 )

ライセンス: Link先を確認
Lei Yu, Meng Cao, Jackie Chi Kit Cheung, Yue Dong, (参考訳) State-of-the-art Language Model (LM) は、世界の知識と混同する非現実的な幻覚を生じることがある。 幻覚を検出・緩和するための広範囲な努力にもかかわらず、その内部メカニズムの理解はいまだ解明されていない。 本研究では,幻覚の機械的原因,特にLMが対象属性を不正確に予測する非現実的原因について検討した。 因果媒介分析と埋め込み空間投影を用いて、様々なスケールと設計のLM間で共有される幻覚の2つの一般的な機械的原因を同定する。 1)下層MLPにおける主観的属性知識の不足,及び 2) 上層アテンションヘッドとMPPの正対象属性の選択に失敗した。 これら2つのメカニズムは、主観的対象関係、予測的不確実性、摂動ロバストネスの程度が異なる。 さらに, LM事前学習チェックポイントを精査し, 幻覚の2つのメカニズム的原因について, 異なる学習力学を明らかにした。 また、因果解析による帰属的特徴が幻覚検知器を効果的に構築する方法についても強調する。 本研究は,LM実ミスの機械的理解を提案する。

State-of-the-art language models (LMs) sometimes generate non-factual hallucinations that misalign with world knowledge. Despite extensive efforts to detect and mitigate hallucinations, understanding their internal mechanisms remains elusive. Our study investigates the mechanistic causes of hallucination, specifically non-factual ones where the LM incorrectly predicts object attributes in response to subject-relation queries. With causal mediation analysis and embedding space projection, we identify two general mechanistic causes of hallucinations shared across LMs of various scales and designs: 1) insufficient subject attribute knowledge in lower layer MLPs, and 2) failing to select the correct object attribute in upper layer attention heads and MLPs. These two mechanisms exhibit varying degrees of subject-object association, predictive uncertainty and perturbation robustness. Additionally, we scrutinize LM pre-training checkpoints, revealing distinct learning dynamics for the two mechanistic causes of hallucinations. We also highlight how attribution features from our causal analysis can effectively construct hallucination detectors. Our work proposes a mechanistic understanding of LM factual errors.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# オンライン戦略分類におけるミステイク・マニピュレーション・マージン保証

Mistake, Manipulation and Margin Guarantees in Online Strategic Classification ( http://arxiv.org/abs/2403.18176v1 )

ライセンス: Link先を確認
Lingqing Shen, Nam Ho-Nguyen, Khanh-Hung Giang-Tran, Fatma Kılınç-Karzan, (参考訳) 我々は,各エージェントが真の特徴ベクトルを操作して,操作量に依存するコストを発生させながら,正の予測ラベルを得るという,オンライン戦略分類問題を考える。 学習者は、操作された特徴のみへのアクセスを与えられたエージェントの真のラベルを予測する。 学習者が予測を公表した後、エージェントの真のラベルが明らかにされる。 戦略パーセプトロンのような以前のアルゴリズムは、エージェントの真の特徴ベクトルに対するマージン仮定の下で有限個の誤りを保証した。 しかし、これらはエージェントが真実であるように促すことを保証するものではない。 そこで我々は,戦略エージェントの存在下での最大マージン分類器の回復を目的とした2つの新しいアルゴリズムを提案する。 我々は、様々なエージェントコスト構造に対する収束、有限の誤り、有限の操作保証を証明した。 戦略パーセプトロンの一般化版も提供し、異なるコストの誤りを保証します。 実データおよび合成データに関する数値的な研究により、新しいアルゴリズムは、マージン、操作数、誤り数において、以前のアルゴリズムよりも優れていることが示された。

We consider an online strategic classification problem where each arriving agent can manipulate their true feature vector to obtain a positive predicted label, while incurring a cost that depends on the amount of manipulation. The learner seeks to predict the agent's true label given access to only the manipulated features. After the learner releases their prediction, the agent's true label is revealed. Previous algorithms such as the strategic perceptron guarantee finitely many mistakes under a margin assumption on agents' true feature vectors. However, these are not guaranteed to encourage agents to be truthful. Promoting truthfulness is intimately linked to obtaining adequate margin on the predictions, thus we provide two new algorithms aimed at recovering the maximum margin classifier in the presence of strategic agent behavior. We prove convergence, finite mistake and finite manipulation guarantees for a variety of agent cost structures. We also provide generalized versions of the strategic perceptron with mistake guarantees for different costs. Our numerical study on real and synthetic data demonstrates that the new algorithms outperform previous ones in terms of margin, number of manipulation and number of mistakes.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# マルチスケールCLIP機能の3Dマップへのオンライン埋め込み

Online Embedding Multi-Scale CLIP Features into 3D Maps ( http://arxiv.org/abs/2403.18178v1 )

ライセンス: Link先を確認
Shun Taguchi, Hideki Deguchi, (参考訳) 本研究では,マルチスケールCLIP(Contrastive Language- Image Pre-Training)機能を3次元地図に組み込む手法を提案する。 CLIPを利用することで、従来の語彙制限手法の制約を超越し、意味情報を結果マップに組み込むことができる。 近年のアプローチでは、地図にマルチモーダルな特徴を埋め込む方法が検討されているが、しばしば計算コストが著しく高く、不慣れな環境をリアルタイムで探索する実践性が欠如している。 提案手法は,マルチスケールCLIP機能を効率的に計算し,組み込むことにより,実時間マップ生成による未知環境の探索を容易にする。 さらに、CLIP機能を結果マップに埋め込むことで、言語クエリによるオフライン検索が可能になる。 基本的に,本手法は,不慣れな環境のリアルタイムなオブジェクト探索とマッピングを同時に実現している。 さらに, マッピング手法に基づくゼロショットオブジェクトゴールナビゲーションシステムを提案し, オブジェクトゴールナビゲーション, オフラインオブジェクト検索, シミュレーション環境および実ロボット実験におけるマルチオブジェクトゴールナビゲーションによる有効性を検証する。 その結果,本手法は最先端のマッピング手法よりも高速な性能を示すだけでなく,目標ナビゲーションタスクの成功率も上回っていることがわかった。

This study introduces a novel approach to online embedding of multi-scale CLIP (Contrastive Language-Image Pre-Training) features into 3D maps. By harnessing CLIP, this methodology surpasses the constraints of conventional vocabulary-limited methods and enables the incorporation of semantic information into the resultant maps. While recent approaches have explored the embedding of multi-modal features in maps, they often impose significant computational costs, lacking practicality for exploring unfamiliar environments in real time. Our approach tackles these challenges by efficiently computing and embedding multi-scale CLIP features, thereby facilitating the exploration of unfamiliar environments through real-time map generation. Moreover, the embedding CLIP features into the resultant maps makes offline retrieval via linguistic queries feasible. In essence, our approach simultaneously achieves real-time object search and mapping of unfamiliar environments. Additionally, we propose a zero-shot object-goal navigation system based on our mapping approach, and we validate its efficacy through object-goal navigation, offline object retrieval, and multi-object-goal navigation in both simulated environments and real robot experiments. The findings demonstrate that our method not only exhibits swifter performance than state-of-the-art mapping methods but also surpasses them in terms of the success rate of object-goal navigation tasks.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# ポリプセグメンテーション用多層ディエンスアテンションデコーダ

Multi-Layer Dense Attention Decoder for Polyp Segmentation ( http://arxiv.org/abs/2403.18180v1 )

ライセンス: Link先を確認
Krushi Patel, Fengjun Li, Guanghui Wang, (参考訳) 大腸癌の診断の迅速化にはポリープの検出と分別が重要である。 色、テクスチャ、照明条件が多様であり、ポリプとその周辺地域との微妙な差異があるため、これは難しい課題である。 近年、視覚変換器は、ポリプセグメンテーションのグローバルコンテキストをモデル化する上で、ロバストな能力を示している。 しかし、それらは2つの大きな制限に直面している。多層層間の局所関係を学習できないこととデコーダの機能集約が不十分である。 これらの問題に対処するために,局所的に強化されたマルチレベル高密度特徴を階層的に集約することを目的とした,新しいデコーダアーキテクチャを提案する。 具体的には、Dense Attention Gate (DAG) と呼ばれる新しいモジュールを紹介します。 さらに,階層的にデコーダの特徴を集約し,意味的特徴を拡張できる新しいネスト型デコーダアーキテクチャを提案する。 Kvasir, CVC-300, CVC-ColonDB, CVC-ClinicDB, ETISの5つのポリープセグメンテーションデータセット上で評価を行う。 実験と9つの競合セグメンテーションモデルとの比較により,提案アーキテクチャが最先端性能を実現し,従来のモデルを4つのデータセットで上回る性能を示した。 ソースコードは、https://github.com/krushi 1992/Dense-Decoder.comで入手できる。

Detecting and segmenting polyps is crucial for expediting the diagnosis of colon cancer. This is a challenging task due to the large variations of polyps in color, texture, and lighting conditions, along with subtle differences between the polyp and its surrounding area. Recently, vision Transformers have shown robust abilities in modeling global context for polyp segmentation. However, they face two major limitations: the inability to learn local relations among multi-level layers and inadequate feature aggregation in the decoder. To address these issues, we propose a novel decoder architecture aimed at hierarchically aggregating locally enhanced multi-level dense features. Specifically, we introduce a novel module named Dense Attention Gate (DAG), which adaptively fuses all previous layers' features to establish local feature relations among all layers. Furthermore, we propose a novel nested decoder architecture that hierarchically aggregates decoder features, thereby enhancing semantic features. We incorporate our novel dense decoder with the PVT backbone network and conduct evaluations on five polyp segmentation datasets: Kvasir, CVC-300, CVC-ColonDB, CVC-ClinicDB, and ETIS. Our experiments and comparisons with nine competing segmentation models demonstrate that the proposed architecture achieves state-of-the-art performance and outperforms the previous models on four datasets. The source code is available at: https://github.com/krushi1992/Dense-Decoder.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# 階層的クラスタリングによる非線形物理モデルに対するクープマン行列の圧縮

Compression of the Koopman matrix for nonlinear physical models via hierarchical clustering ( http://arxiv.org/abs/2403.18181v1 )

ライセンス: Link先を確認
Tomoya Nishikata, Jun Ohkubo, (参考訳) 機械学習はデータのみから非線形力学系の予測を可能にする。 クープマン作用素はその1つであり、非線形力学系に線形解析を適用することができる。 クープマン作用素の線型特性は、非線形力学を理解し、迅速な予測を行うことを期待する。 拡張動的モード分解(EDMD)は、クープマン作用素を有限次元行列として近似する方法の1つである。 本研究では,階層クラスタリングを用いてクープマン行列を圧縮する手法を提案する。 カートポールモデルと従来の特異値分解(SVD)との比較を行った結果,階層クラスタリングは単純SVD圧縮よりも優れた性能を示した。

Machine learning methods allow the prediction of nonlinear dynamical systems from data alone. The Koopman operator is one of them, which enables us to employ linear analysis for nonlinear dynamical systems. The linear characteristics of the Koopman operator are hopeful to understand the nonlinear dynamics and perform rapid predictions. The extended dynamic mode decomposition (EDMD) is one of the methods to approximate the Koopman operator as a finite-dimensional matrix. In this work, we propose a method to compress the Koopman matrix using hierarchical clustering. Numerical demonstrations for the cart-pole model and comparisons with the conventional singular value decomposition (SVD) are shown; the results indicate that the hierarchical clustering performs better than the naive SVD compressions.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# ZAEBUC-Spoken:多言語多言語アラビア語-英語音声コーパス

ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus ( http://arxiv.org/abs/2403.18182v1 )

ライセンス: Link先を確認
Injy Hamed, Fadhl Eryani, David Palfreyman, Nizar Habash, (参考訳) ZAEBUC-Spokenは多言語多言語多言語アラビア語-英語音声コーパスである。 このコーパスは12時間のZoomミーティングで構成されており、複数のスピーカーが特定のトピックについてアイデアを脳卒中させ、インターロケーターと議論する作業状況にロールプレイする。 ミーティングはさまざまなトピックをカバーし、異なる言語設定のフェーズに分割されます。 コーパスは、複数の変種(現代標準アラビア語、湾岸アラビア語、エジプトアラビア語)で話されるアラビア語と、様々なアクセントで使われる英語の2つの言語(アラビア語と英語)を含む、自動音声認識(ASR)のための挑戦的なセットを提示している。 コーパスの複雑さに加えて、これらの言語と方言の間にもコードスイッチがある。 本研究の一環として,既存の書き起こしガイドラインからインスピレーションを得て,会話音声,コードスイッチング,両言語の正書法に関する一連のガイドラインを提示する。 1)アラビア語の異なる変種間で混在するコーパスの方言レベルアノテーション,(2)トークン化,補題化,および音声タグ付けを含む自動形態的アノテーション,である。

We present ZAEBUC-Spoken, a multilingual multidialectal Arabic-English speech corpus. The corpus comprises twelve hours of Zoom meetings involving multiple speakers role-playing a work situation where Students brainstorm ideas for a certain topic and then discuss it with an Interlocutor. The meetings cover different topics and are divided into phases with different language setups. The corpus presents a challenging set for automatic speech recognition (ASR), including two languages (Arabic and English) with Arabic spoken in multiple variants (Modern Standard Arabic, Gulf Arabic, and Egyptian Arabic) and English used with various accents. Adding to the complexity of the corpus, there is also code-switching between these languages and dialects. As part of our work, we take inspiration from established sets of transcription guidelines to present a set of guidelines handling issues of conversational speech, code-switching and orthography of both languages. We further enrich the corpus with two layers of annotations; (1) dialectness level annotation for the portion of the corpus where mixing occurs between different variants of Arabic, and (2) automatic morphological annotations, including tokenization, lemmatization, and part-of-speech tagging.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# AIモデルはドキュメンテーションの美学を評価できるか? : 予測信頼度を考慮したレジリエビリティとレイアウト品質の探索

Can AI Models Appreciate Document Aesthetics? An Exploration of Legibility and Layout Quality in Relation to Prediction Confidence ( http://arxiv.org/abs/2403.18183v1 )

ライセンス: Link先を確認
Hsiu-Wei Yang, Abhinav Agrawal, Pavlos Fragkogiannis, Shubham Nitin Mulay, (参考訳) 十分に設計された文書は、その言葉だけでなく、その視覚的雄弁性を通してもコミュニケーションする。 著者は、色、フォント、グラフィック、レイアウトなどの美的要素を使って情報の知覚を形作る。 思慮深い文書デザインは、心理的洞察によって知らされ、視覚的魅力と内容の理解の両方を高める。 最先端のドキュメントAIモデルはレイアウトと画像データを組み込むことの利点を示しているが、文書美学のニュアンスを効果的に捉えているかどうかは不明だ。 人間の認知と美的要素のAI解釈のギャップを埋めるために、文書理解タスクにおけるAIの振る舞いに関する仮説を定式化した。 可視性とレイアウトの質に着目し,ノイズ,フォントサイズのコントラスト,アライメント,複雑性の4つの側面を相関解析によるモデル信頼度について検討した。 結果は,文書設計理論に根ざしたモデル解析の価値を浮き彫りにした。 我々の研究はさらなる研究の先駆けとなり、AIが文書美学をどのように解釈するかの理解を深めるために、このトピックにおける継続的な研究を提唱します。

A well-designed document communicates not only through its words but also through its visual eloquence. Authors utilize aesthetic elements such as colors, fonts, graphics, and layouts to shape the perception of information. Thoughtful document design, informed by psychological insights, enhances both the visual appeal and the comprehension of the content. While state-of-the-art document AI models demonstrate the benefits of incorporating layout and image data, it remains unclear whether the nuances of document aesthetics are effectively captured. To bridge the gap between human cognition and AI interpretation of aesthetic elements, we formulated hypotheses concerning AI behavior in document understanding tasks, specifically anchored in document design principles. With a focus on legibility and layout quality, we tested four aspects of aesthetic effects: noise, font-size contrast, alignment, and complexity, on model confidence using correlational analysis. The results and observations highlight the value of model analysis rooted in document design theories. Our work serves as a trailhead for further studies and we advocate for continued research in this topic to deepen our understanding of how AI interprets document aesthetics.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# 暗さに目を向けるな - 多元的画像インペイントのための潜在コード

Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting ( http://arxiv.org/abs/2403.18186v1 )

ライセンス: Link先を確認
Haiwei Chen, Yajie Zhao, (参考訳) 本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。 本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。 これは、各可視ブロックのトークンラベルを予測する制限された部分エンコーダと、これらのトークンのみを見て欠落ラベルを推測する双方向変換器と、極端マスク設定下であっても、トークンと部分画像とを結合してコヒーレントかつ多元的な完全画像を生成する専用合成ネットワークとにより実現される。 パブリックベンチマークの実験では、提案手法が視覚的品質と多様性の指標の両方において強いベースラインを上回り、我々の設計選択を検証する。

We present a method for large-mask pluralistic image inpainting based on the generative framework of discrete latent codes. Our method learns latent priors, discretized as tokens, by only performing computations at the visible locations of the image. This is realized by a restrictive partial encoder that predicts the token label for each visible block, a bidirectional transformer that infers the missing labels by only looking at these tokens, and a dedicated synthesis network that couples the tokens with the partial image priors to generate coherent and pluralistic complete image even under extreme mask settings. Experiments on public benchmarks validate our design choices as the proposed method outperforms strong baselines in both visual quality and diversity metrics.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# LayoutFlow: レイアウト生成のためのフローマッチング

LayoutFlow: Flow Matching for Layout Generation ( http://arxiv.org/abs/2403.18187v1 )

ライセンス: Link先を確認
Julian Jorge Andrade Guerreiro, Naoto Inoue, Kento Masui, Mayu Otani, Hideki Nakayama, (参考訳) 適切なレイアウトを見つけることは、グラフィックデザインにおける多様なアプリケーションにとって重要なタスクである。 よりシンプルでスムーズなサンプリングトラジェクトリによって動機付けられたフローマッチングを,現在の拡散に基づくレイアウト生成モデルの代替として活用することを検討する。 具体的には、高品質なレイアウトを生成することができる効率的なフローベースモデルであるLayoutFlowを提案する。 ノイズの多いレイアウトの要素を段階的にデノベートする代わりに、最終的な予測に到達するまで、我々の手法は初期サンプルの要素を徐々に動き、流れることを学習する。 さらに,1つのモデルで条件付けの度合いの異なる様々な生成タスクを処理できる条件付け方式を採用した。 実証的には、LayoutFlowは最先端のモデルと同等に動作し、大幅に高速である。

Finding a suitable layout represents a crucial task for diverse applications in graphic design. Motivated by simpler and smoother sampling trajectories, we explore the use of Flow Matching as an alternative to current diffusion-based layout generation models. Specifically, we propose LayoutFlow, an efficient flow-based model capable of generating high-quality layouts. Instead of progressively denoising the elements of a noisy layout, our method learns to gradually move, or flow, the elements of an initial sample until it reaches its final prediction. In addition, we employ a conditioning scheme that allows us to handle various generation tasks with varying degrees of conditioning with a single model. Empirically, LayoutFlow performs on par with state-of-the-art models while being significantly faster.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# 都市型デジタル双生児とクラウド型地理空間ダッシュボードの統合による沿岸のレジリエンス計画:フロリダを事例として

Integrating urban digital twins with cloud-based geospatial dashboards for coastal resilience planning: A case study in Florida ( http://arxiv.org/abs/2403.18188v1 )

ライセンス: Link先を確認
Changjie Chen, Yu Han, Andrea Galinski, Christian Calle, Jeffery Carney, Xinyue Ye, Cees van Westen, (参考訳) 沿岸地域社会は、気候変動による洪水の発生の増加に直面しており、レジリエンスへの適応手段を必要としている。 本稿では,都市型デジタルツインを地理空間ダッシュボードに統合し,空間的・時間的規模で重要なインフラ内の脆弱性を可視化するフレームワークを提案する。 これら2つの技術間の相乗効果は、洪水リスクの増加に対するコミュニティの認識を高め、統一的な理解を確立し、適応計画における集合的意思決定の基礎となる。 また、アクセシビリティの確保、透明性とエクイティの促進、個人のプライバシーの保護など、プラットフォーム開発における倫理的配慮も明らかにした。

Coastal communities are confronted with a growing incidence of climate-induced flooding, necessitating adaptation measures for resilience. In this paper, we introduce a framework that integrates an urban digital twin with a geospatial dashboard to allow visualization of the vulnerabilities within critical infrastructure across a range of spatial and temporal scales. The synergy between these two technologies fosters heightened community awareness about increased flood risks to establish a unified understanding, the foundation for collective decision-making in adaptation plans. The paper also elucidates ethical considerations while developing the platform, including ensuring accessibility, promoting transparency and equity, and safeguarding individual privacy.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# ハードとアンバランスサンプルのハイライトによるマルチラベル適応バッチ選択

Multi-Label Adaptive Batch Selection by Highlighting Hard and Imbalanced Samples ( http://arxiv.org/abs/2403.18192v1 )

ライセンス: Link先を確認
Ao Zhou, Bin Liu, Jin Wang, Grigorios Tsoumakas, (参考訳) ディープニューラルネットワークモデルは、さまざまなドメインからマルチラベルデータを分類する効果を実証している。 通常、ミニバッチとオプティマイザを組み合わせたトレーニングモードを使用し、各サンプルは、ミニバッチを構築する際に、ランダムに同じ確率で選択される。 しかしながら、マルチラベルデータにおける本質的なクラス不均衡は、マイノリティラベルに関連するサンプルが各ミニバッチで不足しているため、このモデルを多数ラベルに偏る可能性がある。 一方、トレーニングの過程では、マイノリティラベルに関連する事例はより大きな損失をもたらす傾向にある。 既存のヒューリスティックなバッチ選択手法、例えば、目的関数に高い寄与率を持つサンプルの優先度選択、すなわち、高い損失率を持つサンプルは、単一ラベルデータにおける損失とテスト誤差を低減しつつ収束を加速することが証明されている。 しかし、バッチ選択法はまだ適用されておらず、マルチラベルデータで検証されている。 本研究では,多ラベル深層学習モデルに適した適応型バッチ選択アルゴリズムを提案する。 マイノリティラベルに関連するハードサンプルを優先順位付けすることで、各バッチを適応的に選択する。 また,本手法の変種は,情報的ラベル相関も考慮に入れている。 13個のベンチマークデータセットに5つの多ラベル深層学習モデルを組み合わせた総合実験により,本手法はより高速に収束し,ランダムなバッチ選択よりも優れた性能を示すことが示された。

Deep neural network models have demonstrated their effectiveness in classifying multi-label data from various domains. Typically, they employ a training mode that combines mini-batches with optimizers, where each sample is randomly selected with equal probability when constructing mini-batches. However, the intrinsic class imbalance in multi-label data may bias the model towards majority labels, since samples relevant to minority labels may be underrepresented in each mini-batch. Meanwhile, during the training process, we observe that instances associated with minority labels tend to induce greater losses. Existing heuristic batch selection methods, such as priority selection of samples with high contribution to the objective function, i.e., samples with high loss, have been proven to accelerate convergence while reducing the loss and test error in single-label data. However, batch selection methods have not yet been applied and validated in multi-label data. In this study, we introduce a simple yet effective adaptive batch selection algorithm tailored to multi-label deep learning models. It adaptively selects each batch by prioritizing hard samples related to minority labels. A variant of our method also takes informative label correlations into consideration. Comprehensive experiments combining five multi-label deep learning models on thirteen benchmark datasets show that our method converges faster and performs better than random batch selection.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# ロバストなRGB-T追跡のための中核融合とマルチステージマルチフォームプロンプト

Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking ( http://arxiv.org/abs/2403.18193v1 )

ライセンス: Link先を確認
Qiming Wang, Yongqiang Bai, Hongxing Song, (参考訳) オブジェクト追跡の重要な下流タスクであるRGB-Tトラッキングは、近年顕著な進歩を遂げている。 しかし、これは2つの大きな課題によって妨げられている。 1) 性能と効率のトレードオフ 2)トレーニングデータの不足。 後者の課題に対処するために、近年の手法では、事前訓練されたRGB追跡モデルを微調整し、パラメータ効率の良い方法で上流の知識を活用するプロンプトが採用されている。 しかし、これらの手法はモダリティに依存しないパターンを不適切に探求し、オープンシナリオにおける異なるモダリティの動的信頼性を無視する。 我々は,中核融合とマルチモーダル・マルチステージ視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法であるM3PTを提案し,これらの課題を克服する。 我々は,RGB-Tトラッキングにおける中間融合フレームワークの利用の先駆者であり,性能と効率のバランスを実現する。 さらに、事前学習されたRGB追跡モデルをフレームワークに組み込み、複数のフレキシブルなプロンプト戦略を利用して、事前学習されたモデルを一様パターンの包括的探索や融合モーダル特徴のモデリングの改善に適応し、RGB-Tトラッキングにおける即時学習の可能性を活用する。 提案手法は,46.1fpsの推論速度を達成しつつ,4つの挑戦的ベンチマークにおいて最先端の手法よりも優れている。

RGB-T tracking, a vital downstream task of object tracking, has made remarkable progress in recent years. Yet, it remains hindered by two major challenges: 1) the trade-off between performance and efficiency; 2) the scarcity of training data. To address the latter challenge, some recent methods employ prompts to fine-tune pre-trained RGB tracking models and leverage upstream knowledge in a parameter-efficient manner. However, these methods inadequately explore modality-independent patterns and disregard the dynamic reliability of different modalities in open scenarios. We propose M3PT, a novel RGB-T prompt tracking method that leverages middle fusion and multi-modal and multi-stage visual prompts to overcome these challenges. We pioneer the use of the middle fusion framework for RGB-T tracking, which achieves a balance between performance and efficiency. Furthermore, we incorporate the pre-trained RGB tracking model into the framework and utilize multiple flexible prompt strategies to adapt the pre-trained model to the comprehensive exploration of uni-modal patterns and the improved modeling of fusion-modal features, harnessing the potential of prompt learning in RGB-T tracking. Our method outperforms the state-of-the-art methods on four challenging benchmarks, while attaining 46.1 fps inference speed.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# SCANet: LEGOアセンブリエラーを自己修正型アセンブリネットワークで修正する

SCANet: Correcting LEGO Assembly Errors with Self-Correct Assembly Network ( http://arxiv.org/abs/2403.18195v1 )

ライセンス: Link先を確認
Yuxuan Wan, Kaichen Zhou, jinhong Chen, Hao Dong, (参考訳) ロボット工学と3Dビジョンにおける自律的なアセンブリは、特にアセンブリの正しさを保証する上で、重要な課題を提示している。 現在、MEPNetのような支配的な手法は、手動で提供されたイメージに基づいてコンポーネントを組み立てることに焦点を当てている。 しかし、これらのアプローチは長期計画を必要とするタスクに対して満足な結果を得るのに不足することが多い。 同時に、自己補正モジュールの統合は、そのような問題を部分的に緩和する可能性があることを観察する。 この懸念に乗じて、誤組立部品の特定と修正を含む単一ステップの組立誤り訂正タスクを導入する。 この領域の研究を支援するため,LEGO Error Correction Assembly Dataset (LEGO-ECA) を提案する。 さらに,この課題に対処する新しい手法である自己整合アセンブリネットワーク(SCANet)を提案する。 SCANetは、組み立てられたコンポーネントをクエリとして扱い、手動イメージの正確性を決定し、必要に応じて修正を提供する。 最後に、SCANetを使用してMEPNetのアセンブリ結果を修正する。 実験の結果、SCANetはMEPNetの誤組立結果を識別し、修正できることが示され、アセンブリの正しさが著しく向上した。 私たちのコードとデータセットはhttps://github.com/Yaser-wyx/SCANet.orgで公開されています。

Autonomous assembly in robotics and 3D vision presents significant challenges, particularly in ensuring assembly correctness. Presently, predominant methods such as MEPNet focus on assembling components based on manually provided images. However, these approaches often fall short in achieving satisfactory results for tasks requiring long-term planning. Concurrently, we observe that integrating a self-correction module can partially alleviate such issues. Motivated by this concern, we introduce the single-step assembly error correction task, which involves identifying and rectifying misassembled components. To support research in this area, we present the LEGO Error Correction Assembly Dataset (LEGO-ECA), comprising manual images for assembly steps and instances of assembly failures. Additionally, we propose the Self-Correct Assembly Network (SCANet), a novel method to address this task. SCANet treats assembled components as queries, determining their correctness in manual images and providing corrections when necessary. Finally, we utilize SCANet to correct the assembly results of MEPNet. Experimental results demonstrate that SCANet can identify and correct MEPNet's misassembled results, significantly improving the correctness of assembly. Our code and dataset are available at https://github.com/Yaser-wyx/SCANet.
翻訳日:2024-03-28 18:45:45 公開日:2024-03-27
# 社会要因を用いたマルチラベル胸部X線分類におけるサブグループ間フェアネスの実証分析

Looking Beyond What You See: An Empirical Analysis on Subgroup Intersectional Fairness for Multi-label Chest X-ray Classification Using Social Determinants of Racial Health Inequities ( http://arxiv.org/abs/2403.18196v1 )

ライセンス: Link先を確認
Dana Moukheiber, Saurabh Mahindre, Lama Moukheiber, Mira Moukheiber, Mingchen Gao, (参考訳) 胸部X線を用いた疾患診断における深層学習モデルの実装には大きな進歩があった。 これらの進歩にもかかわらず、これらのモデル固有のバイアスは、保護されたグループ間での予測精度の相違をもたらす可能性がある。 本研究では, 高次元胸部X線マルチラベル分類において, 正確な診断結果を達成し, 交叉群間の公平性を確保するための枠組みを提案する。 従来の保護属性を超越して、社会的決定要因内の複雑な相互作用を考慮し、よりきめ細かいベンチマークと公平性の評価を可能にする。 本稿では,グループ間のバランスの取れたデータセットを用いて,事前学習したモデルの最後の分類層を再学習する,シンプルで堅牢な手法を提案する。 さらに、フェアネス制約を考慮し、マルチラベル設定のためのクラスバランスの微調整を統合する。 MIMIC-CXRデータセット上での本手法の評価は,本手法がベースライン法と比較して精度と公正性の最適なトレードオフを実現することを示す。

There has been significant progress in implementing deep learning models in disease diagnosis using chest X- rays. Despite these advancements, inherent biases in these models can lead to disparities in prediction accuracy across protected groups. In this study, we propose a framework to achieve accurate diagnostic outcomes and ensure fairness across intersectional groups in high-dimensional chest X- ray multi-label classification. Transcending traditional protected attributes, we consider complex interactions within social determinants, enabling a more granular benchmark and evaluation of fairness. We present a simple and robust method that involves retraining the last classification layer of pre-trained models using a balanced dataset across groups. Additionally, we account for fairness constraints and integrate class-balanced fine-tuning for multi-label settings. The evaluation of our method on the MIMIC-CXR dataset demonstrates that our framework achieves an optimal tradeoff between accuracy and fairness compared to baseline methods.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# ジェネレーティブメディカルセグメンテーション

Generative Medical Segmentation ( http://arxiv.org/abs/2403.18198v1 )

ライセンス: Link先を確認
Jiayu Huo, Xi Ouyang, Sébastien Ourselin, Rachel Sparks, (参考訳) 医用画像セグメンテーション性能の急速な進歩は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の開発によって著しく推進されている。 しかしながら、これらのモデルは高い計算要求を導入し、しばしば多様な医用画像データセットをまたいで一般化する能力に制限がある。 本稿では,画像セグメンテーションに生成モデルを活用する新しいアプローチである生成医療セグメンテーション(GMS)を紹介する。 具体的には、GMSは、画像とマスクの両方の潜時表現を導出するために、頑健な事前訓練された変分オートエンコーダ(VAE)を使用し、次に、潜時空間における画像からマスクへの遷移を学習するマッピングモデルを用いる。 このプロセスは、事前訓練されたVAEデコーダを使用して、画像空間内で正確なセグメンテーションマスクを生成する。 GMSの設計はモデルの学習可能なパラメータを減らし、計算負荷の低減と一般化能力の向上をもたらす。 異なる医用画像領域の5つの公開データセットにわたる広範な実験分析により、GMSは既存の識別的セグメンテーションモデルより優れており、ドメインの一般化が顕著であることが示された。 我々の実験は、GMSが医療画像セグメンテーションの新しいベンチマークを設定し、スケーラブルで効果的なソリューションを提供する可能性を示唆している。 GMSの実装とモデルウェイトはhttps://github.com/King-HAW/GMSで確認できる。

Rapid advancements in medical image segmentation performance have been significantly driven by the development of Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). However, these models introduce high computational demands and often have limited ability to generalize across diverse medical imaging datasets. In this manuscript, we introduce Generative Medical Segmentation (GMS), a novel approach leveraging a generative model for image segmentation. Concretely, GMS employs a robust pre-trained Variational Autoencoder (VAE) to derive latent representations of both images and masks, followed by a mapping model that learns the transition from image to mask in the latent space. This process culminates in generating a precise segmentation mask within the image space using the pre-trained VAE decoder. The design of GMS leads to fewer learnable parameters in the model, resulting in a reduced computational burden and enhanced generalization capability. Our extensive experimental analysis across five public datasets in different medical imaging domains demonstrates GMS outperforms existing discriminative segmentation models and has remarkable domain generalization. Our experiments suggest GMS could set a new benchmark for medical image segmentation, offering a scalable and effective solution. GMS implementation and model weights are available at https://github.com/King-HAW/GMS.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# オンライン異常検出とセグメンテーション

Few-shot Online Anomaly Detection and Segmentation ( http://arxiv.org/abs/2403.18201v1 )

ライセンス: Link先を確認
Shenxing Wei, Xing Wei, Zhiheng Ma, Songlin Dong, Shaochen Zhang, Yihong Gong, (参考訳) 画像から異常パターンを検出することは、産業応用において重要な人工知能技術である。 この領域における最近の研究は、モデルのデプロイ後、正常サンプルと異常サンプルの両方を含むラベルなしデータを活用して、モデルの性能を高めるという現実的なシナリオを見越して、大量のトレーニングデータの必要性を強調している。 そこで本研究では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てた。 FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。 この問題に対処するために、我々は、トポロジ構造に適応してデータフローの外れ値を特定する柔軟性を提供するニューラルガスネットワークを用いて、通常の画像の特徴分布をモデル化することを提案する。 限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。 さらに,従来のサンプルを格納することなくパラメータを漸進的に更新するアルゴリズムを導入する。 総合的な実験結果から,本手法は,MVTec ADおよびBTADデータセットにおいて,許容範囲内に存在する時間的複雑性を保証しながら,FOADS設定下でかなりの性能を達成できることが示されている。

Detecting anomaly patterns from images is a crucial artificial intelligence technique in industrial applications. Recent research in this domain has emphasized the necessity of a large volume of training data, overlooking the practical scenario where, post-deployment of the model, unlabeled data containing both normal and abnormal samples can be utilized to enhance the model's performance. Consequently, this paper focuses on addressing the challenging yet practical few-shot online anomaly detection and segmentation (FOADS) task. Under the FOADS framework, models are trained on a few-shot normal dataset, followed by inspection and improvement of their capabilities by leveraging unlabeled streaming data containing both normal and abnormal samples simultaneously. To tackle this issue, we propose modeling the feature distribution of normal images using a Neural Gas network, which offers the flexibility to adapt the topology structure to identify outliers in the data flow. In order to achieve improved performance with limited training samples, we employ multi-scale feature embedding extracted from a CNN pre-trained on ImageNet to obtain a robust representation. Furthermore, we introduce an algorithm that can incrementally update parameters without the need to store previous samples. Comprehensive experimental results demonstrate that our method can achieve substantial performance under the FOADS setting, while ensuring that the time complexity remains within an acceptable range on MVTec AD and BTAD datasets.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# TGMM:スケーラブルな多言語および多言語コードクローン検出のためのParseツリーとGPUの組み合わせ

TGMM: Combining Parse Tree with GPU for Scalable Multilingual and Multi-Granularity Code Clone Detection ( http://arxiv.org/abs/2403.18202v1 )

ライセンス: Link先を確認
Yuhang Ye, Yuekun Wang, Yinxing Xue, Yueming Wu, Yang Liu, (参考訳) プログラミング言語とソフトウェアシステムの急速な進化は、多言語でスケーラブルなクローン検出ツールの実装を必要としている。 しかし、上記の要件を同時に達成することは困難である。 既存のツールのほとんどは、ひとつの課題にのみ焦点をあてています。 本研究では,多言語および多言語コードクローン検出のための木とGPUベースのツールであるTGMMを提案する。 ユーザが提供する文法ファイルに基づいてパースツリーを生成することで、TGMMは特定の粒度でコードブロックを抽出し、Type-3クローンを効率的に検出することができる。 TGMMの性能を示すために、リコール、精度、実行時間の観点から7つの最先端ツールと比較する。 TGMMは最初に実行時間と精度でランク付けし、リコールは他のものと同等である。 さらに、30の主流プログラミング言語を対象に、TGMMの言語拡張性について分析した。 そのうち25言語がサポートされ、残りの5言語は必要な文法ファイルが不足している。 最後に,9つの一般的な言語のクローン特性を5つの共通粒度で解析し,将来の研究者に刺激を与えることを期待した。 TGMMのソースコードは、https://github.com/TGMM24/TGMM.gitで公開されている。

The rapid evolution of programming languages and software systems has necessitated the implementation of multilingual and scalable clone detection tools. However, it is difficult to achieve the above requirements at the same time. Most existing tools only focus on one challenge. In this work, we propose TGMM, a tree and GPU-based tool for multilingual and multi-granularity code clone detection. By generating parse trees based on user-provided grammar files, TGMM can extract code blocks at a specified granularity and detect Type-3 clones efficiently. In order to show the performance of TGMM, we compare it with seven state-of-the-art tools in terms of recall, precision, and execution time. TGMM ranks first in execution time and precision, while its recall is comparable to the others. Moreover, we analyzed the language extensibility of TGMM across 30 mainstream programming languages. Out of these, a total of 25 languages were supported, while the remaining five currently lack the necessary grammar files. Finally, we analyzed the clone characteristics of nine popular languages at five common granularities, hoping to inspire future researchers. The source code of TGMM is available at: https://github.com/TGMM24/TGMM.git.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# EndToEndML: 機械学習アプリケーションのためのオープンソースのエンドツーエンドパイプライン

EndToEndML: An Open-Source End-to-End Pipeline for Machine Learning Applications ( http://arxiv.org/abs/2403.18203v1 )

ライセンス: Link先を確認
Nisha Pillai, Athish Ram Das, Moses Ayoola, Ganga Gireesan, Bindu Nanduri, Mahalingam Ramkumar, (参考訳) 人工知能(AI)技術は生命科学に広く応用されている。 しかし、生物の複雑さを理解し、分解するために革新的なAI技術を適用することは、生命科学の科学者がコンピュータ言語を理解し、使うための学習曲線によって妨げられている。 複雑な生物学的データを分析するためのプログラミングスキルを必要としない、AIモデルのオープンソースでユーザフレンドリなインターフェースは、バイオインフォマティクスコミュニティにとって極めて価値のあるものになるだろう。 異なるシークエンシング技術への容易にアクセスでき、異なる「オミクス」研究への関心が高まり、生成される生物学的データセットの数が増加し、これらの高スループットデータセットの分析が計算的に要求されている。 今日のAIライブラリの大部分は、高度なプログラミングスキルと、機械学習、データ前処理、視覚化スキルを必要とする。 本研究では,手作業による介入やコーディングの専門知識のない機械学習モデル(ML)の事前処理,トレーニング,評価,可視化が可能な,Webベースのエンドツーエンドパイプラインを提案する。 従来の機械学習とディープニューラルネットワークモデルを視覚化と統合することにより、われわれのライブラリは、画像、言語、および1次元数値データを含む、幅広いマルチモーダル・マルチセンサーデータセットの認識、分類、クラスタリング、予測を支援し、薬物発見、病原体分類、医療診断を行う。

Artificial intelligence (AI) techniques are widely applied in the life sciences. However, applying innovative AI techniques to understand and deconvolute biological complexity is hindered by the learning curve for life science scientists to understand and use computing languages. An open-source, user-friendly interface for AI models, that does not require programming skills to analyze complex biological data will be extremely valuable to the bioinformatics community. With easy access to different sequencing technologies and increased interest in different 'omics' studies, the number of biological datasets being generated has increased and analyzing these high-throughput datasets is computationally demanding. The majority of AI libraries today require advanced programming skills as well as machine learning, data preprocessing, and visualization skills. In this research, we propose a web-based end-to-end pipeline that is capable of preprocessing, training, evaluating, and visualizing machine learning (ML) models without manual intervention or coding expertise. By integrating traditional machine learning and deep neural network models with visualizations, our library assists in recognizing, classifying, clustering, and predicting a wide range of multi-modal, multi-sensor datasets, including images, languages, and one-dimensional numerical data, for drug discovery, pathogen classification, and medical diagnostics.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 中国語大言語モデルのプライバシ保護機能を探る

Exploring the Privacy Protection Capabilities of Chinese Large Language Models ( http://arxiv.org/abs/2403.18205v1 )

ライセンス: Link先を確認
Yuqi Yang, Xiaowen Huang, Jitao Sang, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力で知られており、非常に高度な人工知能を持っている。 しかし、これらの進歩はプライバシーとセキュリティに関する懸念を高めている。 これらの問題に対処し、これらのモデルに固有のリスクを説明するために、言語システムにおけるプライバシ評価に適した3段階のプログレッシブフレームワークを考案した。 このフレームワークは、段階的に複雑で、各層における詳細なプライバシーテストタスクで構成されている。 我々の主な目的は、大規模言語モデルの個人情報に対する感受性を包括的に評価し、様々なシナリオにおける機密データを効果的に識別、管理、保護することである。 この体系的な評価は、これらのモデルがプライバシ保護ガイドラインに準拠している程度と、プライバシ侵害に対する固有の保護の有効性を理解するのに役立ちます。 既存の中国の大規模言語モデルは、プライバシー保護の欠点を普遍的に示している。 現時点では、この広範な問題は避けられず、これらのモデルに基づいてアプリケーションに対応するプライバシーリスクを生じさせる可能性がある。

Large language models (LLMs), renowned for their impressive capabilities in various tasks, have significantly advanced artificial intelligence. Yet, these advancements have raised growing concerns about privacy and security implications. To address these issues and explain the risks inherent in these models, we have devised a three-tiered progressive framework tailored for evaluating privacy in language systems. This framework consists of progressively complex and in-depth privacy test tasks at each tier. Our primary objective is to comprehensively evaluate the sensitivity of large language models to private information, examining how effectively they discern, manage, and safeguard sensitive data in diverse scenarios. This systematic evaluation helps us understand the degree to which these models comply with privacy protection guidelines and the effectiveness of their inherent safeguards against privacy breaches. Our observations indicate that existing Chinese large language models universally show privacy protection shortcomings. It seems that at the moment this widespread issue is unavoidable and may pose corresponding privacy risks in applications based on these models.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 未知の目的度スコアを用いた道路障害物検出

Road Obstacle Detection based on Unknown Objectness Scores ( http://arxiv.org/abs/2403.18207v1 )

ライセンス: Link先を確認
Chihiro Noguchi, Toshiaki Ohgushi, Masao Yamanaka, (参考訳) 未知の交通障害の検出は、安全な自動運転を保証するために不可欠である。 標準的なオブジェクト検出方法は、事前に定義されたカテゴリに含まれていない未知のオブジェクトを特定できない。 これは、未知のオブジェクトの存在に対応するピクセルに背景ラベルを割り当てるように、オブジェクト検出法が訓練されているためである。 この問題に対処するため,画素ワイド異常検出手法が研究の注目を集めている。 不確実性推定や再構成画像との知覚差などの異常検出技術により、未知物体の画素をオフ・オブ・ディストリビューション(OoD)サンプルとして識別することができる。 しかし、運転シーンなど多くの未知の複雑な要素を持つ画像に適用すると、不安定な性能を示すことがしばしばある。 本研究の目的は,物体検出の手法を画素単位の異常検出手法に組み込むことで,未知物体を検出するための安定した性能を実現することである。 この目的を達成するために、我々は、ピクセルワイド異常スコアとオブジェクトネススコアを同時に提供するシグモイドヘッドを備えたセマンティックセグメンテーションネットワークを採用した。 実験結果から, 対象性スコアは検出性能の向上に重要な役割を果たすことが示された。 これらの結果に基づいて,これらの2つのスコアを統合することで,未知のオブジェクト性スコアと呼ぶ新しい異常スコアを提案する。 定量的評価の結果,提案手法は公開データセットに適用した場合,最先端の手法よりも優れていることがわかった。

The detection of unknown traffic obstacles is vital to ensure safe autonomous driving. The standard object-detection methods cannot identify unknown objects that are not included under predefined categories. This is because object-detection methods are trained to assign a background label to pixels corresponding to the presence of unknown objects. To address this problem, the pixel-wise anomaly-detection approach has attracted increased research attention. Anomaly-detection techniques, such as uncertainty estimation and perceptual difference from reconstructed images, make it possible to identify pixels of unknown objects as out-of-distribution (OoD) samples. However, when applied to images with many unknowns and complex components, such as driving scenes, these methods often exhibit unstable performance. The purpose of this study is to achieve stable performance for detecting unknown objects by incorporating the object-detection fashions into the pixel-wise anomaly detection methods. To achieve this goal, we adopt a semantic-segmentation network with a sigmoid head that simultaneously provides pixel-wise anomaly scores and objectness scores. Our experimental results show that the objectness scores play an important role in improving the detection performance. Based on these results, we propose a novel anomaly score by integrating these two scores, which we term as unknown objectness score. Quantitative evaluations show that the proposed method outperforms state-of-the-art methods when applied to the publicly available datasets.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# ハンドジェスチャ認識のための適応型マルチモーダルフュージョンを用いた進化的ネットワークアーキテクチャ検索フレームワーク

An Evolutionary Network Architecture Search Framework with Adaptive Multimodal Fusion for Hand Gesture Recognition ( http://arxiv.org/abs/2403.18208v1 )

ライセンス: Link先を確認
Yizhang Xia, Shihao Song, Zhanglu Hou, Junwen Xu, Juan Zou, Yuan Liu, Shengxiang Yang, (参考訳) マルチモーダルデータに基づくハンドジェスチャ認識(HGR)は,アプリケーションの大きな可能性から注目されている。 様々な手動設計のマルチモーダルディープネットワークはマルチモーダルHGR(MHGR)でよく機能しているが、既存のアルゴリズムの多くは多くの専門家の経験と時間を要する。 これらの問題に対処するために,適応型マルチモデル融合(AMF-ENAS)を用いた進化的ネットワークアーキテクチャ探索フレームワークを提案する。 具体的には,マルチモーダルデータの融合位置と比を同時に考慮した符号化空間を設計し,デコードにより異なるアーキテクチャによるマルチモーダルネットワークの自動構築を可能にする。 また,SEMG (Intra-modal surface Electromyography),ACC (Intra-modal accelerometer),ACC (Inter-modal sEMG-ACC) に対応する3つの入力ストリームについて検討した。 ENASフレームワークは、様々なデータセットに自動的に適応するために、適切な融合位置と比率を持つMHGRネットワークを自動的に検索するように設計されている。 我々の知る限り、ENASがMHGRで活用されたのは、マルチモーダルデータの融合位置と比に関する問題に対処するためである。 実験により、AMF-ENASはNinapro DB2、DB3、DB7データセット上で最先端のパフォーマンスを達成することが示された。

Hand gesture recognition (HGR) based on multimodal data has attracted considerable attention owing to its great potential in applications. Various manually designed multimodal deep networks have performed well in multimodal HGR (MHGR), but most of existing algorithms require a lot of expert experience and time-consuming manual trials. To address these issues, we propose an evolutionary network architecture search framework with the adaptive multimodel fusion (AMF-ENAS). Specifically, we design an encoding space that simultaneously considers fusion positions and ratios of the multimodal data, allowing for the automatic construction of multimodal networks with different architectures through decoding. Additionally, we consider three input streams corresponding to intra-modal surface electromyography (sEMG), intra-modal accelerometer (ACC), and inter-modal sEMG-ACC. To automatically adapt to various datasets, the ENAS framework is designed to automatically search a MHGR network with appropriate fusion positions and ratios. To the best of our knowledge, this is the first time that ENAS has been utilized in MHGR to tackle issues related to the fusion position and ratio of multimodal data. Experimental results demonstrate that AMF-ENAS achieves state-of-the-art performance on the Ninapro DB2, DB3, and DB7 datasets.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 自律運転のための長期・短期制約駆動型安全強化学習

Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving ( http://arxiv.org/abs/2403.18209v1 )

ライセンス: Link先を確認
Xuemin Hu, Pan Chen, Yijun Wen, Bo Tang, Long Chen, (参考訳) 強化学習(Reinforcement Learning, RL)は, 意思決定作業において広く用いられているが, 自律運転などの産業的応用を著しく制限する環境との相互作用が要求されるため, 訓練プロセスにおけるエージェントの安全性を保証することはできない。 安全RL法は、トレーニング目標として期待される安全違反コストを抑えることでこの問題に対処するために開発されたが、自動運転タスクでは受け入れられない安全でない状態の発生を許している。 さらに、これらの手法はコストとリターン期待のバランスをとることが困難であり、アルゴリズムの性能劣化の学習につながる。 本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。 短期的制約は、車両が探索する短期的安全性を保証することを目的としており、一方、長期的制約は、意思決定プロセスを通して車両全体の安全性を保証する。 さらに,ラグランジュ乗算器に基づく二制約最適化を用いた安全なRL法を開発し,エンドツーエンド自動運転のトレーニングプロセスを最適化する。 MetaDriveシミュレータの総合的な実験を行った。 実験の結果,提案手法は連続状態および動作タスクにおいて高い安全性を達成でき,また,長距離意思決定タスクにおいて最先端の手法と比較して高い探索性能を示すことがわかった。

Reinforcement learning (RL) has been widely used in decision-making tasks, but it cannot guarantee the agent's safety in the training process due to the requirements of interaction with the environment, which seriously limits its industrial applications such as autonomous driving. Safe RL methods are developed to handle this issue by constraining the expected safety violation costs as a training objective, but they still permit unsafe state occurrence, which is unacceptable in autonomous driving tasks. Moreover, these methods are difficult to achieve a balance between the cost and return expectations, which leads to learning performance degradation for the algorithms. In this paper, we propose a novel algorithm based on the long and short-term constraints (LSTC) for safe RL. The short-term constraint aims to guarantee the short-term state safety that the vehicle explores, while the long-term constraint ensures the overall safety of the vehicle throughout the decision-making process. In addition, we develop a safe RL method with dual-constraint optimization based on the Lagrange multiplier to optimize the training process for end-to-end autonomous driving. Comprehensive experiments were conducted on the MetaDrive simulator. Experimental results demonstrate that the proposed method achieves higher safety in continuous state and action tasks, and exhibits higher exploration performance in long-distance decision-making tasks compared with state-of-the-art methods.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 量子状態、過程、測定の直接測定の統一的視点

A unified view of direct measurement of quantum states, processes, and measurements ( http://arxiv.org/abs/2403.18210v1 )

ライセンス: Link先を確認
Kazuhisa Ogawa, Takumi Matsuura, Akihisa Tomita, (参考訳) 量子系の力学は、量子状態、量子過程、量子測定の3つの構成要素によって特徴づけられる。 これらの成分の適切な測定は、量子情報処理において重要な問題である。 近年, 直接測定法が提案され, 行列全体の量子トモグラフィーを必要とせず, これら3成分の複素行列要素をそれぞれ別々に取得することが実証されている。 これらの直接測定法は独立に提案されているため、量子力学の時間対称性にもかかわらず、それらを統一する理論的な枠組みは提示されていない。 本研究では,これらの3成分の直接測定手法を体系的に導出する理論的枠組みを提案する。 この枠組みに従い、基底シフトのユニタリ変換を更に活用し、クォービットプローブを用いた最も効率的な直接測定法を導出した。 さらに,光パルストレインを用いた量子状態の直接測定法の有効性を実験的に実証した。

The dynamics of a quantum system are characterized by three components: quantum state, quantum process, and quantum measurement. The proper measurement of these components is a crucial issue in quantum information processing. Recently, direct measurement methods have been proposed and demonstrated wherein each complex matrix element of these three components is obtained separately, without the need for quantum tomography of the entire matrix. Since these direct measurement methods have been proposed independently, no theoretical framework has been presented to unify them despite the time symmetry of quantum dynamics. In this study, we propose a theoretical framework to systematically derive direct measurement methods for these three components. Following this framework and further utilizing the basis-shift unitary transformation, we have derived the most efficient direct measurement method using qubit probes. Additionally, we have experimentally demonstrated the feasibility of the direct measurement method of quantum states using optical pulse trains.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# NeuroPictor:マルチ個別事前トレーニングとマルチレベル変調によるfMRI画像再構成

NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation ( http://arxiv.org/abs/2403.18211v1 )

ライセンス: Link先を確認
Jingyang Huo, Yikai Wang, Xuelin Qian, Yun Wang, Chong Li, Jianfeng Feng, Yanwei Fu, (参考訳) 最近のfMRI-to-imageアプローチは、主に、訓練済み拡散モデルの特定の条件とfMRI信号を関連付けることに焦点を当てている。 これらのアプローチは、高品質な画像を生成する一方で、fMRI信号の複雑な情報の限られた側面のみを捉え、画像生成の詳細な制御はほとんど提供しない。 一方,本研究では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。 われわれのアプローチであるNeuroPictorは、fMRI-to-imageプロセスを3段階に分けている。 一 個人差を最小限に抑え、その後のクロスオブジェクトトレーニングを可能にするために、共有潜伏空間の多種個別事前訓練に取り組むためのfMRI校正エンコーディング 二 fMRI-to-image 横断物体事前訓練、知覚学習、高次及び低次条件での拡散モデルの導出 三 fMRI-to-image single-subject refining ステップ ii と同様、特定の個人に適応することに焦点を当てる。 NeuroPictorは、視覚刺激を特徴付けるfMRI信号から高レベルの意味的特徴を抽出し、低レベルの操作ネットワークで拡散モデルをインクリメンタルに微調整し、正確な構造指示を提供する。 様々な個人から6万枚のfMRI画像ペアをトレーニングすることにより、ベンチマークデータセットに示されているような、特にオブジェクト内設定において、より優れたfMRI画像から画像へのデコーディング能力を得ることができる。 プロジェクトページ: https://jingyanghuo.github.io/neuropictor/。

Recent fMRI-to-image approaches mainly focused on associating fMRI signals with specific conditions of pre-trained diffusion models. These approaches, while producing high-quality images, capture only a limited aspect of the complex information in fMRI signals and offer little detailed control over image creation. In contrast, this paper proposes to directly modulate the generation process of diffusion models using fMRI signals. Our approach, NeuroPictor, divides the fMRI-to-image process into three steps: i) fMRI calibrated-encoding, to tackle multi-individual pre-training for a shared latent space to minimize individual difference and enable the subsequent cross-subject training; ii) fMRI-to-image cross-subject pre-training, perceptually learning to guide diffusion model with high- and low-level conditions across different individuals; iii) fMRI-to-image single-subject refining, similar with step ii but focus on adapting to particular individual. NeuroPictor extracts high-level semantic features from fMRI signals that characterizing the visual stimulus and incrementally fine-tunes the diffusion model with a low-level manipulation network to provide precise structural instructions. By training with over 60,000 fMRI-image pairs from various individuals, our model enjoys superior fMRI-to-image decoding capacity, particularly in the within-subject setting, as evidenced in benchmark datasets. Project page: https://jingyanghuo.github.io/neuropictor/.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 確率的環境における優先的計画--部分的に順序付けられた時間的目標から最も優先される政策へ

Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies ( http://arxiv.org/abs/2403.18212v1 )

ライセンス: Link先を確認
Hazhar Rahmani, Abhishek N. Kulkarni, Jie Fu, (参考訳) 人間の嗜好は必ずしも完全な線形順序で表されるわけではない: 相容れない結果を表現するために部分的に順序付けされた選好を採用するのは自然である。 本研究では,マルコフ決定過程(MDP)をモデル化した確率的システムにおける意思決定と確率的計画について考察する。 具体的には、各時間拡張ゴールは、有限トレース上の線形時間論理(LTL$_f$)の式で表される。 部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。 したがって、確率順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の確率的非支配確率分布を誘導する。 最も好まれるポリシーを合成するために、我々の技術的アプローチは2つの重要なステップを含む。 最初のステップでは、時間的目標に対する部分的に順序づけられた嗜好を、部分的に順序づけられた半オートマトンである選好オートマトンと呼ばれる計算モデルに変換する手順を開発する。 2番目のステップでは、最も好まれるポリシーを見つけることは、元のMDP、選好オートマトン、選択された確率順序関係から構築された多目的MDPにおけるパレート最適ポリシーの計算と等価であることを示す。 論文全体を通して、提案した選好仕様とソリューションアプローチを説明するために、実行中の例を用いている。 これらの例を用いてアルゴリズムの有効性を実証し、詳細な分析を行い、将来の可能性について検討する。

Human preferences are not always represented via complete linear orders: It is natural to employ partially-ordered preferences for expressing incomparable outcomes. In this work, we consider decision-making and probabilistic planning in stochastic systems modeled as Markov decision processes (MDPs), given a partially ordered preference over a set of temporally extended goals. Specifically, each temporally extended goal is expressed using a formula in Linear Temporal Logic on Finite Traces (LTL$_f$). To plan with the partially ordered preference, we introduce order theory to map a preference over temporal goals to a preference over policies for the MDP. Accordingly, a most preferred policy under a stochastic ordering induces a stochastic nondominated probability distribution over the finite paths in the MDP. To synthesize a most preferred policy, our technical approach includes two key steps. In the first step, we develop a procedure to transform a partially ordered preference over temporal goals into a computational model, called preference automaton, which is a semi-automaton with a partial order over acceptance conditions. In the second step, we prove that finding a most preferred policy is equivalent to computing a Pareto-optimal policy in a multi-objective MDP that is constructed from the original MDP, the preference automaton, and the chosen stochastic ordering relation. Throughout the paper, we employ running examples to illustrate the proposed preference specification and solution approaches. We demonstrate the efficacy of our algorithm using these examples, providing detailed analysis, and then discuss several potential future directions.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 境界ディファレンスを用いたミニマックスの公正分類

Minimax Optimal Fair Classification with Bounded Demographic Disparity ( http://arxiv.org/abs/2403.18216v1 )

ライセンス: Link先を確認
Xianli Zeng, Guang Cheng, Edgar Dobriban, (参考訳) 統計的機械学習手法の異なる影響を緩和することは公正性の確保に不可欠である。 幅広い研究は格差を減らすことを目的としているが、人口全体とは対照的に 'emph{finite dataset}' を使うことの効果は依然として不明である。 本稿では,2つの保護されたグループによる公正な二分分類の統計的基礎を考察し,両者の受容率の差として定義される人口格差の制御に焦点をあてる。 無限のデータであっても、公正さは精度の犠牲になるかもしれないが、群固有の受容閾値を推定する必要があるため、有限サンプルを使用することで追加コストが発生することを示す。 本研究では,人口格差をユーザが指定した閾値に制約しながら,最小値の最適分類誤差について検討する。 公正性制約の影響を定量化するために、我々は 'emph{fairness-aware excess risk' と呼ばれる新しい尺度を導入し、すべての分類器が満たさなければならないこの尺度のミニマックス下限を導出する。 さらに,FairBayes-DDP+というオフセットを持つグループワイドしきい値を求める手法を提案する。 私たちの低い境界証明には、いくつかの革新があります。 実験では、FairBayes-DDP+がユーザ指定レベルでの相違を制御できるが、高速で、複数のベースラインよりも良好な公平性-正確性トレードオフを持つ。

Mitigating the disparate impact of statistical machine learning methods is crucial for ensuring fairness. While extensive research aims to reduce disparity, the effect of using a \emph{finite dataset} -- as opposed to the entire population -- remains unclear. This paper explores the statistical foundations of fair binary classification with two protected groups, focusing on controlling demographic disparity, defined as the difference in acceptance rates between the groups. Although fairness may come at the cost of accuracy even with infinite data, we show that using a finite sample incurs additional costs due to the need to estimate group-specific acceptance thresholds. We study the minimax optimal classification error while constraining demographic disparity to a user-specified threshold. To quantify the impact of fairness constraints, we introduce a novel measure called \emph{fairness-aware excess risk} and derive a minimax lower bound on this measure that all classifiers must satisfy. Furthermore, we propose FairBayes-DDP+, a group-wise thresholding method with an offset that we show attains the minimax lower bound. Our lower bound proofs involve several innovations. Experiments support that FairBayes-DDP+ controls disparity at the user-specified level, while being faster and having a more favorable fairness-accuracy tradeoff than several baselines.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 政治学におけるファジィ文字列マッチングのための大規模言語モデルの活用

Leveraging Large Language Models for Fuzzy String Matching in Political Science ( http://arxiv.org/abs/2403.18218v1 )

ライセンス: Link先を確認
Yu Wang, (参考訳) 政治学者が異なる情報源のデータを組み合わせている場合、ファジィ文字列マッチングは依然として重要な問題だ。 既存のマッチング法は、レヴェンシュテイン距離やコサイン類似性のような文字列距離に依存しない。 そのため、「JP Morgan」、「Chase Bank」、「DPRK」、「North Korea」、「Chuck Fleischmann(R)」、「Charles Fleischmann(R)」など、異なる名前の同義語に一致する文字列は本来不可能である。 本稿では,大規模言語モデルを用いて,この問題を完全に横取りし,直感的に解決することを提案する。 大規模な実験により,提案手法は平均精度を最大39%向上し,政治的科学者の使い勝手は極めて容易かつ直感的であることが示唆された。 さらに, 各種温度に対して頑健な結果が得られた。 さらに、プロンプトの強化は、さらなるパフォーマンス向上につながる可能性があることに留意する。

Fuzzy string matching remains a key issue when political scientists combine data from different sources. Existing matching methods invariably rely on string distances, such as Levenshtein distance and cosine similarity. As such, they are inherently incapable of matching strings that refer to the same entity with different names such as ''JP Morgan'' and ''Chase Bank'', ''DPRK'' and ''North Korea'', ''Chuck Fleischmann (R)'' and ''Charles Fleischmann (R)''. In this letter, we propose to use large language models to entirely sidestep this problem in an easy and intuitive manner. Extensive experiments show that our proposed methods can improve the state of the art by as much as 39% in terms of average precision while being substantially easier and more intuitive to use by political scientists. Moreover, our results are robust against various temperatures. We further note that enhanced prompting can lead to additional performance improvements.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# Q-Learningを用いた2次元から3次元環境:強化学習による自律ナビゲーションのモデル化とライブラリなし

From Two-Dimensional to Three-Dimensional Environment with Q-Learning: Modeling Autonomous Navigation with Reinforcement Learning and no Libraries ( http://arxiv.org/abs/2403.18219v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、人工知能において必須のツールとなり、エージェントが環境やフィードバックメカニズムとのインタラクションを通じて最適な意思決定ポリシーを取得できるようにする。 本研究では,2次元(2次元)と3次元(3次元)の両方の環境下でのRLエージェントの性能について検討し,異なる空間次元にわたる学習のダイナミクスを研究することを目的とした。 この研究の重要な側面は、アルゴリズムが計算数学のみによって開発された、学習のための既製ライブラリが存在しないことである。 方法論の枠組みは、Q学習エージェントクラスと各空間次元に合わせて調整された異なる環境クラスを用いて、RLの原則に焦点を当てている。 この研究は、強化学習エージェントは、特に2次元および3次元の設定において、様々な空間次元の環境でどのように適応し、機能するかという問題に対処することを目的としている。 実験分析により、エージェントの学習軌跡と適応過程を評価し、複雑な多次元空間をナビゲートする上でのRLアルゴリズムの有効性に関する洞察を明らかにする。 この知見の反映は今後の研究、特に高次元環境における学習のダイナミクスを理解する上での考察を示唆している。

Reinforcement learning (RL) algorithms have become indispensable tools in artificial intelligence, empowering agents to acquire optimal decision-making policies through interactions with their environment and feedback mechanisms. This study explores the performance of RL agents in both two-dimensional (2D) and three-dimensional (3D) environments, aiming to research the dynamics of learning across different spatial dimensions. A key aspect of this investigation is the absence of pre-made libraries for learning, with the algorithm developed exclusively through computational mathematics. The methodological framework centers on RL principles, employing a Q-learning agent class and distinct environment classes tailored to each spatial dimension. The research aims to address the question: How do reinforcement learning agents adapt and perform in environments of varying spatial dimensions, particularly in 2D and 3D settings? Through empirical analysis, the study evaluates agents' learning trajectories and adaptation processes, revealing insights into the efficacy of RL algorithms in navigating complex, multi-dimensional spaces. Reflections on the findings prompt considerations for future research, particularly in understanding the dynamics of learning in higher-dimensional environments.
翻訳日:2024-03-28 18:36:01 公開日:2024-03-27
# 事前学習型模倣学習法の不確実性を考慮した展開

Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies ( http://arxiv.org/abs/2403.18222v1 )

ライセンス: Link先を確認
Bo Wu, Bruce D. Lee, Kostas Daniilidis, Bernadette Bucher, Nikolai Matni, (参考訳) 多様なタスクやロボットプラットフォームからのデータに基づいて訓練された大規模ロボットポリシーは、汎用ロボットの実現を大いに約束するが、新しい環境条件への信頼性の高い一般化は大きな課題である。 この課題に対処するために、事前訓練された言語条件の模倣学習エージェントの不確実性を考慮したデプロイ手法を提案する。 具体的には、温度スケーリングを用いてこれらのモデルをキャリブレーションし、キャリブレーションされたモデルを利用して、候補行動の局所的な情報を集約することで不確実性を考慮した決定を行う。 本稿では,3つの事前学習モデルを用いてシミュレーションを行い,タスク完了率を大幅に向上させる可能性を示す。 関連するコードはリンクでアクセスできる。 https://github.com/BobWu1998/uncertainty_quant_all.git

Large-scale robotic policies trained on data from diverse tasks and robotic platforms hold great promise for enabling general-purpose robots; however, reliable generalization to new environment conditions remains a major challenge. Toward addressing this challenge, we propose a novel approach for uncertainty-aware deployment of pre-trained language-conditioned imitation learning agents. Specifically, we use temperature scaling to calibrate these models and exploit the calibrated model to make uncertainty-aware decisions by aggregating the local information of candidate actions. We implement our approach in simulation using three such pre-trained models, and showcase its potential to significantly enhance task completion rates. The accompanying code is accessible at the link: https://github.com/BobWu1998/uncertainty_quant_all.git
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 支払いマルウェアの検出と分類のためのトランスフォーマーベースのフレームワーク

A Transformer-Based Framework for Payload Malware Detection and Classification ( http://arxiv.org/abs/2403.18223v1 )

ライセンス: Link先を確認
Kyle Stein, Arash Mahyari, Guillermo Francia III, Eman El-Sheikh, (参考訳) コンピュータネットワークの侵入において、悪意のあるサイバー脅威がより高度化するにつれ、効果的な侵入検知システム(IDS)の必要性が重要となる。 Deep Packet Inspection (DPI)のような技術は、IDSがネットワークパケットの内容を分析し、潜在的な脅威を特定するためのコンテキストを提供するために導入された。 IDSは伝統的に、認識されていない不審な活動を検出するために、異常に基づく、および署名に基づく検出技術に頼っている。 深層学習技術は、ネットワークを介して送信されるパケットコンテンツから複雑なパターンを学習する効率が高いため、IDSのDPIに大きな可能性を示している。 本稿では,悪意のあるトラフィックを識別するトランスフォーマーを用いたDPIアルゴリズムを提案する。 トランスフォーマーは、シーケンスデータの複雑な内容を学習し、自己認識機構のおかげで、同様のシナリオをうまく一般化する。 提案手法では,パケットの内容を表す生のペイロードバイトを使用し,中間層として展開する。 ペイロードバイトは悪意のあるパケットを検出し、それらのタイプを分類するために使用される。 UNSW-NB15 と CIC-IOT23 データセットによる実験結果から,我々のトランスフォーマーモデルが,テストデータセットにおける悪質なトラフィックと悪質なトラフィックを区別する上で有効であることを示す。

As malicious cyber threats become more sophisticated in breaching computer networks, the need for effective intrusion detection systems (IDSs) becomes crucial. Techniques such as Deep Packet Inspection (DPI) have been introduced to allow IDSs analyze the content of network packets, providing more context for identifying potential threats. IDSs traditionally rely on using anomaly-based and signature-based detection techniques to detect unrecognized and suspicious activity. Deep learning techniques have shown great potential in DPI for IDSs due to their efficiency in learning intricate patterns from the packet content being transmitted through the network. In this paper, we propose a revolutionary DPI algorithm based on transformers adapted for the purpose of detecting malicious traffic with a classifier head. Transformers learn the complex content of sequence data and generalize them well to similar scenarios thanks to their self-attention mechanism. Our proposed method uses the raw payload bytes that represent the packet contents and is deployed as man-in-the-middle. The payload bytes are used to detect malicious packets and classify their types. Experimental results on the UNSW-NB15 and CIC-IOT23 datasets demonstrate that our transformer-based model is effective in distinguishing malicious from benign traffic in the test dataset, attaining an average accuracy of 79\% using binary classification and 72\% on the multi-classification experiment, both using solely payload bytes.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 単一ステートメントバグに関するテストはどうか?

How is Testing Related to Single Statement Bugs? ( http://arxiv.org/abs/2403.18226v1 )

ライセンス: Link先を確認
Habibur Rahman, Saqib Ameen, (参考訳) 本研究では,オープンソースJavaプロジェクトにおけるユニットテストカバレッジと単一ステートメントバグ(SSB)の発生の相関について検討した。 私たちはGitHubのトップ100のMavenベースのプロジェクトから、7824のSSBを含むデータを分析しました。 以上の結果より, SSBの増加はSSBの発生をやや減少させる可能性が示唆された。 しかし、この関係はあまり強くなく、より良いテストの必要性を強調している。 本研究は,ソフトウェアの品質向上に関する継続的な議論に寄与し,SSBの緩和を目的とした効果的なテスト実践に関する今後の研究の基盤を提供する。

In this study, we analyzed the correlation between unit test coverage and the occurrence of Single Statement Bugs (SSBs) in open-source Java projects. We analyzed data from the top 100 Maven-based projects on GitHub, which includes 7824 SSBs. Our preliminary findings suggest a weak to moderate correlation, indicating that increased test coverage is somewhat reduce the occurrence of SSBs. However, this relationship is not very strong, emphasizing the need for better tests. Our study contributes to the ongoing discussion on enhancing software quality and provides a basis for future research into effective testing practices aimed at mitigating SSBs.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 効率的な視覚分類のためのスパイクフォーマにおける相反する自己注意としてのフーリエベースまたはウェーブレットベース

Fourier or Wavelet bases as counterpart self-attention in spikformer for efficient visual classification ( http://arxiv.org/abs/2403.18228v1 )

ライセンス: Link先を確認
Qingyu Wang, Duzhen Zhang, Tilelin Zhang, Bo Xu, (参考訳) エネルギー効率のよいスパイクフォーマは、生物学的に可塑性スパイクニューラルネットワーク(SNN)と人工トランスフォーマーを統合して提案されており、スパイキング自己認識(SSA)は高い精度と低い計算コストを達成するために用いられる。 しかし、特にスパーススパイク形式の計算方法において、自己注意は必ずしも必要ではないようである。 本稿では,バニラSSAをスパイク形式フーリエ変換,ウェーブレット変換,およびそれらの組み合わせ(固定三角形あるいはウェーブレット基底を用いる)に置き換える。 そこで、FWformer(Fourier-or-Wavelet-based spikformer)が提案され、静的画像とイベントベースのビデオデータセットを含む視覚的分類タスクで検証される。 FWformerは、同等またはそれ以上のアキュラシー(0.4\%$-$1.5\%$)、より高いランニングスピード(9\%$-$51\%$)、推論のための19\%$-$70\%$)、理論エネルギー消費(20\%$-$25\%$)、GPUメモリ使用量(4\%$-$26\%$)を達成することができる。 その結果,生物発見(スパイク・フォーム)や情報理論(フーリエ・ウェーブレット・トランスフォーム)に触発された新しいトランスフォーマーの継続的な改良が期待できることを示す。

Energy-efficient spikformer has been proposed by integrating the biologically plausible spiking neural network (SNN) and artificial Transformer, whereby the Spiking Self-Attention (SSA) is used to achieve both higher accuracy and lower computational cost. However, it seems that self-attention is not always necessary, especially in sparse spike-form calculation manners. In this paper, we innovatively replace vanilla SSA (using dynamic bases calculating from Query and Key) with spike-form Fourier Transform, Wavelet Transform, and their combinations (using fixed triangular or wavelets bases), based on a key hypothesis that both of them use a set of basis functions for information transformation. Hence, the Fourier-or-Wavelet-based spikformer (FWformer) is proposed and verified in visual classification tasks, including both static image and event-based video datasets. The FWformer can achieve comparable or even higher accuracies ($0.4\%$-$1.5\%$), higher running speed ($9\%$-$51\%$ for training and $19\%$-$70\%$ for inference), reduced theoretical energy consumption ($20\%$-$25\%$), and reduced GPU memory usage ($4\%$-$26\%$), compared to the standard spikformer. Our result indicates the continuous refinement of new Transformers, that are inspired either by biological discovery (spike-form), or information theory (Fourier or Wavelet Transform), is promising.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 推論のためのコンサルタントを必要とする大規模言語モデル:行動シミュレーションによる複雑な人間のシステムにおけるエキスパートになる

Large Language Models Need Consultants for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation ( http://arxiv.org/abs/2403.18230v1 )

ライセンス: Link先を確認
Chuwen Wang, Shirong Zeng, Cheng Wang, (参考訳) 大規模言語モデル(LLM)は、様々な推論強化手法とともに、数学、法学、コーディング、常識、世界知識といった分野において人間に匹敵する優れた能力を示した。 本稿では,複雑な人体システムにおけるLCMの推論能力について検討する。 本稿では,「モザイク専門家観察壁(MEOW)」と呼ばれる新たな推論手法を提案する。 MEOWフレームワークでは、シミュレーションの各独立した時間における特定のタスクについて ``experience'' を集中したエキスパートモデルをトレーニングするために、シミュレーションデータを利用する。 複雑な人間のシステムにおけるタスクのエキスパートになるシミュレーションを通じて蓄積された「経験」である。 実世界のセキュリティシナリオを反映したコミュニケーションゲームで実験を行う。 提案手法は, 複雑な人体システムにおけるLCMの推論能力を高めるために, 既存の方法論と協調できることを示す。

Large language models (LLMs), in conjunction with various reasoning reinforcement methodologies, have demonstrated remarkable capabilities comparable to humans in fields such as mathematics, law, coding, common sense, and world knowledge. In this paper, we delve into the reasoning abilities of LLMs within complex human systems. We propose a novel reasoning framework, termed ``Mosaic Expert Observation Wall'' (MEOW) exploiting generative-agents-based simulation technique. In the MEOW framework, simulated data are utilized to train an expert model concentrating ``experience'' about a specific task in each independent time of simulation. It is the accumulated ``experience'' through the simulation that makes for an expert on a task in a complex human system. We conduct the experiments within a communication game that mirrors real-world security scenarios. The results indicate that our proposed methodology can cooperate with existing methodologies to enhance the reasoning abilities of LLMs in complex human systems.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 超音波による前立腺癌検出のためのベンチマーク画像変換器

Benchmarking Image Transformers for Prostate Cancer Detection from Ultrasound Data ( http://arxiv.org/abs/2403.18233v1 )

ライセンス: Link先を確認
Mohamed Harmanani, Paul F. R. Wilson, Fahimeh Fooladgar, Amoon Jamzad, Mahdi Gilany, Minh Nguyen Nhat To, Brian Wodlinger, Purang Abolmaesumi, Parvin Mousavi, (参考訳) PURPOSE: 超音波画像中の前立腺癌(PCa)を分類するための深層学習法は、通常、針のトレース領域に沿って小さな領域(ROI)のがんを検出するために、畳み込みネットワーク(CNN)を用いている。 しかし、この手法は個々のROIの特性を記述していないため、弱いラベル付けに悩まされる。 近年,MIL(Multiple-instance Learning)を用いた複数のROIから癌を検出するために,変換器のコンテキスト認識とCNN特徴抽出器を組み合わせたマルチスケールアプローチが試みられている。 本研究では、ROIスケールおよびマルチスケールの分類のための複数の画像トランスフォーマーアーキテクチャの詳細な研究と、超音波による前立腺癌分類のためのCNNとトランスフォーマーの性能の比較について述べる。 また、ROIとコア予測を組み合わせた新しい多目的学習戦略を設計し、ラベルノイズをさらに緩和する。 方法: ROIスケール癌分類における3つの画像変換器の評価を行い, 最強モデルを用いてマルチスケール分類器をMILでチューニングする。 我々は、新しい多目的学習戦略を用いてMILモデルを訓練し、その結果を既存のベースラインと比較する。 RESULTS: ROIスケールとマルチスケールのPCa検出では,画像トランスフォーマーのバックボーンがCNNのバックボーンに遅れていることがわかった。 この性能の欠如は、より大きなモデルにとってさらに顕著である。 多目的学習では、77.9%のAUROC、75.9%の感度、66.3%の特異性でMILの性能を向上させることができる。 ConCLUSION: 畳み込みネットワークは、前立腺超音波のスパースデータセットをモデル化するのに適しており、PCa検出におけるトランスフォーマーよりも堅牢な特徴を生み出す。 マルチスケールな手法はこのタスクに最適なアーキテクチャのままであり、多目的学習はパフォーマンスを改善する効果的な方法を示す。

PURPOSE: Deep learning methods for classifying prostate cancer (PCa) in ultrasound images typically employ convolutional networks (CNNs) to detect cancer in small regions of interest (ROI) along a needle trace region. However, this approach suffers from weak labelling, since the ground-truth histopathology labels do not describe the properties of individual ROIs. Recently, multi-scale approaches have sought to mitigate this issue by combining the context awareness of transformers with a CNN feature extractor to detect cancer from multiple ROIs using multiple-instance learning (MIL). In this work, we present a detailed study of several image transformer architectures for both ROI-scale and multi-scale classification, and a comparison of the performance of CNNs and transformers for ultrasound-based prostate cancer classification. We also design a novel multi-objective learning strategy that combines both ROI and core predictions to further mitigate label noise. METHODS: We evaluate 3 image transformers on ROI-scale cancer classification, then use the strongest model to tune a multi-scale classifier with MIL. We train our MIL models using our novel multi-objective learning strategy and compare our results to existing baselines. RESULTS: We find that for both ROI-scale and multi-scale PCa detection, image transformer backbones lag behind their CNN counterparts. This deficit in performance is even more noticeable for larger models. When using multi-objective learning, we can improve performance of MIL, with a 77.9% AUROC, a sensitivity of 75.9%, and a specificity of 66.3%. CONCLUSION: Convolutional networks are better suited for modelling sparse datasets of prostate ultrasounds, producing more robust features than transformers in PCa detection. Multi-scale methods remain the best architecture for this task, with multi-objective learning presenting an effective way to improve performance.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# TAFormer:空中シーンにおける映像・モーションジョイント予測のための統合ターゲット対応変圧器

TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes ( http://arxiv.org/abs/2403.18238v1 )

ライセンス: Link先を確認
Liangyu Xu, Wanxuan Lu, Hongfeng Yu, Yongqiang Mao, Hanbo Bi, Chenglong Liu, Xian Sun, Kun Fu, (参考訳) ドローン技術が進歩するにつれて、無人航空機による航空調査が、現代の低高度リモートセンシングの主流となっている。 航空映像データの急増は、特に交通管理や災害対応といったアプリケーションにおいて、将来のシナリオや関心のあるターゲットの動作状態の正確な予測を必要とする。 既存の映像予測手法は、対象の運動状態を明示的にモデル化することの無視に苦しむ将来のシーン(映像フレーム)の予測にのみ焦点をあてる。 この問題に対処するために,ターゲット・アウェア・エアリアル・ビデオ予測(Target-Aware Aerial Video Prediction)という新しいタスクを導入する。 さらに,このタスクに特化したモデルであるTAFormerを設計し,映像とターゲットの動作状態の両方に統一的なモデリング手法を提供する。 具体的には、空間的静的な注意と時間的注意にビデオダイナミクスの学習を分離し、シーンの外観と動きを効果的にモデル化する時空間注意(STA)を導入する。 さらに,2組のメッセンジャートークンを通じて情報交換を容易にすることで,映像とターゲットの動きのモデリングをエレガントに統一する情報共有機構(ISM)を設計する。 さらに、ぼかし予測における目標の識別の難しさを軽減するために、ターゲット感性ガウス損失(TSGL)を導入し、ターゲットの位置と内容の両方に対するモデルの感度を高める。 UAV123VPとVisDroneVP(単目的追跡データセットに由来する)に関する大規模な実験は、ターゲット認識ビデオ予測におけるTAFormerの例外的な性能を示し、ターゲット認識のための空中ビデオ解釈の追加要件への適応性を示している。

As drone technology advances, using unmanned aerial vehicles for aerial surveys has become the dominant trend in modern low-altitude remote sensing. The surge in aerial video data necessitates accurate prediction for future scenarios and motion states of the interested target, particularly in applications like traffic management and disaster response. Existing video prediction methods focus solely on predicting future scenes (video frames), suffering from the neglect of explicitly modeling target's motion states, which is crucial for aerial video interpretation. To address this issue, we introduce a novel task called Target-Aware Aerial Video Prediction, aiming to simultaneously predict future scenes and motion states of the target. Further, we design a model specifically for this task, named TAFormer, which provides a unified modeling approach for both video and target motion states. Specifically, we introduce Spatiotemporal Attention (STA), which decouples the learning of video dynamics into spatial static attention and temporal dynamic attention, effectively modeling the scene appearance and motion. Additionally, we design an Information Sharing Mechanism (ISM), which elegantly unifies the modeling of video and target motion by facilitating information interaction through two sets of messenger tokens. Moreover, to alleviate the difficulty of distinguishing targets in blurry predictions, we introduce Target-Sensitive Gaussian Loss (TSGL), enhancing the model's sensitivity to both target's position and content. Extensive experiments on UAV123VP and VisDroneVP (derived from single-object tracking datasets) demonstrate the exceptional performance of TAFormer in target-aware video prediction, showcasing its adaptability to the additional requirements of aerial video interpretation for target awareness.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# NeuSDFusion:3次元形状補完・再構成・生成のための空間認識生成モデル

NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation ( http://arxiv.org/abs/2403.18241v1 )

ライセンス: Link先を確認
Ruikai Cui, Weizhe Liu, Weixuan Sun, Senbo Wang, Taizhang Shang, Yang Li, Xibin Song, Han Yan, Zhennan Wu, Shenzhou Chen, Hongdong Li, Pan Ji, (参考訳) 3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。 既存の方法では、しばしば3次元形状を局所成分の列に分解し、各要素を空間的一貫性を考慮せずに分離して扱う。 その結果、これらの手法は、3次元データ表現と形状生成において限られた汎用性を示し、指定された制約を満たす高度に多様な3次元形状を生成する能力を妨げている。 本稿では,2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。 空間コヒーレンスを確保し,メモリ使用量を削減するため,直交2次元平面を用いて3次元形状の連続符号付き距離場表現を直接学習するハイブリッド形状表現手法を組み込んだ。 さらに,トランスを用いたオートエンコーダ構造を用いて,異なる平面間の空間的対応を慎重に実施し,生成した3次元形状における空間的関係の保存を促進する。 これにより、無条件形状生成、マルチモーダル形状完了、単一ビュー再構成、テキスト・ツー・シェイプ合成など、様々なタスクにおける最先端の3D形状生成手法を一貫して上回るアルゴリズムが得られる。

3D shape generation aims to produce innovative 3D content adhering to specific conditions and constraints. Existing methods often decompose 3D shapes into a sequence of localized components, treating each element in isolation without considering spatial consistency. As a result, these approaches exhibit limited versatility in 3D data representation and shape generation, hindering their ability to generate highly diverse 3D shapes that comply with the specified constraints. In this paper, we introduce a novel spatial-aware 3D shape generation framework that leverages 2D plane representations for enhanced 3D shape modeling. To ensure spatial coherence and reduce memory usage, we incorporate a hybrid shape representation technique that directly learns a continuous signed distance field representation of the 3D shape using orthogonal 2D planes. Additionally, we meticulously enforce spatial correspondences across distinct planes using a transformer-based autoencoder structure, promoting the preservation of spatial relationships in the generated 3D shapes. This yields an algorithm that consistently outperforms state-of-the-art 3D shape generation methods on various tasks, including unconditional shape generation, multi-modal shape completion, single-view reconstruction, and text-to-shape synthesis.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 細粒度検索と自己チェックによる会話型質問応答の強化

Boosting Conversational Question Answering with Fine-Grained Retrieval-Augmentation and Self-Check ( http://arxiv.org/abs/2403.18243v1 )

ライセンス: Link先を確認
Linhao Ye, Zhikai Lei, Jianghao Yin, Qin Chen, Jie Zhou, Liang He, (参考訳) Retrieval-Augmented Generation (RAG) は、より大きな言語モデル(LLM)を外部の膨大な動的知識で拡張することにより、より信頼性が高く正確な応答を生成することを目的としている。 これまでのほとんどの研究は、単ラウンドの質問応答にRAGを使うことに重点を置いているが、RAGを複雑な会話環境に適応する方法は、質問が前の文脈に依存しているような複雑な会話環境にどのように適応するかは、十分に研究されていない。 本稿では,対話型質問応答(CQA)のための詳細な検索拡張と自己チェックを組み込んだ対話レベルのRAG手法を提案する。 特に,本手法は,対話型質問精算器,細粒度検索器,自己チェック型応答生成器の3つのコンポーネントから構成される。 大規模な実験は、最先端のベースラインに対する我々のアプローチの大きな利点を実証している。 さらに,改良質問,抽出キーワード,検索段落,有用性などの新機能を備えた中国語CQAデータセットも公開し,RAG強化CQAのさらなる研究を容易にする。

Retrieval-Augmented Generation (RAG) aims to generate more reliable and accurate responses, by augmenting large language models (LLMs) with the external vast and dynamic knowledge. Most previous work focuses on using RAG for single-round question answering, while how to adapt RAG to the complex conversational setting wherein the question is interdependent on the preceding context is not well studied. In this paper, we propose a conversation-level RAG approach, which incorporates fine-grained retrieval augmentation and self-check for conversational question answering (CQA). In particular, our approach consists of three components, namely conversational question refiner, fine-grained retriever and self-check based response generator, which work collaboratively for question understanding and relevant information acquisition in conversational settings. Extensive experiments demonstrate the great advantages of our approach over the state-of-the-art baselines. Moreover, we also release a Chinese CQA dataset with new features including reformulated question, extracted keyword, retrieved paragraphs and their helpfulness, which facilitates further researches in RAG enhanced CQA.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 同一性に基づく署名のための実験的に検証可能な量子プロトコルとセキュア電子メール通信への応用

An Experimentally Validated Feasible Quantum Protocol for Identity-Based Signature with Application to Secure Email Communication ( http://arxiv.org/abs/2403.18247v1 )

ライセンス: Link先を確認
Tapaswini Mohanty, Vikas Srivastava, Sumit Kumar Debnath, Debasish Roy, Kouichi Sakurai, Sourav Mukhopadhyay, (参考訳) デジタルシグネチャ(Digital signatures)は、認証、偽造性、偽造性などの魅力的なセキュリティ特性を提供する最も単純な暗号化ビルディングブロックの1つである。 1984年、シャミールは公開鍵インフラを簡素化し、証明書の必要性を回避するために最初のIDベースの署名(IBS)を開発した。 ユーザはメールや電話番号などの署名者の識別子だけを使って、デジタル署名を検証できる。 既存のIBSプロトコルのほとんど全てが、いくつかの理論的な仮定に基づく難しい問題に依存している。 残念ながら、これらの難しい問題は安全ではなく、量子領域に危険をもたらす。 したがって、量子攻撃に耐え、長期的なセキュリティを確保することのできるIBSアルゴリズムを設計することは、将来の研究にとって重要な方向である。 量子暗号(QC)はそのようなアプローチである。 本稿では,QCに基づくIBSを提案する。 我々のスキームのセキュリティは量子力学の法則に基づいている。 これにより、長期のセキュリティが達成され、量子攻撃に対する耐性を提供する。 試作量子デバイスとIBM Qiskit量子シミュレータでシミュレーションすることで,提案した設計の正しさと実現可能性を検証する。 Jupyternotebookとqiskitの実装コードはAnnexureで提供されている。 さらに、セキュアな電子メール通信における設計の適用について論じる。

Digital signatures are one of the simplest cryptographic building blocks that provide appealing security characteristics such as authenticity, unforgeability, and undeniability. In 1984, Shamir developed the first Identity-based signature (IBS) to simplify public key infrastructure and circumvent the need for certificates. It makes the process uncomplicated by enabling users to verify digital signatures using only the identifiers of signers, such as email, phone number, etc. Nearly all existing IBS protocols rely on several theoretical assumption-based hard problems. Unfortunately, these hard problems are unsafe and pose a hazard in the quantum realm. Thus, designing IBS algorithms that can withstand quantum attacks and ensure long-term security is an important direction for future research. Quantum cryptography (QC) is one such approach. In this paper, we propose an IBS based on QC. Our scheme's security is based on the laws of quantum mechanics. It thereby achieves long-term security and provides resistance against quantum attacks. We verify the proposed design's correctness and feasibility by simulating it in a prototype quantum device and the IBM Qiskit quantum simulator. The implementation code in qiskit with Jupyternotebook is provided in the Annexure. Moreover, we discuss the application of our design in secure email communication.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 最適配置の統計的推測 I:規則性とその意味

Statistical Inference of Optimal Allocations I: Regularities and their Implications ( http://arxiv.org/abs/2403.18248v1 )

ライセンス: Link先を確認
Kai Feng, Han Hong, (参考訳) 本稿では,統計的最適割り当て問題の解法として,機能的微分可能性のアプローチを考案する。 まず、ソート作用素の一般性質の詳細な解析を通して、値関数のアダマール微分可能性(英語版)を導出する。 我々の枠組みの中心はハウスドルフ測度の概念と幾何学的測度理論の領域と余積積分公式である。 アダマール微分可能性の結果に基づいて、2段階のROC曲線推定器と同様に、関数デルタ法を用いて2段階の制約付き最適割り当て問題に対する値関数プロセスの漸近特性を直接導出する方法を実証する。 さらに、凸関数と局所リプシッツ関数の幾何学的汎関数解析から深い洞察を生かし、最適割り当て問題の値関数に対する追加の一般Fr\echet微分可能性結果を得る。 これらの魅力的な発見は、最適社会福祉の第一次近似を慎重に研究する動機となっている。 本稿では,値関数に対する2重/脱バイアス推定器を提案する。 重要なことは、アダマール微分可能性セクションで概説された条件は、より速い収束率を正当化するプラグイン法を用いて統計分類文献からマージンの仮定を検証することである。

In this paper, we develp a functional differentiability approach for solving statistical optimal allocation problems. We first derive Hadamard differentiability of the value function through a detailed analysis of the general properties of the sorting operator. Central to our framework are the concept of Hausdorff measure and the area and coarea integration formulas from geometric measure theory. Building on our Hadamard differentiability results, we demonstrate how the functional delta method can be used to directly derive the asymptotic properties of the value function process for binary constrained optimal allocation problems, as well as the two-step ROC curve estimator. Moreover, leveraging profound insights from geometric functional analysis on convex and local Lipschitz functionals, we obtain additional generic Fr\'echet differentiability results for the value functions of optimal allocation problems. These compelling findings motivate us to study carefully the first order approximation of the optimal social welfare. In this paper, we then present a double / debiased estimator for the value functions. Importantly, the conditions outlined in the Hadamard differentiability section validate the margin assumption from the statistical classification literature employing plug-in methods that justifies a faster convergence rate.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# LLM生成フェイクニュースの知覚力を探る:実世界検出課題の検討

Exploring the Deceptive Power of LLM-Generated Fake News: A Study of Real-World Detection Challenges ( http://arxiv.org/abs/2403.18249v1 )

ライセンス: Link先を確認
Yanshen Sun, Jianfeng He, Limeng Cui, Shuo Lei, Chang-Tien Lu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特に医療のような複雑な分野において、フェイクニュースの作成を可能にしている。 研究は、LLMが生成した偽ニュースの人的援助なしでの偽ニュースの認知力のギャップを浮き彫りにするが、その可能性については完全には研究されていない。 このように、この研究は、戦略の推進がこのギャップを効果的に狭めることができるかどうかを判断することを目的としている。 現在のLLMベースのフェイクニュース攻撃は、情報収集のための人間の介入を必要とし、しばしば詳細を見逃し、コンテキスト整合性の維持に失敗する。 そこで本稿では,脅威戦術をよりよく理解するために,条件付き変分オートエンコーダライズプロンプト (VLPrompt) と呼ばれる,強力なフェイクニュース攻撃手法を提案する。 現行の方法とは異なり、VLPromptはコンテキストコヒーレンスを維持しながら元のテキストの複雑さを保ちながら、追加のデータ収集の必要性を排除している。 VLPrompt攻撃の検出に関する今後の研究を推進すべく、実テキストと偽テキストを含むVLPrompt偽ニュース(VLPFN)という新しいデータセットを作成しました。 さまざまな検出方法や新しい人間の研究指標を含む実験を,データセット上での性能評価のために実施し,多くの知見を得た。

Recent advancements in Large Language Models (LLMs) have enabled the creation of fake news, particularly in complex fields like healthcare. Studies highlight the gap in the deceptive power of LLM-generated fake news with and without human assistance, yet the potential of prompting techniques has not been fully explored. Thus, this work aims to determine whether prompting strategies can effectively narrow this gap. Current LLM-based fake news attacks require human intervention for information gathering and often miss details and fail to maintain context consistency. Therefore, to better understand threat tactics, we propose a strong fake news attack method called conditional Variational-autoencoder-Like Prompt (VLPrompt). Unlike current methods, VLPrompt eliminates the need for additional data collection while maintaining contextual coherence and preserving the intricacies of the original text. To propel future research on detecting VLPrompt attacks, we created a new dataset named VLPrompt fake news (VLPFN) containing real and fake texts. Our experiments, including various detection methods and novel human study metrics, were conducted to assess their performance on our dataset, yielding numerous findings.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 科学論文は多言語なので、私たちのモデルもそうすべき

Since the Scientific Literature Is Multilingual, Our Models Should Be Too ( http://arxiv.org/abs/2403.18251v1 )

ライセンス: Link先を確認
Abteen Ebrahimi, Kenneth Church, (参考訳) 英語は長い間、科学研究の$\textit{lingua Francea}$と仮定されており、この概念は科学文書表現を含む自然言語処理(NLP)研究に反映されている。 本稿では,文献が多言語的であることを定量的に示し,現在のモデルとベンチマークはこの言語多様性を反映すべきであると主張している。 テキストベースのモデルでは、非英語の論文に意味のある表現を作れず、多言語ドメインで非差別的に英語のみのモデルを使用することによるネガティブなユーザ面の影響を強調できる証拠を提供する。 我々は、NLPコミュニティに対して、非英語文書のパフォーマンスを改善する方法について提案する。

English has long been assumed the $\textit{lingua franca}$ of scientific research, and this notion is reflected in the natural language processing (NLP) research involving scientific document representation. In this position piece, we quantitatively show that the literature is largely multilingual and argue that current models and benchmarks should reflect this linguistic diversity. We provide evidence that text-based models fail to create meaningful representations for non-English papers and highlight the negative user-facing impacts of using English-only models non-discriminately across a multilingual domain. We end with suggestions for the NLP community on how to improve performance on non-English documents.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 埋め込みを超えて - マルチモーダルモデルにおけるビジュアルテーブルの約束

Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models ( http://arxiv.org/abs/2403.18252v1 )

ライセンス: Link先を確認
Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang, (参考訳) 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。 近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。 本研究では,MLLMに適した新しい視覚表現であるビジュアルテーブルを提案する。 全体的視覚シーンの階層的なテキスト記述を提供し、シーン記述と、インスタンスレベルでのカテゴリ、属性、知識を含む複数のオブジェクト中心の記述で構成されている。 さらに,視覚テーブル生成のための拡張性のあるジェネレータを開発し,GPT4Vから小規模アノテーションで学習する。 広汎な評価により、生成した視覚テーブルを視覚表現として使用することで、我々のモデルは様々なベンチマークで常に最先端(SOTA)MLLMよりも優れた性能を発揮することが示される。 ビジュアルテーブルがスタンドアロンの視覚表現として機能する場合、私たちのモデルはCLIPビジュアル埋め込み上に構築されたSOTA MLLMと密にマッチしたり、打ち負かしたりできます。 私たちのコードはhttps://github.com/LaVi-Lab/Visual-Table.comで利用可能です。

Visual representation learning has been a cornerstone in computer vision, evolving from supervised learning with human-annotated labels to aligning image-text pairs from the Internet. Despite recent advancements in multi-modal large language models (MLLMs), the visual representations they rely on, such as CLIP embeddings, often lack access to external world knowledge critical for real-world visual reasoning. In this work, we propose Visual Table, a novel visual representation tailored for MLLMs. It provides hierarchical text descriptions of holistic visual scenes, consisting of a scene description and multiple object-centric descriptions that encompass categories, attributes, and knowledge at instance level. We further develop a scalable generator for visual table generation and train it on small-scale annotations from GPT4V. Extensive evaluations demonstrate that, with generated visual tables as additional visual representations, our model can consistently outperform the state-of-the-art (SOTA) MLLMs across diverse benchmarks. When visual tables serve as standalone visual representations, our model can closely match or even beat the SOTA MLLMs that are built on CLIP visual embeddings. Our code is available at https://github.com/LaVi-Lab/Visual-Table.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# MD-PK: プロンプト学習と知識蒸留によるメタファー検出

MD-PK: Metaphor Detection via Prompt Learning and Knowledge Distillation ( http://arxiv.org/abs/2403.18253v1 )

ライセンス: Link先を確認
Kaidi Jia, Rongsheng Li, (参考訳) メタファーは日常生活においてどこにでもあるが、それらを検出することは重大な課題である。 以前のアプローチは、しばしば言語規則の不適切な適用に苦慮し、データ空間の問題を見落としていた。 これらの課題に対処するために、知識蒸留を導入し、メタファ検出に学習を促す。 具体的には,メタファ検出タスクに適した,素早い学習テンプレートを考案する。 対象の単語をマスキングし,関連するプロンプト情報を提供することで,これらの単語の文脈的意味を正確に推測するモデルを導出する。 このアプローチは、目的語の意味から干渉を緩和するだけでなく、メタファー検出のためのMIP言語規則の適切な活用も保証する。 さらに,事前知識を備えた教師モデルを用いて,学生モデルの最適化プロセスを指導し,有意義なソフトラベルを生成する。 ラベルの平滑化に類似したソフトラベルの導入は、モデルの過信に対する傾向を緩和し、データの分散性の課題に効果的に対処するのに役立つ。 実験により,提案モデルが複数のデータセットにまたがる最先端性能を実現することを示す。

Metaphors are ubiquitous in daily life, yet detecting them poses a significant challenge. Previous approaches often struggled with improper application of language rules and overlooked the issue of data sparsity. To address these challenges, we introduce knowledge distillation and prompt learning into metaphor detection. Specifically, we devise a prompt learning template tailored for the metaphor detection task. By masking target words and providing relevant prompt information, we guide the model to accurately infer the contextual meaning of these words. This approach not only mitigates the interference from the literal meaning of target words but also ensures the proper utilization of MIP language rules for metaphor detection. Moreover, we employ a teacher model equipped with prior knowledge to generate meaningful soft labels, guiding the optimization process of the student model. The inclusion of soft labels, akin to label smoothing, helps alleviate the model's tendency towards over-confidence and effectively addresses the challenge of data sparsity. Experimental results demonstrate that our proposed model achieves state-of-the-art performance across multiple datasets.
翻訳日:2024-03-28 18:26:17 公開日:2024-03-27
# 軽度摂動によるニューラルパスプランナの操作

Manipulating Neural Path Planners via Slight Perturbations ( http://arxiv.org/abs/2403.18256v1 )

ライセンス: Link先を確認
Zikang Xiong, Suresh Jagannathan, (参考訳) データ駆動型ニューラルパスプランナーは、ロボティクスコミュニティへの関心が高まっている。 しかしながら、ニューラルネットワークコンポーネントは一般的にブラックボックスとして提供され、基盤となる意思決定プロセスが無視される。 ブラックボックスの性質は、隠された悪意のある行動の挿入によって妥協されるリスクを露呈する。 例えば、攻撃者は、トリガーされると、特定の(間違った)目的地に誘導して配達ロボットをハイジャックしたり、事前に定義された領域に閉じ込めたり、ロボットに繰り返し領域を循環させることで不要なエネルギー消費を誘導したりすることで、その動作を隠すことができる。 本稿では,バックドア(バックドア)と呼ばれる,隠れた悪意のある動作をニューラルパスプランナに特定・注入する手法を提案する。 我々のアプローチは、これらの振舞いを定義するための簡潔で柔軟な方法を提供し、隠れた振舞いはわずかな摂動(例えば、小さな無意味な物体を挿入するなど)によって引き起こされる可能性があるが、それでもそれらの整合性を著しく損なうことができることを示す。 また、このようなリスクを軽減すべく、これらのバックドアを識別する可能性についても論じる。 サンプリングベースとサーチベースの両方のニューラルパスプランナに対するアプローチを実証する。

Data-driven neural path planners are attracting increasing interest in the robotics community. However, their neural network components typically come as black boxes, obscuring their underlying decision-making processes. Their black-box nature exposes them to the risk of being compromised via the insertion of hidden malicious behaviors. For example, an attacker may hide behaviors that, when triggered, hijack a delivery robot by guiding it to a specific (albeit wrong) destination, trapping it in a predefined region, or inducing unnecessary energy expenditure by causing the robot to repeatedly circle a region. In this paper, we propose a novel approach to specify and inject a range of hidden malicious behaviors, known as backdoors, into neural path planners. Our approach provides a concise but flexible way to define these behaviors, and we show that hidden behaviors can be triggered by slight perturbations (e.g., inserting a tiny unnoticeable object), that can nonetheless significantly compromise their integrity. We also discuss potential techniques to identify these backdoors aimed at alleviating such risks. We demonstrate our approach on both sampling-based and search-based neural path planners.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# モデルフォーミングアプローチによる生成クラスインクリメンタル学習性能の向上

Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach ( http://arxiv.org/abs/2403.18258v1 )

ライセンス: Link先を確認
Taro Togo, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama, (参考訳) 本研究では,クラス情報を動的に管理し,ストリーミングデータへの適応性を向上することを目的として,GCIL(Generative Class Incremental Learning)の新たなアプローチを提案する。 GCILはコンピュータビジョンの分野でホットなトピックの1つであり、これは社会における重要なタスクの1つ、特に生成モデルの継続的な学習であると考えられている。 忘れる能力は、人間にとってあまり関係のない情報を選択的に捨てることによって、継続的な学習を促進する重要な脳機能である。 しかし、機械学習モデルの分野では、意図的に忘れるという概念は広範に研究されていない。 本研究では,このギャップをGCILに組み込むことにより,モデルが連続学習において学習する能力に与える影響を検証し,そのギャップを埋めることを目的とする。 実験の結果, 学習過程において, 忘れるメカニズムの統合は, 新たな知識獲得におけるモデルの性能を著しく向上させることが明らかとなった。

This study presents a novel approach to Generative Class Incremental Learning (GCIL) by introducing the forgetting mechanism, aimed at dynamically managing class information for better adaptation to streaming data. GCIL is one of the hot topics in the field of computer vision, and this is considered one of the crucial tasks in society, specifically the continual learning of generative models. The ability to forget is a crucial brain function that facilitates continual learning by selectively discarding less relevant information for humans. However, in the field of machine learning models, the concept of intentionally forgetting has not been extensively investigated. In this study we aim to bridge this gap by incorporating the forgetting mechanisms into GCIL, thereby examining their impact on the models' ability to learn in continual learning. Through our experiments, we have found that integrating the forgetting mechanisms significantly enhances the models' performance in acquiring new knowledge, underscoring the positive role that strategic forgetting plays in the process of continual learning.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# ビジョンラージ言語モデルにおける対話型地域理解に向けて

Toward Interactive Regional Understanding in Vision-Large Language Models ( http://arxiv.org/abs/2403.18260v1 )

ライセンス: Link先を確認
Jungbeom Lee, Sanghyuk Chun, Sangdoo Yun, (参考訳) 近年のビジョンランゲージ・プレトレーニング(VLP)モデルは大きな進歩を見せている。 しかしながら、これらのモデルは画像の粗い情報とグローバルな情報のみをキャプチャする画像とテキストのペアに大きく依存しているため、局所的な理解能力に制限が生じる。 本研究では,ユーザが指定した画像領域を理解できるように,明示的な地域モデリング機能を備えた \textbf{RegionVLM} を提案する。 これを実現するために、モデルアーキテクチャや客観的関数の変更を必要とせず、シンプルで革新的なアーキテクチャを設計する。 さらに,従来のVLP研究で見過ごされてきた新たな情報ソース,すなわちLocalized Narrativesを含むデータセットを活用する。 本実験は,対話型対話システムを実現するだけでなく,グローバルな画像理解能力の向上を図らずに,様々なゼロショット領域理解タスクにおいて優れた性能を発揮することを示す。

Recent Vision-Language Pre-training (VLP) models have demonstrated significant advancements. Nevertheless, these models heavily rely on image-text pairs that capture only coarse and global information of an image, leading to a limitation in their regional understanding ability. In this work, we introduce \textbf{RegionVLM}, equipped with explicit regional modeling capabilities, allowing them to understand user-indicated image regions. To achieve this, we design a simple yet innovative architecture, requiring no modifications to the model architecture or objective function. Additionally, we leverage a dataset that contains a novel source of information, namely Localized Narratives, which has been overlooked in previous VLP research. Our experiments demonstrate that our single generalist model not only achieves an interactive dialogue system but also exhibits superior performance on various zero-shot region understanding tasks, without compromising its ability for global image understanding.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# 固体量子センサを用いたエキゾチックスピン-スピン-速度依存性相互作用の新しい制約

New Constraints on Exotic Spin-Spin-Velocity-Dependent Interactions with Solid-State Quantum Sensors ( http://arxiv.org/abs/2403.18263v1 )

ライセンス: Link先を確認
Yue Huang, Hang Liang, Man Jiao, Pei Yu, Xiangyu Ye, Yijin Xie, Yi-Fu Cai, Chang-Kui Duan, Ya Wang, Xing Rong, Jiangfeng Du, (参考訳) 電子スピン間のエキゾチックスピン-スピン-速度依存性相互作用に関する実験結果について報告する。 ダイヤモンドに窒素空洞(NV)アンサンブルを2つ備えた精巧な装置を設計した。 NVアンサンブルの1つはスピン源として機能し、もう1つはスピンセンサーとして機能する。 2つのNVアンサンブルの量子状態とその相対速度をマイクロメートルスケールでコヒーレントに操作することにより、短い力範囲でエキゾチックなスピン-スピン-速度依存相互作用を精査することができる。 T-違反相互作用では、1cm未満の力範囲に対して、対応する結合係数の新たな制限である$V_6$, $f_6$が確立されている。 P,T-違反相互作用では、V_{14}$、対応する結合係数の新たな制約である$f_{14}$が、1km未満の力範囲で得られた。

We report new experimental results on exotic spin-spin-velocity-dependent interactions between electron spins. We designed an elaborate setup that is equipped with two nitrogen-vacancy (NV) ensembles in diamonds. One of the NV ensembles serves as the spin source, while the other functions as the spin sensor. By coherently manipulating the quantum states of two NV ensembles and their relative velocity at the micrometer scale, we are able to scrutinize exotic spin-spin-velocity-dependent interactions at short force ranges. For a T-violating interaction, $V_6$, new limits on the corresponding coupling coefficient, $f_6$, have been established for the force range shorter than 1 cm. For a P,T-violating interaction, $V_{14}$, new constraints on the corresponding coupling coefficient, $f_{14}$, have been obtained for the force range shorter than 1 km.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# ブランチチューニング:継続的自己監督型学習のための安定性と塑性のバランス

Branch-Tuning: Balancing Stability and Plasticity for Continual Self-Supervised Learning ( http://arxiv.org/abs/2403.18266v1 )

ライセンス: Link先を確認
Wenzhuo Liu, Fei Zhu, Cheng-Lin Liu, (参考訳) 自己教師付き学習(SSL)は、膨大な量のラベルのないデータから一般的な表現を導出するための効果的なパラダイムとして登場した。 しかし、現実世界のアプリケーションは新たなコンテンツを継続的に統合しているため、SSLの高度な計算とリソース要求は、完全な再学習よりも継続的な学習を必要としている。 これは、新しい情報に適応する際の安定性と可塑性のバランスを崩すことに挑戦する。 本稿では,モデル安定性と可塑性を定量的に解析するためにCentered Kernel Alignmentを用い,安定度に対するバッチ正規化層と可塑性に対する畳み込み層の重要性を明らかにした。 そこで本研究では,SSLの安定性と可塑性のバランスを両立させる手法であるブランチチューニングを提案する。 ブランチチューニングはブランチ拡張と圧縮で構成されており、元のメソッドを変更することなく、古いデータやモデルを保持することなく、さまざまなSSLメソッドに簡単に適用することができる。 提案手法は,様々なベンチマークデータセットのインクリメンタルな実験を通じて検証し,実世界のシナリオにおけるその有効性と実用的価値を実証する。 今後の継続的な自己教師型学習研究に新たな洞察を提供することを期待しています。 コードは公開されます。

Self-supervised learning (SSL) has emerged as an effective paradigm for deriving general representations from vast amounts of unlabeled data. However, as real-world applications continually integrate new content, the high computational and resource demands of SSL necessitate continual learning rather than complete retraining. This poses a challenge in striking a balance between stability and plasticity when adapting to new information. In this paper, we employ Centered Kernel Alignment for quantitatively analyzing model stability and plasticity, revealing the critical roles of batch normalization layers for stability and convolutional layers for plasticity. Motivated by this, we propose Branch-tuning, an efficient and straightforward method that achieves a balance between stability and plasticity in continual SSL. Branch-tuning consists of branch expansion and compression, and can be easily applied to various SSL methods without the need of modifying the original methods, retaining old data or models. We validate our method through incremental experiments on various benchmark datasets, demonstrating its effectiveness and practical value in real-world scenarios. We hope our work offers new insights for future continual self-supervised learning research. The code will be made publicly available.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# DSF-GAN:ダウンストリームフィードバック生成対向ネットワーク

DSF-GAN: DownStream Feedback Generative Adversarial Network ( http://arxiv.org/abs/2403.18267v1 )

ライセンス: Link先を確認
Oriel Perets, Nadav Rappoport, (参考訳) ユーティリティとプライバシは、合成表データの品質の2つの重要な測定基準である。 プライバシー対策では大きな進歩があったが、高ユーティリティで合成サンプルを生成することは依然として困難である。 そこで我々は,DownStream Feedback Generative Adversarial Network (DSF-GAN) と呼ばれる新しいアーキテクチャを提案する。 このアプローチでは、トレーニング中の下流予測モデルからのフィードバックを取り入れて、ジェネレータの損失関数を貴重な情報で強化する。 従って、DSF-GANは、下流予測タスクを使用して、合成サンプルの有用性を高める。 提案手法を評価するために,2つの一般的なデータセットを用いて実験を行った。 本実験では, DSF-GANで生成した合成試料を, フィードバックのない同一のGANアーキテクチャで生成したものと比較して, モデル性能の向上を実証した。 実検体と同一の検体を用いて評価を行った。 この研究で使用されるコードとデータセットはすべて、公開され、再現が容易になる。

Utility and privacy are two crucial measurements of the quality of synthetic tabular data. While significant advancements have been made in privacy measures, generating synthetic samples with high utility remains challenging. To enhance the utility of synthetic samples, we propose a novel architecture called the DownStream Feedback Generative Adversarial Network (DSF-GAN). This approach incorporates feedback from a downstream prediction model during training to augment the generator's loss function with valuable information. Thus, DSF-GAN utilizes a downstream prediction task to enhance the utility of synthetic samples. To evaluate our method, we tested it using two popular datasets. Our experiments demonstrate improved model performance when training on synthetic samples generated by DSF-GAN, compared to those generated by the same GAN architecture without feedback. The evaluation was conducted on the same validation set comprising real samples. All code and datasets used in this research will be made openly available for ease of reproduction.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# Fusing Mixture Complexity によるクラスタリング変化信号検出

Clustering Change Sign Detection by Fusing Mixture Complexity ( http://arxiv.org/abs/2403.18269v1 )

ライセンス: Link先を確認
Kento Urano, Ryo Yuki, Kenji Yamanishi, (参考訳) 本稿では,クラスタ構造変化の早期検出手法を提案する。 クラスタ構造は、ガウス混合モデルのような有限混合モデルを用いてデータが表現される場合、クラスタの数などの離散的な構造特性を指す。 私たちは、時間とともにクラスタ構造が徐々に変化するシナリオに注目しました。 有限混合モデルの場合、混合複雑性(MC)の概念はクラスタ比バイアスとクラスタ間の重複を考慮した連続的なクラスタサイズを測定する。 本稿では, 有限混合モデルにおいて, 複数の混合数が可能である状況に対応するため, MC 融合を MC の拡張として提案する。 複数のモデルの融合を組み込むことで,段階的変化の遷移期間におけるクラスタ構造を正確に把握する。 さらに, MC核融合の遷移を調べた結果, クラスター構造の変化を検出する手法を提案する。 人工と実世界の両方のデータセットを用いた経験的分析により,本手法の有効性を実証する。

This paper proposes an early detection method for cluster structural changes. Cluster structure refers to discrete structural characteristics, such as the number of clusters, when data are represented using finite mixture models, such as Gaussian mixture models. We focused on scenarios in which the cluster structure gradually changed over time. For finite mixture models, the concept of mixture complexity (MC) measures the continuous cluster size by considering the cluster proportion bias and overlap between clusters. In this paper, we propose MC fusion as an extension of MC to handle situations in which multiple mixture numbers are possible in a finite mixture model. By incorporating the fusion of multiple models, our approach accurately captured the cluster structure during transitional periods of gradual change. Moreover, we introduce a method for detecting changes in the cluster structure by examining the transition of MC fusion. We demonstrate the effectiveness of our method through empirical analysis using both artificial and real-world datasets.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# 自己監督型強化学習による画像評価

Image Deraining via Self-supervised Reinforcement Learning ( http://arxiv.org/abs/2403.18270v1 )

ライセンス: Link先を確認
He-Hao Liao, Yan-Tsung Peng, Wen-Tao Chu, Ping-Chun Hsieh, Chung-Chi Tsai, (参考訳) 屋外で撮影された画像の質は、しばしば天候の影響を受けます。 視覚に干渉する要因の1つは雨であり、これらの画像に依存する観察者やコンピュータビジョンアプリケーションの視界を妨害することができる。 この研究は、画像デライン(SRL-Derain)のための自己監督型強化学習(RL)を通して雨害を除去し雨像を復元することを目的としている。 入力雨画像から辞書学習により雨のストリーク画素を抽出し,複数の塗料を塗布して雨を徐々に除去する。 我々の知る限り、この研究は、自己教師付きRLが画像デラリニングに適用される最初の試みである。 いくつかのベンチマーク画像デライニングデータセットの実験結果から、提案したSRL-Derainは、最先端の少数ショットと自己監督型デライニングおよびデノイング手法に対して好適に機能することが示された。

The quality of images captured outdoors is often affected by the weather. One factor that interferes with sight is rain, which can obstruct the view of observers and computer vision applications that rely on those images. The work aims to recover rain images by removing rain streaks via Self-supervised Reinforcement Learning (RL) for image deraining (SRL-Derain). We locate rain streak pixels from the input rain image via dictionary learning and use pixel-wise RL agents to take multiple inpainting actions to remove rain progressively. To our knowledge, this work is the first attempt where self-supervised RL is applied to image deraining. Experimental results on several benchmark image-deraining datasets show that the proposed SRL-Derain performs favorably against state-of-the-art few-shot and self-supervised deraining and denoising methods.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# 階層的復号化による医療適応のためのSAMの可能性

Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding ( http://arxiv.org/abs/2403.18271v1 )

ライセンス: Link先を確認
Zhiheng Cheng, Qingyue Wei, Hongru Zhu, Yan Wang, Liangqiong Qu, Wei Shao, Yuyin Zhou, (参考訳) Segment Anything Model (SAM) は、多目的なセグメンテーション能力と直感的なプロンプトベースのインターフェースに対して大きな注目を集めている。 しかし、医用画像へのその応用は、十分なトレーニングコストと、フルモデルの微調整のために広範囲な医療データセットを必要とするか、最適なパフォーマンスのために高品質なプロンプトを必要とする課題を提示する。 本稿では,H-SAMについて述べる。H-SAMは2段階の階層的復号法を用いて,医用画像の効率的な微調整に適したSAMの即時適応である。 初期段階では、H-SAMはSAMのオリジナルのデコーダを使用して、より複雑なデコードプロセスを第2段階で導く、事前確率マスクを生成する。 具体的には,2つの重要な設計を提案する。 1)不均衡なラベル分布に対処し,画像の埋め込みを増強する,階級バランス・マスク誘導型自己注意機構 2) 前者のマスクに基づいて異なる画像領域間の相互作用を空間的に調節する学習可能なマスククロスアテンション機構。 さらに、階層的なピクセルデコーダをH-SAMに組み込むことで、細粒度で局所的な細部を捉える能力が向上する。 この手法により、SAMは学習済みの医学的先行情報を効果的に統合することができ、限られたサンプルで医用画像のセグメンテーションに適応しやすくする。 我々のH-SAMは,2Dスライスを10%だけ使用して,既存のプロンプトフリーSAM変異体と比較して平均Diceが4.78%改善したことを示す。 特に、ラベルなしのデータを使わずに、H-SAMは、さまざまな医学データセットにわたるラベルなしトレーニングデータに依存する最先端の半教師付きモデルよりも優れています。 私たちのコードはhttps://github.com/Cccccczh404/H-SAMで公開されています。

The Segment Anything Model (SAM) has garnered significant attention for its versatile segmentation abilities and intuitive prompt-based interface. However, its application in medical imaging presents challenges, requiring either substantial training costs and extensive medical datasets for full model fine-tuning or high-quality prompts for optimal performance. This paper introduces H-SAM: a prompt-free adaptation of SAM tailored for efficient fine-tuning of medical images via a two-stage hierarchical decoding procedure. In the initial stage, H-SAM employs SAM's original decoder to generate a prior probabilistic mask, guiding a more intricate decoding process in the second stage. Specifically, we propose two key designs: 1) A class-balanced, mask-guided self-attention mechanism addressing the unbalanced label distribution, enhancing image embedding; 2) A learnable mask cross-attention mechanism spatially modulating the interplay among different image regions based on the prior mask. Moreover, the inclusion of a hierarchical pixel decoder in H-SAM enhances its proficiency in capturing fine-grained and localized details. This approach enables SAM to effectively integrate learned medical priors, facilitating enhanced adaptation for medical image segmentation with limited samples. Our H-SAM demonstrates a 4.78% improvement in average Dice compared to existing prompt-free SAM variants for multi-organ segmentation using only 10% of 2D slices. Notably, without using any unlabeled data, H-SAM even outperforms state-of-the-art semi-supervised models relying on extensive unlabeled training data across various medical datasets. Our code is available at https://github.com/Cccccczh404/H-SAM.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# DVLO:局所-Global特徴融合と双方向構造アライメントを用いた深部視覚-LiDARオドメトリー

DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment ( http://arxiv.org/abs/2403.18274v1 )

ライセンス: Link先を確認
Jiuming Liu, Dong Zhuo, Zhiheng Feng, Siting Zhu, Chensheng Peng, Zhe Liu, Hesheng Wang, (参考訳) 視覚的およびLiDARデータ内の情報は、画像のきめ細かいテクスチャと点雲内の巨大な幾何学的情報からよく補完されている。 しかし、画像は正規で密度が高いが、LiDARポイントは秩序がなく、疎いという2つのモード間の本質的なデータ構造の不整合のため、効果的な視覚-LiDAR融合を探索することは依然として困難である。 この問題に対処するために,双方向構造アライメントを有する局所-グローバル融合ネットワークを提案する。 局所的に融合した特徴を得るため,各中心の周囲にクラスタ・センターとクラスタ・イメージ・ピクセルとしてイメージ・プレーンを投影する。 画像画素は、画像間構造アライメントのための擬似点として予め構成される。 そこで我々は点を円筒状の投影(ポイント・ツー・イメージ構造アライメント)により擬似画像に変換し,局所的な融合特徴を持つ点特徴間の適応的大域的特徴融合を行う。 本手法は,KITTI odometryとFlyingThings3Dのシーンフローデータセットに対して,単一モーダル法とマルチモーダル法を比較して,最先端の性能を実現する。 コードは後日リリースされる。

Information inside visual and LiDAR data is well complementary derived from the fine-grained texture of images and massive geometric information in point clouds. However, it remains challenging to explore effective visual-LiDAR fusion, mainly due to the intrinsic data structure inconsistency between two modalities: Images are regular and dense, but LiDAR points are unordered and sparse. To address the problem, we propose a local-to-global fusion network with bi-directional structure alignment. To obtain locally fused features, we project points onto image plane as cluster centers and cluster image pixels around each center. Image pixels are pre-organized as pseudo points for image-to-point structure alignment. Then, we convert points to pseudo images by cylindrical projection (point-to-image structure alignment) and perform adaptive global feature fusion between point features with local fused features. Our method achieves state-of-the-art performance on KITTI odometry and FlyingThings3D scene flow datasets compared to both single-modal and multi-modal methods. Codes will be released later.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# RankMamba - 変圧器時代におけるMambaの文書ランク付け性能のベンチマーク

RankMamba, Benchmarking Mamba's Document Ranking Performance in the Era of Transformers ( http://arxiv.org/abs/2403.18276v1 )

ライセンス: Link先を確認
Zhichao Xu, (参考訳) トランスフォーマー構造は、自然言語処理(NLP)、コンピュータビジョン(CV)、情報検索(IR)など、複数の応用機械学習コミュニティで大きな成功を収めている。 トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングで$O(n^2)$時間複雑さと推論で$O(n)$時間複雑さが必要です。 Flash AttentionやMulti-query Attentionといった、アテンションメカニズムのスケーラビリティを改善するために、多くの作業が提案されている。 異なる作業ラインは、注意を置き換えるための新しいメカニズムを設計することを目的としています。 近年、状態空間モデルに基づく有名なモデル構造であるMambaは、複数のシーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。 そこで本研究では,古典的IRタスクのレンズ(文書ランキング)を用いて,Shamambaの有効性について検討する。 リランカモデルは、クエリとドキュメントを入力として、スカラー関連スコアを予測する。 このタスクは、長いコンテキスト入力を理解し、クエリとドキュメントトークン間の相互作用をキャプチャする言語モデルの能力を必要とする。 その結果,(1) ガンバモデルは同じトレーニングレシピを持つトランスフォーマーモデルと比較して競争性能が向上し,(2) フラッシュアテンションなどの効率的なトランスフォーマー実装と比較してトレーニングスループットも低いことがわかった。 この研究が、他の古典的赤外線タスクにおいて、Mambaモデルを探索するための出発点になることを期待している。 私たちのコード実装とトレーニングされたチェックポイントは、再現性を促進するために公開されています。 a b c https://github.com/zhichaoxu-shufe/RankMamba}

Transformer structure has achieved great success in multiple applied machine learning communities, such as natural language processing (NLP), computer vision (CV) and information retrieval (IR). Transformer architecture's core mechanism -- attention requires $O(n^2)$ time complexity in training and $O(n)$ time complexity in inference. Many works have been proposed to improve the attention mechanism's scalability, such as Flash Attention and Multi-query Attention. A different line of work aims to design new mechanisms to replace attention. Recently, a notable model structure -- Mamba, which is based on state space models, has achieved transformer-equivalent performance in multiple sequence modeling tasks. In this work, we examine \mamba's efficacy through the lens of a classical IR task -- document ranking. A reranker model takes a query and a document as input, and predicts a scalar relevance score. This task demands the language model's ability to comprehend lengthy contextual inputs and to capture the interaction between query and document tokens. We find that (1) Mamba models achieve competitive performance compared to transformer-based models with the same training recipe; (2) but also have a lower training throughput in comparison to efficient transformer implementations such as flash attention. We hope this study can serve as a starting point to explore Mamba models in other classical IR tasks. Our code implementation and trained checkpoints are made public to facilitate reproducibility.\footnote{https://github.com/zhichaoxu-shufe/RankMamba}.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# BlendX:ブレンドパターンを用いた複合多点検出

BlendX: Complex Multi-Intent Detection with Blended Patterns ( http://arxiv.org/abs/2403.18277v1 )

ライセンス: Link先を確認
Yejin Yoon, Jungyeon Lee, Kangsan Kim, Chanhee Park, Taeuk Kim, (参考訳) タスク指向対話(TOD)システムは、各発話が単一の意図を表すことを前提として、一般的に設計されている。 しかし、この仮定は、ユーザが1つの発話内で複数の意図を頻繁に表現する現実世界の状況を正確に反映していないかもしれない。 マルチインテント検出(MID)への関心が高まっている一方で、MixATISやMixSNIPSといった既存のドメイン内のデータセットには、その定式化に制限がある。 これらの問題に対処するために、前者よりも多様なパターンを特徴とする洗練されたデータセットスイートであるBlendXを紹介し、その複雑さと多様性を高くする。 データセット構築には,ルールベースのヒューリスティックと生成ツール – OpenAIのChatGPT – の両方を使用します。 また,提案したデータセットの品質を確保するために,単語数,共同使用,代名詞使用に関する発話の統計的特性を評価する3つの新しい指標を導入する。 BlendXの大規模な実験によると、最先端のMIDモデルは、新しいデータセットがもたらす課題に対処し、MIDフィールドの現在の状態を再検討する必要性を強調している。 データセットはhttps://github.com/HYU-NLP/BlendXで公開されている。

Task-oriented dialogue (TOD) systems are commonly designed with the presumption that each utterance represents a single intent. However, this assumption may not accurately reflect real-world situations, where users frequently express multiple intents within a single utterance. While there is an emerging interest in multi-intent detection (MID), existing in-domain datasets such as MixATIS and MixSNIPS have limitations in their formulation. To address these issues, we present BlendX, a suite of refined datasets featuring more diverse patterns than their predecessors, elevating both its complexity and diversity. For dataset construction, we utilize both rule-based heuristics as well as a generative tool -- OpenAI's ChatGPT -- which is augmented with a similarity-driven strategy for utterance selection. To ensure the quality of the proposed datasets, we also introduce three novel metrics that assess the statistical properties of an utterance related to word count, conjunction use, and pronoun usage. Extensive experiments on BlendX reveal that state-of-the-art MID models struggle with the challenges posed by the new datasets, highlighting the need to reexamine the current state of the MID field. The dataset is available at https://github.com/HYU-NLP/BlendX.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# パターンマイニングによる深層学習バックボーンの同定と利用

Identification and Uses of Deep Learning Backbones via Pattern Mining ( http://arxiv.org/abs/2403.18278v1 )

ライセンス: Link先を確認
Michael Livanos, Ian Davidson, (参考訳) 深層学習は、データマイニングの多くの分野で、印象的な結果のブラックボックス手法として広く利用されている。 しかし、ディープラーニングの予測方法のコアメカニズムを理解することは、比較的未検討の問題である。 ここでは、あるインスタンス群に対するディープラーニングのバックボーンを特定するという概念について検討する。 ここでのグループは、同じクラスのインスタンスであっても、同じクラスの誤って分類されたインスタンスであってもよい。 与えられたグループの各インスタンスは、ニューロンのサブセットを活性化し、与えられた概念/グループに関連するニューロンのサブグラフを見つけようとします。 この問題を集合被覆型問題として定式化し、難易度を示し、高度に制約された整数線形計画法(ILP)を提示する。 代替として、パターンマイニングに関連するカバレッジベースのヒューリスティックアプローチを探求し、ICP定式化のパレート平衡点に収束することを示す。 実験的にこれらのバックボーンを調べ、ミスを特定し、パフォーマンス、説明、可視化を改善します。 本研究では,BAD(Bird Audio Detection)チャレンジやLFW(Labeled Faces in the Wild)といった難易度の高いデータセットと,従来のMNISTデータを用いて,アプリケーションベースの結果を実証する。

Deep learning is extensively used in many areas of data mining as a black-box method with impressive results. However, understanding the core mechanism of how deep learning makes predictions is a relatively understudied problem. Here we explore the notion of identifying a backbone of deep learning for a given group of instances. A group here can be instances of the same class or even misclassified instances of the same class. We view each instance for a given group as activating a subset of neurons and attempt to find a subgraph of neurons associated with a given concept/group. We formulate this problem as a set cover style problem and show it is intractable and presents a highly constrained integer linear programming (ILP) formulation. As an alternative, we explore a coverage-based heuristic approach related to pattern mining, and show it converges to a Pareto equilibrium point of the ILP formulation. Experimentally we explore these backbones to identify mistakes and improve performance, explanation, and visualization. We demonstrate application-based results using several challenging data sets, including Bird Audio Detection (BAD) Challenge and Labeled Faces in the Wild (LFW), as well as the classic MNIST data.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# AIR-HLoc: 効率的な視覚的ローカライゼーションのための適応的画像検索

AIR-HLoc: Adaptive Image Retrieval for Efficient Visual Localisation ( http://arxiv.org/abs/2403.18281v1 )

ライセンス: Link先を確認
Changkun Liu, Huajian Huang, Zhengyang Ma, Tristan Braud, (参考訳) State-of-the-art (SOTA) 階層的ローカライゼーションパイプライン (HLOC) は、所定のクエリ画像に対して参照画像データベースから$k$の類似画像を選択することで、2D-3D対応を確立するために、画像検索 (IR) 技術に依存している。 より高い$k$は局所化ロバスト性を高めるが、特徴マッチングの計算コストは$k$と直線的に増加する。 本稿では,データベース内の画像に最もよく似たクエリが特徴マッチングの比率が高くなり,より正確な位置決めが可能となることを観察する。 したがって、参照データベース内の画像と非常によく似たクエリには、少数の画像が十分である。 提案手法は,参照画像データベースとの類似性に基づいて,クエリ画像を異なる局所化困難度に分割する手法であるAIR-HLocを提案する。 参照画像との類似性が高い画像は簡単なクエリであり、類似性が低い画像はハードクエリであると考えている。 簡単なクエリは、$k$を増やせば、精度が制限される。 逆に$k$の値が高いと、ハードクエリの精度が大幅に向上する。 簡単なクエリに対する$k$の増加と、ハードクエリに対する大幅な改善により、クエリの難易度レベルに$k$の値を適用することができる。 したがって、AIR-HLocは、クエリと参照画像の類似性に基づいて$k$の異なる値を、精度を損なうことなく適応的に割り当てることで、処理時間を最適化する。 Cambridge Landmarks, 7Scenes, Aachen Day-Night-v1.1データセットに関する広範な実験は、固定画像検索のHLOCと比較してSOTA精度を維持しながら、30\%、26\%、11\%の計算オーバーヘッドを削減し、アルゴリズムの有効性を示した。

State-of-the-art (SOTA) hierarchical localisation pipelines (HLoc) rely on image retrieval (IR) techniques to establish 2D-3D correspondences by selecting the $k$ most similar images from a reference image database for a given query image. Although higher values of $k$ enhance localisation robustness, the computational cost for feature matching increases linearly with $k$. In this paper, we observe that queries that are the most similar to images in the database result in a higher proportion of feature matches and, thus, more accurate positioning. Thus, a small number of images is sufficient for queries very similar to images in the reference database. We then propose a novel approach, AIR-HLoc, which divides query images into different localisation difficulty levels based on their similarity to the reference image database. We consider an image with high similarity to the reference image as an easy query and an image with low similarity as a hard query. Easy queries show a limited improvement in accuracy when increasing $k$. Conversely, higher values of $k$ significantly improve accuracy for hard queries. Given the limited improvement in accuracy when increasing $k$ for easy queries and the significant improvement for hard queries, we adapt the value of $k$ to the query's difficulty level. Therefore, AIR-HLoc optimizes processing time by adaptively assigning different values of $k$ based on the similarity between the query and reference images without losing accuracy. Our extensive experiments on the Cambridge Landmarks, 7Scenes, and Aachen Day-Night-v1.1 datasets demonstrate our algorithm's efficacy, reducing 30\%, 26\%, and 11\% in computational overhead while maintaining SOTA accuracy compared to HLoc with fixed image retrieval.
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# SGDM: 静的ガイド付き動的モジュールはより強力なビジュアルモデルを作る

SGDM: Static-Guided Dynamic Module Make Stronger Visual Models ( http://arxiv.org/abs/2403.18282v1 )

ライセンス: Link先を確認
Wenjie Xing, Zhenchao Cui, Jing Qi, (参考訳) 空間的注意機構は物体検出性能を向上させるために広く利用されている。 しかし、現在その操作は、コンテンツ適応機能を持たない静的畳み込みに限られている。 本稿では動的畳み込みの観点から革新的にアプローチする。 動的重み畳み込みの2つの欠陥に対処するため,Razor Dynamic Convolution (RDConv)を提案する。 1) 計算量である。 2)重量が発生すると、空間情報は無視される。 まず,特定の特徴を生成するためにRazor Operationを使用することで,動的畳み込み操作全体のパラメータを大幅に削減する。 次に,より豊かな空間情報を持つ畳み込みカーネルパラメータを生成するために,RDConvの内部に空間分岐を追加した。 動的畳み込みを埋め込むことは、高周波ノイズに対する感度の問題を引き起こす。 この制限に対処する静的誘導動的モジュール(SGDM)を提案する。 SGDMを用いて,非対称な静的畳み込みカーネルパラメータを用いて動的畳み込みの構成を導出する。 本稿では,高周波雑音に敏感な動的畳み込みの問題を解決するため,静的畳み込みにおける共有重み付け機構を提案する。 SGDMを装着した複数の異なる物体検出バックボーンは、VOC上のYOLOv5nで4% mAP、COCO上のYOLOv8nで+1.7% mAP、無視可能なパラメータの増加(例えば、YOLOv5nで+0.33M、YOLOv8nで+0.19M)により高い競争力を発揮する。

The spatial attention mechanism has been widely used to improve object detection performance. However, its operation is currently limited to static convolutions lacking content-adaptive features. This paper innovatively approaches from the perspective of dynamic convolution. We propose Razor Dynamic Convolution (RDConv) to address thetwo flaws in dynamic weight convolution, making it hard to implement in spatial mechanism: 1) it is computation-heavy; 2) when generating weights, spatial information is disregarded. Firstly, by using Razor Operation to generate certain features, we vastly reduce the parameters of the entire dynamic convolution operation. Secondly, we added a spatial branch inside RDConv to generate convolutional kernel parameters with richer spatial information. Embedding dynamic convolution will also bring the problem of sensitivity to high-frequency noise. We propose the Static-Guided Dynamic Module (SGDM) to address this limitation. By using SGDM, we utilize a set of asymmetric static convolution kernel parameters to guide the construction of dynamic convolution. We introduce the mechanism of shared weights in static convolution to solve the problem of dynamic convolution being sensitive to high-frequency noise. Extensive experiments illustrate that multiple different object detection backbones equipped with SGDM achieve a highly competitive boost in performance(e.g., +4% mAP with YOLOv5n on VOC and +1.7% mAP with YOLOv8n on COCO) with negligible parameter increase(i.e., +0.33M on YOLOv5n and +0.19M on YOLOv8n).
翻訳日:2024-03-28 18:16:31 公開日:2024-03-27
# PT対称動的閉じ込め-フェルミ加速、量子力、ベリー相

PT-symmetric dynamical confinement: Fermi acceleration, quantum force and Berry phase ( http://arxiv.org/abs/2403.18283v1 )

ライセンス: Link先を確認
S. Rakhmanov, C. Trunk, M. Znojil, D. Matrasulov, (参考訳) 移動壁を有するPT対称ボックスによって引き起こされる動的閉じ込めの下での量子粒子について考察する。 後者は、時間依存の PT-対称境界条件に従う時依存の Schr\"{o}dinger 方程式の項で記述される。 関数のクラスは、壁の位置の時間依存性を記述し、システムをPT対称に保つ。 平均運動エネルギーや平均量子力などの物理的に観測可能な特性は時間の関数として計算される。 また、調和振動する壁面状態に対して幾何位相を算出する。 提案モデルの実験的実現について論じる。

We consider a quantum particle under the dynamical confinement caused by PT-symmetric box with a moving wall. The latter is described in terms of the time-dependent Schr\"{o}dinger equation obeying the time-dependent PT-symmetric boundary conditions. The class of the functions, describing time-dependence of the wall's position and keeping the system as PT-symmetric is found. Physically observable characteristics, such as average kinetic energy and the average quantum force are calculated as a function of time. Also, geometric phase is calculated for the harmonically oscillating wall regime. Experimental realization of the proposed model is discussed.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 言語モデルの簡単な再校正

Few-Shot Recalibration of Language Models ( http://arxiv.org/abs/2403.18286v1 )

ライセンス: Link先を確認
Xiang Lisa Li, Urvashi Khandelwal, Kelvin Guu, (参考訳) 最近の研究は、言語モデル(LM)から、そのモデルの信頼度スコアがどの程度正確であるかを反映した、よく校正された信頼推定を抽出する有望な方法を明らかにしている。 しかし、LMは広い分布に対してよく校正されているように見えるが、これはしばしばより狭いスライス内で重大な誤校正を隠蔽する(例えば、数学における体系的な過信は、歴史における体系的な過信を均衡させ、集合における完全な校正をもたらす)。 分布の任意のスライスに対する確実な信頼度推定を実現するために,スライス固有再校正のための新しいフレームワークを提案する。 具体的には、任意のスライスからラベルのないいくつかの例を取り入れたリカレーションモデルをトレーニングし、信頼度スコアをそのスライスに対してより正確なものに再マップする曲線を予測する。 我々の訓練されたモデルは、そのスライスからラベル付きデータを使わずに、任意の新しいスライスのために再調整できる。 これにより、LMの予測が信頼できる上述のドメイン固有の信頼しきい値を特定でき、その下にあるものは無視できる。 実験の結果, 従来のキャリブレーション法に比べて, MMLU上のPaLM2-Largeのキャリブレーション誤差が16%向上するなど, 従来のキャリブレーション法よりも常に優れていることがわかった。

Recent work has uncovered promising ways to extract well-calibrated confidence estimates from language models (LMs), where the model's confidence score reflects how likely it is to be correct. However, while LMs may appear well-calibrated over broad distributions, this often hides significant miscalibration within narrower slices (e.g., systemic over-confidence in math can balance out systemic under-confidence in history, yielding perfect calibration in aggregate). To attain well-calibrated confidence estimates for any slice of a distribution, we propose a new framework for few-shot slice-specific recalibration. Specifically, we train a recalibration model that takes in a few unlabeled examples from any given slice and predicts a curve that remaps confidence scores to be more accurate for that slice. Our trained model can recalibrate for arbitrary new slices, without using any labeled data from that slice. This enables us to identify domain-specific confidence thresholds above which the LM's predictions can be trusted, and below which it should abstain. Experiments show that our few-shot recalibrator consistently outperforms existing calibration methods, for instance improving calibration error for PaLM2-Large on MMLU by 16%, as compared to temperature scaling.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 非経験的半監督型クラスインクリメンタルラーニングを目指して

Towards Non-Exemplar Semi-Supervised Class-Incremental Learning ( http://arxiv.org/abs/2403.18291v1 )

ライセンス: Link先を確認
Wenzhuo Liu, Fei Zhu, Cheng-Lin Liu, (参考訳) ディープニューラルネットワークは、近世界のシナリオで驚くほどよく機能する。 しかし、新しいクラスは実際のアプリケーションで継続的に現れ、漸進的に学ぶ必要がある。 クラスインクリメンタルラーニング(CIL)は,古いクラスを識別しやすくしながら,新しいクラスを徐々に認識することを目的としている。 既存のCIL手法には2つの制限がある: 緩和を忘れるために古いデータを保存することへの強い依存と、知識適応のための巨大なラベル付きデータの必要性である。 これらの課題を克服するために、コントラスト学習と半教師付きインクリメンタルプロトタイプ分類器(Semi-IPC)を備えた、非経験的半教師付きCILフレームワークを提案する。 一方、対照的な学習は、モデルがリッチな表現を学習し、新しいクラスの学習表現と古いクラスの学習表現とのトレードオフを緩和するのに役立つ。 一方、Semi-IPCは教師なし正規化で各クラスのプロトタイプを学習し、古いクラスの知識を維持しながら、部分的にラベル付けされた新しいデータから段階的に学習することができる。 従来のサンプルを保存せず、ラベルの1%未満しか使用せず、Semi-IPCは先進的な例に基づく手法よりも優れています。 私たちの研究が将来のCIL研究に新たな洞察を与えてくれることを願っています。 コードは公開されます。

Deep neural networks perform remarkably well in close-world scenarios. However, novel classes emerged continually in real applications, making it necessary to learn incrementally. Class-incremental learning (CIL) aims to gradually recognize new classes while maintaining the discriminability of old ones. Existing CIL methods have two limitations: a heavy reliance on preserving old data for forgetting mitigation and the need for vast labeled data for knowledge adaptation. To overcome these issues, we propose a non-exemplar semi-supervised CIL framework with contrastive learning and semi-supervised incremental prototype classifier (Semi-IPC). On the one hand, contrastive learning helps the model learn rich representations, easing the trade-off between learning representations of new classes and forgetting that of old classes. On the other hand, Semi-IPC learns a prototype for each class with unsupervised regularization, enabling the model to incrementally learn from partially labeled new data while maintaining the knowledge of old classes. Experiments on benchmark datasets demonstrate the strong performance of our method: without storing any old samples and only using less than 1% of labels, Semi-IPC outperforms advanced exemplar-based methods. We hope our work offers new insights for future CIL research. The code will be made publicly available.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 視覚言語モデルの効率的なテスト時間適応

Efficient Test-Time Adaptation of Vision-Language Models ( http://arxiv.org/abs/2403.18293v1 )

ライセンス: Link先を確認
Adilbek Karmanov, Dayan Guan, Shijian Lu, Abdulmotaleb El Saddik, Eric Xing, (参考訳) 事前学習された視覚言語モデルによるテスト時間適応は、テスト時間中に分散シフトに取り組むことに注目が集まっている。 以前の研究では、非常に有望な性能を達成しているが、それらはテスト時間適応と大きく一致しない集中的な計算に関係している。 我々は、視覚言語モデルによる効率的なテスト時間適応を可能にするトレーニングフリーな動的アダプタであるTDAを設計する。 TDAは、数ショットの擬似ラベルを値として、対応するテストサンプル機能をキーとして持つ動的キューを維持する軽量なキーバリューキャッシュで動作する。 キー値キャッシュを利用することで、TDAは、バックプロパゲーションを発生させることなく、超効率のプログレッシブな擬似ラベルリファインメントを通じて、データを徐々にテストできる。 さらに、擬似ラベル予測が不確実な場合には、擬似ラベルを特定の負のクラスに割り当てることにより、擬似ラベルノイズの悪影響を軽減する負の擬似ラベル付けを導入する。 2つのベンチマークに対する大規模な実験は、TDAの優れた効率と効率を最先端と比較して示している。 コードは \url{https://kdiaaa.github.io/tda/} でリリースされた。

Test-time adaptation with pre-trained vision-language models has attracted increasing attention for tackling distribution shifts during the test time. Though prior studies have achieved very promising performance, they involve intensive computation which is severely unaligned with test-time adaptation. We design TDA, a training-free dynamic adapter that enables effective and efficient test-time adaptation with vision-language models. TDA works with a lightweight key-value cache that maintains a dynamic queue with few-shot pseudo labels as values and the corresponding test-sample features as keys. Leveraging the key-value cache, TDA allows adapting to test data gradually via progressive pseudo label refinement which is super-efficient without incurring any backpropagation. In addition, we introduce negative pseudo labeling that alleviates the adverse impact of pseudo label noises by assigning pseudo labels to certain negative classes when the model is uncertain about its pseudo label predictions. Extensive experiments over two benchmarks demonstrate TDA's superior effectiveness and efficiency as compared with the state-of-the-art. The code has been released in \url{https://kdiaaa.github.io/tda/}.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 画像分類のためのマルチスケール統一ネットワーク

Multi-scale Unified Network for Image Classification ( http://arxiv.org/abs/2403.18294v1 )

ライセンス: Link先を確認
Wenzhuo Liu, Fei Zhu, Cheng-Lin Liu, (参考訳) 畳み込みニューラルネットワーク(CNN)は視覚的表現学習と認識において大きく進歩している。 しかし、実世界のマルチスケール画像入力を扱う際には、性能と計算効率において顕著な課題に直面している。 従来の方法では、全ての入力画像を固定サイズに再スケールし、より大きな固定サイズでは性能が好まれるが、小さなサイズではデジタル化ノイズが増大し、計算コストが増大する。 本研究では,CKA(Centered Kernel Alignment)分析に基づいて,CNNモデルのスケール変動に対する包括的,階層的検討を行う。 その結果,低層は高層層よりも入力画像スケールの変動に敏感であることが判明した。 この知見に触発されて、マルチスケールサブネット、統一ネットワーク、スケール不変制約からなるマルチスケール統一ネットワーク(MUSN)を提案する。 提案手法は,浅層層をマルチスケールサブネットに分割することで,マルチスケール入力からの特徴抽出を実現し,低レベル特徴を深層に統一して高レベルの意味的特徴を抽出する。 スケール不変の制約は、異なるスケールにわたる機能の一貫性を維持するために置かれる。 ImageNetや他の大規模分散データセットに関する大規模な実験は、MSUNがモデル性能と計算効率の両方において大幅な改善を達成していることを示している。 特にMSUNは44.53%まで精度を上げ、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。

Convolutional Neural Networks (CNNs) have advanced significantly in visual representation learning and recognition. However, they face notable challenges in performance and computational efficiency when dealing with real-world, multi-scale image inputs. Conventional methods rescale all input images into a fixed size, wherein a larger fixed size favors performance but rescaling small size images to a larger size incurs digitization noise and increased computation cost. In this work, we carry out a comprehensive, layer-wise investigation of CNN models in response to scale variation, based on Centered Kernel Alignment (CKA) analysis. The observations reveal lower layers are more sensitive to input image scale variations than high-level layers. Inspired by this insight, we propose Multi-scale Unified Network (MUSN) consisting of multi-scale subnets, a unified network, and scale-invariant constraint. Our method divides the shallow layers into multi-scale subnets to enable feature extraction from multi-scale inputs, and the low-level features are unified in deep layers for extracting high-level semantic features. A scale-invariant constraint is posed to maintain feature consistency across different scales. Extensive experiments on ImageNet and other scale-diverse datasets, demonstrate that MSUN achieves significant improvements in both model performance and computational efficiency. Particularly, MSUN yields an accuracy increase up to 44.53% and diminishes FLOPs by 7.01-16.13% in multi-scale scenarios.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 数学的推論のための大規模言語モデルを用いたデュアルインストラクションチューニング

Dual Instruction Tuning with Large Language Models for Mathematical Reasoning ( http://arxiv.org/abs/2403.18295v1 )

ライセンス: Link先を確認
Yongwei Zhou, Tiejun Zhao, (参考訳) 近年の進歩は、Chain-of-Thought(CoT)データを利用した大規模言語モデル(LLM)による命令チューニングの成功を強調している。 微調整のLLMにもかかわらず、CoT生成の誤り、欠落、冗長なステップといった課題が続き、回答予測の不正確さにつながった。 この問題を軽減するために,前方方向と逆方向の両方から数学的推論を正確にモデル化する2つの命令チューニング戦略を提案する。 これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。 これらのタスクのトレーニングインスタンスは、既存の数学的インストラクションチューニングデータセットに基づいて構築される。 その後、LLMは既存の数学的命令と新たに作成されたデータの両方を用いてマルチタスクの微調整を行う。 総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。

Recent advancements highlight the success of instruction tuning with large language models (LLMs) utilizing Chain-of-Thought (CoT) data for mathematical reasoning tasks. Despite the fine-tuned LLMs, challenges persist, such as incorrect, missing, and redundant steps in CoT generation leading to inaccuracies in answer predictions. To alleviate this problem, we propose a dual instruction tuning strategy to meticulously model mathematical reasoning from both forward and reverse directions. This involves introducing the Intermediate Reasoning State Prediction task (forward reasoning) and the Instruction Reconstruction task (reverse reasoning) to enhance the LLMs' understanding and execution of instructions. Training instances for these tasks are constructed based on existing mathematical instruction tuning datasets. Subsequently, LLMs undergo multi-task fine-tuning using both existing mathematical instructions and the newly created data. Comprehensive experiments validate the effectiveness and domain generalization of the dual instruction tuning strategy across various mathematical reasoning tasks.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# GeNet: グラフニューラルネットワークによるタスク指向セマンティック通信パラダイム

GeNet: A Graph Neural Network-based Anti-noise Task-Oriented Semantic Communication Paradigm ( http://arxiv.org/abs/2403.18296v1 )

ライセンス: Link先を確認
Chunhang Zheng, Kechao Cai, (参考訳) 意味コミュニケーションタスクに対する従来のアプローチは、チャネルノイズを軽減するためにSNR(Signal-to-Noise ratio)の知識に依存していた。 しかし、これらの方法は特定のSNR条件下での訓練を必要とし、かなりの時間と計算資源を必要とする。 本稿では,ノイズ対策を目的とした意味コミュニケーションのためのグラフニューラルネットワーク(GNN)に基づくパラダイムであるGeNetを提案し,タスク指向通信(TOC)を容易にする。 入力データイメージをグラフ構造に変換する新しい手法を提案する。 そして、GNNベースのエンコーダを利用して、ソースデータから意味情報を抽出する。 この抽出された意味情報はチャネルを介して送信される。 受信側の最後には、GNNベースのデコーダを使用して、TOCのソースデータから関連する意味情報を再構成する。 実験により,SNR依存性を疎結合化しながら,アンチノイズTOCにおけるGeNetの有効性を示す。 さらに,ノード数を変えてGeNetの性能を評価し,その汎用性を意味コミュニケーションの新しいパラダイムとして明らかにした。 さらに,GeNetの幾何変換に対する頑健さを,データ拡張に頼ることなく,異なる回転角度でテストすることで示す。

Traditional approaches to semantic communication tasks rely on the knowledge of the signal-to-noise ratio (SNR) to mitigate channel noise. However, these methods necessitate training under specific SNR conditions, entailing considerable time and computational resources. In this paper, we propose GeNet, a Graph Neural Network (GNN)-based paradigm for semantic communication aimed at combating noise, thereby facilitating Task-Oriented Communication (TOC). We propose a novel approach where we first transform the input data image into graph structures. Then we leverage a GNN-based encoder to extract semantic information from the source data. This extracted semantic information is then transmitted through the channel. At the receiver's end, a GNN-based decoder is utilized to reconstruct the relevant semantic information from the source data for TOC. Through experimental evaluation, we show GeNet's effectiveness in anti-noise TOC while decoupling the SNR dependency. We further evaluate GeNet's performance by varying the number of nodes, revealing its versatility as a new paradigm for semantic communication. Additionally, we show GeNet's robustness to geometric transformations by testing it with different rotation angles, without resorting to data augmentation.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 出力場における光子遮断のスケーリング促進

Scaling Enhancement of Photon Blockade in Output Fields ( http://arxiv.org/abs/2403.18299v1 )

ライセンス: Link先を確認
Zhi-Hao Liu, Xun-Wei Xu, (参考訳) 光子遮断の増強はエキサイティングで有望な主題であり、空洞の光子に対してよく研究されている。 しかし、出力場において光子遮断が強化されるか否かは、未解明のままである。 非線形キャビティと補助キャビティの直接結合が不要な,非線形キャビティと補助キャビティの混合出力場において,光子遮断を大幅に向上させることができることを示す。 非線形キャビティ内の光子の2次スケーリング関係とは対照的に,出力場における光子の2次相関とキャビティ内非線形相互作用強度の2次スケーリング関係を明らかにする。 出力場におけるこの光子遮断の増大は、2つの光子が2つの空洞を通過するときの2つの経路間の破壊的干渉によって引き起こされる。 次に、2つの未結合キャビティの1つに強く結合された2レベルシステムからなる実験可能なJaynes-Cummingsモデルに理論を拡張し、混合出力場における2次スケーリング則を予測する。 提案手法は普遍的であり,他のボゾン系における閉塞性を高めるために拡張可能である。

Photon blockade enhancement is an exciting and promising subject that has been well studied for photons in cavities. However, whether photon blockade can be enhanced in the output fields remains largely unexplored. We show that photon blockade can be greatly enhanced in the mixing output field of a nonlinear cavity and an auxiliary (linear) cavity, where no direct coupling between the nonlinear and auxiliary cavities is needed. We uncover a biquadratic scaling relation between the second-order correlation of the photons in the output field and intracavity nonlinear interaction strength, in contrast to a quadratic scaling relation for the photons in a nonlinear cavity. We identify that this scaling enhancement of photon blockade in the output field is induced by the destructive interference between two of the paths for two photons passing through the two cavities. We then extend the theory to the experimentally feasible Jaynes-Cummings model consisting of a two-level system strongly coupled to one of the two uncoupled cavities, and also predict a biquadratic scaling law in the mixing output field. Our proposed scheme is universal and can be extended to enhance blockade in other bosonic systems.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# HotStuff-2 vs. HotStuff: 違いと利点

HotStuff-2 vs. HotStuff: The Difference and Advantage ( http://arxiv.org/abs/2403.18300v1 )

ライセンス: Link先を確認
Siyuan Zhao, Yanqi Wu, Zheng Wang, (参考訳) ブロックチェーン技術では、ビザンチンのコンセンサスプロトコルが不可欠だ。 広く認識されているHotStuffプロトコルは、効率的なビュー変更と通信の複雑さの低減に暗号測度を使用する。 最近、HotStuffの主な著者は、HotStuff-2という高度なイテレーションを導入した。 本稿では,両プロトコルの原理を比較し,その有効性を解析し,それらの重要な違いを表現し,HotStuff-2による潜在的な拡張性を評価することを目的とする。

Byzantine consensus protocols are essential in blockchain technology. The widely recognized HotStuff protocol uses cryptographic measures for efficient view changes and reduced communication complexity. Recently, the main authors of HotStuff introduced an advanced iteration named HotStuff-2. This paper aims to compare the principles and analyze the effectiveness of both protocols, hoping to depict their key differences and assess the potential enhancements offered by HotStuff-2.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 非分解性物体の最適化のための選択混合微調整法

Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives ( http://arxiv.org/abs/2403.18301v1 )

ライセンス: Link先を確認
Shrinivas Ramasubramanian, Harsh Rangwani, Sho Takemori, Kunal Samanta, Yuhei Umeda, Venkatesh Babu Radhakrishnan, (参考訳) インターネット利用の増加により大量のデータが生成されるようになり、様々な教師付きおよび半教師付き機械学習アルゴリズムが採用され、モデルのトレーニングに膨大な量のデータを効果的に利用できるようになった。 しかし、これらのモデルを現実に展開する前には、最悪のケースリコールやフェアネスなどの制約を満たすようなパフォーマンス対策を厳格に評価する必要がある。 現在の最先端の実証技術は、これらの実用的で非分解不能なパフォーマンス目標に対して、準最適性能を提供する。 一方、理論的な手法では、各パフォーマンス目標に対して、スクラッチから新しいモデルをトレーニングする必要がある。 このギャップを埋めるため,選択型混合モデルのための安価な微調整技術であるSelMixを提案し,その目的を最適化する。 フレームワークの中核となる考え方は、サンプリング分布を決定し、与えられた目的を最適化するように、特定のクラスからのサンプル間の機能の混合を実行することです。 不均衡な分類のための標準ベンチマークデータセットにおいて、既存の経験的および理論的に原則化された手法に対して、我々の手法を包括的に評価する。 提案したSelMixファインタニングにより,ベンチマーク間での様々な非分解性目標の性能が大幅に向上することがわかった。

The rise in internet usage has led to the generation of massive amounts of data, resulting in the adoption of various supervised and semi-supervised machine learning algorithms, which can effectively utilize the colossal amount of data to train models. However, before deploying these models in the real world, these must be strictly evaluated on performance measures like worst-case recall and satisfy constraints such as fairness. We find that current state-of-the-art empirical techniques offer sub-optimal performance on these practical, non-decomposable performance objectives. On the other hand, the theoretical techniques necessitate training a new model from scratch for each performance objective. To bridge the gap, we propose SelMix, a selective mixup-based inexpensive fine-tuning technique for pre-trained models, to optimize for the desired objective. The core idea of our framework is to determine a sampling distribution to perform a mixup of features between samples from particular classes such that it optimizes the given objective. We comprehensively evaluate our technique against the existing empirical and theoretically principled methods on standard benchmark datasets for imbalanced classification. We find that proposed SelMix fine-tuning significantly improves the performance for various practical non-decomposable objectives across benchmarks.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# SDO/HMIデータと注意支援畳み込みニューラルネットワークを用いた太陽活動領域のSOHO/MDI磁図の超解像

Super-Resolution of SOHO/MDI Magnetograms of Solar Active Regions Using SDO/HMI Data and an Attention-Aided Convolutional Neural Network ( http://arxiv.org/abs/2403.18302v1 )

ライセンス: Link先を確認
Chunhui Xu, Jason T. L. Wang, Haimin Wang, Haodi Jiang, Qin Li, Yasser Abduallah, Yan Xu, (参考訳) 画像超解像は画像処理と認識において重要な課題である。 本稿では、太陽画像超解像のための注意支援畳み込みニューラルネットワーク(CNN)を提案する。 SolarCNNと呼ばれるこの手法は、太陽・半球観測衛星(SOHO)に搭載されたMichelson Doppler Imager(MDI)によって収集された太陽活動領域(AR)のLOS(Line-of-sight)磁図の品質を高めることを目的としている。 ソーラーCNNのトレーニングに使用される地中構造ラベルは、ソーラー・ダイナミクス・オブザーバ (SDO) に搭載されたHelioseismic and Magnetic Imager (HMI) が収集したLOSマグネティックグラムである。 太陽のARは強い磁場で構成されており、太陽フレアやコロナ質量放出、太陽エネルギー粒子のような極端な宇宙の気象現象を発生させるために、突如、磁気エネルギーを放出することができる。 SOHO/MDIは、ソーラーサイクル23をカバーしており、サイクル24より噴火的な事象が多い。 改良されたSOHO/MDIマグネティックグラムは、宇宙気象の激しい出来事をよりよく理解し予測することができる。 実験の結果,SolarCNNは構造類似度指数測定(SSIM),ピアソン相関係数(PCC),ピーク信号-雑音比(PSNR)の観点から,SOHO/MDIマグネティックグラムの品質を向上させることが示された。

Image super-resolution has been an important subject in image processing and recognition. Here, we present an attention-aided convolutional neural network (CNN) for solar image super-resolution. Our method, named SolarCNN, aims to enhance the quality of line-of-sight (LOS) magnetograms of solar active regions (ARs) collected by the Michelson Doppler Imager (MDI) on board the Solar and Heliospheric Observatory (SOHO). The ground-truth labels used for training SolarCNN are the LOS magnetograms collected by the Helioseismic and Magnetic Imager (HMI) on board the Solar Dynamics Observatory (SDO). Solar ARs consist of strong magnetic fields in which magnetic energy can suddenly be released to produce extreme space weather events, such as solar flares, coronal mass ejections, and solar energetic particles. SOHO/MDI covers Solar Cycle 23, which is stronger with more eruptive events than Cycle 24. Enhanced SOHO/MDI magnetograms allow for better understanding and forecasting of violent events of space weather. Experimental results show that SolarCNN improves the quality of SOHO/MDI magnetograms in terms of the structural similarity index measure (SSIM), Pearson's correlation coefficient (PCC), and the peak signal-to-noise ratio (PSNR).
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 銅酸化物中の励起子の古典力学と半古典的解析

Classical dynamics and semiclassical analysis of excitons in cuprous oxide ( http://arxiv.org/abs/2403.18303v1 )

ライセンス: Link先を確認
Jan Ertl, Michael Marquardt, Moritz Schumacher, Patric Rommel, Jörg Main, Manfred Bayer, (参考訳) 励起体は電子とホールの境界状態として水素原子の固体類似体を具現化し、その量子スペクトルはボーア・ソマーフェルト原子モデルによって古典的な枠組みの中で説明される。 最初の水素様近似では、励起子のスペクトルはライドバーグ級数でもよく説明されるが、この級数からの周囲の結晶環境のずれが観察できる。 立方体酸化物中の励起子の理論的処理には、結晶のバンド構造を含める必要があり、量子スペクトルにおいて顕著な微細構造が分裂する。 これは系に追加の自由度を導入することで達成され、物理系における古典的な励起子軌道の存在と有意義性は非自明な問題である。 近年,酸化銅の量子力学的再帰スペクトル(J. Ertl et al , Phys. Lett. Lev. 19, 067401 (2022)) における周期的励起子軌道の寄与が,水素様の場合の原理量子数$n=5$に対応する値に古典力学のエネルギーを固定することによって明らかになった。 ここでは、銅酸化物中の励起子の古典的および半古典的理論の包括的導出を示す。 特に,エキシトンダイナミクスのエネルギー依存性について検討する。 半古典的および量子的機械的再帰スペクトルは、スピン軌道結合の影響が増大し、エキシトン軌道の世俗運動の速度が上昇することと関連して、水素のような挙動からエネルギーを減少させることによってより強い偏差を示す。 半古典的および量子力学的エクシトン再帰スペクトルの優れた一致は、古典的および半古典的エクシトンによる酸化銅中のエクシトンへのアプローチの有効性を示す。

Excitons, as bound states of electrons and holes, embody the solid state analogue of the hydrogen atom, whose quantum spectrum is explained within a classical framework by the Bohr-Sommerfeld atomic model. In a first hydrogenlike approximation the spectra of excitons are also well described by a Rydberg series, however, due to the surrounding crystal environment deviations from this series can be observed. A theoretical treatment of excitons in cuprous oxide needs to include the band structure of the crystal, leading to a prominent fine-structure splitting in the quantum spectra. This is achieved by introducing additional spin degrees of freedom into the system, making the existence and meaningfulness of classical exciton orbits in the physical system a non-trivial question. Recently, we have uncovered the contributions of periodic exciton orbits directly in the quantum mechanical recurrence spectra of cuprous oxide [J. Ertl et al., Phys. Rev. Lett. 129, 067401 (2022)] by application of a scaling technique and fixing the energy of the classical dynamics to a value corresponding to a principle quantum number $n=5$ in the hydrogenlike case. Here, we present a comprehensive derivation of the classical and semiclassical theory of excitons in cuprous oxide. In particular, we investigate the energy dependence of the exciton dynamics. Both the semiclassical and quantum mechanical recurrence spectra exhibit stronger deviations from the hydrogenlike behavior with decreasing energy, which is related to a growing influence of the spin-orbit coupling and thus a higher velocity of the secular motion of the exciton orbits. The excellent agreement between semiclassical and quantum mechanical exciton recurrence spectra demonstrates the validity of the classical and semiclassical approach to excitons in cuprous oxide.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# アイテム特徴を有するNFT集合体のためのレコメンダシステム

A Recommender System for NFT Collectibles with Item Feature ( http://arxiv.org/abs/2403.18305v1 )

ライセンス: Link先を確認
Minjoo Choi, Seonmi Kim, Yejin Kim, Youngbin Lee, Joohwan Hong, Yongjae Lee, (参考訳) 情報過負荷に対処するため,様々な領域でレコメンダシステムの研究や適用が活発に行われている。 映画、音楽、電子商取引のレコメンダシステムに関する研究は多いが、NFT市場の継続的な成長にもかかわらず、NFTのレコメンダシステムには比較的注意が払われていない。 本稿では,NFT取引記録から外部項目特徴に至るまで,さまざまなデータソースを利用するNFTを対象としたレコメンデーションシステムを提案し,個別の嗜好に適合する正確なレコメンデーションを生成する。 我々は,各項目とユーザ間の複雑な関係を効率的に把握し,ノードの特徴情報とグラフ構造の両方を組み込んだノード(item)埋め込みを生成する,データ効率のよいグラフベースレコメンデータシステムを開発した。 さらに,画像機能やテキスト機能,価格機能など,ユーザとイテムのインタラクション以外のインプットも活用する。 数値実験により,全ての項目の特徴を副次情報として利用した上で,グラフベースレコメンデータシステムの性能が著しく向上することを確認した。

Recommender systems have been actively studied and applied in various domains to deal with information overload. Although there are numerous studies on recommender systems for movies, music, and e-commerce, comparatively less attention has been paid to the recommender system for NFTs despite the continuous growth of the NFT market. This paper presents a recommender system for NFTs that utilizes a variety of data sources, from NFT transaction records to external item features, to generate precise recommendations that cater to individual preferences. We develop a data-efficient graph-based recommender system to efficiently capture the complex relationship between each item and users and generate node(item) embeddings which incorporate both node feature information and graph structure. Furthermore, we exploit inputs beyond user-item interactions, such as image feature, text feature, and price feature. Numerical experiments verify the performance of the graph-based recommender system improves significantly after utilizing all types of item features as side information, thereby outperforming all other baselines.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# ベイジアンの学習したモデルは、敵のマルウェアを無料で検出できる

Bayesian Learned Models Can Detect Adversarial Malware For Free ( http://arxiv.org/abs/2403.18309v1 )

ライセンス: Link先を確認
Bao Gia Doan, Dang Quang Nguyen, Paul Montague, Tamas Abraham, Olivier De Vel, Seyit Camtepe, Salil S. Kanhere, Ehsan Abbasnejad, Damith C. Ranasinghe, (参考訳) 機械学習ベースのマルウェア検知器の敵攻撃に対する脆弱性は、堅牢なソリューションの必要性を引き起こしている。 敵対的トレーニングは効果的な手法であるが、大規模なデータセットにスケールアップするには計算コストがかかり、堅牢性のためにモデル性能を犠牲にするコストがかかる。 我々は、敵のマルウェアがモデルの低信頼領域を悪用し、MLアプローチの疫学的不確実性を用いて識別できるという仮説を立てる。 特にベイズ的定式化はモデルパラメータの分布を捉えることができ、モデル性能を犠牲にすることなく、てんかんの不確かさを定量化することができる。 本仮説を検証するために,不確実性を定量化し,Android,Windowsドメイン,PDFマルウェアの敵マルウェアを検出するために,相互情報に基づく定式化によるベイズ学習手法を検討する。 ベイズ学習法で不確実性を定量化することで、敵のマルウェアを防御できることがわかった。 特にベイジアンモデルでは,(1)特徴空間と問題空間の両方で敵のマルウェアを識別し,(2)不確実性を測定することによって概念の漂流を検知し,(3)多様性向上アプローチ(あるいは後部近似)によって後方からのパラメータのインスタンスを誘導し,検出者の能力を著しく向上する。

The vulnerability of machine learning-based malware detectors to adversarial attacks has prompted the need for robust solutions. Adversarial training is an effective method but is computationally expensive to scale up to large datasets and comes at the cost of sacrificing model performance for robustness. We hypothesize that adversarial malware exploits the low-confidence regions of models and can be identified using epistemic uncertainty of ML approaches -- epistemic uncertainty in a machine learning-based malware detector is a result of a lack of similar training samples in regions of the problem space. In particular, a Bayesian formulation can capture the model parameters' distribution and quantify epistemic uncertainty without sacrificing model performance. To verify our hypothesis, we consider Bayesian learning approaches with a mutual information-based formulation to quantify uncertainty and detect adversarial malware in Android, Windows domains and PDF malware. We found, quantifying uncertainty through Bayesian learning methods can defend against adversarial malware. In particular, Bayesian models: (1) are generally capable of identifying adversarial malware in both feature and problem space, (2) can detect concept drift by measuring uncertainty, and (3) with a diversity-promoting approach (or better posterior approximations) lead to parameter instances from the posterior to significantly enhance a detectors' ability.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 短繊維/高分子ナノコンポジットの熱力学的一貫した物理インフォームド深層学習材料モデル

A thermodynamically consistent physics-informed deep learning material model for short fiber/polymer nanocomposites ( http://arxiv.org/abs/2403.18310v1 )

ライセンス: Link先を確認
Betim Bahtiri, Behrouz Arash, Sven Scheffler, Maximilian Jux, Raimund Rolfes, (参考訳) 本研究では, 種々の環境条件下での短繊維強化ナノ粒子充填エポキシスの粘弾性・粘弾性挙動を解析するための物理インフォームド・ディープ・ラーニング(PIDL)を用いた構成モデルを提案する。 ディープラーニングモデルは熱力学の原理を強制するために訓練され、熱力学的に一貫した構成モデルをもたらす。 これを実現するために、長い短期記憶ネットワークとフィードフォワードニューラルネットワークを組み合わせることで、ナノコンポジット材料の内部散逸を特徴づけるために必要な内部変数を予測する。 さらに、別のフィードフォワードニューラルネットワークを使用して、システム全体の熱力学状態を定義する自由エネルギー関数を示す。 PIDLモデルは,古典的な構成モデルから合成データを生成することによって,3次元ケース向けに開発された。 次に、循環負荷アンロード実験からデータを直接抽出することで、モデルを訓練する。 数値実験により, PIDLモデルにより, 種々の熱水条件下での繊維およびナノ粒子の体積分画に対するエポキシ系ナノコンポジットの力学的挙動を正確に予測できることが示された。

This work proposes a physics-informed deep learning (PIDL)-based constitutive model for investigating the viscoelastic-viscoplastic behavior of short fiber-reinforced nanoparticle-filled epoxies under various ambient conditions. The deep-learning model is trained to enforce thermodynamic principles, leading to a thermodynamically consistent constitutive model. To accomplish this, a long short-term memory network is combined with a feed-forward neural network to predict internal variables required for characterizing the internal dissipation of the nanocomposite materials. In addition, another feed-forward neural network is used to indicate the free-energy function, which enables defining the thermodynamic state of the entire system. The PIDL model is initially developed for the three-dimensional case by generating synthetic data from a classical constitutive model. The model is then trained by extracting the data directly from cyclic loading-unloading experimental tests. Numerical examples show that the PIDL model can accurately predict the mechanical behavior of epoxy-based nanocomposites for different volume fractions of fibers and nanoparticles under various hygrothermal conditions.
翻訳日:2024-03-28 18:06:46 公開日:2024-03-27
# 中国語の攻撃的言語検出:現状と今後の方向性

Chinese Offensive Language Detection:Current Status and Future Directions ( http://arxiv.org/abs/2403.18314v1 )

ライセンス: Link先を確認
Yunze Xiao, Houda Bouamor, Wajdi Zaghouani, (参考訳) ソーシャルメディアプラットフォーム上でユーザー生成コンテンツを監視・規制するためのかなりの努力にもかかわらず、ヘイトスピーチやサイバーいじめのような攻撃的な言語がデジタル空間に広まることは大きな課題である。 文明化され、尊敬されるオンライン環境を維持することの重要性を考えると、攻撃的な音声をリアルタイムで検出できる自動システムの必要性は急速に高まっている。 しかし、中国語などの言語処理に有効なシステムを開発することは、言語が複雑でニュアンスに富んだ性質のため重要な課題であり、自動処理が困難である。 本稿では、中国語における攻撃的言語検出の総合的な概要、現在のベンチマークとアプローチ、この複雑な言語における攻撃的言語検出の独特な課題に対処するための特定のモデルとツールの強調について述べる。 本調査の主な目的は,中国語の文化的・言語的複雑さに対処可能な,既存の手法を探求し,さらなる研究の道筋を明らかにすることである。

Despite the considerable efforts being made to monitor and regulate user-generated content on social media platforms, the pervasiveness of offensive language, such as hate speech or cyberbullying, in the digital space remains a significant challenge. Given the importance of maintaining a civilized and respectful online environment, there is an urgent and growing need for automatic systems capable of detecting offensive speech in real time. However, developing effective systems for processing languages such as Chinese presents a significant challenge, owing to the language's complex and nuanced nature, which makes it difficult to process automatically. This paper provides a comprehensive overview of offensive language detection in Chinese, examining current benchmarks and approaches and highlighting specific models and tools for addressing the unique challenges of detecting offensive language in this complex language. The primary objective of this survey is to explore the existing techniques and identify potential avenues for further research that can address the cultural and linguistic complexities of Chinese.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# オンライン臨床時系列アプリケーションのためのマルチモーダルコントラスト学習

Multi-Modal Contrastive Learning for Online Clinical Time-Series Applications ( http://arxiv.org/abs/2403.18316v1 )

ライセンス: Link先を確認
Fabian Baldenweg, Manuel Burger, Gunnar Rätsch, Rita Kuznetsova, (参考訳) 集中医療ユニット(ICU)の電子健康記録(EHR)データセットには、さまざまなデータモダリティが含まれている。 先行研究は、教師付きセッティングにおける複数のモダリティの活用に成功しているが、ICUデータに高度な自己教師付きマルチモーダルコントラスト学習技術を適用し、特に臨床ノートやオンライン予測タスクの時系列に焦点をあてる。 ソフトな近傍関数であるMulti-Modal Neborhood Contrastive Loss (MM-NCL)を導入した。

Electronic Health Record (EHR) datasets from Intensive Care Units (ICU) contain a diverse set of data modalities. While prior works have successfully leveraged multiple modalities in supervised settings, we apply advanced self-supervised multi-modal contrastive learning techniques to ICU data, specifically focusing on clinical notes and time-series for clinically relevant online prediction tasks. We introduce a loss function Multi-Modal Neighborhood Contrastive Loss (MM-NCL), a soft neighborhood function, and showcase the excellent linear probe and zero-shot performance of our approach.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# 不確かさを意識したSAR ATR:ベイズニューラルネットワークによる敵攻撃に対する防御

Uncertainty-Aware SAR ATR: Defending Against Adversarial Attacks via Bayesian Neural Networks ( http://arxiv.org/abs/2403.18318v1 )

ライセンス: Link先を確認
Tian Ye, Rajgopal Kannan, Viktor Prasanna, Carl Busart, (参考訳) 敵攻撃は、SAR(Synthetic Aperture Radar)自動ターゲット認識(ATR)システムにおいて機械学習(ML)画像分類器の脆弱性を実証した。 対向攻撃は、例えば、地上オブジェクトにいくつかの散乱器を取り付けて入力されたSAR画像を摂動させることで、分類器を誤予測させることができる。 したがって、ML分類器に固有の不確実性を活用して潜在的な敵攻撃を検出できる堅牢なSAR ATRシステムを開発することが重要である。 本稿では,敵攻撃を検出するための新しい不確実性を考慮したSAR ATRを提案する。 具体的には,各入力SAR画像の信頼度を測定するために,定量的なてんかん不確実性を伴う画像分類を行う上で,ベイズニューラルネットワーク(BNN)の能力を利用する。 この不確実性を評価することにより、入力されたSAR画像が逆向きに生成される可能性があることを警告する。 また同時に,SAR画像の特定の領域に敵対的散乱体が存在する可能性を示す視覚的説明も生成し,敵対的攻撃の証拠として人間の意思決定を支援する。 MSTARデータセットを用いた実験では, 80%以上の逆SAR画像を20%未満の誤報で識別でき, 対SAR画像中の最大90%の散乱体を視覚的説明で識別できることがわかった。

Adversarial attacks have demonstrated the vulnerability of Machine Learning (ML) image classifiers in Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) systems. An adversarial attack can deceive the classifier into making incorrect predictions by perturbing the input SAR images, for example, with a few scatterers attached to the on-ground objects. Therefore, it is critical to develop robust SAR ATR systems that can detect potential adversarial attacks by leveraging the inherent uncertainty in ML classifiers, thereby effectively alerting human decision-makers. In this paper, we propose a novel uncertainty-aware SAR ATR for detecting adversarial attacks. Specifically, we leverage the capability of Bayesian Neural Networks (BNNs) in performing image classification with quantified epistemic uncertainty to measure the confidence for each input SAR image. By evaluating the uncertainty, our method alerts when the input SAR image is likely to be adversarially generated. Simultaneously, we also generate visual explanations that reveal the specific regions in the SAR image where the adversarial scatterers are likely to to be present, thus aiding human decision-making with hints of evidence of adversarial attacks. Experiments on the MSTAR dataset demonstrate that our approach can identify over 80% adversarial SAR images with fewer than 20% false alarms, and our visual explanations can identify up to over 90% of scatterers in an adversarial SAR image.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# カリウム蒸気中の交換可能な励起経路によるドップラー支援量子共鳴

Doppler-assisted quantum resonances through swappable excitation pathways in Potassium vapor ( http://arxiv.org/abs/2403.18319v1 )

ライセンス: Link先を確認
Gourab Pal, Subhasish Dutta Gupta, Saptarishi Chaudhuri, (参考訳) 我々は、通常の電磁誘導透過ピークに加えて、$D_2$気相の$^{39}K$気相のD_2$多様体における2つのサブ自然線幅量子干渉の観測を報告する。 他の2つの特徴は、$^{39}K$超微細分割がドップラー膨張吸収プロファイルよりも小さいためのみ現れる。 これにより、プローブと制御ビームは遷移経路を交換することができる。 制御ビームデチューニングはコヒーレンスの性質を捉えるため、マスター方程式における励起状態の断熱的除去を利用して、完全透明から高強度吸収への変換の異常な現象を観察し、説明する。 このような暗黒と明るい共鳴の制御は、周波数オフセットレーザー安定化と長寿命量子メモリの量子技術における新しい応用につながる。

We report the observation of two additional sub-natural line width quantum interference in the $D_2$ manifold of $^{39}K$ vapor, in addition to the usual single Electromagnetically induced transparency peak. The other two features appear exclusively because $^{39}K$ ground hyperfine splitting is smaller than the Doppler broadened absorption profile. This allows probe and control beams to swap their transition pathways. The control beam detuning captures the nature of the coherence, therefore an unusual phenomenon of conversion from perfect transparency to enhanced absorption is observed and explained by utilizing adiabatic elimination of the excited state in the Master equation. Controlling such dark and bright resonances leads to new applications in quantum technologies viz. frequency offset laser stabilization and long-lived quantum memory.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# ハイパースペクトル次元化のための高性能計算機設備への主成分分析の適用:結果と比較

Implementation of the Principal Component Analysis onto High-Performance Computer Facilities for Hyperspectral Dimensionality Reduction: Results and Comparisons ( http://arxiv.org/abs/2403.18321v1 )

ライセンス: Link先を確認
E. Martel, R. Lazcano, J. Lopez, D. Madroñal, R. Salvador, S. Lopez, E. Juarez, R. Guerra, C. Sanz, R. Sarmiento, (参考訳) 次元の低減は、多くのハイパースペクトルイメージングアルゴリズムの効率と性能を高めるために重要な前処理ステップである。 しかし、主成分分析(PCA)のような次元減少アルゴリズムは、計算に要求される性質に悩まされ、厳密なレイテンシ制約下でのアプリケーションのための高性能なコンピュータアーキテクチャへの実装が推奨される。 この研究は、PCAアルゴリズムをNVIDIA Graphics Processing Unit(GPU)とKalray manycoreという2つの異なる高性能デバイスに実装し、これらの高性能コンピューティングプラットフォーム固有の並列性を最大限に活用するために、非常に価値のあるヒントとトリックを発見した。 さらに、異なるハイパースペクトル画像を用いて得られた成果を、最近発表されたPCAアルゴリズムのフィールドプログラマブルゲートアレイ(FPGA)ベースの実装と比較し、各オプションの長所と短所を強調するための総合的な分析を行った。

Dimensionality reduction represents a critical preprocessing step in order to increase the efficiency and the performance of many hyperspectral imaging algorithms. However, dimensionality reduction algorithms, such as the Principal Component Analysis (PCA), suffer from their computationally demanding nature, becoming advisable for their implementation onto high-performance computer architectures for applications under strict latency constraints. This work presents the implementation of the PCA algorithm onto two different high-performance devices, namely, an NVIDIA Graphics Processing Unit (GPU) and a Kalray manycore, uncovering a highly valuable set of tips and tricks in order to take full advantage of the inherent parallelism of these high-performance computing platforms, and hence, reducing the time that is required to process a given hyperspectral image. Moreover, the achieved results obtained with different hyperspectral images have been compared with the ones that were obtained with a field programmable gate array (FPGA)-based implementation of the PCA algorithm that has been recently published, providing, for the first time in the literature, a comprehensive analysis in order to highlight the pros and cons of each option.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# 量子アルゴリズム:金融犯罪防止の新しいフロンティア

Quantum Algorithms: A New Frontier in Financial Crime Prevention ( http://arxiv.org/abs/2403.18322v1 )

ライセンス: Link先を確認
Abraham Itzhak Weinberg, Alessio Faccia, (参考訳) 金融犯罪の急速な増殖と高度化は、堅牢で効果的な解決策を提供する新しいアプローチを必要とする。 本稿では、金融犯罪と戦うための量子アルゴリズムの可能性について考察する。 従来の機械学習(ML)技術と量子アプローチを併用することによって、量子コンピューティングの利点を強調している。 この研究では、マネーロンダリング、金融犯罪検出、暗号通貨攻撃、市場操作など、金融犯罪を検出し予防するための強力なソリューションとして、量子機械学習(QML)や量子人工知能(QAI)のような高度な方法論を紹介している。 これらの量子アプローチは、古典的手法が直面する制限を克服するために、量子コンピュータの本質的な計算能力を活用する。 さらに、量子コンピューティングが金融リスク管理分析の強化を支援する方法について述べる。 金融機関はリスクを特定し緩和する能力を改善し、量子的優位性を利用してより堅牢なリスク管理戦略をもたらすことができる。 この研究は、量子アルゴリズムが金融リスク管理に与える影響を浮き彫りにしている。 量子技術を採用することで、組織は進化する脅威と戦う能力を高め、金融システムの完全性と安定性を確保することができる。

Financial crimes fast proliferation and sophistication require novel approaches that provide robust and effective solutions. This paper explores the potential of quantum algorithms in combating financial crimes. It highlights the advantages of quantum computing by examining traditional and Machine Learning (ML) techniques alongside quantum approaches. The study showcases advanced methodologies such as Quantum Machine Learning (QML) and Quantum Artificial Intelligence (QAI) as powerful solutions for detecting and preventing financial crimes, including money laundering, financial crime detection, cryptocurrency attacks, and market manipulation. These quantum approaches leverage the inherent computational capabilities of quantum computers to overcome limitations faced by classical methods. Furthermore, the paper illustrates how quantum computing can support enhanced financial risk management analysis. Financial institutions can improve their ability to identify and mitigate risks, leading to more robust risk management strategies by exploiting the quantum advantage. This research underscores the transformative impact of quantum algorithms on financial risk management. By embracing quantum technologies, organisations can enhance their capabilities to combat evolving threats and ensure the integrity and stability of financial systems.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# 進行波ビーコンを用いた厚い散乱媒質による絡み合った光子の形成

Shaping entangled photons through thick scattering media using an advanced wave beacon ( http://arxiv.org/abs/2403.18324v1 )

ライセンス: Link先を確認
Ronen Shekel, Ohad Lib, Yaron Bromberg, (参考訳) 絡み合った光子は、通信、センシング、およびコンピューティングの分野において、トランスフォーメーションな新しい経路を提供する。 しかし、絡み合った光子が生体組織や乱流大気などの複雑な媒体を伝播すると、それらの相関関係はスクランブルされる。 波面形状を用いて散乱を補正し、2光子相関を求めることは、2光子信号の低信号対雑音比のために困難である。 従来の研究では、束縛された光子と共伝播する強い古典レーザービームからのフィードバックを用いてこの問題に対処していたが、そのような手法は複雑な媒体に関する仮定に依存し、量子波面形状の適用性を制限することが多かった。 本研究では,Klyshkoの先進波像にインスパイアされた新しいフィードバック機構を提案し,従来のレーザビームが1つの絡み合った光子と逆伝搬し,他方と共伝播することを示した。 新しいKlyshkoフィードバックは、厚いサンプルや、それぞれの光子が異なる散乱媒質を介して伝播する状況においても散乱の補償を可能にする。 高度な波動図は、光学的相互性が有効であるたびに適用されるので、クリュシュコの最適化は幅広い構成で利用でき、堅牢でアライメントのない設定を提供する。 したがって、このプロトコルは量子波面形状の現実的な応用の扉を開くと信じている。

Entangled photons provide transformative new paths in the fields of communication, sensing, and computing. However, when entangled photons propagate through a complex medium such as a biological tissue or a turbulent atmosphere, their correlations are scrambled. Using wavefront shaping to compensate for the scattering and retrieve the two-photon correlations is challenging due to the low signal-to-noise ratio of the two-photon signal. While previous works partly addressed this challenge by using feedback from a strong classical laser beam that co-propagates with the entangled photons, such methods frequently depend on assumptions about the complex medium, limiting the applicability of quantum wavefront shaping. In this work, we propose and demonstrate a new feedback mechanism that is inspired by Klyshko's advanced wave picture, in which the classical laser beam counter-propagates with one of the entangled photons and co-propagates with the other. The new Klyshko feedback allows compensation of scattering in thick samples and even in situations where each photon propagates through a different scattering medium. Since the advanced wave picture applies whenever optical reciprocity is valid, such Klyshko optimization can be utilized across a wide range of configurations, offering a robust and alignment-free setup. We therefore believe this protocol will open the door for real-world applications of quantum wavefront shaping.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# プライバシ保存型分散非負行列分解

Privacy-Preserving Distributed Nonnegative Matrix Factorization ( http://arxiv.org/abs/2403.18326v1 )

ライセンス: Link先を確認
Ehsan Lari, Reza Arablouei, Stefan Werner, (参考訳) 非負行列分解(Non negative matrix factorization, NMF)は、信号処理と機械学習に多くの応用がある効果的なデータ表現ツールである。 しかしながら,NMFをアドホックネットワーク上で分散的にデプロイすることは,ネットワークエージェント間で生データを共有するという従来のアプローチによるプライバシー上の懸念をもたらす。 そこで本研究では,分散した大規模データ行列を左右の行列要素に分解し,各エージェントのローカルデータプライバシを保護した完全分散NMFのプライバシ保存アルゴリズムを提案する。 エージェント間の左行列係数の協調推定を容易にし、各因子を生データを公開せずに推定することができる。 データプライバシを確保するために、公開鍵暗号の確率的非対称アルゴリズムであるPaillier暗号システムを利用して、隣接するエージェント間の情報交換を行い、復号化せずに暗号化されたデータの計算を可能にする。 合成および実世界のデータセットで実施されたシミュレーション結果は、アドホックネットワーク上でのプライバシー保護分散NMFの実現における提案アルゴリズムの有効性を示す。

Nonnegative matrix factorization (NMF) is an effective data representation tool with numerous applications in signal processing and machine learning. However, deploying NMF in a decentralized manner over ad-hoc networks introduces privacy concerns due to the conventional approach of sharing raw data among network agents. To address this, we propose a privacy-preserving algorithm for fully-distributed NMF that decomposes a distributed large data matrix into left and right matrix factors while safeguarding each agent's local data privacy. It facilitates collaborative estimation of the left matrix factor among agents and enables them to estimate their respective right factors without exposing raw data. To ensure data privacy, we secure information exchanges between neighboring agents utilizing the Paillier cryptosystem, a probabilistic asymmetric algorithm for public-key cryptography that allows computations on encrypted data without decryption. Simulation results conducted on synthetic and real-world datasets demonstrate the effectiveness of the proposed algorithm in achieving privacy-preserving distributed NMF over ad-hoc networks.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# LLMは形式的に逆転できるか? 形式仕様の翻訳・解釈におけるLLMの自動評価

Can LLMs Converse Formally? Automatically Assessing LLMs in Translating and Interpreting Formal Specifications ( http://arxiv.org/abs/2403.18327v1 )

ライセンス: Link先を確認
Rushang Karia, Daksh Dobhal, Daniel Bramblett, Pulkit Verma, Siddharth Srivastava, (参考訳) ステークホルダは、しばしば自然言語を使ってシステム要件を記述し、ドメインエキスパートによって形式的な構文に変換され、設計コストが増大する。 本稿では,自然言語記述と形式仕様の変換におけるLarge Language Models(LLM)の機能を評価する。 既存の研究は、ソースコードのような形式的な構文を生成する上でのLLMの機能を評価してきたが、そのような実験は通常手作業で行われ、LLMのトレーニングセットに含まれる可能性の高い問題を使用し、人間による注釈付きデータセットを必要とすることが多い。 そこで本研究では,LLMの2つのコピーと既製の検証器を併用して,人間の入力を伴わずに翻訳能力を自動評価する手法を提案する。 提案手法は,言語文法を用いて形式構文を生成し,データセットを自動的に生成する。 我々は、この翻訳タスクの精度を計測する実験的な評価を行い、SOTA LLMがこのタスクを適切に解決することができず、複雑なシステムの設計における現在の有用性を制限していることを示す。

Stakeholders often describe system requirements using natural language which are then converted to formal syntax by a domain-expert leading to increased design costs. This paper assesses the capabilities of Large Language Models (LLMs) in converting between natural language descriptions and formal specifications. Existing work has evaluated the capabilities of LLMs in generating formal syntax such as source code but such experiments are typically hand-crafted and use problems that are likely to be in the training set of LLMs, and often require human-annotated datasets. We propose an approach that can use two copies of an LLM in conjunction with an off-the-shelf verifier to automatically evaluate its translation abilities without any additional human input. Our approach generates formal syntax using language grammars to automatically generate a dataset. We conduct an empirical evaluation to measure the accuracy of this translation task and show that SOTA LLMs cannot adequately solve this task, limiting their current utility in the design of complex systems.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# PIPNet3D:MRIにおけるアルツハイマーの検出

PIPNet3D: Interpretable Detection of Alzheimer in MRI Scans ( http://arxiv.org/abs/2403.18328v1 )

ライセンス: Link先を確認
Lisa Anita De Santi, Jörg Schlötterer, Michael Scheschenja, Joel Wessendorf, Meike Nauta, Vincenzo Positano, Christin Seifert, (参考訳) 神経画像検査(CT, MRI)からの情報は、認知症、例えばアルツハイマー病の診断を支援するためにますます利用されている。 現在の臨床は、主に視覚検査と特徴工学に基づいているが、Deep Learningアプローチは分析の自動化と新しいイメージバイオマーカーの発見に利用できる。 パートプロトタイプニューラルネットワーク(PP-NN)は、標準的なブラックボックスモデルの代替であり、一般的なコンピュータビジョンにおいて有望な結果を示している。 PP-NNは、完全に教師なし学習され、簡単に理解できる決定層と組み合わせられる原型画像領域の推論を基盤としている。 ボリューム画像のためのPP-NNであるPIPNet3Dを提案する。 構造型磁気共鳴画像(sMRI)を用いたアルツハイマー病診断の臨床的研究にPIPNet3Dを適用した。 システム評価フレームワークを用いてプロトタイプの品質評価を行い、脳のプロトタイプの評価とドメインの専門家による評価を行うための新しい指標を提案する。 以上の結果から,PIPNet3Dはアルツハイマー病の診断の解釈可能でコンパクトなモデルであり,医学領域の知識に整合性があることが示唆された。 特に、PIPNet3Dはブラックボックスと同じ精度を達成しており、その決定プロセスから臨床に無関係なプロトタイプを除去しても予測性能は低下しない。

Information from neuroimaging examinations (CT, MRI) is increasingly used to support diagnoses of dementia, e.g., Alzheimer's disease. While current clinical practice is mainly based on visual inspection and feature engineering, Deep Learning approaches can be used to automate the analysis and to discover new image-biomarkers. Part-prototype neural networks (PP-NN) are an alternative to standard blackbox models, and have shown promising results in general computer vision. PP-NN's base their reasoning on prototypical image regions that are learned fully unsupervised, and combined with a simple-to-understand decision layer. We present PIPNet3D, a PP-NN for volumetric images. We apply PIPNet3D to the clinical case study of Alzheimer's Disease diagnosis from structural Magnetic Resonance Imaging (sMRI). We assess the quality of prototypes under a systematic evaluation framework, propose new metrics to evaluate brain prototypes and perform an evaluation with domain experts. Our results show that PIPNet3D is an interpretable, compact model for Alzheimer's diagnosis with its reasoning well aligned to medical domain knowledge. Notably, PIPNet3D achieves the same accuracy as its blackbox counterpart; and removing the remaining clinically irrelevant prototypes from its decision process does not decrease predictive performance.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# イベントカメラを用いた追跡支援物体検出

Tracking-Assisted Object Detection with Event Cameras ( http://arxiv.org/abs/2403.18330v1 )

ライセンス: Link先を確認
Ting-Kang Yen, Igor Morawski, Shusil Dangi, Kai He, Chung-Yi Lin, Jia-Fong Yeh, Hung-Ting Su, Winston Hsu, (参考訳) イベントベースのオブジェクト検出は、高ダイナミックレンジや動きのぼけのないようなイベントカメラの異常な特性のために、コンピュータビジョンコミュニティで最近注目を集めている。 しかし、特徴的不整脈と空間性は、カメラに相対的な動きがないために見えない物体を生じさせ、タスクにおいて重大な課題を生じさせる。 先行研究は、時間的手がかりによって導かれる、できるだけ多くの特徴を保存するために、様々な記憶機構を研究してきた。 これらの暗黙の記憶は短期的な情報を保持するが、長期的な特徴を効果的に保つのに苦戦している。 本稿では,これらの見えない物体を擬似隠蔽物体とみなし,その特徴を明らかにすることを目的とする。 まず、オブジェクトの可視性属性を導入し、既存のイベントカメラデータセットに追加の可視性ラベルを追加する自動ラベルアルゴリズムに寄与する。 第二に、擬似隠蔽オブジェクトのトラッキング戦略を利用して、機能が非常に長い間利用されていない場合でも、その永続性を維持し、バウンディングボックスを維持する。 これらの戦略は、追跡対象によって導かれる明示的な学習メモリとして扱われ、フレーム間のオブジェクトの変位を記録することができる。 最後に,パイプライン全体のロバスト性を高めるために,潜伏する特徴を豊かにするための時空間的特徴集約モジュールと一貫性損失を提案する。 我々は,静止オブジェクトが保持されているが,隠蔽オブジェクトが破棄されている場合の手法の有効性を検証するための総合的な実験を行う。 以上の結果から,(1)教師付きトレーニング支援のための可視性ラベルを付加し,(2)最先端の手法よりも優れた7.9%の絶対mAPを達成できた。

Event-based object detection has recently garnered attention in the computer vision community due to the exceptional properties of event cameras, such as high dynamic range and no motion blur. However, feature asynchronism and sparsity cause invisible objects due to no relative motion to the camera, posing a significant challenge in the task. Prior works have studied various memory mechanisms to preserve as many features as possible at the current time, guided by temporal clues. While these implicit-learned memories retain some short-term information, they still struggle to preserve long-term features effectively. In this paper, we consider those invisible objects as pseudo-occluded objects and aim to reveal their features. Firstly, we introduce visibility attribute of objects and contribute an auto-labeling algorithm to append additional visibility labels on an existing event camera dataset. Secondly, we exploit tracking strategies for pseudo-occluded objects to maintain their permanence and retain their bounding boxes, even when features have not been available for a very long time. These strategies can be treated as an explicit-learned memory guided by the tracking objective to record the displacements of objects across frames. Lastly, we propose a spatio-temporal feature aggregation module to enrich the latent features and a consistency loss to increase the robustness of the overall pipeline. We conduct comprehensive experiments to verify our method's effectiveness where still objects are retained but real occluded objects are discarded. The results demonstrate that (1) the additional visibility labels can assist in supervised training, and (2) our method outperforms state-of-the-art approaches with a significant improvement of 7.9% absolute mAP.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# DODA:農業におけるオブジェクト検出ドメイン適応のための拡散

DODA: Diffusion for Object-detection Domain Adaptation in Agriculture ( http://arxiv.org/abs/2403.18334v1 )

ライセンス: Link先を確認
Shuai Xiang, Pieter M. Blok, James Burridge, Haozhou Wang, Wei Guo, (参考訳) 最近の生成モデルによって生成される多種多様で高品質なコンテンツは、下流モデルのトレーニングに合成データを使用する大きな可能性を示している。 しかし、視覚、特に対物検出において、関連する領域は十分に探索されず、合成画像は既存のデータセットの長い尾のバランスをとるためにのみ使用され、生成されたラベルの精度は低く、生成モデルの可能性は活用されていない。 本稿では,農業の新しい領域を対象とした高品質なオブジェクト検出データを生成するデータシンセサイザーであるDODAを提案する。 具体的には,画像としてレイアウトを符号化することでレイアウト・ツー・イメージの制御性を向上し,ラベルの品質を向上させるとともに,拡散モデルの視覚的特徴を拡散モデルから切り離すための視覚的手がかりを提供する視覚的エンコーダを用いて,新しいドメインでデータを生成する能力をモデルに与える。 農業で最大のデータセットであり、多様なドメインを含むGWHDデータセットでは、DODAによって合成されたデータを使用して、トレーニングデータから大幅にシフトしたドメイン内のオブジェクト検出器のパフォーマンスを12.74-17.76 AP$_{50}$で改善する。

The diverse and high-quality content generated by recent generative models demonstrates the great potential of using synthetic data to train downstream models. However, in vision, especially in objection detection, related areas are not fully explored, the synthetic images are merely used to balance the long tails of existing datasets, and the accuracy of the generated labels is low, the full potential of generative models has not been exploited. In this paper, we propose DODA, a data synthesizer that can generate high-quality object detection data for new domains in agriculture. Specifically, we improve the controllability of layout-to-image through encoding layout as an image, thereby improving the quality of labels, and use a visual encoder to provide visual clues for the diffusion model to decouple visual features from the diffusion model, and empowering the model the ability to generate data in new domains. On the Global Wheat Head Detection (GWHD) Dataset, which is the largest dataset in agriculture and contains diverse domains, using the data synthesized by DODA improves the performance of the object detector by 12.74-17.76 AP$_{50}$ in the domain that was significantly shifted from the training data.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# ドイツ語,フランス語,日本語における薬理学用語のデータセット : 言語間での副次的薬物反応について

A Dataset for Pharmacovigilance in German, French, and Japanese: Annotating Adverse Drug Reactions across Languages ( http://arxiv.org/abs/2403.18336v1 )

ライセンス: Link先を確認
Lisa Raithel, Hui-Syuan Yeh, Shuntaro Yada, Cyril Grouin, Thomas Lavergne, Aurélie Névéol, Patrick Paroubek, Philippe Thomas, Tomohiro Nishiyama, Sebastian Möller, Eiji Aramaki, Yuji Matsumoto, Roland Roller, Pierre Zweigenbaum, (参考訳) ユーザ生成データソースは、逆薬物反応(Adverse Drug Reactions, ADRs)の解明において重要となり、デジタル世界ではますます多くの議論が起きている。 しかし、既存の臨床コーパスは主に英語の科学論文を中心に展開している。 本研究は, 患者フォーラム, ソーシャルメディア, 臨床報告など, さまざまな情報源から収集されたADRに関する多言語コーパスをドイツ語, フランス語, 日本語で提示する。 コーパスには、12のエンティティタイプ、4つの属性タイプ、13のリレーショナルタイプを含むアノテーションが含まれています。 これは、医療のための現実の多言語言語モデルの開発に貢献する。 我々は、コーパスに関連する特定の課題を強調し、予備実験を行い、その結果、言語内および言語間において、エンティティの抽出とそれらのエンティティ間の関係を強く基礎づける。

User-generated data sources have gained significance in uncovering Adverse Drug Reactions (ADRs), with an increasing number of discussions occurring in the digital world. However, the existing clinical corpora predominantly revolve around scientific articles in English. This work presents a multilingual corpus of texts concerning ADRs gathered from diverse sources, including patient fora, social media, and clinical reports in German, French, and Japanese. Our corpus contains annotations covering 12 entity types, four attribute types, and 13 relation types. It contributes to the development of real-world multilingual language models for healthcare. We provide statistics to highlight certain challenges associated with the corpus and conduct preliminary experiments resulting in strong baselines for extracting entities and relations between these entities, both within and across languages.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# 構造的類似性を考慮した半教師あり学習によるマクロスケールき裂面セグメンテーション

Macroscale fracture surface segmentation via semi-supervised learning considering the structural similarity ( http://arxiv.org/abs/2403.18337v1 )

ライセンス: Link先を確認
Johannes Rosenberger, Johannes Tlatlik, Sebastian Münstermann, (参考訳) 現在まで、原子力セクターなどで用いられる材料の安全性評価は、大域的負荷量KまたはJを材料破壊靭性曲線と比較するマクロ概念を用いた破壊力学的解析に一般的に依存している。 これらの概念に関する実験的な取り組みの一部は、破面の定量的解析に向けられている。 本研究の範囲内では, マクロレベルのき裂面セグメンテーションのための深層学習モデルの半教師付きトレーニング手法が確立された。 そのため, セグメンテーション能力に対する構造的類似性の影響を分析するために, 3つの異なる, ユニークなデータセットが作成された。 構造的類似性は、評価された材料と標本、および異なる研究室における画像取得の変動による画像誘起のばらつきによって異なる。 データセットは、典型的な孤立した実験室の条件、複雑な現実世界の状況、そしてこれら2つをキュレートしたサブセットに対応している。 半教師あり学習のための弱強整合正則化を実装した。 ヘテロジニアスデータセットでは、予測品質の大幅な低下を観測することなく、さまざまな領域にわたる画像から特徴表現を学習した堅牢で汎用的なモデルをトレーニングすることが可能でした。 さらに,本手法はトレーニングに必要なラベル付き画像の数を6。 本手法の成功と破壊力学評価へのアプローチの利点を実証するために,面積平均法による初期き裂径測定にモデルを応用した。 実験室では, 深層学習支援測定値が手動測定値と同等品質であることが判明した。 不均一データセットでトレーニングされたモデルでは、平均偏差が1%未満の非常に優れた測定精度が達成できた。

To this date the safety assessment of materials, used for example in the nuclear power sector, commonly relies on a fracture mechanical analysis utilizing macroscopic concepts, where a global load quantity K or J is compared to the materials fracture toughness curve. Part of the experimental effort involved in these concepts is dedicated to the quantitative analysis of fracture surfaces. Within the scope of this study a methodology for the semi-supervised training of deep learning models for fracture surface segmentation on a macroscopic level was established. Therefore, three distinct and unique datasets were created to analyze the influence of structural similarity on the segmentation capability. The structural similarity differs due to the assessed materials and specimen, as well as imaging-induced variance due to fluctuations in image acquisition in different laboratories. The datasets correspond to typical isolated laboratory conditions, complex real-world circumstances, and a curated subset of the two. We implemented a weak-to-strong consistency regularization for semi-supervised learning. On the heterogeneous dataset we were able to train robust and well-generalizing models that learned feature representations from images across different domains without observing a significant drop in prediction quality. Furthermore, our approach reduced the number of labeled images required for training by a factor of 6. To demonstrate the success of our method and the benefit of our approach for the fracture mechanics assessment, we utilized the models for initial crack size measurements with the area average method. For the laboratory setting, the deep learning assisted measurements proved to have the same quality as manual measurements. For models trained on the heterogeneous dataset, very good measurement accuracies with mean deviations smaller than 1 % could be achieved...
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# mALBERT: コンパクトな多言語BERTモデルは、まだ価値があるのか?

mALBERT: Is a Compact Multilingual BERT Model Still Worth It? ( http://arxiv.org/abs/2403.18338v1 )

ライセンス: Link先を確認
Christophe Servan, Sahar Ghannay, Sophie Rosset, (参考訳) 現在のPLM(Pretained Language Models)のトレンドの中で、そのようなモデルの倫理的・生態的影響について、ますます多くの批判が浮かび上がっている。 本稿では、これらの批判的発言を踏まえ、これらのPLMよりも生態学的に活発なALBERTのようなコンパクトモデルに焦点をあてる。 しかしPLMは、SpokenやNatural LanguageUnderstandingといった自然言語処理タスクに大きなブレークスルーをもたらす。 PLMはまた、多言語的であるという利点があり、我々が知る限り、コンパクトALBERTモデルの多言語バージョンは存在しない。 これらの事実を踏まえ、ウィキペディアデータを用いて事前訓練された多言語コンパクトALBERTモデルの最初のバージョンを、そのような言語モデルの倫理的側面に準拠したフリーリリースとして提案する。 また,従来のNLPタスクにおけるPLMに対するモデルの評価を行った。 最後に,言語性能に影響を及ぼすサブワードトークン化に関する稀な研究を提案する。

Within the current trend of Pretained Language Models (PLM), emerge more and more criticisms about the ethical andecological impact of such models. In this article, considering these critical remarks, we propose to focus on smallermodels, such as compact models like ALBERT, which are more ecologically virtuous than these PLM. However,PLMs enable huge breakthroughs in Natural Language Processing tasks, such as Spoken and Natural LanguageUnderstanding, classification, Question--Answering tasks. PLMs also have the advantage of being multilingual, and,as far as we know, a multilingual version of compact ALBERT models does not exist. Considering these facts, wepropose the free release of the first version of a multilingual compact ALBERT model, pre-trained using Wikipediadata, which complies with the ethical aspect of such a language model. We also evaluate the model against classicalmultilingual PLMs in classical NLP tasks. Finally, this paper proposes a rare study on the subword tokenizationimpact on language performances.
翻訳日:2024-03-28 17:57:01 公開日:2024-03-27
# H2ASeg:PET/CT画像における腫瘍分離のための階層的適応的相互作用と重み付けネットワーク

H2ASeg: Hierarchical Adaptive Interaction and Weighting Network for Tumor Segmentation in PET/CT Images ( http://arxiv.org/abs/2403.18339v1 )

ライセンス: Link先を確認
Jinpeng Lu, Jingyun Chen, Linghan Cai, Songhan Jiang, Yongbing Zhang, (参考訳) PET(Positron emission tomography)とCT(Computed tomography)の併用は、補完情報を提供することで、がんの診断や予後に日常的に用いられている。 PET/CT画像における腫瘍の自動分画は検査効率を著しく向上させる。 従来のマルチモーダルセグメンテーションソリューションは主にモダリティ融合の連結操作に依存しており、PETとCTの非線型依存性を効果的にモデル化することができない。 近年,関節表現の高度化のために,モダリティ特異的な特徴の融合を最適化するための様々な手法が研究されている。 しかし、これらの手法で使用されるモダリティ特異的エンコーダは、PETとCTのモダリティに固有の相乗的関係、例えば意味論と構造の間の相補的関係を不適切に利用して、独立に動作する。 これらの問題に対処するため,H2ASeg という階層型適応的相互作用と重み付けネットワークを提案し,本質的な相互関係を探索し,潜在的な相補的情報を伝達する。 具体的には,モダリティ・コラボレーティブ・スペース・アテンション(MCSA)モジュールを設計し,グローバルかつ局所的にモーダル内およびモーダル間相互作用を行う。 さらに,Target-Aware Modality Weighting (TAMW)モジュールが開発され,マルチモーダル特徴における腫瘍関連特徴が強調され,腫瘍のセグメンテーションが洗練される。 これらのモジュールを異なる層に埋め込むことで、H2ASegは階層的にクロスモーダルな相関をモデル化し、意味的および構造的腫瘍の特徴の微妙な理解を可能にする。 H2ASeg は AutoPet-II と Hecktor2022 ベンチマークにおける最先端の手法よりも優れていた。 コードはhttps://github.com/G14nTDo4/H2ASegで公開されている。

Positron emission tomography (PET) combined with computed tomography (CT) imaging is routinely used in cancer diagnosis and prognosis by providing complementary information. Automatically segmenting tumors in PET/CT images can significantly improve examination efficiency. Traditional multi-modal segmentation solutions mainly rely on concatenation operations for modality fusion, which fail to effectively model the non-linear dependencies between PET and CT modalities. Recent studies have investigated various approaches to optimize the fusion of modality-specific features for enhancing joint representations. However, modality-specific encoders used in these methods operate independently, inadequately leveraging the synergistic relationships inherent in PET and CT modalities, for example, the complementarity between semantics and structure. To address these issues, we propose a Hierarchical Adaptive Interaction and Weighting Network termed H2ASeg to explore the intrinsic cross-modal correlations and transfer potential complementary information. Specifically, we design a Modality-Cooperative Spatial Attention (MCSA) module that performs intra- and inter-modal interactions globally and locally. Additionally, a Target-Aware Modality Weighting (TAMW) module is developed to highlight tumor-related features within multi-modal features, thereby refining tumor segmentation. By embedding these modules across different layers, H2ASeg can hierarchically model cross-modal correlations, enabling a nuanced understanding of both semantic and structural tumor features. Extensive experiments demonstrate the superiority of H2ASeg, outperforming state-of-the-art methods on AutoPet-II and Hecktor2022 benchmarks. The code is released at https://github.com/G14nTDo4/H2ASeg.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# IterAlign: 大規模言語モデルの反復的構成アライメント

IterAlign: Iterative Constitutional Alignment of Large Language Models ( http://arxiv.org/abs/2403.18341v1 )

ライセンス: Link先を確認
Xiusi Chen, Hongzhi Wen, Sreyashi Nag, Chen Luo, Qingyu Yin, Ruirui Li, Zheng Li, Wei Wang, (参考訳) 大規模言語モデル(LLM)の急速な発展に伴い、LLMは人間の価値観や社会的規範と整合し、信頼性と安全性が重要になった。 人間のフィードバックによる強化学習(RLHF)とコンスティチューショナルAI(CAI)がLLMアライメントのために提案されている。 しかし、これらの手法には、重厚な人間のアノテーションや、労働集約的でリソースを消費する、明確に定義された構成が必要である。 これらの欠点を克服するために,コンスティチューションに基づくLCMアライメントについて検討し,IterAlignと呼ばれるデータ駆動型コンスティチューション発見と自己調整フレームワークを提案する。 IterAlign は Red Teaming を利用して LLM の弱点を明らかにし、強力な LLM を使用して新しい構成を自動的に発見する。 これらの構成は、ベースLSMの自己補正を導くのに使用される。 このような構成発見パイプラインを反復的かつ自動的に実行して、現在のLCMのアライメントギャップを特にターゲットとする新しい構成を発見することができる。 いくつかの安全ベンチマークデータセットと複数のベースLCMの実証的な結果から、IterAlignは真理性、助け合い性、無害性、誠実性を向上し、LLMアライメントを最大13.5\%向上させることに成功した。

With the rapid development of large language models (LLMs), aligning LLMs with human values and societal norms to ensure their reliability and safety has become crucial. Reinforcement learning with human feedback (RLHF) and Constitutional AI (CAI) have been proposed for LLM alignment. However, these methods require either heavy human annotations or explicitly pre-defined constitutions, which are labor-intensive and resource-consuming. To overcome these drawbacks, we study constitution-based LLM alignment and propose a data-driven constitution discovery and self-alignment framework called IterAlign. IterAlign leverages red teaming to unveil the weaknesses of an LLM and automatically discovers new constitutions using a stronger LLM. These constitutions are then used to guide self-correction of the base LLM. Such a constitution discovery pipeline can be run iteratively and automatically to discover new constitutions that specifically target the alignment gaps in the current LLM. Empirical results on several safety benchmark datasets and multiple base LLMs show that IterAlign successfully improves truthfulness, helpfulness, harmlessness and honesty, improving the LLM alignment by up to $13.5\%$ in harmlessness.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# アニメーションペイントベケットカラー化のための学習介在物マッチング

Learning Inclusion Matching for Animation Paint Bucket Colorization ( http://arxiv.org/abs/2403.18342v1 )

ライセンス: Link先を確認
Yuekun Dai, Shangchen Zhou, Qinyue Li, Chongyi Li, Chen Change Loy, (参考訳) ラインアートのカラー化は手描きセルアニメーションの制作において重要な課題である。 これは通常、カラーデザイナが決めるRGB値に基づいて、ペイントバケツツールを使用して、線で囲まれた各セグメントを手動で色付けするデジタル画家が関与する。 このフレーム・バイ・フレームのプロセスは困難かつ時間集約的です。 現在の自動手法は主にセグメントマッチングに焦点を当てている。 この手法は, フレーム間の線包セグメント内の特徴を整列させることにより, 対象フレームへの参照から色を移動させる。 しかし、アニメーションにおける隠蔽やしわのような問題は、しばしばこれらの直接の通信を妨害し、ミスマッチを引き起こす。 本研究では,直接的な視覚的対応にのみ依存するのではなく,セグメント間の包摂関係をネットワークに理解させる,学習ベースの包摂的マッチングパイプラインを提案する。 提案手法は,粗いカラーワープモジュールと包括的マッチングモジュールを統合した2段階のパイプラインを特徴とし,より微妙で正確なカラー化を実現する。 ネットワークのトレーニングを容易にするため,PaintBucket-Characterと呼ばれるユニークなデータセットも開発した。 このデータセットには、レンダリングされたラインアートと、さまざまな3Dキャラクタを特徴とする色付けされたアーティファクトが含まれている。 本手法の有効性と優位性を実証する実験を行った。

Colorizing line art is a pivotal task in the production of hand-drawn cel animation. This typically involves digital painters using a paint bucket tool to manually color each segment enclosed by lines, based on RGB values predetermined by a color designer. This frame-by-frame process is both arduous and time-intensive. Current automated methods mainly focus on segment matching. This technique migrates colors from a reference to the target frame by aligning features within line-enclosed segments across frames. However, issues like occlusion and wrinkles in animations often disrupt these direct correspondences, leading to mismatches. In this work, we introduce a new learning-based inclusion matching pipeline, which directs the network to comprehend the inclusion relationships between segments rather than relying solely on direct visual correspondences. Our method features a two-stage pipeline that integrates a coarse color warping module with an inclusion matching module, enabling more nuanced and accurate colorization. To facilitate the training of our network, we also develope a unique dataset, referred to as PaintBucket-Character. This dataset includes rendered line arts alongside their colorized counterparts, featuring various 3D characters. Extensive experiments demonstrate the effectiveness and superiority of our method over existing techniques.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# 人工ニューラルツイン - 分散プロセスチェーンにおけるプロセス最適化と継続的な学習

The Artificial Neural Twin -- Process Optimization and Continual Learning in Distributed Process Chains ( http://arxiv.org/abs/2403.18343v1 )

ライセンス: Link先を確認
Johannes Emmert, Ronald Mendez, Houman Mirzaalian Dastjerdi, Christopher Syben, Andreas Maier, (参考訳) 産業プロセスの最適化と制御は、経済的および生態学的効率を高めるために不可欠である。 しかし、データ主権、異なる目標、あるいは実装に必要な専門家の知識は、全体的な実装を妨げる。 さらに、プロセスモデルや産業センサにおけるデータ駆動型AIメソッドの利用の増加は、分散フロートに対応するために定期的に微調整を必要とすることが多い。 本稿では,モデル予測制御やディープラーニング,センサネットワークといった概念を組み合わせて,これらの問題に対処する人工ニューラルツインを提案する。 提案手法では,分散プロセスステップの状態と入力データへの依存性を推定するために,異なるデータ融合を導入する。 相互接続されたプロセスステップを準ニューラルネットワークとして扱うことで、プロセス最適化やモデル微調整のための損失勾配をそれぞれプロセスパラメータやAIモデルにバックプロパゲートすることができる。 この概念は、プラスチックリサイクルにおけるバルク物質プロセスからなるUnityでシミュレートされた仮想マシンパークで実証されている。

Industrial process optimization and control is crucial to increase economic and ecologic efficiency. However, data sovereignty, differing goals, or the required expert knowledge for implementation impede holistic implementation. Further, the increasing use of data-driven AI-methods in process models and industrial sensory often requires regular fine-tuning to accommodate distribution drifts. We propose the Artificial Neural Twin, which combines concepts from model predictive control, deep learning, and sensor networks to address these issues. Our approach introduces differentiable data fusion to estimate the state of distributed process steps and their dependence on input data. By treating the interconnected process steps as a quasi neural-network, we can backpropagate loss gradients for process optimization or model fine-tuning to process parameters or AI models respectively. The concept is demonstrated on a virtual machine park simulated in Unity, consisting of bulk material processes in plastic recycling.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# LC-LLM:大規模言語モデルを用いた説明可能なレーン切替意図と軌道予測

LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models ( http://arxiv.org/abs/2403.18344v1 )

ライセンス: Link先を確認
Mingxing Peng, Xusen Guo, Xianda Chen, Meixin Zhu, Kehua Chen, Hao, Yang, Xuesong Wang, Yinhai Wang, (参考訳) ダイナミックな環境での安全な運転を確保するために、自動運転車は、事前に周囲の車両の車線変更意図を正確に予測し、将来の軌道を予測できる能力を持つ必要がある。 既存の動き予測手法は、特に長期予測精度と解釈可能性の観点から、改善の余地が十分にある。 本稿では,Large Language Models (LLM) の強い推論能力と自己説明能力を活用する,説明可能なレーン変更予測モデルであるLC-LLMを提案する。 基本的に、車線変更予測タスクを言語モデリング問題として再構成し、車線変更予測タスクに特化して、車線変更予測タスクを調整するための教師付き微調整技術を用いて、車線変更予測タスクを自然言語で処理する。 これにより、LLMの強力な常識推論能力を利用して、複雑な対話的な情報を理解し、長期予測の精度を向上させることができる。 さらに、推論段階では、説明要件をプロンプトに組み込む。 したがって, LC-LLMモデルでは車線変化の意図や軌道を予測できるだけでなく, その予測を説明でき, 解釈可能性を高めることができる。 大規模高次元データセットの大規模実験により,車線変化予測タスクにおけるLC-LLMの性能と解釈性が向上した。 我々の知る限りでは、LLMを車線変化の予測に活用する最初の試みである。 本研究は, LLMが運転行動理解のための包括的相互作用情報をエンコードできることを示唆する。

To ensure safe driving in dynamic environments, autonomous vehicles should possess the capability to accurately predict the lane change intentions of surrounding vehicles in advance and forecast their future trajectories. Existing motion prediction approaches have ample room for improvement, particularly in terms of long-term prediction accuracy and interpretability. In this paper, we address these challenges by proposing LC-LLM, an explainable lane change prediction model that leverages the strong reasoning capabilities and self-explanation abilities of Large Language Models (LLMs). Essentially, we reformulate the lane change prediction task as a language modeling problem, processing heterogeneous driving scenario information in natural language as prompts for input into the LLM and employing a supervised fine-tuning technique to tailor the LLM specifically for our lane change prediction task. This allows us to utilize the LLM's powerful common sense reasoning abilities to understand complex interactive information, thereby improving the accuracy of long-term predictions. Furthermore, we incorporate explanatory requirements into the prompts in the inference stage. Therefore, our LC-LLM model not only can predict lane change intentions and trajectories but also provides explanations for its predictions, enhancing the interpretability. Extensive experiments on the large-scale highD dataset demonstrate the superior performance and interpretability of our LC-LLM in lane change prediction task. To the best of our knowledge, this is the first attempt to utilize LLMs for predicting lane change behavior. Our study shows that LLMs can encode comprehensive interaction information for driving behavior understanding.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# 多モーダル大言語モデルにおける単モーダルビアーゼの定量化と緩和:因果的視点

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective ( http://arxiv.org/abs/2403.18346v1 )

ライセンス: Link先を確認
Meiqi Chen, Yixin Cao, Yan Zhang, Chaochao Lu, (参考訳) 近年,Large Language Models (LLMs) が発展し,MLLM (Multimodal LLMs) の開発が進められている。 その印象的な能力にもかかわらず、MLLMは不動バイアス(例えば言語バイアスや視覚バイアス)の過度な信頼性に悩まされ、複雑なマルチモーダルタスクにおける誤った回答につながる。 本稿では,視覚質問応答(VQA)問題におけるバイアスを解析するための因果的枠組みを提案する。 本稿では,VQA問題におけるMLLMの予測を解明するための因果グラフを考案し,詳細な因果解析によりバイアスの因果効果を評価する。 因果グラフに触発され、12,000のVQAインスタンスからなる新しいMOREデータセットを導入する。 このデータセットは、MLLMの能力に挑戦し、マルチホップ推論を必要とし、ユニモーダルバイアスを克服するように設計されている。 さらに,限定アクセス型MLLMのためのDeVA(Decompose-Verify-Answer)フレームワークや,微調整によるオープンソースのMLLMの改良など,MLLMの推論能力を向上させるための2つの戦略を提案する。 大規模で質的な実験は、将来の研究に貴重な洞察を与える。

Recent advancements in Large Language Models (LLMs) have facilitated the development of Multimodal LLMs (MLLMs). Despite their impressive capabilities, MLLMs often suffer from an over-reliance on unimodal biases (e.g., language bias and vision bias), leading to incorrect answers in complex multimodal tasks. To investigate this issue, we propose a causal framework to interpret the biases in Visual Question Answering (VQA) problems. Within our framework, we devise a causal graph to elucidate the predictions of MLLMs on VQA problems, and assess the causal effect of biases through an in-depth causal analysis. Motivated by the causal graph, we introduce a novel MORE dataset, consisting of 12,000 VQA instances. This dataset is designed to challenge MLLMs' abilities, necessitating multi-hop reasoning and the surmounting of unimodal biases. Furthermore, we propose two strategies to mitigate unimodal biases and enhance MLLMs' reasoning capabilities, including a Decompose-Verify-Answer (DeVA) framework for limited-access MLLMs and the refinement of open-source MLLMs through fine-tuning. Extensive quantitative and qualitative experiments offer valuable insights for future research.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# 量子ファジィによる太陽コロナホールのリアルタイム検出

A Quantum Fuzzy-based Approach for Real-Time Detection of Solar Coronal Holes ( http://arxiv.org/abs/2403.18347v1 )

ライセンス: Link先を確認
Sanmoy Bandyopadhyay, Suman Kundu, (参考訳) 太陽コロナホール(CHs)の検出と解析は、太陽物理学の領域における重要な研究分野である。 主に、様々な空間および地上システムに直接的または間接的に影響する地磁気嵐の適切な予測のために必要である。 これまでのCHの検出では、太陽科学者は手書きの手書きのアプローチに依存している。 しかし、画像処理技術の進歩により、いくつかの自動画像分割法がCHの検出に使われてきた。 これに対し、高速かつ正確なCHの検出は大きな問題となる。 本稿では,CHs領域の高速検出のために,量子コンピューティングに基づく高速ファジィc平均法を開発した。 この課題は2つの段階において実行され、第1段階では、太陽画像は量子計算に基づく高速ファジィc平均(QCFFCM)を用いてセグメント化され、後半段階では、画像形態的操作に基づいてセグメント化画像からCHが抽出される。 この研究において、量子コンピューティングは高速ファジィc平均(FFCM)アルゴリズムのコスト関数の最適化に使われ、量子近似最適化アルゴリズム(QAOA)はコスト関数の二次部分の最適化に使われている。 提案手法は、193 \AA{} SDO/AIAフルディスクの太陽画像データセットに対して試験されており、既存の手法と比較されている。 その結果,提案手法と既存手法の同等の性能を極めて少ない時間で示すことができた。

The detection and analysis of the solar coronal holes (CHs) is an important field of study in the domain of solar physics. Mainly, it is required for the proper prediction of the geomagnetic storms which directly or indirectly affect various space and ground-based systems. For the detection of CHs till date, the solar scientist depends on manual hand-drawn approaches. However, with the advancement of image processing technologies, some automated image segmentation methods have been used for the detection of CHs. In-spite of this, fast and accurate detection of CHs are till a major issues. Here in this work, a novel quantum computing-based fast fuzzy c-mean technique has been developed for fast detection of the CHs region. The task has been carried out in two stages, in first stage the solar image has been segmented using a quantum computing based fast fuzzy c-mean (QCFFCM) and in the later stage the CHs has been extracted out from the segmented image based on image morphological operation. In the work, quantum computing has been used to optimize the cost function of the fast fuzzy c-mean (FFCM) algorithm, where quantum approximate optimization algorithm (QAOA) has been used to optimize the quadratic part of the cost function. The proposed method has been tested for 193 \AA{} SDO/AIA full-disk solar image datasets and has been compared with the existing techniques. The outcome shows the comparable performance of the proposed method with the existing one within a very lesser time.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# リジェクションは信頼性を向上する:知識フィードバックから未知の質問をRLで除去するLLMの訓練

Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback ( http://arxiv.org/abs/2403.18349v1 )

ライセンス: Link先を確認
Hongshen Xu, Zichen Zhu, Da Ma, Situo Zhang, Shuai Fan, Lu Chen, Kai Yu, (参考訳) 大きな言語モデル(LLM)は、知識の範囲を超えて質問を識別する制限のため、幻覚として知られる誤った出力を生成することが多い。 幻覚への対処は研究の焦点となっているが、従来の取り組みは主に拒絶機構の重要性を考慮せずに正しさを高めることに集中していた。 本稿では,モデル信頼性の概念を,対応する指標とともに導入し,拒絶の役割を包括的に検討する。 これらの指標は、モデルが正確な応答を提供する能力を測定し、知識境界を超える質問を十分に拒否し、幻覚を最小化する。 本稿では,LLMの信頼性を向上させるために,知識フィードバックからの強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。 RLKFは知識フィードバックを活用してモデルの知識境界を動的に決定し、信頼性の高い報酬モデルを訓練し、知識外質問の拒否を促す。 数学的な質問に対する実験結果から、LLM信頼性を著しく向上させるRLKFの有効性が確認された。

Large Language Models (LLMs) often generate erroneous outputs, known as hallucinations, due to their limitations in discerning questions beyond their knowledge scope. While addressing hallucination has been a focal point in research, previous efforts primarily concentrate on enhancing correctness without giving due consideration to the significance of rejection mechanisms. In this paper, we conduct a comprehensive examination of the role of rejection, introducing the notion of model reliability along with corresponding metrics. These metrics measure the model's ability to provide accurate responses while adeptly rejecting questions exceeding its knowledge boundaries, thereby minimizing hallucinations. To improve the inherent reliability of LLMs, we present a novel alignment framework called Reinforcement Learning from Knowledge Feedback (RLKF). RLKF leverages knowledge feedback to dynamically determine the model's knowledge boundary and trains a reliable reward model to encourage the refusal of out-of-knowledge questions. Experimental results on mathematical questions affirm the substantial efficacy of RLKF in significantly enhancing LLM reliability.
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# アラビア語における意味探索の評価とその検索・拡張生成(RAG)における役割

Evaluation of Semantic Search and its Role in Retrieved-Augmented-Generation (RAG) for Arabic Language ( http://arxiv.org/abs/2403.18350v1 )

ライセンス: Link先を確認
Ali Mahboub, Muhy Eddin Za'ter, Bashar Alfrou, Yazan Estaitia, Adnan Jaljuli, Asma Hakouz, (参考訳) 機械学習とディープラーニングの最近の進歩は、セマンティックな類似性の概念を生み出した。 しかし、セマンティックな類似性を評価し、様々な文書にまたがる特定のクエリを探索することは、依然として複雑な作業である。 この複雑さは、タスクの多面的な性質、標準ベンチマークの欠如によるものであるが、これらの課題はアラビア語でさらに増幅されている。 本稿では,アラビア語のセマンティックサーチにおいて,単純かつ強力なベンチマークの確立に努める。 さらに、これらの指標とデータセットの有効性を正確に評価するために、検索拡張生成(RAG)の枠組み内で意味探索の評価を行う。

The latest advancements in machine learning and deep learning have brought forth the concept of semantic similarity, which has proven immensely beneficial in multiple applications and has largely replaced keyword search. However, evaluating semantic similarity and conducting searches for a specific query across various documents continue to be a complicated task. This complexity is due to the multifaceted nature of the task, the lack of standard benchmarks, whereas these challenges are further amplified for Arabic language. This paper endeavors to establish a straightforward yet potent benchmark for semantic search in Arabic. Moreover, to precisely evaluate the effectiveness of these metrics and the dataset, we conduct our assessment of semantic search within the framework of retrieval augmented generation (RAG).
翻訳日:2024-03-28 17:47:17 公開日:2024-03-27
# ビジョン型農業用多元農業データの作成

Generating Diverse Agricultural Data for Vision-Based Farming Applications ( http://arxiv.org/abs/2403.18351v1 )

ライセンス: Link先を確認
Mikolaj Cieslak, Umabharathi Govindarajan, Alejandro Garcia, Anuradha Chandrashekar, Torsten Hädrich, Aleksander Mendoza-Drosik, Dominik L. Michels, Sören Pirk, Chia-Chun Fu, Wojciech Pałubicki, (参考訳) 各種雑草とともに大豆の栽培に焦点をあてて, 合成農業シーンを創出するための特別な手続きモデルを提案する。 このモデルは、これらの植物の異なる成長段階、多様な土壌条件、および様々な照明条件下でのランダムなフィールド配置をシミュレートすることができる。 実際のテクスチャと環境因子を手続き生成プロセスに統合することで、合成データのフォトリアリズムと適用性が向上する。 我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、自律雑草制御のためのセマンティックセグメンテーションのような精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。 農業における機械学習モデルのトレーニングデータを大幅に増強する可能性を実証し, 実際の農業画像と比較することにより, モデルの有効性を検証した。 このアプローチは、高品質で多様なデータを生成するためのコスト効率の良いソリューションを提供するだけでなく、汎用モデルで完全にカバーされていない農業ビジョンタスクの特定のニーズにも対処する。

We present a specialized procedural model for generating synthetic agricultural scenes, focusing on soybean crops, along with various weeds. This model is capable of simulating distinct growth stages of these plants, diverse soil conditions, and randomized field arrangements under varying lighting conditions. The integration of real-world textures and environmental factors into the procedural generation process enhances the photorealism and applicability of the synthetic data. Our dataset includes 12,000 images with semantic labels, offering a comprehensive resource for computer vision tasks in precision agriculture, such as semantic segmentation for autonomous weed control. We validate our model's effectiveness by comparing the synthetic data against real agricultural images, demonstrating its potential to significantly augment training data for machine learning models in agriculture. This approach not only provides a cost-effective solution for generating high-quality, diverse data but also addresses specific needs in agricultural vision tasks that are not fully covered by general-purpose models.
翻訳日:2024-03-28 17:47:16 公開日:2024-03-27
# マルチオミクスデータ統合のための教師付き多重カーネル学習手法

Supervised Multiple Kernel Learning approaches for multi-omics data integration ( http://arxiv.org/abs/2403.18355v1 )

ライセンス: Link先を確認
Mitja Briscik, Gabriele Tazza, Marie-Agnes Dillies, László Vidács, Sébastien Dejean, (参考訳) 高スループット技術の進歩は、オミクスデータセットが継続的に利用できるようになることに端を発している。 複数の異種データソースの統合は、現在は生物学とバイオインフォマティクスの課題である。 マルチカーネル学習(MKL)は、ゲノムデータマイニングにおいて未使用のツールであるにもかかわらず、マルチオミクス入力の多様な性質を考慮したフレキシブルで有効な手法であることが示されており、我々は、異なるカーネル融合戦略に基づく新しいMKLアプローチを提供し、入力カーネルのメタカーネルから学習するために、サポートベクターマシンを用いた教師付きタスクのための教師付き統合アルゴリズムを適応させ、カーネル融合と分類のためのディープラーニングアーキテクチャもテストした。 マルチカーネル学習は、マルチオミクスゲノムデータの予測モデルに自然なフレームワークを提供する。 本研究は, バイオデータマイニング研究の方向性と, 異種データ統合手法のさらなる開発について述べる。

Advances in high-throughput technologies have originated an ever-increasing availability of omics datasets. The integration of multiple heterogeneous data sources is currently an issue for biology and bioinformatics. Multiple kernel learning (MKL) has shown to be a flexible and valid approach to consider the diverse nature of multi-omics inputs, despite being an underused tool in genomic data mining.We provide novel MKL approaches based on different kernel fusion strategies.To learn from the meta-kernel of input kernels, we adaptedunsupervised integration algorithms for supervised tasks with support vector machines.We also tested deep learning architectures for kernel fusion and classification.The results show that MKL-based models can compete with more complex, state-of-the-art, supervised multi-omics integrative approaches. Multiple kernel learning offers a natural framework for predictive models in multi-omics genomic data. Our results offer a direction for bio-data mining research and further development of methods for heterogeneous data integration.
翻訳日:2024-03-28 17:47:16 公開日:2024-03-27
# MonoHair:モノクロビデオからの高忠実ヘアモデリング

MonoHair: High-Fidelity Hair Modeling from a Monocular Video ( http://arxiv.org/abs/2403.18356v1 )

ライセンス: Link先を確認
Keyu Wu, Lingchen Yang, Zhiyi Kuang, Yao Feng, Xutao Han, Yuefan Shen, Hongbo Fu, Kun Zhou, Youyi Zheng, (参考訳) 高忠実な3D毛髪は、コンピュータグラフィックスにおける現実主義、芸術的表現、没入の実現に不可欠である。 既存の3Dヘアモデリング手法は目覚ましい性能を達成しているが、高品質なヘアリコンストラクションを実現するための課題は、厳密なキャプチャ条件を必要とし、実用的な応用を困難にするか、学習前のデータに強く依存し、画像のきめ細かい詳細を隠蔽することである。 これらの課題に対処するために,モノクロビデオから高忠実度毛髪再構築を実現するための汎用フレームワークであるMonoHairを提案する。 提案手法は, 毛髪のモデリング過程を, 正確な外装再構築と内部構造推定の2つの段階に分岐させる。 外観は、当社のPatch-based Multi-View Optimization (PMVO)を使って細心の注意を払って設計されています。 本手法は, 先行データに依存しない複数のビューから毛髪情報を戦略的に収集・統合し, 高忠実度外部3Dラインマップを作成する。 この地図は複雑な細部を捉えるだけでなく、毛髪の内部構造を推測するのに役立つ。 室内では,データ駆動型多視点3Dヘア再構築方式を採用している。 この方法は、再構成された外装から得られた2次元構造的レンダリングを利用して、トレーニング中に使用される合成2次元入力を反映する。 このアライメントは、トレーニングデータと実世界のデータのドメインギャップを効果的に橋渡しし、内部構造推論の精度と信頼性を高める。 最後に, ヘア成長アルゴリズムを用いて, ストランドモデルを生成し, 方向のあいまいさを解消する。 実験により,本手法は多彩なヘアスタイルにまたがって頑健性を示し,最先端の性能を実現していることが示された。 さらなる結果については、プロジェクトのページ https://keyuwu-cs.github.io/MonoHair/を参照してください。

Undoubtedly, high-fidelity 3D hair is crucial for achieving realism, artistic expression, and immersion in computer graphics. While existing 3D hair modeling methods have achieved impressive performance, the challenge of achieving high-quality hair reconstruction persists: they either require strict capture conditions, making practical applications difficult, or heavily rely on learned prior data, obscuring fine-grained details in images. To address these challenges, we propose MonoHair,a generic framework to achieve high-fidelity hair reconstruction from a monocular video, without specific requirements for environments. Our approach bifurcates the hair modeling process into two main stages: precise exterior reconstruction and interior structure inference. The exterior is meticulously crafted using our Patch-based Multi-View Optimization (PMVO). This method strategically collects and integrates hair information from multiple views, independent of prior data, to produce a high-fidelity exterior 3D line map. This map not only captures intricate details but also facilitates the inference of the hair's inner structure. For the interior, we employ a data-driven, multi-view 3D hair reconstruction method. This method utilizes 2D structural renderings derived from the reconstructed exterior, mirroring the synthetic 2D inputs used during training. This alignment effectively bridges the domain gap between our training data and real-world data, thereby enhancing the accuracy and reliability of our interior structure inference. Lastly, we generate a strand model and resolve the directional ambiguity by our hair growth algorithm. Our experiments demonstrate that our method exhibits robustness across diverse hairstyles and achieves state-of-the-art performance. For more results, please refer to our project page https://keyuwu-cs.github.io/MonoHair/.
翻訳日:2024-03-28 17:47:16 公開日:2024-03-27
# ViTによるCNN学習:ドメイン適応のためのクラス固有境界のハイブリッドモデル

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation ( http://arxiv.org/abs/2403.18360v1 )

ライセンス: Link先を確認
Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi, (参考訳) ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。 彼らは独自の特性を考慮せずに、ドメイン間の分布差をエンコーダとして整列させる。 例えば、ViTはグローバル表現をキャプチャする能力に優れており、CNNはローカル表現をキャプチャする利点がある。 この事実により、私たちは、Explicitly Class-specific Boundaries (ECB)と呼ばれるViTとCNNの両方をフルに活用するハイブリッドな手法を設計しました。 ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。 特に,2つの分類器の出力間の差を最大化することにより,ViTの特性を利用してクラス固有の決定境界を明示的に見つけることで,ソースサポートから離れたターゲットサンプルを検出する。 対照的に、CNNエンコーダクラスタは、2つの分類器の確率間の差を最小限に抑えて、予め定義されたクラス固有の境界に基づいて、ターゲットとなる特徴を目標としている。 最後に、ViTとCNNは相互に知識を交換し、擬似ラベルの品質を改善し、これらのモデルの知識格差を減らす。 従来のDA手法と比較して、当社のECBは優れたパフォーマンスを達成しており、このハイブリッドモデルの有効性を検証しています。 プロジェクトのWebサイトはhttps://dotrannhattuong.github.io/ECB/website/にある。

Most domain adaptation (DA) methods are based on either a convolutional neural networks (CNNs) or a vision transformers (ViTs). They align the distribution differences between domains as encoders without considering their unique characteristics. For instance, ViT excels in accuracy due to its superior ability to capture global representations, while CNN has an advantage in capturing local representations. This fact has led us to design a hybrid method to fully take advantage of both ViT and CNN, called Explicitly Class-specific Boundaries (ECB). ECB learns CNN on ViT to combine their distinct strengths. In particular, we leverage ViT's properties to explicitly find class-specific decision boundaries by maximizing the discrepancy between the outputs of the two classifiers to detect target samples far from the source support. In contrast, the CNN encoder clusters target features based on the previously defined class-specific boundaries by minimizing the discrepancy between the probabilities of the two classifiers. Finally, ViT and CNN mutually exchange knowledge to improve the quality of pseudo labels and reduce the knowledge discrepancies of these models. Compared to conventional DA methods, our ECB achieves superior performance, which verifies its effectiveness in this hybrid model. The project website can be found https://dotrannhattuong.github.io/ECB/website/.
翻訳日:2024-03-28 17:47:16 公開日:2024-03-27
# ViTAR:どんな解像度でも使えるヴィジュアルトランス

ViTAR: Vision Transformer with Any Resolution ( http://arxiv.org/abs/2403.18361v1 )

ライセンス: Link先を確認
Qihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang, (参考訳) 彼の論文はビジョントランスフォーマー(ViT)が直面している重要な課題に対処している。 通常、ViTはトレーニング中に見られるものと異なる処理解像度で性能低下を経験する。 私たちの研究は、この問題に対処する2つの重要なイノベーションを紹介します。 まず,高効率なインクリメンタルトークン統合を実現するために,単一のTransformerブロックで設計した動的解像度調整モジュールを提案する。 第二に、視覚変換器にファジィ位置符号化を導入し、複数の解像度に一貫した位置認識を提供することにより、任意のトレーニング解像度に過度に適合しないようにする。 我々のモデルであるViTAR(Vision Transformer with Any Resolution)は、計算コストを削減しつつ、1120x1120の解像度で83.3\%、4032x4032の解像度で80.4\%の精度で、優れた適応性を示す。 ViTARはまた、インスタンスやセマンティックセグメンテーションといった下流タスクのパフォーマンスも高く、Masked AutoEncoderのような自己教師付き学習技術と簡単に組み合わせることができる。 我々の研究は、ViTの解像度スケーラビリティを向上し、より汎用的で効率的な高解像度画像処理を実現するためのコスト効率の高いソリューションを提供する。

his paper tackles a significant challenge faced by Vision Transformers (ViTs): their constrained scalability across different image resolutions. Typically, ViTs experience a performance decline when processing resolutions different from those seen during training. Our work introduces two key innovations to address this issue. Firstly, we propose a novel module for dynamic resolution adjustment, designed with a single Transformer block, specifically to achieve highly efficient incremental token integration. Secondly, we introduce fuzzy positional encoding in the Vision Transformer to provide consistent positional awareness across multiple resolutions, thereby preventing overfitting to any single training resolution. Our resulting model, ViTAR (Vision Transformer with Any Resolution), demonstrates impressive adaptability, achieving 83.3\% top-1 accuracy at a 1120x1120 resolution and 80.4\% accuracy at a 4032x4032 resolution, all while reducing computational costs. ViTAR also shows strong performance in downstream tasks such as instance and semantic segmentation and can easily combined with self-supervised learning techniques like Masked AutoEncoder. Our work provides a cost-effective solution for enhancing the resolution scalability of ViTs, paving the way for more versatile and efficient high-resolution image processing.
翻訳日:2024-03-28 17:47:16 公開日:2024-03-27
# 5G-NRのための入出力DRLに基づくアップリンク動的スケジューリング

Intent-Aware DRL-Based Uplink Dynamic Scheduler for 5G-NR ( http://arxiv.org/abs/2403.18364v1 )

ライセンス: Link先を確認
Salwa Mostafa, Mateus P. Mota, Alvaro Valcarce, Mehdi Bennis, (参考訳) 産業用インターネット・オブ・モノのユーザ機器(IIoT UE)を意図的(QoS要求品質)とランダムなトラフィック到着で支援する問題について検討する。 IIoT UE間で利用可能な通信リソースのスケジューリング方法を学ぶために,DRLに基づく時間周波数リソースの集中型動的スケジューラを提案する。 提案するスケジューラはRLフレームワークを利用して,無線通信システムとトラフィック到着時の動的変化に適応する。 さらに,RLフレームワークの状態と動作空間を削減し,高速収束と学習戦略の向上を図るため,グラフベースの削減手法を提案する。 シミュレーション結果は、ラウンドロビン、半静的、ヒューリスティックアプローチなどの従来のスケジューリング方式と比較して、IIoT UEの表現された意図を保証するための知的スケジューラの有効性を示す。 提案したスケジューラは、計算されたタスク数の最大化において、競合なしおよび競合ベースのスキームよりも優れている。

We investigate the problem of supporting Industrial Internet of Things user equipment (IIoT UEs) with intent (i.e., requested quality of service (QoS)) and random traffic arrival. A deep reinforcement learning (DRL) based centralized dynamic scheduler for time-frequency resources is proposed to learn how to schedule the available communication resources among the IIoT UEs. The proposed scheduler leverages an RL framework to adapt to the dynamic changes in the wireless communication system and traffic arrivals. Moreover, a graph-based reduction scheme is proposed to reduce the state and action space of the RL framework to allow fast convergence and a better learning strategy. Simulation results demonstrate the effectiveness of the proposed intelligent scheduler in guaranteeing the expressed intent of IIoT UEs compared to several traditional scheduling schemes, such as round-robin, semi-static, and heuristic approaches. The proposed scheduler also outperforms the contention-free and contention-based schemes in maximizing the number of successfully computed tasks.
翻訳日:2024-03-28 17:47:16 公開日:2024-03-27
# BLADE:小さなドメイン特化モデルによるブラックボックス大言語モデルの強化

BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models ( http://arxiv.org/abs/2403.18365v1 )

ライセンス: Link先を確認
Haitao Li, Qingyao Ai, Jia Chen, Qian Dong, Zhijing Wu, Yiqun Liu, Chong Chen, Qi Tian, (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。 しかし、オープンドメインデータに基づいて開発された一般LLMは、法律や医療など、垂直ドメインのタスクに必要なドメイン固有の知識を欠いている可能性がある。 この問題に対処するため、従来のアプローチでは、ドメイン固有データによる継続的な事前トレーニングや、一般的なLLMをサポートするために検索拡張が用いられていた。 残念ながら、これらの戦略はコストがかかるか、実用的なアプリケーションでは信頼できない。 この目的のために、BLADEという新しいフレームワークを提案し、小さなドメイン-spEcificモデルでBlack-box LArge言語モデルを拡張する。 BLADE はブラックボックス LLM と小さなドメイン固有の LM で構成されている。 小さなLMはドメイン固有の知識を保持し、専門的な洞察を提供する一方、一般的なLMは堅牢な言語理解と推論能力に寄与する。 特に,本手法では3つのステップを踏む。 1)小さなLMをドメイン固有データで事前訓練すること。 2)知識教育データを用いてこのモデルを微調整し、 3) 一般LLMと小型LMのベイズ最適化について検討した。 公的法と医学のベンチマークで実施された大規模な実験により、BLADEは既存のアプローチよりも大幅に優れていることが判明した。 このことは、BLADE が垂直領域に対して一般 LLM を適用する上で、効果的でコスト効率のよいソリューションとしての可能性を示している。

Large Language Models (LLMs) like ChatGPT and GPT-4 are versatile and capable of addressing a diverse range of tasks. However, general LLMs, which are developed on open-domain data, may lack the domain-specific knowledge essential for tasks in vertical domains, such as legal, medical, etc. To address this issue, previous approaches either conduct continuous pre-training with domain-specific data or employ retrieval augmentation to support general LLMs. Unfortunately, these strategies are either cost-intensive or unreliable in practical applications. To this end, we present a novel framework named BLADE, which enhances Black-box LArge language models with small Domain-spEcific models. BLADE consists of a black-box LLM and a small domain-specific LM. The small LM preserves domain-specific knowledge and offers specialized insights, while the general LLM contributes robust language comprehension and reasoning capabilities. Specifically, our method involves three steps: 1) pre-training the small LM with domain-specific data, 2) fine-tuning this model using knowledge instruction data, and 3) joint Bayesian optimization of the general LLM and the small LM. Extensive experiments conducted on public legal and medical benchmarks reveal that BLADE significantly outperforms existing approaches. This shows the potential of BLADE as an effective and cost-efficient solution in adapting general LLMs for vertical domains.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 船の視界:船画像超解像のための拡散モデル

Ship in Sight: Diffusion Models for Ship-Image Super Resolution ( http://arxiv.org/abs/2403.18370v1 )

ライセンス: Link先を確認
Luigi Sigillo, Riccardo Fosco Gramaccioni, Alessandro Nicolosi, Danilo Comminiello, (参考訳) 近年, 画像生成分野における顕著な進歩は, 画像生成サブタスクにおいて, インペイント, デノナイジング, スーパーレゾリューションなど, 高品質な結果の需要が増大していることに起因している。 低解像度画像の品質を高めるための超解像技術の適用を探求するために、大きな努力が注がれている。 そこで本研究では,沿岸・港湾監視において重要な船舶画像の超解像問題について深く検討する。 本稿では,テキスト・ツー・イメージ拡散モデルへの関心の高まりにともなう機会について検討する。 特に,超解像生成時の船舶の重要詳細を最良に保存するために,授業中にテキストコンディショニングを利用する拡散モデルに基づくアーキテクチャを提案する。 このタスクの特異性とオフザシェルフデータの不足のため、オンラインの船画像から抽出された大きなラベル付き船のデータセットも紹介する。 提案手法は,複数の実験によって実証されたように,従来の超解法に使用される他の深層学習モデルよりも頑健な結果が得られる。 さらに、本モデルが、分類やオブジェクト検出などの下流タスクにどのような効果をもたらすかを考察し、現実のシナリオにおける実践的実装を強調した。 実験の結果,様々なタスクに対する最先端手法に対するフレームワークの柔軟性,信頼性,印象的な性能が示された。 コードは、https://github.com/LuigiSigillo/ShipinSight で入手できる。

In recent years, remarkable advancements have been achieved in the field of image generation, primarily driven by the escalating demand for high-quality outcomes across various image generation subtasks, such as inpainting, denoising, and super resolution. A major effort is devoted to exploring the application of super-resolution techniques to enhance the quality of low-resolution images. In this context, our method explores in depth the problem of ship image super resolution, which is crucial for coastal and port surveillance. We investigate the opportunity given by the growing interest in text-to-image diffusion models, taking advantage of the prior knowledge that such foundation models have already learned. In particular, we present a diffusion-model-based architecture that leverages text conditioning during training while being class-aware, to best preserve the crucial details of the ships during the generation of the super-resoluted image. Since the specificity of this task and the scarcity availability of off-the-shelf data, we also introduce a large labeled ship dataset scraped from online ship images, mostly from ShipSpotting\footnote{\url{www.shipspotting.com}} website. Our method achieves more robust results than other deep learning models previously employed for super resolution, as proven by the multiple experiments performed. Moreover, we investigate how this model can benefit downstream tasks, such as classification and object detection, thus emphasizing practical implementation in a real-world scenario. Experimental results show flexibility, reliability, and impressive performance of the proposed framework over state-of-the-art methods for different tasks. The code is available at: https://github.com/LuigiSigillo/ShipinSight .
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# BAM:オブジェクト検出におけるリアルタイムOoD検出のためのボックス抽象化モニタ

BAM: Box Abstraction Monitors for Real-time OoD Detection in Object Detection ( http://arxiv.org/abs/2403.18373v1 )

ライセンス: Link先を確認
Changshun Wu, Weicheng He, Chih-Hong Cheng, Xiaowei Huang, Saddek Bensalem, (参考訳) ディープニューラルネットワーク(DNN)のアウト・オブ・ディストリビューション(OoD)検出技術は、特にDNNが安全クリティカルなアプリケーションで使われ、オープンでダイナミックな環境と相互作用する場合、異常な入力のフィルタリングによって重要になる。 それにもかかわらず、OoD検出を最先端(SOTA)オブジェクト検出DNNに組み込むことは、DNNアーキテクチャの変更や複雑な損失関数の導入を必要とするSOTA OoD構築方法によってもたらされる複雑さから、大きな課題となっている。 本稿では,Box Abstraction-based Monitors (BAM) と呼ばれる,オブジェクト検出DNNの再トレーニングやアーキテクチャの変更を必要としない,単純かつ驚くほど効果的な手法を提案する。 BAMの新規性は、コンベックスボックス抽象の有限結合を用いて、In-distriion (ID)データのためのオブジェクトの学習された特徴をキャプチャすることに由来する。 特徴空間内の凸領域の結合は、非凸と解釈可能な決定境界の形成を可能にし、リアルタイム性能を犠牲にすることなく、VOSのような検出器の限界を克服する。 高速R-CNNに基づくオブジェクト検出DNNにBAMを組み込んだ実験では,SOTA OoD検出技術に対する性能が大幅に向上した。

Out-of-distribution (OoD) detection techniques for deep neural networks (DNNs) become crucial thanks to their filtering of abnormal inputs, especially when DNNs are used in safety-critical applications and interact with an open and dynamic environment. Nevertheless, integrating OoD detection into state-of-the-art (SOTA) object detection DNNs poses significant challenges, partly due to the complexity introduced by the SOTA OoD construction methods, which require the modification of DNN architecture and the introduction of complex loss functions. This paper proposes a simple, yet surprisingly effective, method that requires neither retraining nor architectural change in object detection DNN, called Box Abstraction-based Monitors (BAM). The novelty of BAM stems from using a finite union of convex box abstractions to capture the learned features of objects for in-distribution (ID) data, and an important observation that features from OoD data are more likely to fall outside of these boxes. The union of convex regions within the feature space allows the formation of non-convex and interpretable decision boundaries, overcoming the limitations of VOS-like detectors without sacrificing real-time performance. Experiments integrating BAM into Faster R-CNN-based object detection DNNs demonstrate a considerably improved performance against SOTA OoD detection techniques.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 層幅モデル更新による低レイテンシ同期学習を意識したストラグラー

Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates ( http://arxiv.org/abs/2403.18375v1 )

ライセンス: Link先を確認
Natalie Lang, Alejandro Cohen, Nir Shlezinger, (参考訳) 同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。 一般的には、ニューラルネットワーク(NN)モデルを周期的な集中集約と並行してローカルにトレーニングする異種デバイスのセットが関与する。 一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。 従来のアプローチでは、トラグラーによる不完全なモデル内更新の廃止、ローカルワークロードとアーキテクチャの変更、あるいは非同期設定に代えて行われる。 本研究では,階層的モデル更新のためのバックプロパゲーションによるNNの最適化手法を活用する,階層型階層型フェデレーション学習(SALF)を提案する。 SALFにより、ストラグラーは部分的な勾配を同期的に伝達することができ、グローバルモデルの各レイヤは、異なるコントリビューションのユーザセットと独立して更新される。 理論解析により,グローバルモデルに対する収束保証を,参加機器の分布を軽度に仮定して確立し,SALFが時間制限のないFLと同じ漸近速度で収束することを明らかにする。 この知見は経験的観察と一致し, FLのデバイス不均一性ギャップを緩和する代替メカニズムと比較して, SALFの性能向上を実証した。

Synchronous federated learning (FL) is a popular paradigm for collaborative edge learning. It typically involves a set of heterogeneous devices locally training neural network (NN) models in parallel with periodic centralized aggregations. As some of the devices may have limited computational resources and varying availability, FL latency is highly sensitive to stragglers. Conventional approaches discard incomplete intra-model updates done by stragglers, alter the amount of local workload and architecture, or resort to asynchronous settings; which all affect the trained model performance under tight training latency constraints. In this work, we propose straggler-aware layer-wise federated learning (SALF) that leverages the optimization procedure of NNs via backpropagation to update the global model in a layer-wise fashion. SALF allows stragglers to synchronously convey partial gradients, having each layer of the global model be updated independently with a different contributing set of users. We provide a theoretical analysis, establishing convergence guarantees for the global model under mild assumptions on the distribution of the participating devices, revealing that SALF converges at the same asymptotic rate as FL with no timing limitations. This insight is matched with empirical observations, demonstrating the performance gains of SALF compared to alternative mechanisms mitigating the device heterogeneity gap in FL.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# IIPミクサ:電池残量予測のためのイントラインターパッチ混合アーキテクチャ

IIP-Mixer:Intra-Inter Patch Mixing Architecture for Battery Remaining Useful Life Prediction ( http://arxiv.org/abs/2403.18379v1 )

ライセンス: Link先を確認
Guangzai Ye, Li Feng, Jianlan Guo, Yuqiang Chen, (参考訳) リチウムイオン電池の残留寿命(RUL)を正確に推定することは、充電可能な電池管理システムの安全かつ安定した運転を維持するために重要である。 しかし、このタスクは複雑な時間的ダイナミクスが関与しているため、しばしば困難である。 近年,Transformer や Informer などの注意型ネットワークが時系列予測において一般的なアーキテクチャとなっている。 有効性にもかかわらず、豊富なパラメータを持つこれらのモデルは、時間的パターンを解明するためにかなりのトレーニング時間を必要とします。 これらの課題に対処するために,我々は,多層パーセプトロン(MLP)のみをベースとしたアーキテクチャである'Intra-Inter Patch Mixer' (IIP-Mixer) という,シンプルなMLP-Mixerアーキテクチャを提案する。 提案したIIP-ミキサーは, パッチ内混合MLP, 短期の局所時間パターン, 長期のグローバル時間パターンをキャプチャするパッチ間混合MLPの2層からなる。 特に,RUL予測における特徴の多様性に対処するため,MLP-Mixerアーキテクチャに重み付き損失関数を導入する。 我々の実験により、IIP-Mixerは、他の一般的な時系列フレームワークよりも優れたバッテリRUL予測において、競争性能を発揮することが示された。

Accurately estimating the Remaining Useful Life (RUL) of lithium-ion batteries is crucial for maintaining the safe and stable operation of rechargeable battery management systems. However, this task is often challenging due to the complex temporal dynamics involved. Recently, attention-based networks, such as Transformers and Informer, have been the popular architecture in time series forecasting. Despite their effectiveness, these models with abundant parameters necessitate substantial training time to unravel temporal patterns. To tackle these challenges, we propose a simple MLP-Mixer-based architecture named 'Intra-Inter Patch Mixer' (IIP-Mixer), which is an architecture based exclusively on multi-layer perceptrons (MLPs), extracting information by mixing operations along both intra-patch and inter-patch dimensions for battery RUL prediction. The proposed IIP-Mixer comprises parallel dual-head mixer layers: the intra-patch mixing MLP, capturing local temporal patterns in the short-term period, and the inter-patch mixing MLP, capturing global temporal patterns in the long-term period. Notably, to address the varying importance of features in RUL prediction, we introduce a weighted loss function in the MLP-Mixer-based architecture, marking the first time such an approach has been employed. Our experiments demonstrate that IIP-Mixer achieves competitive performance in battery RUL prediction, outperforming other popular time-series frameworks
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 優先度学習による大規模言語モデルの分散テキスト生成の改善

Improving Attributed Text Generation of Large Language Models via Preference Learning ( http://arxiv.org/abs/2403.18381v1 )

ライセンス: Link先を確認
Dongfang Li, Zetian Sun, Baotian Hu, Zhenyu Liu, Xinshuo Hu, Xuebo Liu, Min Zhang, (参考訳) 大規模言語モデルは自然言語処理で広く採用されているが、信頼性の低いコンテンツを生成するという課題に直面している。 最近の研究は、証拠(引用)を提供する手段として、帰属に頼って誤報や幻覚を減らすことを目的としている。 しかし,現状の帰属法は,人文の引用機構を反映しない検索段階と自動評価に重点を置いている。 本稿では、属性タスクを優先学習としてモデル化し、自動優先度最適化(APO)フレームワークを導入することにより、これらの課題に対処する。 まず、既存のデータセットから収集およびフィルタリングすることで、6,330のサンプルでトレーニング後のキュレートされたコレクションを作成します。 第2に、ラベル付け嗜好データの高コストを考慮すると、95,263対の帰属選好データを合成する自動手法を提案する。 さらに,人間の引用プロセスにインスピレーションを得て,より詳細な情報を活用することで,プログレッシブな選好最適化手法を提案する。 3つのデータセット(ASQA、StrategyQA、ELI5)に対する大規模な実験は、APOがより高い回答品質で最先端の引用F1を達成することを示した。

Large language models have been widely adopted in natural language processing, yet they face the challenge of generating unreliable content. Recent works aim to reduce misinformation and hallucinations by resorting to attribution as a means to provide evidence (i.e., citations). However, current attribution methods usually focus on the retrieval stage and automatic evaluation that neglect mirroring the citation mechanisms in human scholarly writing to bolster credibility. In this paper, we address these challenges by modelling the attribution task as preference learning and introducing an Automatic Preference Optimization (APO) framework. First, we create a curated collection for post-training with 6,330 examples by collecting and filtering from existing datasets. Second, considering the high cost of labelling preference data, we further propose an automatic method to synthesize attribution preference data resulting in 95,263 pairs. Moreover, inspired by the human citation process, we further propose a progressive preference optimization method by leveraging fine-grained information. Extensive experiments on three datasets (i.e., ASQA, StrategyQA, and ELI5) demonstrate that APO achieves state-of-the-art citation F1 with higher answer quality.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 生成型マルチモーダルモデルは優れたクラスインクリメンタル学習者である

Generative Multi-modal Models are Good Class-Incremental Learners ( http://arxiv.org/abs/2403.18383v1 )

ライセンス: Link先を確認
Xusheng Cao, Haori Lu, Linlan Huang, Xialei Liu, Ming-Ming Cheng, (参考訳) クラスインクリメンタルラーニング(CIL)のシナリオでは、分類器の現在のタスクに対する偏見に起因する破滅的な忘れ込み現象が、長年にわたって重大な課題を提起してきた。 主に差別モデルの特徴によって引き起こされる。 生成的マルチモーダルモデルの人気が高まり、差別的モデルをCILの生成的モデルに置き換えることを検討する。 しかし、差別から生成モデルへの移行には2つの重要な課題に取り組む必要がある。 主な課題は、生成されたテキスト情報を異なるカテゴリの分類に転送することである。 さらに、CILのタスクを生成フレームワーク内で定式化する必要がある。 そこで本研究では,クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。 提案手法は適応生成モデルを用いて画像のラベルを直接生成する。 詳細なテキストを得た後、テキストエンコーダを用いてテキストの特徴を抽出し、特徴マッチングを用いて分類予測として最も類似したラベルを決定する。 従来のCIL設定では、長時間のタスクシナリオにおいて、より優れた結果が得られる。 Few-shot CIL設定では、現在の最先端メソッドを少なくとも14倍の精度で改善し、忘れてはならない。 私たちのコードは \url{https://github.com/DoubleClass/GMM} で利用可能です。

In class-incremental learning (CIL) scenarios, the phenomenon of catastrophic forgetting caused by the classifier's bias towards the current task has long posed a significant challenge. It is mainly caused by the characteristic of discriminative models. With the growing popularity of the generative multi-modal models, we would explore replacing discriminative models with generative ones for CIL. However, transitioning from discriminative to generative models requires addressing two key challenges. The primary challenge lies in transferring the generated textual information into the classification of distinct categories. Additionally, it requires formulating the task of CIL within a generative framework. To this end, we propose a novel generative multi-modal model (GMM) framework for class-incremental learning. Our approach directly generates labels for images using an adapted generative model. After obtaining the detailed text, we use a text encoder to extract text features and employ feature matching to determine the most similar label as the classification prediction. In the conventional CIL settings, we achieve significantly better results in long-sequence task scenarios. Under the Few-shot CIL setting, we have improved by at least 14\% accuracy over all the current state-of-the-art methods with significantly less forgetting. Our code is available at \url{https://github.com/DoubleClass/GMM}.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# FTBC: ANN-SNN変換の最適化のための時間的バイアス補正

FTBC: Forward Temporal Bias Correction for Optimizing ANN-SNN Conversion ( http://arxiv.org/abs/2403.18388v1 )

ライセンス: Link先を確認
Xiaofeng Wu, Velibor Bojkovic, Bin Gu, Kun Suo, Kai Zou, (参考訳) Spiking Neural Networks(SNN)は、ニューラルネットワーク(ANN)と比較して、エネルギー効率の高いコンピューティングのための有望な道を提供する。 しかしながら、このポテンシャルは、時空間バックプロパゲーション(スパイキングニューロンの時間的ダイナミクスとその離散信号処理)を通じてSNNを直接訓練する際の固有の課題、特にANN-SNN変換による代替的な訓練方法を必要とする。 本稿では,計算オーバーヘッドを伴わずに変換精度を向上させることを目的とした,FTBC(Forward Temporal Bias Correction)技術を紹介する。 提案手法は, 適切な時間偏差校正により, ANN-SNN変換の予測誤差を時間ステップ毎にゼロに抑えることができるという理論的な知見に基づく。 さらに,前向きパスのみの時間偏差を求めるヒューリスティックアルゴリズムを提案し,バックプロパゲーションの計算負担を軽減し,CIFAR-10/100およびImageNetデータセット上での手法の評価を行い,全データセットにおいて顕著な精度の向上を実現した。 コードはGitHubリポジトリでリリースされている。

Spiking Neural Networks (SNNs) offer a promising avenue for energy-efficient computing compared with Artificial Neural Networks (ANNs), closely mirroring biological neural processes. However, this potential comes with inherent challenges in directly training SNNs through spatio-temporal backpropagation -- stemming from the temporal dynamics of spiking neurons and their discrete signal processing -- which necessitates alternative ways of training, most notably through ANN-SNN conversion. In this work, we introduce a lightweight Forward Temporal Bias Correction (FTBC) technique, aimed at enhancing conversion accuracy without the computational overhead. We ground our method on provided theoretical findings that through proper temporal bias calibration the expected error of ANN-SNN conversion can be reduced to be zero after each time step. We further propose a heuristic algorithm for finding the temporal bias only in the forward pass, thus eliminating the computational burden of backpropagation and we evaluate our method on CIFAR-10/100 and ImageNet datasets, achieving a notable increase in accuracy on all datasets. Codes are released at a GitHub repository.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# マルチビュークラスタリングのための一貫性と特異性を考慮したテンソル型グラフ学習

Tensor-based Graph Learning with Consistency and Specificity for Multi-view Clustering ( http://arxiv.org/abs/2403.18393v1 )

ライセンス: Link先を確認
Long Shi, Lei Cao, Yunshan Ye, Yu Zhao, Badong Chen, (参考訳) グラフ学習は多視点クラスタリングにおいて重要な手法として広く認識されている。 既存のグラフ学習手法では、確率的隣人に基づいて適応的な隣人グラフを構築し、クラスタリングのためのコンセンサスグラフを学習するが、2つの制限に直面している。 第一に、それらはしばしばユークリッド距離に頼り、アダプティブな隣接グラフを構築する際に類似度を測定するが、これは多くの実世界のシナリオにおいてデータポイント間の本質的な構造を捉えるのに不十分であることを示す。 第2に、これらの手法のほとんどは、ビュー固有のグラフ情報を無視して、コンセンサスグラフにのみフォーカスする。 上記の欠点に対応するために,マルチビュークラスタリングの一貫性と特異性を同時に考慮したテンソルベースのグラフ学習フレームワークを提案する。 具体的には、Stiefel多様体上の類似度距離を計算し、データポイント間の固有構造を保存する。 各ビューの学習した隣接グラフは、一貫したグラフとビュー固有のグラフの両方からなると仮定することにより、新しいテンソルベースのターゲットグラフ学習パラダイムを定式化する。 高次相関を明らかにする際のテンソル特異値分解(t-SVD)の利点により、このモデルは対象グラフの完全な理解を達成することができる。 さらに,提案する目的最適化問題を解くため,反復アルゴリズムを開発した。 実世界のデータセットで行った実験は、いくつかの最先端のマルチビュークラスタリング手法よりも提案手法の優れた性能を示した。 ソースコードはhttps://github.com/lshi91/CSTGL-Codeで公開されている。

Graph learning is widely recognized as a crucial technique in multi-view clustering. Existing graph learning methods typically involve constructing an adaptive neighbor graph based on probabilistic neighbors and then learning a consensus graph to for clustering, however, they are confronted with two limitations. Firstly, they often rely on Euclidean distance to measure similarity when constructing the adaptive neighbor graph, which proves inadequate in capturing the intrinsic structure among data points in many real-world scenarios. Secondly, most of these methods focus solely on consensus graph, ignoring view-specific graph information. In response to the aforementioned drawbacks, we in this paper propose a novel tensor-based graph learning framework that simultaneously considers consistency and specificity for multi-view clustering. Specifically, we calculate the similarity distance on the Stiefel manifold to preserve the intrinsic structure among data points. By making an assumption that the learned neighbor graph of each view comprises both a consistent graph and a view-specific graph, we formulate a new tensor-based target graph learning paradigm. Owing to the benefits of tensor singular value decomposition (t-SVD) in uncovering high-order correlations, this model is capable of achieving a complete understanding of the target graph. Furthermore, we develop an iterative algorithm to solve the proposed objective optimization problem. Experiments conducted on real-world datasets have demonstrated the superior performance of the proposed method over some state-of-the-art multi-view clustering methods. The source code has been released on https://github.com/lshi91/CSTGL-Code.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# ホルシュタインモデルにおける導電率の頂点補正:数値解析による研究

Vertex corrections to conductivity in the Holstein model: A numerical-analytical study ( http://arxiv.org/abs/2403.18394v1 )

ライセンス: Link先を確認
Veljko Janković, Petar Mitrić, Darko Tanasković, Nenad Vukmirović, (参考訳) 光伝導率プロファイルは、相互作用する量子多体系における電子力学の情報を運ぶ。 その計算は、通常、単一粒子(気泡)近似を呼び起こし、頂点補正を無視することで、強迫的なタスクである。 その重要性は、モデルハミルトニアン計算においても明らかなままである。 ここでは,解析的議論と,有限温度実時間相関関数の数値的および近似計算における最近のブレークスルーを組み合わせ,一次元ホルシュタインポーラロンモデルにおける頂点補正の重要性を徹底的に評価する。 解析的にも数値的にも、ゼロ電子-フォノン相互作用、ゼロ電子帯域幅、無限温度の限界における光伝導率に対する頂点補正は消滅する。 さらに, 電子移動度に対する頂点補正は, これらの限界間の多くのパラメータ状態において消失することを示した。 これらの場合、バーテックス補正は、自己エネルギーがほぼ局所的に残っているにもかかわらず、気泡近似と比較して光学伝導率プロファイルに重要な定性的変化をもたらす。 これらの変化は、弾道輸送と拡散輸送の間の中間時間スケールにおいて、時間制限された電子のスローダウンを完全に捉えないバブル近似に遡る。 頂点補正は、中間電子-フォノン相互作用において全体的に最も顕著であり、モデルパラメータの値に応じて気泡-近似モビリティを増大または減少させる可能性がある。

The optical-conductivity profile carries information on electronic dynamics in interacting quantum many-body systems. Its computation is a formidable task that is usually approached by invoking the single-particle (bubble) approximation and neglecting the vertex corrections. Their importance remains elusive even in model Hamiltonian calculations. Here, we combine analytical arguments with our recent breakthroughs in numerically exact and approximate calculations of finite-temperature real-time correlation functions to thoroughly assess the importance of vertex corrections in the one-dimensional Holstein polaron model. We find, both analytically and numerically, vanishing vertex corrections to optical conductivity in the limits of zero electron--phonon interaction, zero electronic bandwidth, and infinite temperature. Furthermore, our numerical results show that vertex corrections to the electron mobility also vanish in many parameter regimes between these limits. In some of these cases, the vertex corrections still introduce important qualitative changes to the optical-conductivity profile in comparison to the bubble approximation even though the self-energy remains approximately local. We trace these changes back to the bubble approximation not fully capturing a time-limited slow-down of the electron on intermediate time scales between ballistic and diffusive transport. We find that the vertex corrections are overall most pronounced for intermediate electron--phonon interaction and may increase or decrease the bubble-approximation mobility depending on the values of model parameters.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 変分量子アルゴリズムにおける整数線形不等式の効果的な埋め込み

Effective Embedding of Integer Linear Inequalities for Variational Quantum Algorithms ( http://arxiv.org/abs/2403.18395v1 )

ライセンス: Link先を確認
Maximilian Hess, Lilly Palackal, Abhishek Awasthi, Karen Wintersperger, (参考訳) 変分量子アルゴリズムでは、通常、制約はペナルティ項によって問題対象に追加される。 線形不等式制約に対して、この手順は追加のスラック量子ビットを必要とする。 これらの余分な量子ビットは、検索スペースを爆破し、古典的なオプティマイザによってナビゲートされるパラメータのランドスケープを複雑にする傾向がある。 本研究では,これらの欠点を伴わない量子アルゴリズムの線形不等式をモデル化するためのアプローチについて検討する。 具体的には、スラック量子ビットを完全に省略し、パラメータチューニング中に古典的に不等式を評価することを提案する。 我々は,QAOA法およびトロッター化断熱進化試験を行い,実験結果を示した。 ベンチマーク問題として、我々はマルチクナップサック問題の異なる事例について考察する。 その結果,回路ハミルトニアンからスラックビットを除去し,期待値のみを考慮すれば,標準手法よりも解の質が向上することがわかった。 テストは26キュービットまでの問題サイズを用いて実施されている。 本手法は, 線形不等式制約のある任意の問題に適用可能であり, 分散量子コンピューティングのディジタル化にも適している。

In variational quantum algorithms, constraints are usually added to the problem objective via penalty terms. For linear inequality constraints, this procedure requires additional slack qubits. Those extra qubits tend to blow up the search space and complicate the parameter landscapes to be navigated by the classical optimizers. In this work, we explore approaches to model linear inequalities for quantum algorithms without these drawbacks. More concretely, our main suggestion is to omit the slack qubits completely and evaluate the inequality classically during parameter tuning. We test our methods on QAOA as well as on Trotterized adiabatic evolution, and present empirical results. As a benchmark problem, we consider different instances of the multi-knapsack problem. Our results show that removing the slack bits from the circuit Hamiltonian and considering them only for the expectation value yields better solution quality than the standard approach. The tests have been carried out using problem sizes up to 26 qubits. Our methods can in principle be applied to any problem with linear inequality constraints, and are suitable for variational as well as digitized versions of adiabatic quantum computing.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 改良された深部畳み込み生成対向ネットワークを用いた抽象芸術における色とブラッシュストロークパターン認識

Colour and Brush Stroke Pattern Recognition in Abstract Art using Modified Deep Convolutional Generative Adversarial Networks ( http://arxiv.org/abs/2403.18397v1 )

ライセンス: Link先を確認
Srinitish Srinivasan, Varenya Pathak, (参考訳) 抽象芸術は、しばしば芸術家の感情を描く能力を持つ、非常に人気のある、議論された芸術形態である。 多くの研究者が、機械学習とディープラーニングを使用して、エッジ検出、ブラシストローク、感情認識アルゴリズムという形で抽象芸術を研究する試みを行っている。 本稿では,GAN(Generative Adversarial Neural Networks)を用いた抽象絵画の広範な分布について述べる。 GANは、研究者や科学者が生成した画像空間を効果的に探索し、研究できる分布を学習し、再現する能力を持っている。 しかし、課題は、一般的なトレーニングの落とし穴を克服する効率的なGANアーキテクチャを開発することである。 本稿では,高品質なアートワーク生成のための改良型DCGAN(mDCGAN)を導入することで,この問題に対処する。 このアプローチは、DCGANの複雑な作業、最適化技術、および生成したパターンを効果的に研究できるアートジェネレーションの安定性とリアリズムを改善するための正規化手法を徹底的に探究することを含む。 提案したmDCGANは、階層構成とアーキテクチャ選択に厳密な調整を取り入れ、モデム崩壊や勾配消滅といった問題に効果的に対処しながら、アートジェネレーションのユニークな要求に対する調整されたソリューションを提供する。 さらに,抽象芸術空間におけるブラッシュストロークと色の間のベクトル関係をランダムに理解し,GAN訓練後の不安定な出力の統計的解析を行い,その有意差を比較することにより,生成した潜時空間を探索する。 これらの結果は,デジタルアート生成とデジタルアートエコシステムの分野に革命をもたらす可能性を強調し,提案手法の有効性を検証した。

Abstract Art is an immensely popular, discussed form of art that often has the ability to depict the emotions of an artist. Many researchers have made attempts to study abstract art in the form of edge detection, brush stroke and emotion recognition algorithms using machine and deep learning. This papers describes the study of a wide distribution of abstract paintings using Generative Adversarial Neural Networks(GAN). GANs have the ability to learn and reproduce a distribution enabling researchers and scientists to effectively explore and study the generated image space. However, the challenge lies in developing an efficient GAN architecture that overcomes common training pitfalls. This paper addresses this challenge by introducing a modified-DCGAN (mDCGAN) specifically designed for high-quality artwork generation. The approach involves a thorough exploration of the modifications made, delving into the intricate workings of DCGANs, optimisation techniques, and regularisation methods aimed at improving stability and realism in art generation enabling effective study of generated patterns. The proposed mDCGAN incorporates meticulous adjustments in layer configurations and architectural choices, offering tailored solutions to the unique demands of art generation while effectively combating issues like mode collapse and gradient vanishing. Further this paper explores the generated latent space by performing random walks to understand vector relationships between brush strokes and colours in the abstract art space and a statistical analysis of unstable outputs after a certain period of GAN training and compare its significant difference. These findings validate the effectiveness of the proposed approach, emphasising its potential to revolutionise the field of digital art generation and digital art ecosystem.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 電力網の周波数を用いた電力グリッド分類のための多重分類器融合フレームワークにおけるスペクトル解析について

On Spectrogram Analysis in a Multiple Classifier Fusion Framework for Power Grid Classification Using Electric Network Frequency ( http://arxiv.org/abs/2403.18402v1 )

ライセンス: Link先を確認
Georgios Tzolopoulos, Christos Korgialas, Constantine Kotropoulos, (参考訳) ENF(Electric Network Frequency)は、電力流通システム固有の信号である。 ここでは、ENFを利用した電力グリッド分類の新しい手法を開発した。 スペクトログラムは、異なるグリッドをまたいだオーディオと電力記録から生成され、分類器の融合によるグリッド分類に役立つ独特のENFパターンを明らかにする。 ニューラルネットワーク検索を用いて最適化された4つの従来の機械学習分類器と畳み込みニューラルネットワーク(CNN)が1-vs-All分類のために開発された。 このプロセスは、サンプル毎に多数の予測を生成し、それをコンパイルして、融合プロセスのモデル化用に特別に設計された浅いマルチラベルニューラルネットワークをトレーニングするために使用し、最終的に各サンプルに対する決定的なクラス予測に繋がる。 実験結果から, 検証と検査の精度は, 最先端の分類器よりも優れており, 提案手法の有効性とロバスト性について概説した。

The Electric Network Frequency (ENF) serves as a unique signature inherent to power distribution systems. Here, a novel approach for power grid classification is developed, leveraging ENF. Spectrograms are generated from audio and power recordings across different grids, revealing distinctive ENF patterns that aid in grid classification through a fusion of classifiers. Four traditional machine learning classifiers plus a Convolutional Neural Network (CNN), optimized using Neural Architecture Search, are developed for One-vs-All classification. This process generates numerous predictions per sample, which are then compiled and used to train a shallow multi-label neural network specifically designed to model the fusion process, ultimately leading to the conclusive class prediction for each sample. Experimental findings reveal that both validation and testing accuracy outperform those of current state-of-the-art classifiers, underlining the effectiveness and robustness of the proposed methodology.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# FoC: LLMを用いたストラップ付きバイナリにおける暗号関数の抽出

FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs ( http://arxiv.org/abs/2403.18403v1 )

ライセンス: Link先を確認
Guoqiang Chen, Xiuwei Shang, Shaoyin Cheng, Yanming Zhang, Weiming Zhang, Nenghai Yu, (参考訳) 取り除かれたバイナリにおける暗号関数の振る舞いを分析することは、難しいが必須の課題である。 暗号アルゴリズムは一般的なコードに比べて論理的な複雑さが大きいが、ウイルス分析やレガシーコード検査のような分野では避けられない。 既存の手法は、しばしばデータや構造パターンのマッチングに頼り、最適下限の一般化可能性や手作業に悩まされる。 本稿では,FoC(FoC to Figure out the Cryptographic function in stripped binaries)という新しいフレームワークを提案する。 FoCでは、自然言語における暗号関数のセマンティクスを要約するために、まずバイナリ大言語モデル(FoCBinLLM)を構築した。 FoC-BinLLMの予測は、脆弱性パッチのようなマイナーな変更には敏感である。 さらに、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。 さらに、評価のための暗号バイナリデータセットを構築し、この領域におけるさらなる研究を容易にする。 また、広範囲なバイナリ関数のためのセマンティックラベルを作成するために、自動手法が考案されている。 FoC-BinLLMはROUGE-LスコアでChatGPTを14.61%上回った。 FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。 さらに,ウイルス解析と1日間の脆弱性検出の実用性を示した。

Analyzing the behavior of cryptographic functions in stripped binaries is a challenging but essential task. Cryptographic algorithms exhibit greater logical complexity compared to typical code, yet their analysis is unavoidable in areas such as virus analysis and legacy code inspection. Existing methods often rely on data or structural pattern matching, leading to suboptimal generalizability and suffering from manual work. In this paper, we propose a novel framework called FoC to Figure out the Cryptographic functions in stripped binaries. In FoC, we first build a binary large language model (FoCBinLLM) to summarize the semantics of cryptographic functions in natural language. The prediction of FoC-BinLLM is insensitive to minor changes, such as vulnerability patches. To mitigate it, we further build a binary code similarity model (FoC-Sim) upon the FoC-BinLLM to create change-sensitive representations and use it to retrieve similar implementations of unknown cryptographic functions in a database. In addition, we construct a cryptographic binary dataset for evaluation and to facilitate further research in this domain. And an automated method is devised to create semantic labels for extensive binary functions. Evaluation results demonstrate that FoC-BinLLM outperforms ChatGPT by 14.61% on the ROUGE-L score. FoC-Sim outperforms the previous best methods with a 52% higher Recall@1. Furthermore, our method also shows practical ability in virus analysis and 1-day vulnerability detection.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# 判例検索における関連判断のための大規模言語モデルの活用

Leveraging Large Language Models for Relevance Judgments in Legal Case Retrieval ( http://arxiv.org/abs/2403.18405v1 )

ライセンス: Link先を確認
Shengjie Ma, Chong Chen, Qi Chu, Jiaxin Mao, (参考訳) 訴訟検索に関する関連する判断を収集することは、困難で時間を要する作業である。 2つの訴訟の関連性を正確に判断するには、長い文章を読むのに相当な努力と、法的な事実を抽出し、法的な判断を下すための高度な領域の専門知識が必要である。 先進的な大規模言語モデルの出現により、近年の研究により、LLMを関連判断に使用することが期待されている。 それにもかかわらず、法ケース検索において、信頼性の高い妥当性判断に汎用的な大規模言語モデルを用いる方法は、まだ徹底的に検討されていない。 この研究ギャップを埋めるために、訴訟の関連する判断に合わせた、新しい数発のワークフローを考案する。 提案したワークフローは、アノテーションプロセスを一連の段階に分解し、人間のアノテータが採用するプロセスを模倣し、専門家による推論の柔軟な統合を可能にして、関連判断の精度を高める。 LLMと人的専門家の関連判断を比較することで,提案したワークフローと信頼性の高い関連判断が得られることを実証的に示す。 さらに,大規模言語モデルにより生成されたデータの合成により,既存の判例検索モデルを拡張する能力を示す。

Collecting relevant judgments for legal case retrieval is a challenging and time-consuming task. Accurately judging the relevance between two legal cases requires a considerable effort to read the lengthy text and a high level of domain expertise to extract Legal Facts and make juridical judgments. With the advent of advanced large language models, some recent studies have suggested that it is promising to use LLMs for relevance judgment. Nonetheless, the method of employing a general large language model for reliable relevance judgments in legal case retrieval is yet to be thoroughly explored. To fill this research gap, we devise a novel few-shot workflow tailored to the relevant judgment of legal cases. The proposed workflow breaks down the annotation process into a series of stages, imitating the process employed by human annotators and enabling a flexible integration of expert reasoning to enhance the accuracy of relevance judgments. By comparing the relevance judgments of LLMs and human experts, we empirically show that we can obtain reliable relevance judgments with the proposed workflow. Furthermore, we demonstrate the capacity to augment existing legal case retrieval models through the synthesis of data generated by the large language model.
翻訳日:2024-03-28 17:37:28 公開日:2024-03-27
# ビデオに価値ある画像グリッド:VLMを使ったゼロショットビデオ質問回答

An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM ( http://arxiv.org/abs/2403.18406v1 )

ライセンス: Link先を確認
Wonkyun Kim, Changin Choi, Wonseok Lee, Wonjong Rhee, (参考訳) 近年のLarge Language Models (LLMs) の高度な推論能力に刺激されて、ビデオモダリティをブリッジするための様々な戦略が考案されている。 ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、学習可能なインタフェースをビデオデータで訓練し、高度な視覚エンコーダとLLMを接続する。 近年, VideoLM や LLM などの基盤モデルを多段階にわたって利用し, モダリティ・ブリッジングに活用する新たな戦略が浮上している。 本研究では,単一の視覚言語モデル(VLM)のみを利用する,シンプルながら斬新な戦略を提案する。 私たちの出発点は、ビデオが時間的情報と織り交ぜられた一連の画像やフレームを含むという単純な洞察です。 ビデオ理解の本質は、時間的側面と各フレームの空間的詳細を包括的に管理することにある。 まず,複数のフレームをグリッド配置で配置することで,映像を合成画像に変換する。 結果として得られる単一のイメージは、イメージグリッドと呼ばれる。 このフォーマットは、単独画像の外観を維持しながら、グリッド構造内の時間情報を効果的に保持する。 したがって、画像グリッドアプローチは、ビデオデータトレーニングを必要とせずに、単一の高性能VLMを直接適用することができる。 提案した画像グリッドビジョン言語モデル(IG-VLM)が既存の10のベンチマークのうち9つの手法を上回っていることが明らかになった。

Stimulated by the sophisticated reasoning capabilities of recent Large Language Models (LLMs), a variety of strategies for bridging video modality have been devised. A prominent strategy involves Video Language Models (VideoLMs), which train a learnable interface with video data to connect advanced vision encoders with LLMs. Recently, an alternative strategy has surfaced, employing readily available foundation models, such as VideoLMs and LLMs, across multiple stages for modality bridging. In this study, we introduce a simple yet novel strategy where only a single Vision Language Model (VLM) is utilized. Our starting point is the plain insight that a video comprises a series of images, or frames, interwoven with temporal information. The essence of video comprehension lies in adeptly managing the temporal aspects along with the spatial details of each frame. Initially, we transform a video into a single composite image by arranging multiple frames in a grid layout. The resulting single image is termed as an image grid. This format, while maintaining the appearance of a solitary image, effectively retains temporal information within the grid structure. Therefore, the image grid approach enables direct application of a single high-performance VLM without necessitating any video-data training. Our extensive experimental analysis across ten zero-shot video question answering benchmarks, including five open-ended and five multiple-choice benchmarks, reveals that the proposed Image Grid Vision Language Model (IG-VLM) surpasses the existing methods in nine out of ten benchmarks.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# チャネルアンサンブルアプローチ:半教師付き分類には不偏と低分散の擬似ラベルが不可欠である

A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification ( http://arxiv.org/abs/2403.18407v1 )

ライセンス: Link先を確認
Jiaqi Wu, Junbiao Pang, Baochang Zhang, Qingming Huang, (参考訳) 半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。 Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch はSSLで State of The Art (SOTA) のパフォーマンスを取得する。 これらの手法はしきい値から擬似ラベル(T2L)プロセスを用いて、自己学習法により予測されるラベルなしデータの信頼スコアを減じることでPLを生成する。 しかし、自己学習モデルでは、特に小さなラベル付きデータが供給されるシナリオにおいて、偏りと高分散の予測が得られるのが一般的である。 この問題に対処するために,複数の下位PLを理論的に保証されていない低分散のPLに効果的に統合する,軽量なチャネルベースアンサンブル法を提案する。 重要なことは、私たちのアプローチは、FixMatchやFreeMatchといったSSLフレームワークに簡単に拡張できます。 実験の結果,CIFAR10/100の最先端技術よりも有効性および効率性が高いことがわかった。

Semi-supervised learning (SSL) is a practical challenge in computer vision. Pseudo-label (PL) methods, e.g., FixMatch and FreeMatch, obtain the State Of The Art (SOTA) performances in SSL. These approaches employ a threshold-to-pseudo-label (T2L) process to generate PLs by truncating the confidence scores of unlabeled data predicted by the self-training method. However, self-trained models typically yield biased and high-variance predictions, especially in the scenarios when a little labeled data are supplied. To address this issue, we propose a lightweight channel-based ensemble method to effectively consolidate multiple inferior PLs into the theoretically guaranteed unbiased and low-variance one. Importantly, our approach can be readily extended to any SSL framework, such as FixMatch or FreeMatch. Experimental results demonstrate that our method significantly outperforms state-of-the-art techniques on CIFAR10/100 in terms of effectiveness and efficiency.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# 単一波動関数からのキラルビラソロ代数

Chiral Virasoro algebra from a single wavefunction ( http://arxiv.org/abs/2403.18410v1 )

ライセンス: Link先を確認
Isaac H. Kim, Xiang Li, Ting-Chun Lin, John McGreevy, Bowen Shi, (参考訳) 2+1D系のキラルエッジは、非常に堅牢な創発的共形対称性を持つ。 エッジが純粋にキラルであるとき、低エネルギーエッジ励起のヒルベルト空間は単一のビラソロ代数の表現を形成することができる。 本稿では, 絡み合いブートストラップとエッジ共形場理論からの入力を用いて, 単一基底状態波動関数からビラソロ代数の生成元を体系的に抽出する手法を提案する。 我々は、発電機の通勤関係を数値的に検証することで、建設を裏付ける。 また、これらの演算子によって生成されるユニタリフローについて検討し、その特性(エネルギーや状態重なりなど)を数値的に示し、解析的予測に一致するようにした。

Chiral edges of 2+1D systems can have very robust emergent conformal symmetry. When the edge is purely chiral, the Hilbert space of low-energy edge excitations can form a representation of a single Virasoro algebra. We propose a method to systematically extract the generators of the Virasoro algebra from a single ground state wavefunction, using entanglement bootstrap and an input from the edge conformal field theory. We corroborate our construction by numerically verifying the commutation relations of the generators. We also study the unitary flows generated by these operators, whose properties (such as energy and state overlap) are shown numerically to agree with our analytical predictions.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# 変圧器ネットワークの話題

The Topos of Transformer Networks ( http://arxiv.org/abs/2403.18415v1 )

ライセンス: Link先を確認
Mattia Jacopo Villani, Peter McBurney, (参考訳) トランスフォーマーニューラルネットワークは、大きな言語モデルの背後にあるエンジンとして、他のすべてのニューラルネットワークアーキテクチャを大きく上回っている。 本稿では, トポス理論のレンズを用いて, トランスフォーマーアーキテクチャの表現性に関する理論的解析を行う。 この観点から、畳み込み、再帰、グラフ畳み込みなどの多くの一般的なニューラルネットワークアーキテクチャが、片方向線形関数のプリトポに組み込むことができるが、トランスフォーマーはそのトポス完了に必然的に存在することを示す。 特に、このことは、2つのネットワークファミリーが異なる論理の断片をインスタンス化することを示唆している。 さらに、アーキテクチャ探索と勾配降下とを並列に描画し、サイバネティックエージェントの枠組みに分析を統合する。

The transformer neural network has significantly out-shined all other neural network architectures as the engine behind large language models. We provide a theoretical analysis of the expressivity of the transformer architecture through the lens of topos theory. From this viewpoint, we show that many common neural network architectures, such as the convolutional, recurrent and graph convolutional networks, can be embedded in a pretopos of piecewise-linear functions, but that the transformer necessarily lives in its topos completion. In particular, this suggests that the two network families instantiate different fragments of logic: the former are first order, whereas transformers are higher-order reasoners. Furthermore, we draw parallels with architecture search and gradient descent, integrating our analysis in the framework of cybernetic agents.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# ECNet: 効果的な制御可能なテキスト-画像拡散モデル

ECNet: Effective Controllable Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.18417v1 )

ライセンス: Link先を確認
Sicheng Li, Keqiang Sun, Zhixin Lai, Xiaoshi Wu, Feng Qiu, Haoran Xie, Kazunori Miyata, Hongsheng Li, (参考訳) 近年,条件付きテキスト・画像拡散モデルが注目されている。 しかし、これらのモデルの精度は、主に不明瞭な条件入力と、単一騒音損失に対する不適切な条件ガイダンスの2つの理由により妥協されることが多い。 この課題に対処するために、私たちは2つの革新的な解決策を紹介します。 まず,テキスト入力を高精度なアノテーション情報で符号化することで,条件の詳細性を高める空間誘導インジェクタ(SGI)を提案する。 この方法は、モデルに対して明確な注釈付きガイダンスを提供することにより、曖昧な制御入力の問題に対処する。 第二に、条件付き監督の制限を克服するため、任意の段階において遅延コードに対する監督を適用する拡散整合損失(DCL)を導入します。 これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。 SGIとDCLの組み合わせにより、より正確な制御可能なエンドツーエンドのテキスト・ツー・イメージ生成フレームワークと、より正確な条件入力とより強力な制御可能な監視を提供するECNet(Effective Controllable Network)が実現される。 人体骨格,顔のランドマーク,一般的な物体のスケッチなど,様々な条件下での発生に関する広範な実験を通じて,我々のアプローチを検証する。 その結果,提案手法は生成した画像の可制御性と頑健性を大幅に向上させ,既存の制御可能なテキスト・画像モデルよりも優れることを示した。

The conditional text-to-image diffusion models have garnered significant attention in recent years. However, the precision of these models is often compromised mainly for two reasons, ambiguous condition input and inadequate condition guidance over single denoising loss. To address the challenges, we introduce two innovative solutions. Firstly, we propose a Spatial Guidance Injector (SGI) which enhances conditional detail by encoding text inputs with precise annotation information. This method directly tackles the issue of ambiguous control inputs by providing clear, annotated guidance to the model. Secondly, to overcome the issue of limited conditional supervision, we introduce Diffusion Consistency Loss (DCL), which applies supervision on the denoised latent code at any given time step. This encourages consistency between the latent code at each time step and the input signal, thereby enhancing the robustness and accuracy of the output. The combination of SGI and DCL results in our Effective Controllable Network (ECNet), which offers a more accurate controllable end-to-end text-to-image generation framework with a more precise conditioning input and stronger controllable supervision. We validate our approach through extensive experiments on generation under various conditions, such as human body skeletons, facial landmarks, and sketches of general objects. The results consistently demonstrate that our method significantly enhances the controllability and robustness of the generated images, outperforming existing state-of-the-art controllable text-to-image models.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# BioMedLM: バイオメディカルテキストを用いた2.7Bパラメータ言語モデル

BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text ( http://arxiv.org/abs/2403.18421v1 )

ライセンス: Link先を確認
Elliot Bolton, Abhinav Venigalla, Michihiro Yasunaga, David Hall, Betty Xiong, Tony Lee, Roxana Daneshjou, Jonathan Frankle, Percy Liang, Michael Carbin, Christopher D. Manning, (参考訳) GPT-4 や Med-PaLM 2 のようなモデルでは、様々な生物医学的 NLP タスクにおいて顕著な性能を示している。 しかし、これらのモデルには数十億のパラメータがあり、実行には計算コストがかかり、ユーザがインターネット経由で入力データを送信し、未知のデータソースでトレーニングする必要がある。 より小型で、よりターゲットを絞ったモデルが競争できるのか? この問題に対処するため,我々は,PubMedの抽象概念と全記事のみに特化して訓練された270億のパラメータGPTスタイルの自己回帰モデルであるBioMedLMを構築し,リリースする。 微調整を施すと、MedMCQA(dev)で57.3%、MMLU医学遺伝試験で69.0%のスコアを得るなど、より大規模なモデルと競合する強力な多重選択のバイオメディカル質問応答結果が得られる。 BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。 これは、より小さなモデルが、バイオメディシンのような特定のNLPアプリケーションのための透明性、プライバシー保護、経済的、環境に優しい基盤として機能する可能性があることを示している。 モデルはHugging Face Hubで利用可能である。

Models such as GPT-4 and Med-PaLM 2 have demonstrated impressive performance on a wide variety of biomedical NLP tasks. However, these models have hundreds of billions of parameters, are computationally expensive to run, require users to send their input data over the internet, and are trained on unknown data sources. Can smaller, more targeted models compete? To address this question, we build and release BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained exclusively on PubMed abstracts and full articles. When fine-tuned, BioMedLM can produce strong multiple-choice biomedical question-answering results competitive with much larger models, such as achieving a score of 57.3% on MedMCQA (dev) and 69.0% on the MMLU Medical Genetics exam. BioMedLM can also be fine-tuned to produce useful answers to patient questions on medical topics. This demonstrates that smaller models can potentially serve as transparent, privacy-preserving, economical and environmentally friendly foundations for particular NLP applications, such as in biomedicine. The model is available on the Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# SemRoDe: 単語レベル攻撃に対するロバストな表現を学ぶためのマクロ逆行訓練

SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks ( http://arxiv.org/abs/2403.18423v1 )

ライセンス: Link先を確認
Brian Formento, Wenjie Feng, Chuan Sheng Foo, Luu Anh Tuan, See-Kiong Ng, (参考訳) 自然言語処理タスクには言語モデル(LM)が不可欠だが、敵攻撃に対する脆弱性は依然として懸念されている。 現在の研究では、敵の訓練技術について検討されているが、単語レベルの攻撃に対する防御の改善は限られている。 本研究では,LMの堅牢性を高めるためのマクロ・アドバーサリアル・トレーニング戦略であるセマンティック・ロバスト・ディフェンス (セマンティック・ロバスト・ディフェンス (セマンティック・ロバスト・ディフェンス) を提案する。 画像領域における最近の研究からインスピレーションを得て,言語などの離散的なデータ設定において,単語置換によって生成された逆数サンプルは,ベース領域から高いワッサーシュタイン距離を示す逆数ドメインに属することが確認された。 この2つの領域を橋渡しする頑健な表現を学習する。 サンプルが敵ドメインに投影されず、代わりに最小シフトのドメインに投影されると、攻撃の堅牢性が向上する、という仮説を立てる。 距離に基づく新たな目的を取り入れることで、ドメインを整合させる。 これにより,モデルの高次出力特性を整列させることで,より一般化された表現を学習することができる。 この方法は、語彙と単語置換の両レベルで最小の重複を共有する場合でも、単語埋め込みにまたがって一般化することができる。 提案手法の有効性を評価するため,3つのデータセット上でBERTモデルとRoBERTaモデルを用いて実験を行った。 結果は、最先端の堅牢性を示す。

Language models (LMs) are indispensable tools for natural language processing tasks, but their vulnerability to adversarial attacks remains a concern. While current research has explored adversarial training techniques, their improvements to defend against word-level attacks have been limited. In this work, we propose a novel approach called Semantic Robust Defence (SemRoDe), a Macro Adversarial Training strategy to enhance the robustness of LMs. Drawing inspiration from recent studies in the image domain, we investigate and later confirm that in a discrete data setting such as language, adversarial samples generated via word substitutions do indeed belong to an adversarial domain exhibiting a high Wasserstein distance from the base domain. Our method learns a robust representation that bridges these two domains. We hypothesize that if samples were not projected into an adversarial domain, but instead to a domain with minimal shift, it would improve attack robustness. We align the domains by incorporating a new distance-based objective. With this, our model is able to learn more generalized representations by aligning the model's high-level output features and therefore better handling unseen adversarial samples. This method can be generalized across word embeddings, even when they share minimal overlap at both vocabulary and word-substitution levels. To evaluate the effectiveness of our approach, we conduct experiments on BERT and RoBERTa models on three datasets. The results demonstrate promising state-of-the-art robustness.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# U-Sketch: 画像拡散モデルへのスケッチの効率的なアプローチ

U-Sketch: An Efficient Approach for Sketch to Image Diffusion Models ( http://arxiv.org/abs/2403.18425v1 )

ライセンス: Link先を確認
Ilias Mitsouras, Eleftherios Tsonis, Paraskevi Tzouveli, Athanasios Voulodimos, (参考訳) 拡散モデルはテキスト・画像合成において顕著な性能を示し、対応するテキスト・プロンプトに忠実に準拠する現実的で高解像度の画像を生成する。 彼らの大きな成功にもかかわらず、スケッチ・ツー・イメージ合成のタスクは依然として遅れており、テキスト・プロンプトに加えて、生成された画像の空間的レイアウトは、特定の参照スケッチの概要を忠実に従わなければならない。 近年,MLP遅延エッジ予測器を用いて合成画像の空間的レイアウトをデノナイジングステップ毎に予測する手法が提案されている。 有望な結果を得たにも拘わらず、MLPの画素操作は空間的レイアウト全体を考慮せず、満足な画像を生成するために多くの装飾的な反復を必要とし、時間的不効率をもたらす。 この目的のために、U-Sketchは、U-Net型遅延エッジ予測器を特徴とするフレームワークで、局所的特徴と大域的特徴、および画素間の空間的相関を効率的に捉えることができる。 さらに,ユーザに対して,事前処理の選択と出力向上のための入力スケッチの簡略化を行うスケッチ単純化ネットワークを提案する。 提案したU-Net潜伏エッジ予測器は,提案手法によりより現実的な結果が得られ,参照スケッチの空間的アウトラインと整合し,必要な復調ステップの数を劇的に減らし,結果として全体の実行時間を短縮することを示した。

Diffusion models have demonstrated remarkable performance in text-to-image synthesis, producing realistic and high resolution images that faithfully adhere to the corresponding text-prompts. Despite their great success, they still fall behind in sketch-to-image synthesis tasks, where in addition to text-prompts, the spatial layout of the generated images has to closely follow the outlines of certain reference sketches. Employing an MLP latent edge predictor to guide the spatial layout of the synthesized image by predicting edge maps at each denoising step has been recently proposed. Despite yielding promising results, the pixel-wise operation of the MLP does not take into account the spatial layout as a whole, and demands numerous denoising iterations to produce satisfactory images, leading to time inefficiency. To this end, we introduce U-Sketch, a framework featuring a U-Net type latent edge predictor, which is capable of efficiently capturing both local and global features, as well as spatial correlations between pixels. Moreover, we propose the addition of a sketch simplification network that offers the user the choice of preprocessing and simplifying input sketches for enhanced outputs. The experimental results, corroborated by user feedback, demonstrate that our proposed U-Net latent edge predictor leads to more realistic results, that are better aligned with the spatial outlines of the reference sketches, while drastically reducing the number of required denoising steps and, consequently, the overall execution time.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# TriviaHG: ファクトイドからのヒント自動生成のためのデータセット

TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions ( http://arxiv.org/abs/2403.18426v1 )

ライセンス: Link先を確認
Jamshid Mozafari, Anubhav Jangra, Adam Jatowt, (参考訳) 今日では、個人は大きな言語モデルと対話し、質問に対する回答を求める傾向にある。 このような答えが誰にでも手に入るようになると、人間の認知能力の刺激と維持、そして人間による良質な推論技術を維持することの保証が重要になる。 この研究は、(最終回答よりもむしろ)ヒントを実行可能な解として提案することで、そのようなニーズに対処する。 ファクトイド質問の自動ヒント生成のためのフレームワークを導入し、TriviaQAデータセットから16,645の質問に対応する160,230のヒントを含む新しい大規模データセットであるTriviaHGを構築した。 さらに,ヒントの収束度と親しみやすさの属性を自動評価する手法を提案する。 提案手法とTriviaHGデータセットを評価するために,提案したヒントを用いて10名の個人に2,791のヒントを注釈付け,6名の人間に回答を指示した。 96%, 78%, 36%で, 解答は易解, 中解, 難解であった。 さらに,提案手法はアノテータの結果と頑健な相関を示した。 結論として, 未知の質問の解決におけるヒントの促進的役割, 回答の難易度に対するヒント品質の依存性, ヒント評価のための自動評価手法の適用可能性, の3つの重要な知見が浮かび上がった。

Nowadays, individuals tend to engage in dialogues with Large Language Models, seeking answers to their questions. In times when such answers are readily accessible to anyone, the stimulation and preservation of human's cognitive abilities, as well as the assurance of maintaining good reasoning skills by humans becomes crucial. This study addresses such needs by proposing hints (instead of final answers or before giving answers) as a viable solution. We introduce a framework for the automatic hint generation for factoid questions, employing it to construct TriviaHG, a novel large-scale dataset featuring 160,230 hints corresponding to 16,645 questions from the TriviaQA dataset. Additionally, we present an automatic evaluation method that measures the Convergence and Familiarity quality attributes of hints. To evaluate the TriviaHG dataset and the proposed evaluation method, we enlisted 10 individuals to annotate 2,791 hints and tasked 6 humans with answering questions using the provided hints. The effectiveness of hints varied, with success rates of 96%, 78%, and 36% for questions with easy, medium, and hard answers, respectively. Moreover, the proposed automatic evaluation methods showed a robust correlation with annotators' results. Conclusively, the findings highlight three key insights: the facilitative role of hints in resolving unknown questions, the dependence of hint quality on answer difficulty, and the feasibility of employing automatic evaluation methods for hint assessment.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# 構文的距離と地理的近接による言語関係の探索

Exploring language relations through syntactic distances and geographic proximity ( http://arxiv.org/abs/2403.18430v1 )

ライセンス: Link先を確認
Juan De Gregorio, Raúl Toral, David Sánchez, (参考訳) 言語は共通の言語特性を持つ家族に分類される。 このアプローチは多様な言語間の遺伝的関係を理解することに成功しているが、特に構文のようなあまり研究されていない言語レベルで、それらの関連性を正確に定量化するためには、より多くの分析が必要である。 本稿では,Universal Dependenciesデータセットから抽出した一連の音声(POS)を用いて言語間距離を探索する。 情報理論の枠組みでは、POSトリグラムを用いることで、利用可能なデータの量と互換性を同時に保ちながら、構文的変動を捉える可能性を最大化できることを示す。 次に、POS分布に基づいてペア距離を評価することにより言語接続を確立する。 興味深いことに,本分析では,言語族やグループに対応する定型クラスタが明らかであり,例外は形態的類型化によって説明されている。 さらに,言語類似性と地理的距離との間に有意な相関関係が得られ,言語親和性に対する空間的近接の影響を浮き彫りにする。

Languages are grouped into families that share common linguistic traits. While this approach has been successful in understanding genetic relations between diverse languages, more analyses are needed to accurately quantify their relatedness, especially in less studied linguistic levels such as syntax. Here, we explore linguistic distances using series of parts of speech (POS) extracted from the Universal Dependencies dataset. Within an information-theoretic framework, we show that employing POS trigrams maximizes the possibility of capturing syntactic variations while being at the same time compatible with the amount of available data. Linguistic connections are then established by assessing pairwise distances based on the POS distributions. Intriguingly, our analysis reveals definite clusters that correspond to well known language families and groups, with exceptions explained by distinct morphological typologies. Furthermore, we obtain a significant correlation between language similarity and geographic distance, which underscores the influence of spatial proximity on language kinships.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# DELTA: 構造的単語アライメントによる判例検索のための事前訓練型識別エンコーダ

DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment ( http://arxiv.org/abs/2403.18435v1 )

ライセンス: Link先を確認
Haitao Li, Qingyao Ai, Xinyan Han, Jia Chen, Qian Dong, Yiqun Liu, Chong Chen, Qi Tian, (参考訳) 近年, 判例検索における事前学習言語モデルの有効性が実証されている。 既存の作業の多くは,[CLS]トークンのコンテキスト化埋め込みにおける表現能力の向上と,テキスト意味的類似性を用いた関連性の評価に重点を置いている。 しかし、法的領域では、テキストの意味的類似性は、必ずしもケースが十分関係していることを示すものではない。 代わりに、訴訟の関連性は、主に最終判断に影響を及ぼす重要な事実の類似性に依存する。 適切な治療がなければ、法的ケースが長く、多くの非キー事実を含むため、学習された表現の識別能力は制限される可能性がある。 そこで本稿では,訴訟検索のための識別モデルであるDELTAを紹介する。 基本的な考え方は、訴訟における重要な事実の特定と、[CLS]トークンの文脈化された埋め込みを重要事実に近づけると同時に、キーでない事実から遠ざけ、ケース埋め込みスペースを教師なしの方法で温めることである。 具体的には、コンテキストマスキング自動エンコーダに単語アライメント機構を導入する。 まず,浅層デコーダを利用して情報ボトルネックを発生させ,表現能力の向上を目指す。 第二に、異なる構造間の翻訳を可能にするためにディープデコーダを使用し、差別能力を高めるために重要な事実をピンポイントすることを目的としている。 提案手法は, 既存の判例検索手法よりも優れていることを示す。 訴訟文書の詳細な理解と処理について、新たな視点を提供する。

Recent research demonstrates the effectiveness of using pre-trained language models for legal case retrieval. Most of the existing works focus on improving the representation ability for the contextualized embedding of the [CLS] token and calculate relevance using textual semantic similarity. However, in the legal domain, textual semantic similarity does not always imply that the cases are relevant enough. Instead, relevance in legal cases primarily depends on the similarity of key facts that impact the final judgment. Without proper treatments, the discriminative ability of learned representations could be limited since legal cases are lengthy and contain numerous non-key facts. To this end, we introduce DELTA, a discriminative model designed for legal case retrieval. The basic idea involves pinpointing key facts in legal cases and pulling the contextualized embedding of the [CLS] token closer to the key facts while pushing away from the non-key facts, which can warm up the case embedding space in an unsupervised manner. To be specific, this study brings the word alignment mechanism to the contextual masked auto-encoder. First, we leverage shallow decoders to create information bottlenecks, aiming to enhance the representation ability. Second, we employ the deep decoder to enable translation between different structures, with the goal of pinpointing key facts to enhance discriminative ability. Comprehensive experiments conducted on publicly available legal benchmarks show that our approach can outperform existing state-of-the-art methods in legal case retrieval. It provides a new perspective on the in-depth understanding and processing of legal case documents.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# 条件付き信頼環境における協調型アクティブラーニング

Collaborative Active Learning in Conditional Trust Environment ( http://arxiv.org/abs/2403.18436v1 )

ライセンス: Link先を確認
Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng, (参考訳) 本稿では、複数の協力者が既存のデータやモデルを開示することなく、組み合わせた機械学習機能を活用して新しいドメインを探索するパラダイムである協調アクティブラーニングについて検討する。 代わりに、共同作業者は、新しいドメインと新しく取得したラベルから予測結果を共有する。 このコラボレーションにはいくつかの利点があります。 (a)直接モデル及びデータ開示の必要性を排除し、プライバシー及びセキュリティ上の問題に対処する。 b) 直接データ交換なしで、異なるデータソースとインサイトの使用を可能にすること。 (c)共有ラベリングコストを通じて費用効率と資源効率を向上する。 これらの利点を実現するために、上記の目的を達成するために設計された協調的なアクティブラーニングフレームワークを導入する。 提案手法の有効性をシミュレーションにより検証する。 その結果,共同作業は独立した取り組みよりもAUCスコアが高く,個々のモデルの限界を克服するフレームワークの能力を強調した。 これらの知見は,積極的学習における協調的アプローチの活用を支援し,専門知識や共有資源を通じて成果を高める可能性を強調した。 我々の研究は、データプライバシ、コスト効率、モデルパフォーマンスが重要な考慮事項である様々な領域における協調的アクティブラーニングとその実践的応用に関するさらなる研究の基盤を提供する。

In this paper, we investigate collaborative active learning, a paradigm in which multiple collaborators explore a new domain by leveraging their combined machine learning capabilities without disclosing their existing data and models. Instead, the collaborators share prediction results from the new domain and newly acquired labels. This collaboration offers several advantages: (a) it addresses privacy and security concerns by eliminating the need for direct model and data disclosure; (b) it enables the use of different data sources and insights without direct data exchange; and (c) it promotes cost-effectiveness and resource efficiency through shared labeling costs. To realize these benefits, we introduce a collaborative active learning framework designed to fulfill the aforementioned objectives. We validate the effectiveness of the proposed framework through simulations. The results demonstrate that collaboration leads to higher AUC scores compared to independent efforts, highlighting the framework's ability to overcome the limitations of individual models. These findings support the use of collaborative approaches in active learning, emphasizing their potential to enhance outcomes through collective expertise and shared resources. Our work provides a foundation for further research on collaborative active learning and its practical applications in various domains where data privacy, cost efficiency, and model performance are critical considerations.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# 事前学習型気象変圧器を用いた地球植生モデリング

Global Vegetation Modeling with Pre-Trained Weather Transformers ( http://arxiv.org/abs/2403.18438v1 )

ライセンス: Link先を確認
Pascal Janetzky, Florian Gallusser, Simon Hentschel, Andreas Hotho, Anna Krause, (参考訳) 正確な植生モデルにより、植生活動と生態系プロセスの間の複雑な相互作用に関するさらなる洞察が得られる。 過去の研究では、気温と降水量の長期的傾向と短期的変動が植生活動に影響を及ぼすことが確認されている。 中距離気象予測のためのトランスフォーマーベースのディープラーニングモデルの成功により、我々は、気候変動の短期的ダイナミクスを考慮しつつ、植生活動のモデル化に、公開トレーニング済みのFourCastNetを適用した。 本研究では, 大気の状態のグローバルな表現が, 正規化差分植生指標(NDVI)をモデル化するためにどのように変換されるかを検討する。 我々のモデルでは,気象データにのみ依存しながら,SI{0.25}{\degree} の分解能で植生活動を評価する。 我々は,事前学習した気象モデルを利用することで,NDVIモデルをスクラッチから学習するよりもNDVI推定を改善することを示した。 さらに、この結果と、機械学習や生態学文献からの最近のデータ駆動型NDVIモデリング手法を比較した。 さらに、FourCastNetを効果的な植生モデルに変えるのに必要なデータとトレーニング時間について実験的な証拠を提供する。 コードとモデルは公開時に公開される。

Accurate vegetation models can produce further insights into the complex interaction between vegetation activity and ecosystem processes. Previous research has established that long-term trends and short-term variability of temperature and precipitation affect vegetation activity. Motivated by the recent success of Transformer-based Deep Learning models for medium-range weather forecasting, we adapt the publicly available pre-trained FourCastNet to model vegetation activity while accounting for the short-term dynamics of climate variability. We investigate how the learned global representation of the atmosphere's state can be transferred to model the normalized difference vegetation index (NDVI). Our model globally estimates vegetation activity at a resolution of \SI{0.25}{\degree} while relying only on meteorological data. We demonstrate that leveraging pre-trained weather models improves the NDVI estimates compared to learning an NDVI model from scratch. Additionally, we compare our results to other recent data-driven NDVI modeling approaches from machine learning and ecology literature. We further provide experimental evidence on how much data and training time is necessary to turn FourCastNet into an effective vegetation model. Code and models will be made available upon publication.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# スマートグリッドのための一般政策学習:FL TRPOアプローチ

Generalized Policy Learning for Smart Grids: FL TRPO Approach ( http://arxiv.org/abs/2403.18439v1 )

ライセンス: Link先を確認
Yunxiang Li, Nicolas Mauricio Cuadrado, Samuel Horváth, Martin Takáč, (参考訳) フェデレーテッド・ラーニング(FL)は、データプライバシを維持しながら異質なデータセット上でモデルをトレーニングする素晴らしい能力を示し、線形モデルの適合性を阻害する機能の中で、しばしば異なるデータ分散と相互依存を伴うスマートグリッドアプリケーションに適していることを示している。 本稿では,FLと信頼地域政策最適化(FL TRPO)を組み合わせた,エネルギー関連排出削減とコスト削減を目的とした枠組みを提案する。 提案手法は潜在的相互接続を明らかにし,ユニークな洞察を捉え,特徴と最適な戦略の関係を理解するためにパーソナライズされた符号化手法を用いる。 実験結果から,スマートグリッドの課題に対するポリシーモデルを効果的に学習する能力を確認するとともに,アプローチの堅牢性を検証することができた。

The smart grid domain requires bolstering the capabilities of existing energy management systems; Federated Learning (FL) aligns with this goal as it demonstrates a remarkable ability to train models on heterogeneous datasets while maintaining data privacy, making it suitable for smart grid applications, which often involve disparate data distributions and interdependencies among features that hinder the suitability of linear models. This paper introduces a framework that combines FL with a Trust Region Policy Optimization (FL TRPO) aiming to reduce energy-associated emissions and costs. Our approach reveals latent interconnections and employs personalized encoding methods to capture unique insights, understanding the relationships between features and optimal strategies, allowing our model to generalize to previously unseen data. Experimental results validate the robustness of our approach, affirming its proficiency in effectively learning policy models for smart grid challenges.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# 3次元テスト時間適応のためのバックプロパゲーションフリーネットワーク

Backpropagation-free Network for 3D Test-time Adaptation ( http://arxiv.org/abs/2403.18442v1 )

ライセンス: Link先を確認
Yanshuo Wang, Ali Cheraghian, Zeeshan Hayder, Jie Hong, Sameera Ramasinghe, Shafin Rahman, David Ahmedt-Aristizabal, Xuesong Li, Lars Petersson, Mehrtash Harandi, (参考訳) 現実世界のシステムは、しばしば時間とともに新しいデータに遭遇し、ターゲットのドメインシフトを経験する。 既存のテスト時間適応(TTA)手法は、計算的に重く、メモリ集約的なバックプロパゲーションに基づくアプローチを適用する傾向がある。 本稿では,TTAのバックプロパゲーションフリーアプローチを3次元データの特定の場合に適用する手法を提案する。 我々のモデルは、ソースドメインに関する知識と補完的なターゲットドメイン固有の情報を維持するために、2ストリームアーキテクチャを使用します。 我々のモデルのバックプロパゲーションフリーな性質は、よく知られた忘れの問題に対処し、エラーの蓄積問題を緩和するのに役立ちます。 提案手法は, 疑似ラベル付けの通常うるさいプロセスや, 費用がかかる自己指導型トレーニングへの依存を解消する。 さらに,本手法は部分空間学習を活用し,二つの領域間の分散分散を効果的に低減する。 さらに、新しいエントロピーベースの適応核融合戦略を用いて、ソースドメイン特化ストリームとターゲットドメイン特化ストリームをアライメントする。 一般的なベンチマーク実験により,本手法の有効性が示された。 コードはhttps://github.com/abie-e/BFTT3Dで入手できる。

Real-world systems often encounter new data over time, which leads to experiencing target domain shifts. Existing Test-Time Adaptation (TTA) methods tend to apply computationally heavy and memory-intensive backpropagation-based approaches to handle this. Here, we propose a novel method that uses a backpropagation-free approach for TTA for the specific case of 3D data. Our model uses a two-stream architecture to maintain knowledge about the source domain as well as complementary target-domain-specific information. The backpropagation-free property of our model helps address the well-known forgetting problem and mitigates the error accumulation issue. The proposed method also eliminates the need for the usually noisy process of pseudo-labeling and reliance on costly self-supervised training. Moreover, our method leverages subspace learning, effectively reducing the distribution variance between the two domains. Furthermore, the source-domain-specific and the target-domain-specific streams are aligned using a novel entropy-based adaptive fusion strategy. Extensive experiments on popular benchmarks demonstrate the effectiveness of our method. The code will be available at https://github.com/abie-e/BFTT3D.
翻訳日:2024-03-28 17:27:38 公開日:2024-03-27
# $\mathrm{F^2Depth}$:光フロー一貫性と特徴写像合成による自己教師付き室内単分子深度推定

$\mathrm{F^2Depth}$: Self-supervised Indoor Monocular Depth Estimation via Optical Flow Consistency and Feature Map Synthesis ( http://arxiv.org/abs/2403.18443v1 )

ライセンス: Link先を確認
Xiaotong Guo, Huijie Zhao, Shuwei Shao, Xudong Li, Baochang Zhang, (参考訳) 大規模ラベル付きデータセットを必要としない利点のために、自己教師付き単分子深度推定法が注目されている。 このような自己監督的な手法は高品質な衛生的特徴を必要とするため、室内のシーンでは、シーンで支配的な低テクスチャ領域がほとんど差別的であるような厳しいパフォーマンス低下に悩まされる。 この問題に対処するため、我々は$\mathrm{F^2Depth}$と呼ばれる自己教師付き屋内単分子深度推定フレームワークを提案する。 深度学習を監督するために、自己教師付き光フロー推定ネットワークを導入する。 低テクスチャ領域における光流量推定性能を向上させるために、よく設計されたパッチベースの測光損失に基づいて、より識別的な特徴を持つ点のパッチのみを微調整に適用した。 微調整光フロー推定ネットワークは、深さ推定のための監督信号として高精度光フローを生成する。 それに対応して、光流の整合性損失を設計する。 微調整光フロー推定ネットワークによって生成されたマルチスケール特徴写像は、特徴写像合成損失を、深度学習のための別の監督信号として計算するワープを行う。 The NYU Depth V2 data showed the effectiveness of the framework and our proposed loss。 我々は,99枚の画像から選択した約1500点からなるCampus Indoor depthデータセットを18のシーンで収集した。 7-ScenesデータセットとCampus Indoorのゼロショット一般化実験は、それぞれ75.8%と76.0%の精度で$\delta_1$の精度を達成した。 その結果,本モデルは未知の屋内シーンで撮影された単眼画像とよく一致していることがわかった。

Self-supervised monocular depth estimation methods have been increasingly given much attention due to the benefit of not requiring large, labelled datasets. Such self-supervised methods require high-quality salient features and consequently suffer from severe performance drop for indoor scenes, where low-textured regions dominant in the scenes are almost indiscriminative. To address the issue, we propose a self-supervised indoor monocular depth estimation framework called $\mathrm{F^2Depth}$. A self-supervised optical flow estimation network is introduced to supervise depth learning. To improve optical flow estimation performance in low-textured areas, only some patches of points with more discriminative features are adopted for finetuning based on our well-designed patch-based photometric loss. The finetuned optical flow estimation network generates high-accuracy optical flow as a supervisory signal for depth estimation. Correspondingly, an optical flow consistency loss is designed. Multi-scale feature maps produced by finetuned optical flow estimation network perform warping to compute feature map synthesis loss as another supervisory signal for depth learning. Experimental results on the NYU Depth V2 dataset demonstrate the effectiveness of the framework and our proposed losses. To evaluate the generalization ability of our $\mathrm{F^2Depth}$, we collect a Campus Indoor depth dataset composed of approximately 1500 points selected from 99 images in 18 scenes. Zero-shot generalization experiments on 7-Scenes dataset and Campus Indoor achieve $\delta_1$ accuracy of 75.8% and 76.0% respectively. The accuracy results show that our model can generalize well to monocular images captured in unknown indoor scenes.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# FRESCO:協調最適化のための連合型強化エネルギーシステム

FRESCO: Federated Reinforcement Energy System for Cooperative Optimization ( http://arxiv.org/abs/2403.18444v1 )

ライセンス: Link先を確認
Nicolas Mauricio Cuadrado, Roberto Alejandro Gutierrez, Martin Takáč, (参考訳) 再生可能エネルギーの台頭は、よりクリーンでより参加的なエネルギーグリッドを作り出すことを約束するエネルギーグリッドの新しいダイナミクスを生み出している。 本研究は,連合学習を用いた強化学習エージェントの階層的制御アーキテクチャを用いて,エネルギー市場の実装を容易にすることを目的としたフレームワークであるFRESCOを紹介する。 私たちが証明している中核的な概念は、より高いレベルのエージェントから条件の変更を受ける欲求エージェントを持つことによって、個々の目的をすべて満たせるような協調的なセットアップが作成される、ということです。 本稿では,フレームワークの概要,現状,最近の成果から得られた知見について概説する。

The rise in renewable energy is creating new dynamics in the energy grid that promise to create a cleaner and more participative energy grid, where technology plays a crucial part in making the required flexibility to achieve the vision of the next-generation grid. This work presents FRESCO, a framework that aims to ease the implementation of energy markets using a hierarchical control architecture of reinforcement learning agents trained using federated learning. The core concept we are proving is that having greedy agents subject to changing conditions from a higher level agent creates a cooperative setup that will allow for fulfilling all the individual objectives. This paper presents a general overview of the framework, the current progress, and some insights we obtained from the recent results.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# 言語は数値回帰に勝てるか?言語に基づく多モーダル軌道予測

Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction ( http://arxiv.org/abs/2403.18447v1 )

ライセンス: Link先を確認
Inhwan Bae, Junoh Lee, Hae-Gon Jeon, (参考訳) 言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。 本稿では,言語基盤モデルの成功に触発されたLMTraj(Language-based Multimodal Trajectory predictor)を提案する。 トラジェクタ座標列を連続的な信号として扱う従来の数値回帰モデルとは別に,テキストプロンプトのような離散的な信号とみなす。 具体的には、まず軌道座標の入力空間を自然言語空間に変換する。 ここでは、歩行者の時系列軌跡全体をテキストプロンプトに変換し、画像キャプションを通してシーンイメージをテキスト情報として記述する。 変換された数値と画像データは、言語モデルで使用する質問応答テンプレートにラップされる。 次に、シーンコンテキストや歩行者間の社会的関係といった高レベルの知識の理解と推論において言語モデルを導くために、補助的なマルチタスク質問と回答を導入する。 次に、プロンプトデータで数値トークン化器を訓練する。 我々は、トークン化器が整数と十進部分を適切に分離することを奨励し、それを利用して言語モデルにおける連続する数間の相関を捉える。 最後に,数値トークン化器と質問応答プロンプトを用いて言語モデルを訓練する。 本稿では,ビーム探索に基づく最もよく似た予測と温度に基づくマルチモーダル予測を提案し,決定論的および確率的推論の両方を実装する。 LMTrajを応用すると、言語に基づくモデルは強力な歩行者軌道予測器となり、既存の数値ベースの予測手法よりも優れていることを示す。 コードはhttps://github.com/inhwanbae/LMTrajectory.comで公開されている。

Language models have demonstrated impressive ability in context understanding and generative performance. Inspired by the recent success of language foundation models, in this paper, we propose LMTraj (Language-based Multimodal Trajectory predictor), which recasts the trajectory prediction task into a sort of question-answering problem. Departing from traditional numerical regression models, which treat the trajectory coordinate sequence as continuous signals, we consider them as discrete signals like text prompts. Specially, we first transform an input space for the trajectory coordinate into the natural language space. Here, the entire time-series trajectories of pedestrians are converted into a text prompt, and scene images are described as text information through image captioning. The transformed numerical and image data are then wrapped into the question-answering template for use in a language model. Next, to guide the language model in understanding and reasoning high-level knowledge, such as scene context and social relationships between pedestrians, we introduce an auxiliary multi-task question and answering. We then train a numerical tokenizer with the prompt data. We encourage the tokenizer to separate the integer and decimal parts well, and leverage it to capture correlations between the consecutive numbers in the language model. Lastly, we train the language model using the numerical tokenizer and all of the question-answer prompts. Here, we propose a beam-search-based most-likely prediction and a temperature-based multimodal prediction to implement both deterministic and stochastic inferences. Applying our LMTraj, we show that the language-based model can be a powerful pedestrian trajectory predictor, and outperforms existing numerical-based predictor methods. Code is publicly available at https://github.com/inhwanbae/LMTrajectory .
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# CoRAST: リソース制約付きCPSとIoTにおける基盤モデル駆動関連データ分析を目指して

CoRAST: Towards Foundation Model-Powered Correlated Data Analysis in Resource-Constrained CPS and IoT ( http://arxiv.org/abs/2403.18451v1 )

ライセンス: Link先を確認
Yi Hu, Jinhang Zuo, Alanis Zhao, Bob Iannucci, Carlee Joe-Wong, (参考訳) ファンデーションモデル(FM)は、異種データセット内の複雑な時間的および空間的相関を理解するために事前知識を活用することによって、分散および多様な環境データを活用するための有望なソリューションとして出現する。 マルチモーダルデータに苦しむフェデレート学習のような分散学習フレームワークとは異なり、FMは多様な入力を埋め込みに変換することができる。 このプロセスは、様々なモダリティからの情報の統合と、新しいドメインへの事前学習の適用を容易にする。 しかし、リソース制約のあるエッジシステムにFMをデプロイすることは大きな課題となる。 そこで本研究では,FMを用いた新しい学習フレームワークであるCoRASTを紹介した。 サーバベースのFMを利用することで、CoRASTは既存の環境情報を利用して、センサデータ間の時間的、空間的、および横断的な相関関係を抽出することができる。 これにより、FMを使ったグローバル表現学習を通じて、CoRASTは、ローカルクライアントタスクに対してコンテキスト対応の洞察を提供することができる。 実世界の気象データを用いた評価では,CoRASTが環境表現学習を通じて異種データの相関を利用して予測誤差を最大50.3%削減できることが示されている。

Foundation models (FMs) emerge as a promising solution to harness distributed and diverse environmental data by leveraging prior knowledge to understand the complicated temporal and spatial correlations within heterogeneous datasets. Unlike distributed learning frameworks such as federated learning, which often struggle with multimodal data, FMs can transform diverse inputs into embeddings. This process facilitates the integration of information from various modalities and the application of prior learning to new domains. However, deploying FMs in resource-constrained edge systems poses significant challenges. To this end, we introduce CoRAST, a novel learning framework that utilizes FMs for enhanced analysis of distributed, correlated heterogeneous data. Utilizing a server-based FM, CoRAST can exploit existing environment information to extract temporal, spatial, and cross-modal correlations among sensor data. This enables CoRAST to offer context-aware insights for localized client tasks through FM-powered global representation learning. Our evaluation on real-world weather dataset demonstrates CoRAST's ability to exploit correlated heterogeneous data through environmental representation learning to reduce the forecast errors by up to 50.3% compared to the baselines.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# SingularTrajectory:拡散モデルを用いたユニバーサル軌道予測器

SingularTrajectory: Universal Trajectory Predictor Using Diffusion Model ( http://arxiv.org/abs/2403.18452v1 )

ライセンス: Link先を確認
Inhwan Bae, Young-Jae Park, Hae-Gon Jeon, (参考訳) 軌道予測タスクには、決定論的、確率的、ドメイン適応、瞬間観察、少数ショットの5種類がある。 これらの関連するタスクは、入力パスの長さ、データ分割、事前処理方法など、さまざまな要因によって定義される。 興味深いことに、彼らは一般的にインプットとして観測のシーケンシャルな座標をとり、出力と同じ座標で将来の経路を推測するが、それぞれのタスクに特有のアーキテクチャを設計する必要がある。 他のタスクでは、一般性の問題が準最適パフォーマンスにつながる可能性がある。 本稿では,5つのタスク間の性能ギャップを低減するために,拡散に基づく普遍軌道予測フレームワークであるSingularTrajectoryを提案する。 SingularTrajectoryの中核は、関連するタスク上のさまざまなヒューマンダイナミクス表現を統一することである。 これを実現するために、まずSingular空間を構築し、各タスクから1つの埋め込み空間に全ての種類の動きパターンを投影する。 次に、Singular空間で動く適応アンカーを提案する。 昔ながらの固定アンカー方式とは違い、適応アンカーは正しいアンカーを可能にする。 最後に,拡散に基づく予測器を用いて,カスケードデノケーションプロセスを用いてプロトタイプパスをさらに拡張する。 我々の統合されたフレームワークは、入力モダリティや軌道長といった様々なベンチマーク設定における一般化を保証する。 5つの公開ベンチマークでの大規模な実験により、SingularTrajectoryは既存のモデルを大幅に上回っており、人間の運動の一般的なダイナミクスを推定する効果が強調されている。 コードはhttps://github.com/inhwanbae/SingularTrajectory.comで公開されている。

There are five types of trajectory prediction tasks: deterministic, stochastic, domain adaptation, momentary observation, and few-shot. These associated tasks are defined by various factors, such as the length of input paths, data split and pre-processing methods. Interestingly, even though they commonly take sequential coordinates of observations as input and infer future paths in the same coordinates as output, designing specialized architectures for each task is still necessary. For the other task, generality issues can lead to sub-optimal performances. In this paper, we propose SingularTrajectory, a diffusion-based universal trajectory prediction framework to reduce the performance gap across the five tasks. The core of SingularTrajectory is to unify a variety of human dynamics representations on the associated tasks. To do this, we first build a Singular space to project all types of motion patterns from each task into one embedding space. We next propose an adaptive anchor working in the Singular space. Unlike traditional fixed anchor methods that sometimes yield unacceptable paths, our adaptive anchor enables correct anchors, which are put into a wrong location, based on a traversability map. Finally, we adopt a diffusion-based predictor to further enhance the prototype paths using a cascaded denoising process. Our unified framework ensures the generality across various benchmark settings such as input modality, and trajectory lengths. Extensive experiments on five public benchmarks demonstrate that SingularTrajectory substantially outperforms existing models, highlighting its effectiveness in estimating general dynamics of human movements. Code is publicly available at https://github.com/inhwanbae/SingularTrajectory .
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# オフラインRLによる視覚・言語ナビゲーションのスケールアップ

Scaling Vision-and-Language Navigation With Offline RL ( http://arxiv.org/abs/2403.18454v1 )

ライセンス: Link先を確認
Valay Bundele, Mahesh Bhupati, Biplab Banerjee, Aditya Grover, (参考訳) ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)の研究は通常、専門家の軌跡に頼っている。 一方で、利用可能な専門家データを超えてVLNエージェントをトレーニングするための既存のアプローチには、面倒でリスクの高いデータ拡張やオンライン探索が含まれる。 対照的に、最適でないオフライン軌道の大規模なリポジトリにアクセスするのは容易である。 オフライン強化学習(ORL)の研究に触発されて,VLN-ORLの新たな問題設定を導入する。 本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,簡便で効果的な報酬条件付きアプローチを提案する。 我々は、VLN-ORLにおける他のユニークな課題の中で、データセットの最適性を特徴づける様々なノイズモデルを経験的に研究し、R2RおよびRxR環境におけるVLN$\circlearrowright$BERTおよびMTVMアーキテクチャをインスタンス化する。 実験の結果,提案手法は複雑で複雑な環境においても,大幅な性能向上をもたらすことが示された。

The study of vision-and-language navigation (VLN) has typically relied on expert trajectories, which may not always be available in real-world situations due to the significant effort required to collect them. On the other hand, existing approaches to training VLN agents that go beyond available expert data involve data augmentations or online exploration which can be tedious and risky. In contrast, it is easy to access large repositories of suboptimal offline trajectories. Inspired by research in offline reinforcement learning (ORL), we introduce a new problem setup of VLN-ORL which studies VLN using suboptimal demonstration data. We introduce a simple and effective reward-conditioned approach that can account for dataset suboptimality for training VLN agents, as well as benchmarks to evaluate progress and promote research in this area. We empirically study various noise models for characterizing dataset suboptimality among other unique challenges in VLN-ORL and instantiate it for the VLN$\circlearrowright$BERT and MTVM architectures in the R2R and RxR environments. Our experiments demonstrate that the proposed reward-conditioned approach leads to significant performance improvements, even in complex and intricate environments.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# CoBOS:人間-ロボットコラボレーションのための制約ベースのオンラインスケジューリング

CoBOS: Constraint-Based Online Scheduler for Human-Robot Collaboration ( http://arxiv.org/abs/2403.18459v1 )

ライセンス: Link先を確認
Marina Ionova, Jan Kristof Behrens, (参考訳) 人間とロボットを含む組み立てプロセスは、個々のアクティビティと共有ワークスペースへのアクセスをコーディネートする必要があるため、困難なシナリオである。 固定されたロボットプログラムは、固定されたプロトコルから分岐する余地を残さない。 このようなプロセスに取り組むことは、ユーザにとってストレスがあり、非効率な振る舞いや失敗につながる可能性がある。 本稿では,CoBOS と呼ばれる行動木を容易にするリアクティブ実行制御フレームワークにおいて,オンライン制約に基づくスケジューリングの新たなアプローチを提案する。 これによりロボットは(人間によって)遅延した活動完了や活動選択などの不確実な事象に適応することができる。 ロボットの同僚は、人間の選択したアクティビティを補完し、共通のタスクを完了するために、彼らの行動に適応するので、ユーザはストレスを減らします。 作業条件の改善に加えて,本アルゴリズムは極めて不確実なシナリオにおいても,効率の向上につながる。 56000の実験による確率論的シミュレーションによるアルゴリズムの評価を行った。 私たちはすべてのベースラインを4-10%のマージンで上回ります。 フランカ・エミカ・パンダ(Franka Emika Panda)のロボットを使った最初の本物のロボット実験と、HTC Vive VR手袋による人間の追跡は有望だ。

Assembly processes involving humans and robots are challenging scenarios because the individual activities and access to shared workspace have to be coordinated. Fixed robot programs leave no room to diverge from a fixed protocol. Working on such a process can be stressful for the user and lead to ineffective behavior or failure. We propose a novel approach of online constraint-based scheduling in a reactive execution control framework facilitating behavior trees called CoBOS. This allows the robot to adapt to uncertain events such as delayed activity completions and activity selection (by the human). The user will experience less stress as the robotic coworkers adapt their behavior to best complement the human-selected activities to complete the common task. In addition to the improved working conditions, our algorithm leads to increased efficiency, even in highly uncertain scenarios. We evaluate our algorithm using a probabilistic simulation study with 56000 experiments. We outperform all baselines by a margin of 4-10%. Initial real robot experiments using a Franka Emika Panda robot and human tracking based on HTC Vive VR gloves look promising.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# ボース・アインシュタイン凝縮体を用いた重力の量子的性質の探索

Probing the quantum nature of gravity using a Bose-Einstein condensate; "Erste Abhandlung" ( http://arxiv.org/abs/2403.18460v1 )

ライセンス: Link先を確認
Soham Sen, Sunandan Gangopadhyay, (参考訳) ボース・アインシュタイン凝縮体を用いてグラビトンによる騒音の影響について検討した。 重力波の摂動は運動量空間における離散フーリエモードの和と見なされる。 作用素表現と、全系の重力とボゾン部分に対応する正準共役変数の間の正準可換関係を通じて位相空間変数を量子化し、適切な量子重力設定を得る。 次に, 擬ゴールドストーン粒子の時間依存性部分の解からボゴリューボフ係数を求め, 初期懸濁状態にあるボソンの共分散測定値を構成する。 フィッシャー情報の確率平均を用いて重力波の振幅パラメータの低い値を求める。 計算全体をゼロ温度で行うと、ボゾン系は建設によってボース=アインシュタイン凝縮体として振る舞う。 ボース=アインシュタインが1つのモードで凝縮すると、振幅測定における不確実性の平方の期待値の低い境界は、全観測項が0に近づくと無限にならない。 すべての運動量モードをまとめるために、次は時間とともに減衰する適切なガウス重み係数を持つ雑音項を考える。 次に、振幅パラメータの分散の正方形の最終的な期待値に対する下界を求める。 重力波によって誘導されるノイズのため、ボース・アインシュタイン凝縮体を用いて重力波を検出できない測定時間の最小値が存在する。 最後に、ボース・アインシュタイン凝縮体のフォノンモード間の相互作用を考察し、デコヒーレンスをもたらす。 この脱コヒーレンス効果は, 最小のスクイージングを有するグラビトンに対して重要であることが観察された。

The effect of noise induced by gravitons has been investigated using a Bose-Einstein condensate. The gravitational wave perturbation is then considerd as a sum of discrete Fourier modes in the momentum space. Coming to an operatorial representation and quantizing the phase space variables via appropriately introduced canonincal commutation relations between the canonically conjugate variables corresponding to the graviton and bosonic part of the total system, one obtains a proper quantum gravity setup. Then we obtain the Bogoliubov coefficients from the solution of the time-dependent part of the pseudo-Goldstone boson and construct the covariance metric for the bosons initially being in a squeezed state. Using the stochastic average of the Fisher information, we obtain a lower bound on the amplitude parameter of the gravitational wave. As the entire calculation is done at zero temperature, the bosonic system, by construction, will behave as a Bose-Einstein condensate. For a Bose-Einstein condensate with a single mode, we observe that the lower bound of the expectation value of the square of the uncertainty in the amplitude measurement does not become infinite when the total observational term approaches zero. In order to sum over all possible momentum modes, we next consider a noise term with a suitable Gaussian weight factor which decays over time. We then obtain the lower bound on the final expectation value of the square of the variance in the amplitude parameter. Because of the noise induced by the graviton, there is a minimum value of the measurement time below which it is impossible to detect any gravitational wave using a Bose-Einstein condensate. Finally, we consider interaction between the phonon modes of the Bose-Einstein condensate which results in a decoherence. We observe that the decoherence effect becomes significant for gravitons with minimal squeezing.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# DiffStyler: 拡散に基づく局所画像スタイル転送

DiffStyler: Diffusion-based Localized Image Style Transfer ( http://arxiv.org/abs/2403.18461v1 )

ライセンス: Link先を確認
Shaoxu Li, (参考訳) 画像スタイルの転送は、カラー、ブラシストローク、シェイプなどのスタイルターゲットの特有な特性を持つデジタルイメージを同時に保存しつつ、コンテンツのセマンティックな整合性を同時に保持することを目的としている。 任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。 近年の大規模テキスト・画像拡散モデルの発展は、芸術様式を記述するための広範かつ不正確なテキスト記述を犠牲にしつつも、前例のない合成能力を秘めている。 これらの制約に対処するため,本稿ではDiffStylerを紹介した。 DiffStylerはテキストから画像への安定拡散モデルベースのLoRAを使ってスタイルターゲットの本質をカプセル化している。 このアプローチには戦略的クロスロラ機能とアテンションインジェクションが組み合わされ、スタイル転送プロセスが導かれる。 提案手法の基礎は,マスク型トランスファー技術の発展にさらに刺激を与える発見であるUNetの空間的特徴一貫性をLoRAが維持しているという観察に根ざしている。 この技術は、事前訓練されたFastSAMモデルから抽出されたマスクを用いて、マスクプロンプトを利用して、デノナイジングプロセス中の特徴融合を促進することにより、元の画像の未影響領域を保存する局所化スタイル転送を可能にする。 さらに,本手法では,対応するマスクを用いて複数のスタイルのターゲットに対応する。 広範にわたる実験を通して,DiffStylerは,コンテンツ保存とスタイル統合の調和の両立を図る上で,従来の手法を超越していることを示す。

Image style transfer aims to imbue digital imagery with the distinctive attributes of style targets, such as colors, brushstrokes, shapes, whilst concurrently preserving the semantic integrity of the content. Despite the advancements in arbitrary style transfer methods, a prevalent challenge remains the delicate equilibrium between content semantics and style attributes. Recent developments in large-scale text-to-image diffusion models have heralded unprecedented synthesis capabilities, albeit at the expense of relying on extensive and often imprecise textual descriptions to delineate artistic styles. Addressing these limitations, this paper introduces DiffStyler, a novel approach that facilitates efficient and precise arbitrary image style transfer. DiffStyler lies the utilization of a text-to-image Stable Diffusion model-based LoRA to encapsulate the essence of style targets. This approach, coupled with strategic cross-LoRA feature and attention injection, guides the style transfer process. The foundation of our methodology is rooted in the observation that LoRA maintains the spatial feature consistency of UNet, a discovery that further inspired the development of a mask-wise style transfer technique. This technique employs masks extracted through a pre-trained FastSAM model, utilizing mask prompts to facilitate feature fusion during the denoising process, thereby enabling localized style transfer that preserves the original image's unaffected regions. Moreover, our approach accommodates multiple style targets through the use of corresponding masks. Through extensive experimentation, we demonstrate that DiffStyler surpasses previous methods in achieving a more harmonious balance between content preservation and style integration.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# 大規模マルチスキャナーデータセットを用いた深層学習のセグメンテーションと赤血球の分類

Deep Learning Segmentation and Classification of Red Blood Cells Using a Large Multi-Scanner Dataset ( http://arxiv.org/abs/2403.18468v1 )

ライセンス: Link先を確認
Mohamed Elmanna, Ahmed Elsafty, Yomna Ahmed, Muhammad Rushdi, Ahmed Morsy, (参考訳) デジタル病理学は、人工知能、ディープラーニング、高性能コンピューティングの進歩によって、最近革命を遂げた。 高度なツールによって、デジタル病理は診断プロセスの改善とスピードアップ、ヒューマンエラーの低減、レポートのステップの合理化に役立つ。 本稿では,新たにRBC画像データセットを報告し,RBC画像のセグメンテーションと分類のための2段階のディープラーニングフレームワークを提案する。 データセットは8つの異なるクラスを含む100K以上のRBCの非常に多様なデータセットである。 このデータセットは、公表されているどの血液病理学データセットよりもかなり大きく、2人の血液病理学者が独立してRBC細胞セグメンテーション用のマスクを作成した。 その後、提案フレームワークでは、まず、自動RBC画像分割を実現するためにU-Netモデルを訓練した。 第2に、5X2クロスバリデーションスキームを用いたトランスファーラーニング手法を用いて、RBC画像を8つのクラスのうちの1つに分類するために、効率的なNetB0モデルを訓練した。 98.03%のIoUと96.5%の平均分類精度がテストセットで達成された。 さらに,いくつかの著名なCNNモデルと比較実験を行った。 これらの比較は、性能と計算コストのバランスのよいモデルが優れていることを示す。

Digital pathology has recently been revolutionized by advancements in artificial intelligence, deep learning, and high-performance computing. With its advanced tools, digital pathology can help improve and speed up the diagnostic process, reduce human errors, and streamline the reporting step. In this paper, we report a new large red blood cell (RBC) image dataset and propose a two-stage deep learning framework for RBC image segmentation and classification. The dataset is a highly diverse dataset of more than 100K RBCs containing eight different classes. The dataset, which is considerably larger than any publicly available hematopathology dataset, was labeled independently by two hematopathologists who also manually created masks for RBC cell segmentation. Subsequently, in the proposed framework, first, a U-Net model was trained to achieve automatic RBC image segmentation. Second, an EfficientNetB0 model was trained to classify RBC images into one of the eight classes using a transfer learning approach with a 5X2 cross-validation scheme. An IoU of 98.03% and an average classification accuracy of 96.5% were attained on the test set. Moreover, we have performed experimental comparisons against several prominent CNN models. These comparisons show the superiority of the proposed model with a good balance between performance and computational cost.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# 密度誘導型トランスレータは3次元点雲の非教師なし領域適応セグメンテーションを促進する

Density-guided Translator Boosts Synthetic-to-Real Unsupervised Domain Adaptive Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2403.18469v1 )

ライセンス: Link先を確認
Zhimin Yuan, Wankang Zeng, Yanfei Su, Weiquan Liu, Ming Cheng, Yulan Guo, Cheng Wang, (参考訳) 3次元合成-非教師なしドメイン適応セグメンテーションは、新しいドメインのアノテートに不可欠である。 自己学習は、このタスクの競争的アプローチであるが、その性能は異なるセンササンプリングパターン(すなわち点密度の変化)と不完全なトレーニング戦略によって制限されている。 本研究では、領域間の点密度を変換し、DGT-STという2段階の自己学習パイプラインに統合する密度誘導型トランスレータ(DGT)を提案する。 まず,不安定な対人訓練においてデータ生成と特徴/出力アライメントを同時に行う既存の作業とは対照的に,非学習可能なDGTを用いて入力レベルの領域ギャップをブリッジする。 第2に, 自己学習のための初期化モデルを提供するために, 試作機を用いて負の移動を防止する, ステージ1のカテゴリレベルの対向ネットワークを提案する。 最後に, 上記の設計を活用することで, 整合性損失を考慮したドメイン混合自己学習法が第2段階において提案され, ドメインギャップをさらに狭めることができる。 SynLiDAR $\rightarrow$ semanticKITTI と SynLiDAR $\rightarrow$ semanticPOSS は、DGT-STがそれぞれ9.4$\%$と4.3$\%$ mIoUの改善を達成していることを示す。 コードは \url{https://github.com/yuan-zm/DGT-ST} で入手できる。

3D synthetic-to-real unsupervised domain adaptive segmentation is crucial to annotating new domains. Self-training is a competitive approach for this task, but its performance is limited by different sensor sampling patterns (i.e., variations in point density) and incomplete training strategies. In this work, we propose a density-guided translator (DGT), which translates point density between domains, and integrates it into a two-stage self-training pipeline named DGT-ST. First, in contrast to existing works that simultaneously conduct data generation and feature/output alignment within unstable adversarial training, we employ the non-learnable DGT to bridge the domain gap at the input level. Second, to provide a well-initialized model for self-training, we propose a category-level adversarial network in stage one that utilizes the prototype to prevent negative transfer. Finally, by leveraging the designs above, a domain-mixed self-training method with source-aware consistency loss is proposed in stage two to narrow the domain gap further. Experiments on two synthetic-to-real segmentation tasks (SynLiDAR $\rightarrow$ semanticKITTI and SynLiDAR $\rightarrow$ semanticPOSS) demonstrate that DGT-ST outperforms state-of-the-art methods, achieving 9.4$\%$ and 4.3$\%$ mIoU improvements, respectively. Code is available at \url{https://github.com/yuan-zm/DGT-ST}.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# 周期駆動非エルミート系における一般化バルク-バウンダリー対応

Generalized bulk-boundary correspondence in periodically driven non-Hermitian systems ( http://arxiv.org/abs/2403.18470v1 )

ライセンス: Link先を確認
Xiang Ji, Xiaosen Yang, (参考訳) 周期的に駆動される非エルミート系について,特に非ヘルミート皮膚効果とトポロジーとの豊かな相互作用について考察した。 まず静的非エルミート系の非ブロッホ帯域理論を見直し、一般化されたバルク境界対応の確立について議論する。 最終的には、周期的に駆動される2つの典型的な非エルミート系(調和的に駆動される非エルミート系と周期的に焼成される非エルミート系)の非ブロッホバンド理論に焦点を当てる。 非ブロッホ位相不変量は一般化されたブリルアンゾーンと実空間波関数で定義され、フロッケ非ヘルムト位相を特徴づける。 その後、周期的に駆動される2つの非エルミート系に対して一般化されたバルク-バウンダリー対応が確立された。 さらに,Floquet非Hermitian高次位相とFloquetハイブリッドスキントポロジーモードを含む高次元非Hermitian系における新しい現象を概説した。 実験的な実現と最近の進歩も調査されている。 最後に、最終的に要約を行い、この教育学的レビューがフロケ非ハームト幾何学的トポロジカル物理学に関するさらなる研究を動機付けることを期待する。

We present a pedagogical review of the periodically driven non-Hermitian systems, particularly on the rich interplay between the non-Hermitian skin effect and the topology. We start by reviewing the non-Bloch band theory of the static non-Hermitian systems and discuss the establishment of its generalized bulk-boundary correspondence. Ultimately, we focus on the non-Bloch band theory of two typical periodically driven non-Hermitian systems: harmonically driven non-Hermitian system and periodically quenched non-Hermitian system. The non-Bloch topological invariants were defined on the generalized Brillouin zone and the real space wave functions to characterize the Floquet non-Hermtian topological phases. Then, the generalized bulk-boundary correspondence was established for the two typical periodically driven non-Hermitian systems. Additionally, we review novel phenomena in the higher-dimensional periodically driven non-Hermitian systems, including Floquet non-Hermitian higher-order topological phases and Floquet hybrid skin-topological modes. The experimental realizations and recent advances have also been surveyed. Finally, we end with a summarization and hope this pedagogical review can motivate further research on Floquet non-Hermtian topological physics.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# DiffusionFace: 拡散に基づく顔偽造解析のための包括的データセットを目指して

DiffusionFace: Towards a Comprehensive Dataset for Diffusion-Based Face Forgery Analysis ( http://arxiv.org/abs/2403.18471v1 )

ライセンス: Link先を確認
Zhongxi Chen, Ke Sun, Ziyin Zhou, Xianming Lin, Xiaoshuai Sun, Liujuan Cao, Rongrong Ji, (参考訳) ディープラーニングの急速な進歩により、超現実的な顔偽造法が生まれ、誤情報やセキュリティリスクに関する懸念がもたらされた。 既存の顔偽造データセットは、高品質な顔画像の生成と、生成技術の進化による課題への対処に制限がある。 これに対抗するために、DiffusionFaceは、無条件およびテキストガイドの顔画像生成、Img2Img、Inpaint、Diffusionベースの顔交換アルゴリズムなど、様々なフォージェリーカテゴリをカバーする、初めての拡散ベースの顔フォージェリーデータセットである。 我々のDiffusionFaceデータセットは、11の拡散モデルと、生成された画像の高品質なコレクションで際立っている。 さらに, 顔画像検出における識別モデルの有効性を厳格に評価し, 顔画像認証プロセスにおけるセキュリティ向上を目的とした, データの詳細な分析を行い, 実用的評価手法を提案する。 データセットは \url{https://github.com/Rapisurazurite/DiffFace} でダウンロードできる。

The rapid progress in deep learning has given rise to hyper-realistic facial forgery methods, leading to concerns related to misinformation and security risks. Existing face forgery datasets have limitations in generating high-quality facial images and addressing the challenges posed by evolving generative techniques. To combat this, we present DiffusionFace, the first diffusion-based face forgery dataset, covering various forgery categories, including unconditional and Text Guide facial image generation, Img2Img, Inpaint, and Diffusion-based facial exchange algorithms. Our DiffusionFace dataset stands out with its extensive collection of 11 diffusion models and the high-quality of the generated images, providing essential metadata and a real-world internet-sourced forgery facial image dataset for evaluation. Additionally, we provide an in-depth analysis of the data and introduce practical evaluation protocols to rigorously assess discriminative models' effectiveness in detecting counterfeit facial images, aiming to enhance security in facial image authentication processes. The dataset is available for download at \url{https://github.com/Rapisurazurite/DiffFace}.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# ガウススティングのモデリングの不確実性

Modeling uncertainty for Gaussian Splatting ( http://arxiv.org/abs/2403.18476v1 )

ライセンス: Link先を確認
Luca Savant, Diego Valsesia, Enrico Magli, (参考訳) 本稿では,SGS(Stochastic Gaussian Splatting)について述べる。 GSはニューラルレイディアンス・フィールド(NeRF)の計算コストのごく一部で、印象的な再構成品質を達成し、新しいビュー合成分野を進化させた。 しかし、後者とは対照的に、出力に関連する信頼性に関する情報を提供する能力は依然として欠落している。 本稿では,不確実性予測をGSの共通レンダリングパイプラインにシームレスに統合する変分推論に基づくアプローチを提案する。 さらに、損失関数の新たな用語としてAUSE(Area Under Sparsification Error)を導入し、画像再構成とともに不確実性推定の最適化を可能にする。 LLFFデータセットを用いた実験結果から,画像のレンダリング精度と不確実性推定精度の両面から既存の手法よりも優れていることが示された。 全体として、我々のフレームワークは、現実のアプリケーションにおいてより安全な意思決定を促進するために、合成されたビューの信頼性に関する貴重な洞察を実践者に提供する。

We present Stochastic Gaussian Splatting (SGS): the first framework for uncertainty estimation using Gaussian Splatting (GS). GS recently advanced the novel-view synthesis field by achieving impressive reconstruction quality at a fraction of the computational cost of Neural Radiance Fields (NeRF). However, contrary to the latter, it still lacks the ability to provide information about the confidence associated with their outputs. To address this limitation, in this paper, we introduce a Variational Inference-based approach that seamlessly integrates uncertainty prediction into the common rendering pipeline of GS. Additionally, we introduce the Area Under Sparsification Error (AUSE) as a new term in the loss function, enabling optimization of uncertainty estimation alongside image reconstruction. Experimental results on the LLFF dataset demonstrate that our method outperforms existing approaches in terms of both image rendering quality and uncertainty estimation accuracy. Overall, our framework equips practitioners with valuable insights into the reliability of synthesized views, facilitating safer decision-making in real-world applications.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# 非エルミート量子系の熱化条件

Thermalization condition for non-Hermitian quantum systems ( http://arxiv.org/abs/2403.18477v1 )

ライセンス: Link先を確認
Yiting Mao, Peigeng Zhong, Haiqing Lin, Xiaoqun Wang, Shijie Hu, (参考訳) 固有状態熱化仮説の非エルミート量子系への応用は、散逸的量子カオスにおいて最も重要なトピックの1つとなり、近年激しい議論が巻き起こった。 熱化の過程は複雑で、系のヒルベルト空間の縮小に多くの時間進化軌道を含む。 生物直交時間および右状態時間進化で採用される密度行列の2つの異なる拡張形式を考慮し、非エルミタン系を熱平衡でボソニック熱浴に結合したゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式の2つのバージョンを導出した。 方程式を解くことによって、両時間進化の下で熱化に十分な条件が特定され、ボルツマンの生物直交統計と右固有状態統計がそれぞれ導かれる。 この発見は、最近提案された直交確率行列理論が適切な修正を必要とすることを示唆している。 さらに, 実験モデルによる熱化と熱力学特性の正確なダイナミクスを実証した。

The application of the eigenstate thermalization hypothesis to non-Hermitian quantum systems has become one of the most important topics in dissipative quantum chaos, recently giving rise to intense debates. The process of thermalization is intricate, involving many time-evolution trajectories in the reduced Hilbert space of the system. By considering two different expansion forms of the density matrices adopted in the biorthogonal and right-state time evolutions, we have derived two versions of the Gorini-Kossakowski-Sudarshan-Lindblad master equations describing the non-Hermitian systems coupled to a bosonic heat bath in thermal equilibrium. By solving the equations, we have identified a sufficient condition for thermalization under both time evolutions, resulting in Boltzmann biorthogonal and right-eigenstate statistics, respectively. This finding implies that the recently proposed biorthogonal random matrix theory needs an appropriate revision. Moreover, we have exemplified the precise dynamics of thermalization and thermodynamic properties with test models.
翻訳日:2024-03-28 17:17:54 公開日:2024-03-27
# UVL Sentinel:UVLデータセットの解析と構文修正のためのツール

UVL Sentinel: a tool for parsing and syntactic correction of UVL datasets ( http://arxiv.org/abs/2403.18482v1 )

ライセンス: Link先を確認
David Romero-Organvidez, Jose A. Galindo, David Benavides, (参考訳) 機能モデルは、ソフトウェア製品ラインの多様性を表すデファクトスタンダードになっています。 UVL(Universal Variability Language)は、それらの機能、依存関係、制約を表現する言語である。 この言語はプレーンテキストで書かれており、構文構造に従っており、パーサーで処理する必要がある。 このパーサーは、言語が正しく処理するために従わなければならない特定の構文規則を持つソフトウェアである。 研究者は多数の特徴モデルを持つデータセットを持っている。 これらの特徴モデルの言語記述形式はパーサー言語のバージョンと結びついている。 新たな機能をサポートするようにパーサが更新されたり、以前の機能を修正すると、これらの機能モデルは互換性がなくなり、データセット内で不整合と不整合が発生します。 本稿ではUVLセンチネルについて述べる。 このツールはUVLフォーマットで機能モデルのデータセットを分析し、エラー解析レポートを生成し、それらのエラーを記述し、最終的には最も一般的なソリューションを適用する構文処理を行う。 このツールは、パーサが更新されたときにデータセットの機能モデルの非互換性を検出し、最も一般的な構文エラーを修正し、データセットの管理とパーサの新バージョンへのモデルの適応を容易にする。 提案ツールは,異なるソースからの1,479UVLモデルのデータセットを用いて評価し,半自動で185の警告と構文エラーを修正した。

Feature models have become a de facto standard for representing variability in software product lines. UVL (Universal Variability Language) is a language which expresses the features, dependencies, and constraints between them. This language is written in plain text and follows a syntactic structure that needs to be processed by a parser. This parser is software with specific syntactic rules that the language must comply with to be processed correctly. Researchers have datasets with numerous feature models. The language description form of these feature models is tied to a version of the parser language. When the parser is updated to support new features or correct previous ones, these feature models are often no longer compatible, generating incompatibilities and inconsistency within the dataset. In this paper, we present UVL Sentinel. This tool analyzes a dataset of feature models in UVL format, generating error analysis reports, describing those errors and, eventually, a syntactic processing that applies the most common solutions. This tool can detect the incompatibilities of the feature models of a dataset when the parser is updated and tries to correct the most common syntactic errors, facilitating the management of the dataset and the adaptation of their models to the new version of the parser. Our tool was evaluated using a dataset of 1,479 UVL models from different sources and helped semi-automatically fix 185 warnings and syntax errors.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# 条件拡散モデルを用いた事象関連電位パラダイムからの脳波信号の合成

Synthesizing EEG Signals from Event-Related Potential Paradigms with Conditional Diffusion Models ( http://arxiv.org/abs/2403.18486v1 )

ライセンス: Link先を確認
Guido Klein, Pierre Guetschel, Gianluigi Silvestri, Michael Tangermann, (参考訳) 脳-コンピュータインタフェース分野におけるデータの不足は、生成モデル、特に拡散モデルを使用することで緩和することができる。 拡散モデルは以前は脳波(EEG)データにうまく適用されてきたが、既存のモデルは柔軟性に欠けており、EEGデータの代替表現を必要としている。 これらの制約を克服するために,分類器のないガイダンスを用いて,主観,セッション,クラス固有の脳波データを直接生成する条件拡散モデルを提案する。 一般的に使用されるメトリクスに加えて、生成されたサンプルの特異性を評価するためにドメイン固有のメトリクスが使用される。 その結果,提案モデルでは被験者,セッション,クラスごとの実際のデータに類似した脳波データを生成することが可能であることが示唆された。

Data scarcity in the brain-computer interface field can be alleviated through the use of generative models, specifically diffusion models. While diffusion models have previously been successfully applied to electroencephalogram (EEG) data, existing models lack flexibility w.r.t.~sampling or require alternative representations of the EEG data. To overcome these limitations, we introduce a novel approach to conditional diffusion models that utilizes classifier-free guidance to directly generate subject-, session-, and class-specific EEG data. In addition to commonly used metrics, domain-specific metrics are employed to evaluate the specificity of the generated samples. The results indicate that the proposed model can generate EEG data that resembles real data for each subject, session, and class.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# 深部ニューラルネットワークモデルによる蒸発散量の推定に対する気象予報データの利用の影響

Impact of Employing Weather Forecast Data as Input to the Estimation of Evapotranspiration by Deep Neural Network Models ( http://arxiv.org/abs/2403.18489v1 )

ライセンス: Link先を確認
Pedro J. Vaz, Gabriela Schütz, Carlos Guerrero, Pedro J. S. Cardoso, (参考訳) 基準蒸発散(ET0)は、作物の水需要に係数が関係するため、スマート灌水スケジューリングを設計するための重要なパラメータである。 国連食糧農業機関は、ペンマン・モンテイス方程式のパラメータ化に基づくET0計算の標準手法(FAO56PM)を提案した。 FAO56-PM法を用いてET0を計算するには、気温、湿度、風、太陽放射(SR)の4つの主要な気象パラメータが必要である。 天気予報サービス(WFSs)を利用することで、気象パラメータを15日間まで見積もることができる。 この方法の問題点は、現在、ほとんどのオンラインサービスにおいて、SRが無料の予測パラメータとして提供されていないこと、または、通常、そのような予測が金銭的コストペナルティを示すことである。 このため、機械学習とディープラーニングを用いたET0推定モデルが開発され、文献で紹介され、入力として使われるのは、一般に利用可能なWFSと互換性のある、慎重に選択された気象パラメータのセットの削減である。 しかし、この話題に関するほとんどの研究は、天気予報データを用いることによる影響を考慮せずに、気象観測所(WS)のデータを用いたモデル性能の評価しか行っていない。 本研究では,2つのオンラインWFSの天気予報データを用いて,著者の過去のモデルの性能を評価する。 (i)ANNモデルによる直接ET0推定、及び (II) ANNモデルによりSRを推定し,その推定を FAO56-PM 法を用いてET0 計算に使用する。 ポルトガルのヴァレ・ド・ロボ(Vale do Lobo)にある2つのWFSとWSから収集したデータを用いて、最大15日間の予測を考慮すれば、決定係数(R2)が0.893から0.667の範囲で最高の結果を得た。

Reference Evapotranspiration (ET0) is a key parameter for designing smart irrigation scheduling, since it is related by a coefficient to the water needs of a crop. The United Nations Food and Agriculture Organization, proposed a standard method for ET0 computation (FAO56PM), based on the parameterization of the Penman-Monteith equation, that is widely adopted in the literature. To compute ET0 using the FAO56-PM method, four main weather parameters are needed: temperature, humidity, wind, and solar radiation (SR). One way to make daily ET0 estimations for future days is to use freely available weather forecast services (WFSs), where many meteorological parameters are estimated up to the next 15 days. A problem with this method is that currently, SR is not provided as a free forecast parameter on most of those online services or, normally, such forecasts present a financial cost penalty. For this reason, several ET0 estimation models using machine and deep learning were developed and presented in the literature, that use as input features a reduced set of carefully selected weather parameters, that are compatible with common freely available WFSs. However, most studies on this topic have only evaluated model performance using data from weather stations (WSs), without considering the effect of using weather forecast data. In this study, the performance of authors' previous models is evaluated when using weather forecast data from two online WFSs, in the following scenarios: (i) direct ET0 estimation by an ANN model, and (ii) estimate SR by ANN model, and then use that estimation for ET0 computation, using the FAO56-PM method. Employing data collected from two WFSs and a WS located in Vale do Lobo, Portugal, the latter approach achieved the best result, with a coefficient of determination (R2) ranging between 0.893 and 0.667, when considering forecasts up to 15 days.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# I2CKD : セマンティックセグメンテーションのためのクラス内およびクラス間知識蒸留

I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation ( http://arxiv.org/abs/2403.18490v1 )

ライセンス: Link先を確認
Ayoub Karine, Thibault Napoléon, Maher Jridi, (参考訳) 本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。 本手法の焦点は,教師層(面倒なモデル)と生徒層(コンパクトモデル)の中間層間の知識の獲得と伝達である。 知識抽出には特徴写像から派生したクラスプロトタイプを利用する。 知識伝達を容易にするため,クラス内分散を最小化し,教師と学生のプロトタイプ間のクラス間分散を最大化するために,三重項損失を用いる。 その結果、I2CKDにより、生徒は各クラスの教師の特徴表現をよりよく模倣することができ、コンパクトネットワークのセグメンテーション性能を向上させることができる。 教師と学生のネットワークペアを用いた3つのセグメンテーションデータセット(Cityscapes, Pascal VOC, CamVid)の大規模な実験により,提案手法の有効性が示された。

This paper proposes a new knowledge distillation method tailored for image semantic segmentation, termed Intra- and Inter-Class Knowledge Distillation (I2CKD). The focus of this method is on capturing and transferring knowledge between the intermediate layers of teacher (cumbersome model) and student (compact model). For knowledge extraction, we exploit class prototypes derived from feature maps. To facilitate knowledge transfer, we employ a triplet loss in order to minimize intra-class variances and maximize inter-class variances between teacher and student prototypes. Consequently, I2CKD enables the student to better mimic the feature representation of the teacher for each class, thereby enhancing the segmentation performance of the compact network. Extensive experiments on three segmentation datasets, i.e., Cityscapes, Pascal VOC and CamVid, using various teacher-student network pairs demonstrate the effectiveness of the proposed method.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# 捕食者形状解析装置のアルゴリズム的詳細

Algorithmic Details behind the Predator Shape Analyser ( http://arxiv.org/abs/2403.18491v1 )

ライセンス: Link先を確認
Kamil Dudka, Petr Muller, Petr Peringer, Veronika Šoková, Tomáš Vojnar, (参考訳) 本章は,論文「Predator: Byte-Precise Verification of Low-Level List Manipulation」の改訂版であり,抽象的解釈とシンボリックメモリグラフに基づいて,プレデター形状解析の背景にあるアルゴリズムの詳細な記述に焦点を当てている。 プレデターは、低レベルのポインタ演算を用いて、非有界サイズの様々なリンクリストや、その他の有界サイズのポインタ構造を操作するシーケンシャルな非再帰的Cコードの形式解析と検証に特に適している。 このツールは、ポインタ演算、ブロック演算、アドレスアライメント、メモリ再解釈など、実質的に関連する形式をサポートしている。 ツールの全体的なアーキテクチャと、ツールの実装詳細、および、その動作に様々な制約を課した複数の同時実行型Predatorアナライザを活用した、いわゆるPredator Hunting Partyへの拡張について述べる。 SV-COMPコンペティションにおけるPredatorの実験結果とベンチマーク結果について報告する。

This chapter, which is an extended and revised version of the conference paper 'Predator: Byte-Precise Verification of Low-Level List Manipulation', concentrates on a detailed description of the algorithms behind the Predator shape analyser based on abstract interpretation and symbolic memory graphs. Predator is particularly suited for formal analysis and verification of sequential non-recursive C code that uses low-level pointer operations to manipulate various kinds of linked lists of unbounded size as well as various other kinds of pointer structures of bounded size. The tool supports practically relevant forms of pointer arithmetic, block operations, address alignment, or memory reinterpretation. We present the overall architecture of the tool, along with selected implementation details of the tool as well as its extension into so-called Predator Hunting Party, which utilises multiple concurrently-running Predator analysers with various restrictions on their behaviour. Results of experiments with Predator within the SV-COMP competition as well as on our own benchmarks are provided.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# VersaT2I:Versatile Rewardによるテキスト・画像モデルの改善

VersaT2I: Improving Text-to-Image Models with Versatile Reward ( http://arxiv.org/abs/2403.18493v1 )

ライセンス: Link先を確認
Jianshu Guo, Wenhao Chai, Jie Deng, Hsiang-Wei Huang, Tian Ye, Yichen Xu, Jiawei Zhang, Jenq-Neng Hwang, Gaoang Wang, (参考訳) 最近のテキスト・ツー・イメージ(T2I)モデルは、大規模で高品質なデータから恩恵を受けており、素晴らしいパフォーマンスを示している。 しかし、これらのT2Iモデルは、審美的で、幾何学的に正確で、テキストに忠実で、低レベルな画質のイメージを作るのに依然として苦労している。 提案するVersaT2Iは,任意のT2Iモデルの複数の報酬を伴って,パフォーマンスを向上させる多目的トレーニングフレームワークである。 画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。 そして、各品質面に対して、ローランド適応(LoRA)を用いてT2Iモデルを微調整するためのトレーニングセットとして、モデルによって生成されたこの側面の高品質な画像を選択する。 さらに,複数の品質面を組み合わせたゲーティング機能を導入し,異なる品質面間の衝突を回避する。 提案手法は拡張が容易であり,手作業によるアノテーションや強化学習,モデルアーキテクチャの変更は不要である。 大規模な実験により、VersaT2Iは様々な品質基準で基準法よりも優れていることが示された。

Recent text-to-image (T2I) models have benefited from large-scale and high-quality data, demonstrating impressive performance. However, these T2I models still struggle to produce images that are aesthetically pleasing, geometrically accurate, faithful to text, and of good low-level quality. We present VersaT2I, a versatile training framework that can boost the performance with multiple rewards of any T2I model. We decompose the quality of the image into several aspects such as aesthetics, text-image alignment, geometry, low-level quality, etc. Then, for every quality aspect, we select high-quality images in this aspect generated by the model as the training set to finetune the T2I model using the Low-Rank Adaptation (LoRA). Furthermore, we introduce a gating function to combine multiple quality aspects, which can avoid conflicts between different quality aspects. Our method is easy to extend and does not require any manual annotation, reinforcement learning, or model architecture changes. Extensive experiments demonstrate that VersaT2I outperforms the baseline methods across various quality criteria.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# PINNにおける学習:相転移、全拡散、一般化

Learning in PINNs: Phase transition, total diffusion, and generalization ( http://arxiv.org/abs/2403.18494v1 )

ライセンス: Link先を確認
Sokratis J. Anagnostopoulos, Juan Diego Toscano, Nikolaos Stergiopulos, George Em Karniadakis, (参考訳) 本研究では、勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討し、非凸目的におけるAdamのような一階最適化器の挙動について検討した。 情報ボトルネック理論のドリフト/拡散相を解釈し、勾配の均一性に着目し、学習速度の平衡と均質勾配を特徴とする「高度拡散」と呼ばれる第3相を特定する。 この位相は、急激なSNR増加、サンプル空間の均一な残留、そして最も速い訓練収束によって特徴づけられる。 本稿では,この拡散を2次損失関数で促進し,一般化を促進させる残差に基づく再重み付け手法を提案する。 また,情報圧縮現象についても検討し,全拡散相におけるアクティベーションの顕著な飽和による圧縮を指摘し,より深い層が無視可能な情報損失を経験することを示した。 PDEに基づくサンプル相互依存性による勾配均一性の重要性を裏付ける物理インフォームドニューラルネットワーク(PINN)の実験データによって支持された結果,相転移の認識が一般化を改善するためのML最適化戦略を改良する可能性が示唆された。

We investigate the learning dynamics of fully-connected neural networks through the lens of gradient signal-to-noise ratio (SNR), examining the behavior of first-order optimizers like Adam in non-convex objectives. By interpreting the drift/diffusion phases in the information bottleneck theory, focusing on gradient homogeneity, we identify a third phase termed ``total diffusion", characterized by equilibrium in the learning rates and homogeneous gradients. This phase is marked by an abrupt SNR increase, uniform residuals across the sample space and the most rapid training convergence. We propose a residual-based re-weighting scheme to accelerate this diffusion in quadratic loss functions, enhancing generalization. We also explore the information compression phenomenon, pinpointing a significant saturation-induced compression of activations at the total diffusion phase, with deeper layers experiencing negligible information loss. Supported by experimental data on physics-informed neural networks (PINNs), which underscore the importance of gradient homogeneity due to their PDE-based sample inter-dependence, our findings suggest that recognizing phase transitions could refine ML optimization strategies for improved generalization.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# 転写学習によるドリルコア画像からの直接ミネラル含量予測

Direct mineral content prediction from drill core images via transfer learning ( http://arxiv.org/abs/2403.18495v1 )

ライセンス: Link先を確認
Romana Boiger, Sergey V. Churakov, Ignacio Ballester Llagaria, Georg Kosakowski, Raphael Wüst, Nikolaos I. Prasianakis, (参考訳) 深層探査は、鉱業、石油、ガス産業、化学廃棄物や原子力廃棄物を処分するための地質単位の評価、地熱エネルギーシステムの生存可能性などにおいて重要である。 典型的には、地下構造や単位の詳細な調査は、掘削活動中に抽出された切削やコア材料、および地球物理ボアホールデータに基づいて行われ、岩石の岩石物性に関する詳細な情報を提供する。 岩石サンプルの体積や分析プログラムによっては、実験室の分析と診断は非常に時間がかかる可能性がある。 本研究では,特に畳み込みニューラルネットワーク(CNN)を応用して,掘削コア画像の解析のみからリソロジーとミネラル含量を評価する可能性について検討し,地下地質探査を支援することを目的とした。 本稿では、データ前処理、機械学習、転送学習技術を含む包括的な方法論を概説する。 その結果、ドリルコアセグメントを異なる形成クラスに分類する際、96.7%の精度が明らかとなった。 さらに, 多次元ログ解析データ(ケイ酸塩, 全粘土, 炭酸塩)から得られた学習データを用いて, CNNモデルを用いてミネラル含有量の評価を行った。 コアから採取した試料のXRD測定値に対してベンチマークを行うと、先進的な多次元ログ解析モデルとニューラルネットワークアプローチの両方が同等に優れた性能が得られる。 本研究は, 深層学習, 特に移動学習が掘削コア画像からミネラル含量や生成分類を含む石油物性の抽出を支援することを示し, 掘削コアの画像解析におけるモデル性能とデータセット品質を向上させるための道路マップを提供する。

Deep subsurface exploration is important for mining, oil and gas industries, as well as in the assessment of geological units for the disposal of chemical or nuclear waste, or the viability of geothermal energy systems. Typically, detailed examinations of subsurface formations or units are performed on cuttings or core materials extracted during drilling campaigns, as well as on geophysical borehole data, which provide detailed information about the petrophysical properties of the rocks. Depending on the volume of rock samples and the analytical program, the laboratory analysis and diagnostics can be very time-consuming. This study investigates the potential of utilizing machine learning, specifically convolutional neural networks (CNN), to assess the lithology and mineral content solely from analysis of drill core images, aiming to support and expedite the subsurface geological exploration. The paper outlines a comprehensive methodology, encompassing data preprocessing, machine learning methods, and transfer learning techniques. The outcome reveals a remarkable 96.7% accuracy in the classification of drill core segments into distinct formation classes. Furthermore, a CNN model was trained for the evaluation of mineral content using a learning data set from multidimensional log analysis data (silicate, total clay, carbonate). When benchmarked against laboratory XRD measurements on samples from the cores, both the advanced multidimensional log analysis model and the neural network approach developed here provide equally good performance. This work demonstrates that deep learning and particularly transfer learning can support extracting petrophysical properties, including mineral content and formation classification, from drill core images, thus offering a road map for enhancing model performance and data set quality in image-based analysis of drill cores.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# HEMIT:Dual-Branch Pix2pix Generatorを用いた多重免疫組織化学画像翻訳

HEMIT: H&E to Multiplex-immunohistochemistry Image Translation with Dual-Branch Pix2pix Generator ( http://arxiv.org/abs/2403.18501v1 )

ライセンス: Link先を確認
Chang Bian, Beth Philips, Tim Cootes, Martin Fergie, (参考訳) 腫瘍の微小環境を理解する重要な方法として, 多重蛍光組織データの計算学的解析が注目されている。 HEMITは、ヘマトキシリンとエオシン(H&E)のセクションを多重免疫化学(mIHC)のイメージに翻訳するために設計されたデータセットで、DAPI、CD3、PanCKマーカーが特徴である。 HEMITのmIHC画像は、多成分で細胞レベルでH&Eと整合し、監督された染色翻訳タスクを充実させる。 我々の知る限り、HEMITは、H&EがマルチターゲットmIHC画像翻訳を可能にする、初めて公開されたセルレベルアライメントデータセットである。 このデータセットは、H&Eスライドアーカイブから新たな洞察を得る可能性がある新しい計算手法を開発するための貴重なリソースをコンピュータビジョンコミュニティに提供する。 また、残差畳み込みニューラルネットワーク(CNN)とスウィントランスフォーマーを用いて、他の一般的なアルゴリズムよりも優れた翻訳結果が得られる新しいデュアルブランチジェネレータアーキテクチャを提案する。 HEMITでの評価では、Pix2pixHD、Pix2pix、U-Net、ResNetを上回り、構造類似度指数測定(SSIM)、ピアソン相関スコア(R)、ピーク信号対雑音比(PSNR)などの主要な指標で最高スコアを達成している。 さらに、ダウンストリーム解析は、生成されたmIHC画像の品質をさらに検証するために使われてきた。 これらの結果は、ステン翻訳タスクの分野で新しいベンチマークを設定した。

Computational analysis of multiplexed immunofluorescence histology data is emerging as an important method for understanding the tumour micro-environment in cancer. This work presents HEMIT, a dataset designed for translating Hematoxylin and Eosin (H&E) sections to multiplex-immunohistochemistry (mIHC) images, featuring DAPI, CD3, and panCK markers. Distinctively, HEMIT's mIHC images are multi-component and cellular-level aligned with H&E, enriching supervised stain translation tasks. To our knowledge, HEMIT is the first publicly available cellular-level aligned dataset that enables H&E to multi-target mIHC image translation. This dataset provides the computer vision community with a valuable resource to develop novel computational methods which have the potential to gain new insights from H&E slide archives. We also propose a new dual-branch generator architecture, using residual Convolutional Neural Networks (CNNs) and Swin Transformers which achieves better translation outcomes than other popular algorithms. When evaluated on HEMIT, it outperforms pix2pixHD, pix2pix, U-Net, and ResNet, achieving the highest overall score on key metrics including the Structural Similarity Index Measure (SSIM), Pearson correlation score (R), and Peak signal-to-noise Ratio (PSNR). Additionally, downstream analysis has been used to further validate the quality of the generated mIHC images. These results set a new benchmark in the field of stain translation tasks.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# AcTED:半教師付き時間的コモンセンスQAにおける典型的事象継続時間の自動取得

AcTED: Automatic Acquisition of Typical Event Duration for Semi-supervised Temporal Commonsense QA ( http://arxiv.org/abs/2403.18504v1 )

ライセンス: Link先を確認
Felix Virgo, Fei Cheng, Lis Kanashiro Pereira, Masayuki Asahara, Ichiro Kobayashi, Sadao Kurohashi, (参考訳) 本稿では,イベントの典型的な期間を自動的に取得し,擬似ラベル付きデータとして利用する投票駆動型半教師付き手法を提案する。 人間の評価は、我々の擬似ラベルが驚くほど高い精度とバランスの取れたカバレッジを示すことを示している。 時間的コモンセンスQAタスクにおいて、実験結果から、400件のイベントの擬似例のみを用いて、既存のBERTベースの弱教師付きアプローチに匹敵する性能を達成できることが示されている。 RoBERTaベースラインと比較して、我々のベストアプローチは、 Exact Matchを7%改善した最先端のパフォーマンスを確立することです。

We propose a voting-driven semi-supervised approach to automatically acquire the typical duration of an event and use it as pseudo-labeled data. The human evaluation demonstrates that our pseudo labels exhibit surprisingly high accuracy and balanced coverage. In the temporal commonsense QA task, experimental results show that using only pseudo examples of 400 events, we achieve performance comparable to the existing BERT-based weakly supervised approaches that require a significant amount of training examples. When compared to the RoBERTa baselines, our best approach establishes state-of-the-art performance with a 7% improvement in Exact Match.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# ラインサーチ法による変圧器微調整の高速収束

Faster Convergence for Transformer Fine-tuning with Line Search Methods ( http://arxiv.org/abs/2403.18506v1 )

ライセンス: Link先を確認
Philip Kenneweg, Leonardo Galli, Tristan Kenneweg, Barbara Hammer, (参考訳) 近年の研究では, 線形探索法は, 様々なデータセットやアーキテクチャにおいて, 従来の確率勾配降下法の性能を大幅に向上させることが示されている [1], [2]。 本研究では,自然言語処理における新しいトランスフォーマーアーキテクチャやデータセットドメインへの行探索手法の拡張に成功している。 より具体的には、Armijoライン探索とAdamオプティマイザを組み合わせて、ネットワークアーキテクチャを意味のある単位に分割し、これらの局所単位を別々に行探索することで拡張する。 我々の最適化手法は従来のAdamオプティマイザよりも優れており、小規模なデータセットや訓練予算の大幅なパフォーマンス向上を実現しています。 我々の作業はpythonパッケージとして公開されており、任意のネットワークアーキテクチャと互換性のあるハイパーパラメータフリーのpytorchオプティマイザを提供する。

Recent works have shown that line search methods greatly increase performance of traditional stochastic gradient descent methods on a variety of datasets and architectures [1], [2]. In this work we succeed in extending line search methods to the novel and highly popular Transformer architecture and dataset domains in natural language processing. More specifically, we combine the Armijo line search with the Adam optimizer and extend it by subdividing the networks architecture into sensible units and perform the line search separately on these local units. Our optimization method outperforms the traditional Adam optimizer and achieves significant performance improvements for small data sets or small training budgets, while performing equal or better for other tested cases. Our work is publicly available as a python package, which provides a hyperparameter-free pytorch optimizer that is compatible with arbitrary network architectures.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# 雑音リンク上の分散最大合意

Distributed Maximum Consensus over Noisy Links ( http://arxiv.org/abs/2403.18509v1 )

ライセンス: Link先を確認
Ehsan Lari, Reza Arablouei, Naveen K. D. Venkategowda, Stefan Werner, (参考訳) 本稿では,雑音の多い通信リンクが存在する場合のマルチエージェントネットワーク内の最大値を推定する分散アルゴリズムRD-MCを提案する。 提案手法では,最大収束問題を分散最適化問題として再定義し,乗算器の交互方向法を用いて解を求める。 複数のノイズ破損推定セットに依存する既存のアルゴリズムとは異なり、RD-MCは単一のセットを採用し、堅牢性と効率性を向上させる。 リンクノイズの影響を緩和し、ロバスト性を向上させるため、移動平均化を局所推定に適用する。 大規模なシミュレーションにより,RD-MCは既存の最大合意アルゴリズムに比べて通信リンクノイズに対してかなり頑健であることを示す。

We introduce a distributed algorithm, termed noise-robust distributed maximum consensus (RD-MC), for estimating the maximum value within a multi-agent network in the presence of noisy communication links. Our approach entails redefining the maximum consensus problem as a distributed optimization problem, allowing a solution using the alternating direction method of multipliers. Unlike existing algorithms that rely on multiple sets of noise-corrupted estimates, RD-MC employs a single set, enhancing both robustness and efficiency. To further mitigate the effects of link noise and improve robustness, we apply moving averaging to the local estimates. Through extensive simulations, we demonstrate that RD-MC is significantly more robust to communication link noise compared to existing maximum-consensus algorithms.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# 双極子超固体中の渦の観察

Observation of vortices in a dipolar supersolid ( http://arxiv.org/abs/2403.18510v1 )

ライセンス: Link先を確認
Eva Casotti, Elena Poli, Lauritz Klaus, Andrea Litvinov, Clemens Ulm, Claudia Politi, Manfred J. Mark, Thomas Bland, Francesca Ferlaino, (参考訳) 超固体は、2つの連続した対称性を自発的に破る物質の状態である:結晶構造の出現による変換不変性と単一粒子波動関数の位相ロックによる位相不変性であり、超流動現象の原因となる。 当初は固体ヘリウムに存在すると予測されていたが、超低温の量子ガスは超固体を観測する最初のプラットフォームを提供し、特に双極子原子から成功した。 双極性超固体の相ロックは、相コヒーレンスとギャップレスゴールドストーンモードのeg測定によって調査されているが、超流動性の流体力学的指紋である量子化された渦はまだ観測されていない。 ここでは, 2次元の結晶秩序で双極子ガスおよび超固体中の渦を生成する方法として, 本処理で必要となる部分について述べるとともに, 超固体相における渦の理論的研究と実験的観察について報告する。 我々の研究は、非変調量子流体と変調量子流体の渦発芽ダイナミクスの根本的な違いを明らかにした。 これは、量子結晶や中性子星のような異なる領域において、複数の自発的に壊れた対称性を持つエキゾチック量子系の力学特性を研究するための扉を開く。

Supersolids are states of matter that spontaneously break two continuous symmetries: translational invariance due to the appearance of a crystal structure and phase invariance due to phase locking of single-particle wave functions, responsible for superfluid phenomena. While originally predicted to be present in solid helium, ultracold quantum gases provided a first platform to observe supersolids, with particular success coming from dipolar atoms. Phase locking in dipolar supersolids has been probed through e.g. measurements of the phase coherence and gapless Goldstone modes, but quantized vortices, a hydrodynamic fingerprint of superfluidity, have not yet been observed. Here, with the prerequisite pieces at our disposal, namely a method to generate vortices in dipolar gases and supersolids with two-dimensional crystalline order, we report on the theoretical investigation and experimental observation of vortices in the supersolid phase. Our work reveals a fundamental difference in vortex seeding dynamics between unmodulated and modulated quantum fluids. This opens the door to study the hydrodynamic properties of exotic quantum systems with multiple spontaneously broken symmetries, in disparate domains such as quantum crystals and neutron stars.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# ParCo:パートコーディネートテキスト間合成

ParCo: Part-Coordinating Text-to-Motion Synthesis ( http://arxiv.org/abs/2403.18512v1 )

ライセンス: Link先を確認
Qiran Zou, Shangyuan Yuan, Shian Du, Yu Wang, Chang Liu, Yi Xu, Jie Chen, Xiangyang Ji, (参考訳) 本研究では,テキスト・トゥ・モーション・シンセサイザー(テキスト・ツー・モーション・シンセサイザー)という,テキスト記述に整合した動作を生成し,協調した動作を示すことを目的とした課題について検討する。 現在、パートベースの手法は、よりきめ細かい生成を実現するために、モーション合成プロセスに部分分割を導入している。 しかし、これらの手法は、異なる部分運動間の協調の欠如や、ネットワークが部分概念を理解するのが困難といった課題に直面している。 さらに、よりきめ細かい部分の概念の導入は、計算複雑性の課題を引き起こす。 そこで本稿では,ParCo(Part-Coordinating Text-to-Motion Synthesis, ParCo)を提案する。 具体的には,全身運動を複数の部分運動に識別し,異なる部分の先行概念を確立する。 その後、複数の軽量発電機を用いて、異なる部分運動を合成し、部品調整モジュールを介してそれらを調整する。 提案手法は,HumanML3DやKIT-MLなど,経済計算の一般的なベンチマークにおいて優れた性能を示し,その有効性を示す。 コードはhttps://github.com/qrzou/ParCoで入手できる。

We study a challenging task: text-to-motion synthesis, aiming to generate motions that align with textual descriptions and exhibit coordinated movements. Currently, the part-based methods introduce part partition into the motion synthesis process to achieve finer-grained generation. However, these methods encounter challenges such as the lack of coordination between different part motions and difficulties for networks to understand part concepts. Moreover, introducing finer-grained part concepts poses computational complexity challenges. In this paper, we propose Part-Coordinating Text-to-Motion Synthesis (ParCo), endowed with enhanced capabilities for understanding part motions and communication among different part motion generators, ensuring a coordinated and fined-grained motion synthesis. Specifically, we discretize whole-body motion into multiple part motions to establish the prior concept of different parts. Afterward, we employ multiple lightweight generators designed to synthesize different part motions and coordinate them through our part coordination module. Our approach demonstrates superior performance on common benchmarks with economic computations, including HumanML3D and KIT-ML, providing substantial evidence of its effectiveness. Code is available at https://github.com/qrzou/ParCo .
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# CT-3D Flow : 病的肺CTの非教師的検出のための3次元正規化フローの活用

CT-3DFlow : Leveraging 3D Normalizing Flows for Unsupervised Detection of Pathological Pulmonary CT scans ( http://arxiv.org/abs/2403.18514v1 )

ライセンス: Link先を確認
Aissam Djahnine, Alexandre Popoff, Emilien Jupin-Delevaux, Vincent Cottin, Olivier Nempont, Loic Boussel, (参考訳) 教師なしの病理診断は、健康データのみをトレーニングし、CNNベースの特徴抽出や一級分類器、AE、GAN、拡散モデルといった再構成スコアに基づく手法など、推論に基づいて設定されたトレーニングから逸脱を測定することで実施することができる。 正規化フロー(NF)は、非可逆アーキテクチャを通じてトレーニング例の確率分布を直接学習する能力を持つ。 我々はこの特性をCT-3DFlowと呼ばれる新しい3次元NFモデルで利用し、特に胸部CTデータにおける患者レベルの肺病理診断に特化している。 本モデルは健康な3次元肺CTパッチで教師なしの訓練を行い,異常としてログ状分布から逸脱を検出する。 我々は、患者のCTスキャンからパッチレベルの確率値を集計し、患者レベルの「正常」/「異常」予測を提供する。 胸部CT検査データセットのエキスパートアノテーションを用いて分布外検出性能を評価し,他の最先端手法よりも優れていた。

Unsupervised pathology detection can be implemented by training a model on healthy data only and measuring the deviation from the training set upon inference, for example with CNN-based feature extraction and one-class classifiers, or reconstruction-score-based methods such as AEs, GANs and Diffusion models. Normalizing Flows (NF) have the ability to directly learn the probability distribution of training examples through an invertible architecture. We leverage this property in a novel 3D NF-based model named CT-3DFlow, specifically tailored for patient-level pulmonary pathology detection in chest CT data. Our model is trained unsupervised on healthy 3D pulmonary CT patches, and detects deviations from its log-likelihood distribution as anomalies. We aggregate patches-level likelihood values from a patient's CT scan to provide a patient-level 'normal'/'abnormal' prediction. Out-of-distribution detection performance is evaluated using expert annotations on a separate chest CT test dataset, outperforming other state-of-the-art methods.
翻訳日:2024-03-28 17:08:03 公開日:2024-03-27
# オプトメカニカルハミルトニアンの非マルコフダイナミクスに基づく自律量子熱機関

Autonomous Quantum Heat Engine Based on Non-Markovian Dynamics of an Optomechanical Hamiltonian ( http://arxiv.org/abs/2403.18515v1 )

ライセンス: Link先を確認
Miika Rasola, Mikko Möttönen, (参考訳) 本稿では,動作流体が高調波発振器で構成される自律型量子熱エンジンの動作周波数を駆動モードで調整する手法を提案する。 作動流体は、それぞれピークパワースペクトルを示す2つのヒート貯水池と、コールド貯水池よりも高い周波数でピークされるホット貯水池とを結合する。 駆動モードが十分な振幅のコヒーレントな状態で初期化され、利用したオプティメカニカルハミルトニアンおよび貯水池のパラメータが適当であるようにして、駆動モードは作業流体に対して近似オットーサイクルを誘導し、その結果、その振動振幅が時間とともに増加し始める。 この量子熱エンジンの解析的および非マルコフ的準古典的モデルを構築し、量子熱エンジンの出力として合理的に強力なコヒーレント場を生成することを示す。 この一般的な理論的な提案は、非マルコフ系における量子熱エンジンの詳細な研究を裏付けるものである。 さらに、オプティメカルシステムのような特定の物理的実現と、その後の自律量子熱エンジンの実験的実現の道を開く。

We propose a recipe for demonstrating an autonomous quantum heat engine where the working fluid consists of a harmonic oscillator, the frequency of which is tuned by a driving mode. The working fluid is coupled two heat reservoirs each exhibiting a peaked power spectrum, a hot reservoir peaked at a higher frequency than the cold reservoir. Provided that the driving mode is initialized in a coherent state with a high enough amplitude and the parameters of the utilized optomechanical Hamiltonian and the reservoirs are appropriate, the driving mode induces an approximate Otto cycle for the working fluid and consequently its oscillation amplitude begins to increase in time. We build both an analytical and a non-Markovian quasiclassical model for this quantum heat engine and show that reasonably powerful coherent fields can be generated as the output of the quantum heat engine. This general theoretical proposal heralds the in-depth studies of quantum heat engines in the non-Markovian regime. Further, it paves the way for specific physical realizations, such as those in optomechanical systems, and for the subsequent experimental realization of an autonomous quantum heat engine.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 正規化非負スケール不変低ランク近似モデルの効率的なアルゴリズム

Efficient Algorithms for Regularized Nonnegative Scale-invariant Low-rank Approximation Models ( http://arxiv.org/abs/2403.18517v1 )

ライセンス: Link先を確認
Jeremy E. Cohen, Valentin Leplat, (参考訳) スパース非負行列因子化やスパース非負タッカー分解のような正規化非負の低ランク近似は、解釈可能性を高めた次元還元モデルの重要な分岐である。 しかし、実際的な観点からは、正規化子と正規化係数の選択と効率的なアルゴリズムの設計は、これらのモデルの多因子の性質とこれらの選択を裏付ける理論の欠如のために困難である。 本稿ではこれらの課題を改善することを目的とする。 等質正規化スケール不変量(英語版)と呼ばれるより一般的なモデルを研究することにより、低ランク近似モデルに固有のスケール不変性が、予期せぬ有益効果と有害効果の両方で暗黙的な正則化を引き起こすことが証明される。 この観察により、低ランク近似モデルにおける正規化関数の効果をよりよく理解し、正規化ハイパーパラメータの選択をガイドし、専用最適化アルゴリズムの収束速度を高めるためのバランス戦略を設計することができる。 これらの結果のいくつかはすでに知られているが、正規化低ランク近似の特定の例に限定されている。 また、正規化された非負の低ランク近似の多くを、収束保証付きで処理する一般化行列化最小化アルゴリズムを導出する。 我々は,スパース非負行列因子分解,リッジ規則化カノニカルポリアディック分解,スパース非負タッカー分解への貢献を紹介する。

Regularized nonnegative low-rank approximations such as sparse Nonnegative Matrix Factorization or sparse Nonnegative Tucker Decomposition are an important branch of dimensionality reduction models with enhanced interpretability. However, from a practical perspective, the choice of regularizers and regularization coefficients, as well as the design of efficient algorithms, is challenging because of the multifactor nature of these models and the lack of theory to back these choices. This paper aims at improving upon these issues. By studying a more general model called the Homogeneous Regularized Scale-Invariant, we prove that the scale-invariance inherent to low-rank approximation models causes an implicit regularization with both unexpected beneficial and detrimental effects. This observation allows to better understand the effect of regularization functions in low-rank approximation models, to guide the choice of the regularization hyperparameters, and to design balancing strategies to enhance the convergence speed of dedicated optimization algorithms. Some of these results were already known but restricted to specific instances of regularized low-rank approximations. We also derive a generic Majorization Minimization algorithm that handles many regularized nonnegative low-rank approximations, with convergence guarantees. We showcase our contributions on sparse Nonnegative Matrix Factorization, ridge-regularized Canonical Polyadic decomposition and sparse Nonnegative Tucker Decomposition.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 大規模ニューラルネットワーク学習のための線探索法の改良

Improving Line Search Methods for Large Scale Neural Network Training ( http://arxiv.org/abs/2403.18519v1 )

ライセンス: Link先を確認
Philip Kenneweg, Tristan Kenneweg, Barbara Hammer, (参考訳) 近年,線形探索法は従来の確率勾配降下法の性能を著しく向上させ,特定の学習率スケジュールの必要性を排除している。 本稿では,最先端のラインサーチ手法における既存の課題を特定し,改良を提案し,その妥当性を厳格に評価する。 より大規模なデータセットとより複雑なデータドメインでこれらの手法をテストする。 具体的には,ADAMからの運動量項を探索方向に統合することにより,Armijoライン探索の高速化を実現し,従来はArmijoライン探索法で失敗する傾向にあった,大規模学習の効率化を実現した。 最適化手法は、Adamの以前のArmijo実装と調整された学習率スケジュールの両方を上回ります。 本評価では,NLPおよび画像データの領域におけるトランスフォーマーとCNNに着目した。 当社の作業は,ハイパーパラメータフリーなPytorchオプティマイザを提供するPythonパッケージとして公開されています。

In recent studies, line search methods have shown significant improvements in the performance of traditional stochastic gradient descent techniques, eliminating the need for a specific learning rate schedule. In this paper, we identify existing issues in state-of-the-art line search methods, propose enhancements, and rigorously evaluate their effectiveness. We test these methods on larger datasets and more complex data domains than before. Specifically, we improve the Armijo line search by integrating the momentum term from ADAM in its search direction, enabling efficient large-scale training, a task that was previously prone to failure using Armijo line search methods. Our optimization approach outperforms both the previous Armijo implementation and tuned learning rate schedules for Adam. Our evaluation focuses on Transformers and CNNs in the domains of NLP and image data. Our work is publicly available as a Python package, which provides a hyperparameter free Pytorch optimizer.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 一次元フェルミオンにおける二部体ゆらぎの厳密解

Exact Solution of Bipartite Fluctuations in One-Dimensional Fermions ( http://arxiv.org/abs/2403.18523v1 )

ライセンス: Link先を確認
Kazuya Fujimoto, Tomohiro Sasamoto, (参考訳) 量子多体系における流体力学の出現は、近年、関心が高まっている。 最近の超低温原子 [J. F. Wienand et al , arXiv:2306.11457] の実験では、粒子数がサブシステム内でどのように変動するかを定量化する二分位揺らぎを用いてハードコアボソンの創発的流体力学を研究した。 本稿では, 1次元非相互作用性フェルミオン動力学における二分位ゆらぎのばらつきについて理論的に検討し, その分散の正確な解法と時間的力学に対する漸近線形成長則を導出する。 理論予測と実験を比較するために, 一般線形成長法則を解析的に導出し, 初期交互状態の不完全性を組み込むことにより, 正確な解を一般化する。 その結果, 実験で観測された分散成長を, 適合パラメータを伴わずに定量的に記述できることが判明した。

Emergence of hydrodynamics in quantum many-body systems has recently garnered growing interest. The recent experiment of ultracold atoms [J. F. Wienand et al., arXiv:2306.11457] studied emergent hydrodynamics in hard-core bosons using a bipartite fluctuation, which quantifies how the particle number fluctuates in a subsystem. In this Letter, we theoretically study the variance of a bipartite fluctuation in one-dimensional noninteracting fermionic dynamics starting from an alternating state, deriving the exact solution of the variance and its asymptotic linear growth law for the long-time dynamics. To compare the theoretical prediction with the experiment, we generalize our exact solution by incorporating the incompleteness of the initial alternating state, deriving the general linear growth law analytically. We find that it quantitatively describes the experimentally observed variance growth without any fitting parameters.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# CLIPの構成的一般化における言語の役割

Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP ( http://arxiv.org/abs/2403.18525v1 )

ライセンス: Link先を確認
Reza Abbasi, Mohammad Samiei, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah, (参考訳) CLIPのようなビジョン言語モデルは、様々な種類の分散シフトの下で、期待できるアウト・オブ・ディストリビューション(OoD)の一般化を示している。 近年の研究では、この能力の主な原因について研究が進められている。 本研究では,OoDデータ(属性オブジェクト対の新規な構成を持つ画像)の特定のタイプに着目し,そのようなモデルがそれらの画像をコンポジションクラスに分類できるかどうかを検討する。 私たちは、CLIPトレーニングセットで見つからないオブジェクトの属性からなる、ImageNet-AOと呼ばれる認証画像テストデータセットを慎重に設計した。 その結果, OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットでトレーニングしたCLIPは, CC-12MやYFCC-15Mのような小さなデータセットでトレーニングしたCLIPと教師付きモデルの両方と比較して, 有効合成OoDの一般化におけるオーダー・オブ・マグニチュードの改善を示すことがわかった。 本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。

Vision-language models, such as CLIP, have shown promising Out-of-Distribution (OoD) generalization under various types of distribution shifts. Recent studies attempted to investigate the leading cause of this capability. In this work, we follow the same path, but focus on a specific type of OoD data - images with novel compositions of attribute-object pairs - and study whether such models can successfully classify those images into composition classes. We carefully designed an authentic image test dataset called ImageNet-AO, consisting of attributes for objects that are unlikely encountered in the CLIP training sets. We found that CLIPs trained with large datasets such as OpenAI CLIP, LAION-400M, and LAION-2B show orders-of-magnitude improvement in effective compositional OoD generalization compared to both supervised models and CLIPs trained with smaller datasets, such as CC-12M and YFCC-15M. Our results provide evidence that the scale and diversity of training data and language supervision play a key role in unlocking the compositional generalization abilities of vision-language models.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# ニューラルネットワークのための理論的境界誘導階層型VAE

Theoretical Bound-Guided Hierarchical VAE for Neural Image Codecs ( http://arxiv.org/abs/2403.18535v1 )

ライセンス: Link先を確認
Yichi Zhang, Zhihao Duan, Yuning Huang, Fengqing Zhu, (参考訳) 近年の研究では、変動型オートエンコーダ(VAE)と速度歪み理論の有意な関係が示されており、特にVAEを用いて画像の情報レート歪み関数の理論的上限を推定している。 このような推定理論境界は、既存のニューラルイメージコーデック(NIC)の性能を大幅に上回る。 このギャップを狭めるために、NIC に対する理論的有界階層型VAE (BG-VAE) を提案する。 提案したBG-VAEは理論的境界を利用してNICモデルを改良性能へ導く。 階層型VAEを用いてBG-VAEを実装し,その有効性を示す。 先進的なニューラルネットワークブロックとともに、速度歪み性能と計算複雑性の両方を考慮した場合、既存の手法よりも優れた、汎用的で可変レートのNICを提供する。 コードはBG-VAEで入手できる。

Recent studies reveal a significant theoretical link between variational autoencoders (VAEs) and rate-distortion theory, notably in utilizing VAEs to estimate the theoretical upper bound of the information rate-distortion function of images. Such estimated theoretical bounds substantially exceed the performance of existing neural image codecs (NICs). To narrow this gap, we propose a theoretical bound-guided hierarchical VAE (BG-VAE) for NIC. The proposed BG-VAE leverages the theoretical bound to guide the NIC model towards enhanced performance. We implement the BG-VAE using Hierarchical VAEs and demonstrate its effectiveness through extensive experiments. Along with advanced neural network blocks, we provide a versatile, variable-rate NIC that outperforms existing methods when considering both rate-distortion performance and computational complexity. The code is available at BG-VAE.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 行動に基づくeコマースのための新しい勧告システム

A Novel Behavior-Based Recommendation System for E-commerce ( http://arxiv.org/abs/2403.18536v1 )

ライセンス: Link先を確認
Reza Barzegar Nozari, Mahdi Divsalar, Sepehr Akbarzadeh Abkenar, Mohammadreza Fadavi Amiri, Ali Divsalar, (参考訳) 既存のレコメンデータシステムの大部分はユーザ評価に依存しており、これはユーザのコラボレーションの欠如と疎結合の問題によって制限されている。 これらの課題に対処するため,eコマースプラットフォーム上でのブラウジングやクリックといった顧客の自然な行動を活用する行動ベースのレコメンデーションシステムを提案する。 提案するリコメンデーションシステムは、アクティブな顧客をクラスタリングし、近隣を判断し、類似ユーザを収集し、類似ユーザに基づいて製品評判を計算し、高評価製品を推薦する。 顧客行動と従来型のクラスタリング手法の複雑さを克服するため,製品カテゴリに基づいた非教師なしクラスタリング手法を開発し,レコメンデーション手法を強化した。 この研究はいくつかの点で顕著な貢献をしている。 まず、顧客満足度とエンゲージメントの向上につながる正確で調整されたレコメンデーションを生成するために、顧客の振る舞いを取り入れた画期的な行動に基づくレコメンデーション手法を開発する。 第二に、製品カテゴリに焦点をあてた、本来の教師なしクラスタリング手法は、より正確なクラスタリングを可能にし、正確なレコメンデーションを促進する。 最後に、クラスタ内のアクティブな顧客の地区を決定するアプローチが確立され、リコメンデーションの正確性と関連性を高めるために、同様の行動パターンを持つ顧客のグループ化が保証される。 提案手法とクラスタリング手法は,eコマースレコメンデーションシステム分野の研究者や実践者に貴重な洞察を提供するとともに,レコメンデーション性能の向上に寄与する。 さらに,提案手法は,有名なeコマースサイトAlibabaの行動データセットを用いて実施した実験において,ベンチマーク手法よりも優れていた。

The majority of existing recommender systems rely on user ratings, which are limited by the lack of user collaboration and the sparsity problem. To address these issues, this study proposes a behavior-based recommender system that leverages customers' natural behaviors, such as browsing and clicking, on e-commerce platforms. The proposed recommendation system involves clustering active customers, determining neighborhoods, collecting similar users, calculating product reputation based on similar users, and recommending high-reputation products. To overcome the complexity of customer behaviors and traditional clustering methods, an unsupervised clustering approach based on product categories is developed to enhance the recommendation methodology. This study makes notable contributions in several aspects. Firstly, a groundbreaking behavior-based recommendation methodology is developed, incorporating customer behavior to generate accurate and tailored recommendations leading to improved customer satisfaction and engagement. Secondly, an original unsupervised clustering method, focusing on product categories, enables more precise clustering and facilitates accurate recommendations. Finally, an approach to determine neighborhoods for active customers within clusters is established, ensuring grouping of customers with similar behavioral patterns to enhance recommendation accuracy and relevance. The proposed recommendation methodology and clustering method contribute to improved recommendation performance, offering valuable insights for researchers and practitioners in the field of e-commerce recommendation systems. Additionally, the proposed method outperforms benchmark methods in experiments conducted using a behavior dataset from the well-known e-commerce site Alibaba.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# A Path Towards Legal Autonomy: 大規模言語モデル、エキスパートシステム、ベイズネットワークを用いた法的情報の抽出、変換、ロード、計算のための相互運用可能なアプローチ

A Path Towards Legal Autonomy: An interoperable and explainable approach to extracting, transforming, loading and computing legal information using large language models, expert systems and Bayesian networks ( http://arxiv.org/abs/2403.18537v1 )

ライセンス: Link先を確認
Axel Constant, Hannes Westermann, Bryan Wilson, Alex Kiefer, Ines Hipolito, Sylvain Pronovost, Steven Swanson, Mahault Albarracin, Maxwell J. D. Ramstead, (参考訳) 人工知能エージェントの法的活動である法的な自主性は、2つの方法の1つで達成できる。 これは、開発者、デプロイ者、ユーザなどのAIアクターに制約を課すこと、データのようなAIリソースに制約を課すこと、あるいはAIエージェントが環境に与える影響の範囲と範囲に制約を課すことによって達成できる。 後者のアプローチでは、AI駆動デバイスに関する既存のルールを、これらのデバイスを制御するAIエージェントのソフトウェアにエンコードする(例えば、自律ドローンデバイスのエージェントソフトウェアにオペレーションのゾーンの制限に関するルールをエンコードする)。 このようなアプローチの効果には、説明可能かつ法的に相互運用可能な法的情報の抽出、ロード、変換、計算の方法が必要であり、それによってAIエージェントが法を判断できるようになるため、これは課題である。 本稿では,大規模言語モデル(LLM),法的な決定経路として知られる専門的な法体系,ベイズ的ネットワークを用いた手法の原理の証明をスケッチする。 次に、提案手法が、カリフォルニア自動車法のような自動運転車の既存の規制にどのように適用できるかを示す。

Legal autonomy - the lawful activity of artificial intelligence agents - can be achieved in one of two ways. It can be achieved either by imposing constraints on AI actors such as developers, deployers and users, and on AI resources such as data, or by imposing constraints on the range and scope of the impact that AI agents can have on the environment. The latter approach involves encoding extant rules concerning AI driven devices into the software of AI agents controlling those devices (e.g., encoding rules about limitations on zones of operations into the agent software of an autonomous drone device). This is a challenge since the effectivity of such an approach requires a method of extracting, loading, transforming and computing legal information that would be both explainable and legally interoperable, and that would enable AI agents to reason about the law. In this paper, we sketch a proof of principle for such a method using large language models (LLMs), expert legal systems known as legal decision paths, and Bayesian networks. We then show how the proposed method could be applied to extant regulation in matters of autonomous cars, such as the California Vehicle Code.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 安全でロバストな強化学習 - 原則と実践

Safe and Robust Reinforcement-Learning: Principles and Practice ( http://arxiv.org/abs/2403.18539v1 )

ライセンス: Link先を確認
Taku Yamagata, Raul Santos-Rodriguez, (参考訳) 強化学習(Reinforcement Learning, RL)は, 比較的複雑なタスクの解決に成功しているが, 現実のシナリオにおけるRLシステムの展開は, 安全性と堅牢性に関する重大な課題を生じさせている。 本稿では,これらの課題を,アルゴリズム的,倫理的,実践的な考察を包含して,安全で堅牢なRLランドスケープの主次元の探索を徹底的に把握し,さらに理解することを目的とする。 本稿は,RL アプリケーションに関連する本質的なリスクに対処するため,近年の取り組みを要約した方法論とオープンな問題を包括的にレビューする。 安全かつ堅牢なRLの定義を議論し、提案した後、既存の研究成果を、RLエージェントの安全性と堅牢性を高めるアルゴリズム的なアプローチに分類する。 本研究では,不確実性推定,最適化手法,探索・探索トレードオフ,対人訓練などの手法について検討する。 シン・トゥ・リアル・トランスファーやドメイン適応を含む環境要因も、RLシステムが多様な動的環境にどのように適応できるかを理解するために精査されている。 さらに、人間の関与は分析の不可欠な要素であり、人間がこの文脈で果たせる幅広い役割を認識している。 重要なことは,安全で堅牢なRL実装の複雑さをナビゲートする実践者を支援するため,本論文では,合成された文献から得られた実践的なチェックリストを紹介することである。 チェックリストには、アルゴリズム設計、トレーニング環境の考慮、倫理的ガイドラインといった重要な側面が含まれている。 多くのアプリケーションドメインにおいて、RLシステムの責任あるデプロイを保証するため、開発者や政策立案者のためのリソースとして役立ちます。

Reinforcement Learning (RL) has shown remarkable success in solving relatively complex tasks, yet the deployment of RL systems in real-world scenarios poses significant challenges related to safety and robustness. This paper aims to identify and further understand those challenges thorough the exploration of the main dimensions of the safe and robust RL landscape, encompassing algorithmic, ethical, and practical considerations. We conduct a comprehensive review of methodologies and open problems that summarizes the efforts in recent years to address the inherent risks associated with RL applications. After discussing and proposing definitions for both safe and robust RL, the paper categorizes existing research works into different algorithmic approaches that enhance the safety and robustness of RL agents. We examine techniques such as uncertainty estimation, optimisation methodologies, exploration-exploitation trade-offs, and adversarial training. Environmental factors, including sim-to-real transfer and domain adaptation, are also scrutinized to understand how RL systems can adapt to diverse and dynamic surroundings. Moreover, human involvement is an integral ingredient of the analysis, acknowledging the broad set of roles that humans can take in this context. Importantly, to aid practitioners in navigating the complexities of safe and robust RL implementation, this paper introduces a practical checklist derived from the synthesized literature. The checklist encompasses critical aspects of algorithm design, training environment considerations, and ethical guidelines. It will serve as a resource for developers and policymakers alike to ensure the responsible deployment of RL systems in many application domains.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# skscope: Pythonの高速なスパシティ制約付き最適化

skscope: Fast Sparsity-Constrained Optimization in Python ( http://arxiv.org/abs/2403.18540v1 )

ライセンス: Link先を確認
Zezhi Wang, Jin Zhu, Peng Chen, Huiyang Peng, Xiaoke Zhang, Anran Wang, Yu Zheng, Junxian Zhu, Xueqin Wang, (参考訳) 空間的制約のある最適化(SCO)に反復的な解法を適用するには、面倒な数学的推論と、これらの解法の影響を妨げている注意深いプログラミング/デバッグが必要である。 本稿では,このような障害を克服するために,ライブラリ・スコープを導入している。 skscopeを使えば、ユーザーは目的関数をプログラムするだけでSCOを解くことができる。 本論文の2つの例では, わずか4行のコードで, 疎線形回帰とトレンドフィルタリングに対処して, スコープの利便性を実証する。 さらに重要なことは、skscopeの効率的な実装により、パラメータ空間の高次元性に関わらず、最先端の解法がスパース解を迅速に達成することができることである。 数値実験により、ベンチマークされた凸解法により得られる競合緩和解の最大80倍の高速化が達成できることが示された。 skscopeはPython Package Index(PyPI)とCondaで公開されており、ソースコードはhttps://github.com/abess-team/skscope.comで公開されている。

Applying iterative solvers on sparsity-constrained optimization (SCO) requires tedious mathematical deduction and careful programming/debugging that hinders these solvers' broad impact. In the paper, the library skscope is introduced to overcome such an obstacle. With skscope, users can solve the SCO by just programming the objective function. The convenience of skscope is demonstrated through two examples in the paper, where sparse linear regression and trend filtering are addressed with just four lines of code. More importantly, skscope's efficient implementation allows state-of-the-art solvers to quickly attain the sparse solution regardless of the high dimensionality of parameter space. Numerical experiments reveal the available solvers in skscope can achieve up to 80x speedup on the competing relaxation solutions obtained via the benchmarked convex solver. skscope is published on the Python Package Index (PyPI) and Conda, and its source code is available at: https://github.com/abess-team/skscope.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 中国語文読解における注意認識の意味関係の予測

Attention-aware semantic relevance predicting Chinese sentence reading ( http://arxiv.org/abs/2403.18542v1 )

ライセンス: Link先を確認
Kun Sun, (参考訳) 近年,人間が文章を理解・処理する方法を予測するために,いくつかの有効な計算モデルやメトリクスが提案されている。 特に有望なアプローチは文脈意味的類似性である。 本研究は,トランスフォーマーの注意アルゴリズムと人間の記憶機構に着想を得て,文脈意味の関連性を計算するための「注意認識」アプローチを提案する。 この新しいアプローチは、コンテキスト部分の異なるコントリビューションと期待効果を考慮しており、コンテキスト情報を完全に組み込むことができる。 注意を意識したアプローチは、既存の読影モデルのシミュレーションを促進し、評価する。 その結果,目追跡コーパスに記録された中国語読解作業における意味的関連性に関する「注意-意識」の指標は,既存の手法よりも精度良く定着期間を予測できることがわかった。 この研究の結果は、中国自然主義の読解における意味的プレビューの利点の存在を強く支持している。 さらに、記憶に基づく意味的関連性の注意喚起指標は、言語的・認知的両面から高い解釈可能性を持ち、読み上げにおける目の動きをモデル化し、さらに言語理解の過程に関する洞察を得るための貴重な計算ツールとなる。 私たちのアプローチは、人間の言語理解と処理方法の理解を深め、言語理解と処理の理解を深める上で、これらのメトリクスの可能性を強調します。

In recent years, several influential computational models and metrics have been proposed to predict how humans comprehend and process sentence. One particularly promising approach is contextual semantic similarity. Inspired by the attention algorithm in Transformer and human memory mechanisms, this study proposes an ``attention-aware'' approach for computing contextual semantic relevance. This new approach takes into account the different contributions of contextual parts and the expectation effect, allowing it to incorporate contextual information fully. The attention-aware approach also facilitates the simulation of existing reading models and evaluate them. The resulting ``attention-aware'' metrics of semantic relevance can more accurately predict fixation durations in Chinese reading tasks recorded in an eye-tracking corpus than those calculated by existing approaches. The study's findings further provide strong support for the presence of semantic preview benefits in Chinese naturalistic reading. Furthermore, the attention-aware metrics of semantic relevance, being memory-based, possess high interpretability from both linguistic and cognitive standpoints, making them a valuable computational tool for modeling eye-movements in reading and further gaining insight into the process of language comprehension. Our approach underscores the potential of these metrics to advance our comprehension of how humans understand and process language, ultimately leading to a better understanding of language comprehension and processing.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 断熱シーンにおける効率的なヒートマップ誘導6次元グラフ検出

Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes ( http://arxiv.org/abs/2403.18546v1 )

ライセンス: Link先を確認
Siang Chen, Wei Tang, Pengwei Xie, Wenming Yang, Guijin Wang, (参考訳) クラッタ内での高速で頑丈な物体の把握は、ロボット工学の重要な構成要素である。 現在の研究の多くは、グローバルセマンティクスから出土したガイダンス情報を無視して、観測点雲全体を6次元のグリップ生成に利用しているため、高品質なグリップ生成とリアルタイムのパフォーマンスが制限されている。 本研究では, 6-Dofグリップ生成の効率において, 広く用いられている熱マップが過小評価されていることを示す。 そこで本研究では,グローバル・ローカル・セマンティック・ツー・ポイント方式で推定する,効果的な局所的把握ジェネレータと,ヘアマップの把握をガイダンスとして提案する。 具体的には,局所点を把握可能な領域に集約し,グローバルな意味情報を提供するためのガイダンスとして,ガウス符号化とグリッドベース戦略を適用した。 さらに、把握精度と多様性を向上させるために、新しい一様アンカーサンプリング機構を設計する。 画像空間における高能率符号化と局所的把握可能な領域の点に着目して、我々のフレームワークは、リアルタイムに高品質な把握検出を行い、最先端の結果を得ることができる。 さらに、実際のロボット実験では、成功率94%、クラッタ完了率100%で、本手法の有効性を実証している。 私たちのコードはhttps://github.com/THU-VCLab/HGGD.comで公開されています。

Fast and robust object grasping in clutter is a crucial component of robotics. Most current works resort to the whole observed point cloud for 6-Dof grasp generation, ignoring the guidance information excavated from global semantics, thus limiting high-quality grasp generation and real-time performance. In this work, we show that the widely used heatmaps are underestimated in the efficiency of 6-Dof grasp generation. Therefore, we propose an effective local grasp generator combined with grasp heatmaps as guidance, which infers in a global-to-local semantic-to-point way. Specifically, Gaussian encoding and the grid-based strategy are applied to predict grasp heatmaps as guidance to aggregate local points into graspable regions and provide global semantic information. Further, a novel non-uniform anchor sampling mechanism is designed to improve grasp accuracy and diversity. Benefiting from the high-efficiency encoding in the image space and focusing on points in local graspable regions, our framework can perform high-quality grasp detection in real-time and achieve state-of-the-art results. In addition, real robot experiments demonstrate the effectiveness of our method with a success rate of 94% and a clutter completion rate of 100%. Our code is available at https://github.com/THU-VCLab/HGGD.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# BERTを用いた文分類のためのニューラルネットワーク探索

Neural Architecture Search for Sentence Classification with BERT ( http://arxiv.org/abs/2403.18547v1 )

ライセンス: Link先を確認
Philip Kenneweg, Sarah Schröder, Barbara Hammer, (参考訳) 大規模テキストコーパス上での言語モデルの事前訓練は自然言語処理において一般的である。 次に、これらのモデルの微調整を行い、様々なタスクにおいて最良の結果を得る。 本稿では,ネットワーク上に1つの出力層のみを分類ヘッドとして追加するという一般的な手法を疑問視する。 計算コストが小さいだけで,現在の単一層よりも優れたアーキテクチャを見つけるために,AutoML検索を実行します。 GLUEデータセットから,様々なNLPベンチマークを用いて分類アーキテクチャを検証する。

Pre training of language models on large text corpora is common practice in Natural Language Processing. Following, fine tuning of these models is performed to achieve the best results on a variety of tasks. In this paper we question the common practice of only adding a single output layer as a classification head on top of the network. We perform an AutoML search to find architectures that outperform the current single layer at only a small compute cost. We validate our classification architecture on a variety of NLP benchmarks from the GLUE dataset.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# 空間周波数認識と現実的明度制約を併用した半教師付き夜間デハージングベースライン

A Semi-supervised Nighttime Dehazing Baseline with Spatial-Frequency Aware and Realistic Brightness Constraint ( http://arxiv.org/abs/2403.18548v1 )

ライセンス: Link先を確認
Xiaofeng Cong, Jie Gui, Jing Zhang, Junming Hou, Hao Shen, (参考訳) ディープラーニングに基づく既存の研究は、昼間のイメージデハージングの問題を幅広く研究してきた。 しかし、夜間の陽気な場面の特徴を考察する研究はほとんどない。 夜間と昼間の2つの区別がある。 第一に、夜間のシーンでは、複数のアクティブな色の光源があり、これは、局部的、結合的、周波数不整合な特性を持つヘイズ、光、ノイズを引き起こす可能性がある。 第二に、シミュレーションデータと実世界のデータのドメイン差のため、実世界のデータにシミュレーションデータで訓練されたデハジングモデルを適用する際に非現実的な明るさが発生する可能性がある。 以上の2つの課題に対処するため,実世界の夜間デハジングのための半教師付きモデルを提案する。 まず、空間的注意と周波数スペクトルフィルタリングを空間周波数領域情報相互作用モジュールとして実装し、最初の問題に対処する。 第2に、半教師付きトレーニングプロセスにおける擬似ラベルに基づくリトレーニング戦略と局所窓ベースの輝度損失は、現実的な明るさを達成しつつ、迷路や輝きを抑えるように設計されている。 公開ベンチマーク実験では,提案手法の有効性と最先端手法に対する優位性について検証した。 ソースコードと補助資料はhttps://github.com/Xiaofeng-life/SFSNiD.comにある。

Existing research based on deep learning has extensively explored the problem of daytime image dehazing. However, few studies have considered the characteristics of nighttime hazy scenes. There are two distinctions between nighttime and daytime haze. First, there may be multiple active colored light sources with lower illumination intensity in nighttime scenes, which may cause haze, glow and noise with localized, coupled and frequency inconsistent characteristics. Second, due to the domain discrepancy between simulated and real-world data, unrealistic brightness may occur when applying a dehazing model trained on simulated data to real-world data. To address the above two issues, we propose a semi-supervised model for real-world nighttime dehazing. First, the spatial attention and frequency spectrum filtering are implemented as a spatial-frequency domain information interaction module to handle the first issue. Second, a pseudo-label-based retraining strategy and a local window-based brightness loss for semi-supervised training process is designed to suppress haze and glow while achieving realistic brightness. Experiments on public benchmarks validate the effectiveness of the proposed method and its superiority over state-of-the-art methods. The source code and Supplementary Materials are placed in the https://github.com/Xiaofeng-life/SFSNiD.
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# OrCo: クラス増分学習のための直交性とコントラストによるより良い一般化を目指す

OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2403.18550v1 )

ライセンス: Link先を確認
Noor Ahmed, Anna Kukleva, Bernt Schiele, (参考訳) FSCIL(Few-Shot Class-Incremental Learning)は、問題空間を限られたデータで拡張するパラダイムを導入する。 FSCILの手法は、データが漸進的に到着するにつれて破滅的な忘れ込みの課題に本質的に直面する。 さらに、ラベル付きサンプルが常に不足していることを考えると、モデルは過度に適合する傾向があり、広範な事前トレーニングと限定的なインクリメンタルデータとのバランスをとることは困難である。 これらの課題に対処するために,特徴の表現空間における直交性(orgonality)と対照的な学習という,2つの基本原理に基づいて構築されたOrCoフレームワークを提案する。 特に,プレトレーニングフェーズにおいて,教師付きおよび自己監督型コントラスト損失の組み合わせを用いることで,埋め込み空間の一般化を改善する。 さらに、インクリメンタルセッション中にデータ制限に起因する問題に対処するためにOrCoの損失を導入します。 特徴空間の摂動とクラス間の直交性を通じて、OrCo損失は、次のインクリメンタルデータに対するマージンとリザーブスペースを最大化する。 これにより、以前取得した知識を損なうことなく、特徴空間における入ってくるクラスの収容が保証される。 実験結果は,ミニイメージネット,CIFAR100,CUBデータセットを含む3つのベンチマークデータセットにおける最先端性能を示す。 コードはhttps://github.com/noorahmedds/OrCoで入手できる。

Few-Shot Class-Incremental Learning (FSCIL) introduces a paradigm in which the problem space expands with limited data. FSCIL methods inherently face the challenge of catastrophic forgetting as data arrives incrementally, making models susceptible to overwriting previously acquired knowledge. Moreover, given the scarcity of labeled samples available at any given time, models may be prone to overfitting and find it challenging to strike a balance between extensive pretraining and the limited incremental data. To address these challenges, we propose the OrCo framework built on two core principles: features' orthogonality in the representation space, and contrastive learning. In particular, we improve the generalization of the embedding space by employing a combination of supervised and self-supervised contrastive losses during the pretraining phase. Additionally, we introduce OrCo loss to address challenges arising from data limitations during incremental sessions. Through feature space perturbations and orthogonality between classes, the OrCo loss maximizes margins and reserves space for the following incremental data. This, in turn, ensures the accommodation of incoming classes in the feature space without compromising previously acquired knowledge. Our experimental results showcase state-of-the-art performance across three benchmark datasets, including mini-ImageNet, CIFAR100, and CUB datasets. Code is available at https://github.com/noorahmedds/OrCo
翻訳日:2024-03-28 16:58:17 公開日:2024-03-27
# テキスト対画像パーソナライズのための注意校正

Attention Calibration for Disentangled Text-to-Image Personalization ( http://arxiv.org/abs/2403.18551v1 )

ライセンス: Link先を確認
Yanbing Zhang, Mengping Yang, Qin Zhou, Zhe Wang, (参考訳) 大規模テキスト・ツー・イメージ(T2I)モデルにおける最近のスリリングな進歩は、画像生成、3D、ビデオ合成を含むAIGC(AIGC)の前例のない合成品質を解放した。 さらに、パーソナライズされた技術により、複数の画像のみを参照として付与した新規概念のカスタマイズ生産をアピールすることができる。 しかし、興味深い問題は残る: 1つの参照画像から複数の新しい概念をキャプチャすることは可能か? 本稿では,既存の手法が参照画像との視覚的整合性を維持するのに失敗し,概念から相互影響を排除していることを示す。 そこで本研究では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。 具体的には、複数の概念の属性をキャプチャするために、クラスにバインドされた新しい学習可能な修飾子を導入する。 そして,クロスアテンション操作の活性化によりクラスを分離・強化し,包括的で自己完結した概念を確実にする。 さらに,概念間の相互影響を軽減するために,異なるクラスに対する注意の活性化を抑える。 提案手法はDistenDiffと呼ばれ、1つの画像から複数の概念を分離して学習し、新しい画像を生成する。 本手法は,定性評価と定量的評価の両方において,現在の最先端技術よりも優れていることを示す。 さらに重要なのは、提案したテクニックがLoRAやパイプラインのインペイントと互換性があり、よりインタラクティブなエクスペリエンスを実現しています。

Recent thrilling progress in large-scale text-to-image (T2I) models has unlocked unprecedented synthesis quality of AI-generated content (AIGC) including image generation, 3D and video composition. Further, personalized techniques enable appealing customized production of a novel concept given only several images as reference. However, an intriguing problem persists: Is it possible to capture multiple, novel concepts from one single reference image? In this paper, we identify that existing approaches fail to preserve visual consistency with the reference image and eliminate cross-influence from concepts. To alleviate this, we propose an attention calibration mechanism to improve the concept-level understanding of the T2I model. Specifically, we first introduce new learnable modifiers bound with classes to capture attributes of multiple concepts. Then, the classes are separated and strengthened following the activation of the cross-attention operation, ensuring comprehensive and self-contained concepts. Additionally, we suppress the attention activation of different classes to mitigate mutual influence among concepts. Together, our proposed method, dubbed DisenDiff, can learn disentangled multiple concepts from one single image and produce novel customized images with learned concepts. We demonstrate that our method outperforms the current state of the art in both qualitative and quantitative evaluations. More importantly, our proposed techniques are compatible with LoRA and inpainting pipelines, enabling more interactive experiences.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# CosalPure:ロバストな共分散検出のためのグループ画像からの学習概念

CosalPure: Learning Concept from Group Images for Robust Co-Saliency Detection ( http://arxiv.org/abs/2403.18554v1 )

ライセンス: Link先を確認
Jiayi Zhu, Qing Guo, Felix Juefei-Xu, Yihao Huang, Yang Liu, Geguang Pu, (参考訳) Co-Salient Object Detection (CoSOD) は、ある画像群をまたいだ共通領域(通常は前景)を識別することを目的としている。 最先端のCoSODは, 対向性摂動の影響を受けやすいため, 精度は著しく低下した。 逆方向の摂動はCoSODを誤解させることがあるが、コサルトオブジェクトの高レベルな意味情報(例えば概念)は変化しない。 本稿では,まず,入力群画像に基づいて共塩性物体の概念を学習し,その概念を活用して対向摂動を浄化し,その後CoSODに供給してロバスト性向上を図ることによって,新しいロバストネス向上フレームワークを提案する。 具体的には,2つのモジュール,すなわちグループイメージ概念学習と概念誘導拡散浄化を含むCosalPureを提案する。 最初のモジュールでは、事前学習されたテキスト・画像拡散モデルを用いて、学習された概念が敵の例に対して堅牢である群画像内の共塩オブジェクトの概念を学習する。 第2のモジュールでは、逆画像を潜時空間にマッピングし、学習した概念を雑音予測関数に埋め込んで拡散生成する。 本手法は, 露光や騒音など, 異なる対向パターンを含むSOTA対向攻撃の影響を効果的に緩和することができる。 その結果,本手法はCoSODのロバスト性を大幅に向上する可能性が示唆された。

Co-salient object detection (CoSOD) aims to identify the common and salient (usually in the foreground) regions across a given group of images. Although achieving significant progress, state-of-the-art CoSODs could be easily affected by some adversarial perturbations, leading to substantial accuracy reduction. The adversarial perturbations can mislead CoSODs but do not change the high-level semantic information (e.g., concept) of the co-salient objects. In this paper, we propose a novel robustness enhancement framework by first learning the concept of the co-salient objects based on the input group images and then leveraging this concept to purify adversarial perturbations, which are subsequently fed to CoSODs for robustness enhancement. Specifically, we propose CosalPure containing two modules, i.e., group-image concept learning and concept-guided diffusion purification. For the first module, we adopt a pre-trained text-to-image diffusion model to learn the concept of co-salient objects within group images where the learned concept is robust to adversarial examples. For the second module, we map the adversarial image to the latent space and then perform diffusion generation by embedding the learned concept into the noise prediction function as an extra condition. Our method can effectively alleviate the influence of the SOTA adversarial attack containing different adversarial patterns, including exposure and noise. The extensive results demonstrate that our method could enhance the robustness of CoSODs significantly.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# コントラスト語対による文埋め込みの嫌悪

Debiasing Sentence Embedders through Contrastive Word Pairs ( http://arxiv.org/abs/2403.18555v1 )

ライセンス: Link先を確認
Philip Kenneweg, Sarah Schröder, Alexander Schulz, Barbara Hammer, (参考訳) 近年,自然言語処理(NLP)への機械学習アプローチの成功において,様々な文埋め込みが重要な役割を担ってきた。 残念なことに、複数の情報源は、これらの埋め込みメソッドが訓練されたデータセットに固有のバイアスが彼らによって学習されることを示した。 埋め込みにおけるバイアスを取り除くための様々なアプローチが文献に存在している。 これらのアプローチのほとんどは、単語の埋め込みに適用でき、少ないケースでは文の埋め込みにも適用できる。 したがって、これらの手法は文埋め込みの非線形性やそれらが生み出す埋め込みを考慮に入れない。 このような方法で文の埋め込みをデバイアス化した場合、バイアス情報は依然として存在することが文献で示されている。 本研究は,NLPソリューションの非線形および非線形バイアス情報を下流性能に影響を与えることなく除去する手法を提案する。 従来のバイアス指標と非線形情報を考慮に入れたバイアス指標の共通偏り評価手法との比較を行った。

Over the last years, various sentence embedders have been an integral part in the success of current machine learning approaches to Natural Language Processing (NLP). Unfortunately, multiple sources have shown that the bias, inherent in the datasets upon which these embedding methods are trained, is learned by them. A variety of different approaches to remove biases in embeddings exists in the literature. Most of these approaches are applicable to word embeddings and in fewer cases to sentence embeddings. It is problematic that most debiasing approaches are directly transferred from word embeddings, therefore these approaches fail to take into account the nonlinear nature of sentence embedders and the embeddings they produce. It has been shown in literature that bias information is still present if sentence embeddings are debiased using such methods. In this contribution, we explore an approach to remove linear and nonlinear bias information for NLP solutions, without impacting downstream performance. We compare our approach to common debiasing methods on classical bias metrics and on bias metrics which take nonlinear information into account.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# 自己教師付き事前学習によるノイズロストキーワードスポッティング

Noise-Robust Keyword Spotting through Self-supervised Pretraining ( http://arxiv.org/abs/2403.18560v1 )

ライセンス: Link先を確認
Jacob Mørk, Holger Severin Bovbjerg, Gergely Kiss, Zheng-Hua Tan, (参考訳) 音声アシスタントが普及し、キーワードスポッティング(KWS)アルゴリズムが使用されるようになった。 現代のKWSシステムは、主に教師付き学習法を用いて訓練されており、優れた性能を達成するために大量のラベル付きデータを必要とする。 自己教師付き学習(SSL)による不正なデータの活用は、クリーンな条件下での精度を高めることが示されている。 本稿では,未探索の雑音条件下でのKWSモデルのロバスト性を高めるために,Data2VecなどのSSLプリトレーニングをどのように利用できるかを検討する。 3つの異なるサイズのモデルは、異なる事前訓練アプローチを用いて事前訓練され、その後、KWSのために微調整される。 これらのモデルをテストし、2つのベースライン教師付き学習手法を用いてトレーニングされたモデルと比較する。 その結果, クリーンデータの事前学習と微調整は, 全試験条件におけるクリーンデータの教師あり学習よりも優れ, 5dB以上のSNR試験条件における教師ありMSRよりも優れていることがわかった。 これは、事前訓練だけでモデルの堅牢性を高めることができることを示している。 最後に,特にData2Vec-denoisingアプローチでは,ノイズ条件下でのKWSモデルのロバスト性を著しく向上させる。

Voice assistants are now widely available, and to activate them a keyword spotting (KWS) algorithm is used. Modern KWS systems are mainly trained using supervised learning methods and require a large amount of labelled data to achieve a good performance. Leveraging unlabelled data through self-supervised learning (SSL) has been shown to increase the accuracy in clean conditions. This paper explores how SSL pretraining such as Data2Vec can be used to enhance the robustness of KWS models in noisy conditions, which is under-explored. Models of three different sizes are pretrained using different pretraining approaches and then fine-tuned for KWS. These models are then tested and compared to models trained using two baseline supervised learning methods, one being standard training using clean data and the other one being multi-style training (MTR). The results show that pretraining and fine-tuning on clean data is superior to supervised learning on clean data across all testing conditions, and superior to supervised MTR for testing conditions of SNR above 5 dB. This indicates that pretraining alone can increase the model's robustness. Finally, it is found that using noisy data for pretraining models, especially with the Data2Vec-denoising approach, significantly enhances the robustness of KWS models in noisy conditions.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# ディープラーニングによる3次元および4次元コーンビームCT画像のアーチファクト低減

Artifact Reduction in 3D and 4D Cone-beam Computed Tomography Images with Deep Learning -- A Review ( http://arxiv.org/abs/2403.18565v1 )

ライセンス: Link先を確認
Mohammadreza Amirian, Daniel Barco, Ivo Herzig, Frank-Peter Schilling, (参考訳) 深層学習に基づくアプローチは、画像誘導放射線療法、インプラント歯科治療、整形外科などの応用でよく用いられる医療画像技術であるコーンビームCT(CBCT)の画質向上に用いられている。 特に,動作,金属オブジェクト,低線量取得によるCBCT画像アーティファクトのさまざまな種類の削減に深層学習手法が適用されているが,ニューラルネットワークのアーキテクチャではなく,アーティファクトのタイプに着目した,これらのアプローチの成功と欠点を要約した総合的なレビューは,文献的に欠落している。 本稿では,データ生成・シミュレーションパイプラインとアーティファクト削減技術について,各種類のアーティファクトについて詳細に検討する。 本稿では,3次元のアーティファクトの削減に成功している深層学習技術の概要を,プロジェクションやボリュームドメイン最適化,あるいはCBCT再構成アルゴリズムに直接ニューラルネットワークを導入することで,時間分解(4D)CBCTで紹介する。 研究のギャップは、将来の探査の道のりを示唆するものとして特定されている。 この研究の重要な発見の1つは、より多彩でオープンなトレーニングデータセットとシミュレーションの必要性とともに、GANやスコアベースまたは拡散モデルを含む生成モデルの使用に向けた観測傾向である。

Deep learning based approaches have been used to improve image quality in cone-beam computed tomography (CBCT), a medical imaging technique often used in applications such as image-guided radiation therapy, implant dentistry or orthopaedics. In particular, while deep learning methods have been applied to reduce various types of CBCT image artifacts arising from motion, metal objects, or low-dose acquisition, a comprehensive review summarizing the successes and shortcomings of these approaches, with a primary focus on the type of artifacts rather than the architecture of neural networks, is lacking in the literature. In this review, the data generation and simulation pipelines, and artifact reduction techniques are specifically investigated for each type of artifact. We provide an overview of deep learning techniques that have successfully been shown to reduce artifacts in 3D, as well as in time-resolved (4D) CBCT through the use of projection- and/or volume-domain optimizations, or by introducing neural networks directly within the CBCT reconstruction algorithms. Research gaps are identified to suggest avenues for future exploration. One of the key findings of this work is an observed trend towards the use of generative models including GANs and score-based or diffusion models, accompanied with the need for more diverse and open training datasets and simulations.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# PDNNet:動的IRドロップ予測のためのPDN対応GNN-CNN異種ネットワーク

PDNNet: PDN-Aware GNN-CNN Heterogeneous Network for Dynamic IR Drop Prediction ( http://arxiv.org/abs/2403.18569v1 )

ライセンス: Link先を確認
Yuxiang Zhao, Zhuomin Chai, Xun Jiang, Yibo Lin, Runsheng Wang, Ru Huang, (参考訳) 電力供給ネットワーク(PDN)上のIRドロップは、PDNの構成とセル電流消費と密接に関連している。 集積回路(IC)の設計が大きくなるにつれて、動的IRドロップシミュレーションは計算不能となり、機械学習に基づくIRドロップ予測は有望な解決策として検討されてきた。 CNNに基づく手法は、いくつかの研究でIRドロップ予測タスクに適応しているが、PDN構成を見渡す欠点は無視できない。 本稿では, セル-PDN関係を適切に表現するだけでなく, 特徴集約法において, その物理的性質に従ってIRドロップをモデル化する方法について考察する。 そこで我々はPDN構造と細粒度セル-PDN関係の表現を統一する新しいグラフ構造PDNGraphを提案する。 さらに,2つの並列GNN-CNNブランチを組み込んだ二分岐異種ネットワークPDNNetを提案する。 動的IRドロップ予測を極めて効果的かつ解釈可能なものにするために、いくつかの重要な設計が提示されている。 我々は、深層学習に基づく動的IRドロップ予測法にグラフ構造を適用した最初の研究である。 実験の結果,PDNNetは予測誤差を最大39.3%削減し,市販のツールに比べて545倍の高速化を実現し,提案手法の優位性を示した。

IR drop on the power delivery network (PDN) is closely related to PDN's configuration and cell current consumption. As the integrated circuit (IC) design is growing larger, dynamic IR drop simulation becomes computationally unaffordable and machine learning based IR drop prediction has been explored as a promising solution. Although CNN-based methods have been adapted to IR drop prediction task in several works, the shortcomings of overlooking PDN configuration is non-negligible. In this paper, we consider not only how to properly represent cell-PDN relation, but also how to model IR drop following its physical nature in the feature aggregation procedure. Thus, we propose a novel graph structure, PDNGraph, to unify the representations of the PDN structure and the fine-grained cell-PDN relation. We further propose a dual-branch heterogeneous network, PDNNet, incorporating two parallel GNN-CNN branches to favorably capture the above features during the learning process. Several key designs are presented to make the dynamic IR drop prediction highly effective and interpretable. We are the first work to apply graph structure to deep-learning based dynamic IR drop prediction method. Experiments show that PDNNet outperforms the state-of-the-art CNN-based methods by up to 39.3% reduction in prediction error and achieves 545x speedup compared to the commercial tool, which demonstrates the superiority of our method.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# 物理インフォームドグラフニューラルネットワークによる配水システムの構築

Physics-Informed Graph Neural Networks for Water Distribution Systems ( http://arxiv.org/abs/2403.18570v1 )

ライセンス: Link先を確認
Inaam Ashraf, Janine Strotherm, Luca Hermes, Barbara Hammer, (参考訳) 水道システム(WDS)は、都市開発に欠かせない重要なインフラの不可欠な部分である。 世界の人口の70%が2050年までに都市環境に居住する可能性が高いため、WDSの効率的なシミュレーションと計画ツールが、国連の持続可能な開発目標(SDG)6「すべてのクリーンな水と衛生」を達成する上で重要な役割を担っている。 本稿では,WDSにおける油圧状態推定のための新しい効率的な機械学習エミュレータ,より正確には物理インフォームドディープラーニング(DL)モデルを提案する。 再帰的アプローチを用いることで、我々のモデルはいくつかのグラフ畳み込みニューラルネットワーク(GCN)層のみを必要とし、メッセージパッシングに基づいた革新的なアルゴリズムを採用している。 従来の機械学習のタスクとは異なり、このモデルは、教師なしの方法で利用可能な地上の真実の特徴を再構築する過程で、2つの追加の油圧状態特徴を推論するために水圧原理を使用する。 我々の知る限り、これは一般的な油圧シミュレータEPANETをエミュレートする最初のDLアプローチであり、追加情報を使用しない。 多くのDLモデルと同様に、油圧シミュレータとは異なり、我々のモデルは、WDSのサイズに比例して大幅に増加しない、はるかに高速なエミュレーション時間を示す。 さらに,5つの実世界のWDSデータセットを用いた実験により,油圧シミュレータと比較して,地上の真実と非常によく似た結果を得ることができた。

Water distribution systems (WDS) are an integral part of critical infrastructure which is pivotal to urban development. As 70% of the world's population will likely live in urban environments in 2050, efficient simulation and planning tools for WDS play a crucial role in reaching UN's sustainable developmental goal (SDG) 6 - "Clean water and sanitation for all". In this realm, we propose a novel and efficient machine learning emulator, more precisely, a physics-informed deep learning (DL) model, for hydraulic state estimation in WDS. Using a recursive approach, our model only needs a few graph convolutional neural network (GCN) layers and employs an innovative algorithm based on message passing. Unlike conventional machine learning tasks, the model uses hydraulic principles to infer two additional hydraulic state features in the process of reconstructing the available ground truth feature in an unsupervised manner. To the best of our knowledge, this is the first DL approach to emulate the popular hydraulic simulator EPANET, utilizing no additional information. Like most DL models and unlike the hydraulic simulator, our model demonstrates vastly faster emulation times that do not increase drastically with the size of the WDS. Moreover, we achieve high accuracy on the ground truth and very similar results compared to the hydraulic simulator as demonstrated through experiments on five real-world WDS datasets.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# ブートストラップ保証:動的暗号化制御の安定性と性能解析

Bootstrapping Guarantees: Stability and Performance Analysis for Dynamic Encrypted Control ( http://arxiv.org/abs/2403.18571v1 )

ライセンス: Link先を確認
Sebastian Schlor, Frank Allgöwer, (参考訳) 無制限に動作する暗号化された動的コントローラは、研究の課題となっている。 根本的な困難は、操作中に内部状態にエラーとスケーリング要素を蓄積することである。 ブートストラップ(Bootstrapping)は、完全に同型な暗号システムで一般的に用いられるテクニックで、コントローラ状態のオーバーフローを避けるために使用できるが、重大な数値エラーを起こす可能性がある。 本稿では,ブートストラップを考慮した動的暗号化制御の解析を行う。 頑健な制御フレームワークにおける不確実性としてコントローラの状態に発生するブートストラップエラーを認識することにより,暗号化制御システム全体の安定性と性能保証を実現することができる。 また、制御システムの昇降版を用いて安定性と性能試験の保守性を低下させる。

Encrypted dynamic controllers that operate for an unlimited time have been a challenging subject of research. The fundamental difficulty is the accumulation of errors and scaling factors in the internal state during operation. Bootstrapping, a technique commonly employed in fully homomorphic cryptosystems, can be used to avoid overflows in the controller state but can potentially introduce significant numerical errors. In this paper, we analyze dynamic encrypted control with explicit consideration of bootstrapping. By recognizing the bootstrapping errors occurring in the controller's state as an uncertainty in the robust control framework, we can provide stability and performance guarantees for the whole encrypted control system. Further, the conservatism of the stability and performance test is reduced by using a lifted version of the control system.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# 異常群作用をもつ対称および対称性破壊スピン鎖相の分類

Classifying symmetric and symmetry-broken spin chain phases with anomalous group actions ( http://arxiv.org/abs/2403.18573v1 )

ライセンス: Link先を確認
Jose Garre Rubio, Andras Molnar, Yoshiko Ogata, (参考訳) 行列積ユニタリ(MPU)を演算的代数的アプローチでカバーし、局所分解可能群作用の下で不変な量子スピン鎖の分類問題を考察する。 対称的位相と対称性的位相の両方を包含する有限群対称性に着目する。 私たちが考える局所分解可能群作用は、それらに関連する対称性群の3つの共サイクル類を持つ。 我々は、自然に一次元対称性に保護された位相(SPT)位相をカバーする分類の不変式を導出する。 これらの不変量は(J. Garre Rubio et al, Quantum 7, 927 (2023)) の行列積状態 (MPSs) 技術と一致することを証明し、MPSとMPPUの GNS 表現を明示的に検討することにより、両者の独立性のある辞書となる。

We consider the classification problem of quantum spin chains invariant under local decomposable group actions, covering matrix product unitaries (MPUs), using an operator algebraic approach. We focus on finite group symmetries hosting both symmetric and symmetry broken phases. The local-decomposable group actions we consider have a 3-cocycle class of the symmetry group associated to them. We derive invariants for our classification that naturally cover one-dimensional symmetry protected topological (SPT) phases. We prove that these invariants coincide with the ones of [J. Garre Rubio et al, Quantum 7, 927 (2023)] using matrix product states (MPSs) techniques, by explicitly working out the GNS representation of MPSs and MPUs, resulting in a useful dictionary between both approaches that could be of independent interest.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# HandBooster: 条件付き合成と手動物体の相互作用サンプリングによる3次元手動画像再構成

HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions ( http://arxiv.org/abs/2403.18575v1 )

ライセンス: Link先を確認
Hao Xu, Haipeng Li, Yinqiao Wang, Shuaicheng Liu, Chi-Wing Fu, (参考訳) 既存の実世界のデータセットの多様性が欠如しているため、単一のイメージから堅牢に3Dハンドメッシュを再構築するのは非常に難しい。 データ合成は問題を緩和するのに役立つが、シン・トゥ・リアルのギャップは依然としてその使用を妨げる。 本研究では,手動物体の相互作用に条件付き生成空間を訓練し,有効データサンプルを合成するための空間を意図的にサンプリングすることにより,データ多様性の向上と3次元手動画像再構成性能の向上を図る新しいアプローチであるHandBoosterを提案する。 まず,多種多様な手容,ポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築し,より正確な3Dアノテーションを無償で取得する。 そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。 本手法により,HO3DおよびDexYCBベンチマークのSOTAを超えるいくつかのベースラインを改良することができる。 私たちのコードはhttps://github.com/hxwork/HandBooster_Pytorchでリリースされます。

Reconstructing 3D hand mesh robustly from a single image is very challenging, due to the lack of diversity in existing real-world datasets. While data synthesis helps relieve the issue, the syn-to-real gap still hinders its usage. In this work, we present HandBooster, a new approach to uplift the data diversity and boost the 3D hand-mesh reconstruction performance by training a conditional generative space on hand-object interactions and purposely sampling the space to synthesize effective data samples. First, we construct versatile content-aware conditions to guide a diffusion model to produce realistic images with diverse hand appearances, poses, views, and backgrounds; favorably, accurate 3D annotations are obtained for free. Then, we design a novel condition creator based on our similarity-aware distribution sampling strategies to deliberately find novel and realistic interaction poses that are distinctive from the training set. Equipped with our method, several baselines can be significantly improved beyond the SOTA on the HO3D and DexYCB benchmarks. Our code will be released on https://github.com/hxwork/HandBooster_Pytorch.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# SteinGen: 水平グラフと横グラフのサンプルを生成する

SteinGen: Generating Fidelitous and Diverse Graph Samples ( http://arxiv.org/abs/2403.18578v1 )

ライセンス: Link先を確認
Gesine Reinert, Wenkai Xu, (参考訳) サンプルの多様性を促進しながら特性構造を保ちながらグラフを生成することは、特にグラフ観測の数が少ない場合、困難である。 ここでは、観測された1つのグラフのみからのグラフ生成の問題に取り組む。 パラメトリックモデルからのグラフ生成の古典的なアプローチはパラメータの推定に依存しており、これは難解な正規化定数のために計算に矛盾したりコストがかかる。 高品質なグラフサンプルを生成する機械学習技術に基づく生成モデリングは、パラメータ推定を避けるが、通常は豊富なトレーニングサンプルを必要とする。 提案手法であるSteinGenは,指数的ランダムグラフモデルの実現としてグラフの設定で表現され,ターゲットモデルに対するStein演算子に基づくマルコフ力学を用いて,Steinの手法とMCMCのアイデアを組み合わせる。 SteinGenは、推定されたStein演算子に関連するGlauberダイナミクスを使用してサンプルを生成し、サンプリングステップ毎にサンプルからStein演算子を再見積する。 指数的ランダムグラフのクラスにおいて、この新しい「推定と再推定」生成戦略は、元のデータに高い分布類似性(高忠実度)と高いサンプル多様性をもたらすことを示す。

Generating graphs that preserve characteristic structures while promoting sample diversity can be challenging, especially when the number of graph observations is small. Here, we tackle the problem of graph generation from only one observed graph. The classical approach of graph generation from parametric models relies on the estimation of parameters, which can be inconsistent or expensive to compute due to intractable normalisation constants. Generative modelling based on machine learning techniques to generate high-quality graph samples avoids parameter estimation but usually requires abundant training samples. Our proposed generating procedure, SteinGen, which is phrased in the setting of graphs as realisations of exponential random graph models, combines ideas from Stein's method and MCMC by employing Markovian dynamics which are based on a Stein operator for the target model. SteinGen uses the Glauber dynamics associated with an estimated Stein operator to generate a sample, and re-estimates the Stein operator from the sample after every sampling step. We show that on a class of exponential random graph models this novel "estimation and re-estimation" generation strategy yields high distributional similarity (high fidelity) to the original data, combined with high sample diversity.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# 量子ニューラルネットワークのハイパーパラメータ最適化について

On Optimizing Hyperparameters for Quantum Neural Networks ( http://arxiv.org/abs/2403.18579v1 )

ライセンス: Link先を確認
Sabrina Herbst, Vincenzo De Maio, Ivona Brandic, (参考訳) 機械学習(ML)モデルの能力の増大は、トレーニングに必要な膨大なデータと計算能力と相まって行く。 したがって、トレーニングは通常HPCの施設にアウトソースされ、ムーアの法則によって理論化されたように、従来のHPCハードウェアのスケーリングの限界を経験し始めた。 大量の並列化と最適化の努力にもかかわらず、現在の最先端のMLモデルはトレーニングに数週間を必要としており、これは巨大なCO_2$フットプリントと関連している。 量子コンピューティング、特に量子機械学習(QML)は、理論的なスピードアップと表現力の向上を提供する。 しかし、QMLモデルのトレーニングには、非自明なタスクである様々なハイパーパラメータをチューニングする必要がある。 本研究では,最も影響の大きいハイパーパラメータを特定し,QMLモデルの性能に関するデータを収集する。 異なる構成を比較し、ハイパパラメータ選択のためのパフォーマンスデータと具体的な提案を研究者に提供する。

The increasing capabilities of Machine Learning (ML) models go hand in hand with an immense amount of data and computational power required for training. Therefore, training is usually outsourced into HPC facilities, where we have started to experience limits in scaling conventional HPC hardware, as theorized by Moore's law. Despite heavy parallelization and optimization efforts, current state-of-the-art ML models require weeks for training, which is associated with an enormous $CO_2$ footprint. Quantum Computing, and specifically Quantum Machine Learning (QML), can offer significant theoretical speed-ups and enhanced expressive power. However, training QML models requires tuning various hyperparameters, which is a nontrivial task and suboptimal choices can highly affect the trainability and performance of the models. In this study, we identify the most impactful hyperparameters and collect data about the performance of QML models. We compare different configurations and provide researchers with performance data and concrete suggestions for hyperparameter selection.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# MisGUIDE : データフリーディープラーニングモデル抽出に対する防御

MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction ( http://arxiv.org/abs/2403.18580v1 )

ライセンス: Link先を確認
Mahendra Gurve, Sankar Behera, Satyadev Ahlawat, Yamuna Prasad, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)の台頭は、さまざまなデータセットでトレーニングされた機械学習モデルの普及につながった。 これらのモデルは、APIを通じて予測サービスに使用され、予測APIの脆弱性の出現によるモデルのセキュリティと機密性に対する懸念が高まる。 特に懸念されるのは、限られたデータとトレーニングデータセットの知識のない個人がブラックボックスクエリアクセスを通じて被害者モデルの機能を複製するモデルクローン攻撃である。 これは一般的に、被害者モデルにクエリする逆クエリを生成し、ラベル付きデータセットを作成する。 提案手法は,OODと判断された場合の確率的応答を提供することにより,逆サンプル生成過程を妨害する2段階の深層学習モデルのための防御フレームワークであるMisGUIDEを提案する。 第1ステップでは、OODクエリを識別するVision Transformerベースのフレームワークを使用し、第2ステップでは、そのようなクエリに対する応答を妨害し、攻撃者のMisGUIDEに確率的損失関数を導入する。 提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。 2つのベンチマークデータセットで実施された大規模な実験により、提案フレームワークはブラックボックス設定における最先端のデータフリーモデル抽出に対する耐性を著しく向上することが示された。

The rise of Machine Learning as a Service (MLaaS) has led to the widespread deployment of machine learning models trained on diverse datasets. These models are employed for predictive services through APIs, raising concerns about the security and confidentiality of the models due to emerging vulnerabilities in prediction APIs. Of particular concern are model cloning attacks, where individuals with limited data and no knowledge of the training dataset manage to replicate a victim model's functionality through black-box query access. This commonly entails generating adversarial queries to query the victim model, thereby creating a labeled dataset. This paper proposes "MisGUIDE", a two-step defense framework for Deep Learning models that disrupts the adversarial sample generation process by providing a probabilistic response when the query is deemed OOD. The first step employs a Vision Transformer-based framework to identify OOD queries, while the second step perturbs the response for such queries, introducing a probabilistic loss function to MisGUIDE the attackers. The aim of the proposed defense method is to reduce the accuracy of the cloned model while maintaining accuracy on authentic queries. Extensive experiments conducted on two benchmark datasets demonstrate that the proposed framework significantly enhances the resistance against state-of-the-art data-free model extraction in black-box settings.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# メモリ互換フォトニック時間ビン量子ビットと固体量子ネットワークノード間の量子テレポーテーション

Qubit teleportation between a memory-compatible photonic time-bin qubit and a solid-state quantum network node ( http://arxiv.org/abs/2403.18581v1 )

ライセンス: Link先を確認
Mariagrazia Iuliano, Marie-Christine Slater, Arian J. Stolk, Matthew J. Weaver, Tanmoy Chakraborty, Elsie Loukiantchenko, Gustavo Castro do Amaral, Nir Alfasi, Mariya O. Sholkina, Wolfgang Tittel, Ronald Hanson, (参考訳) ダイヤモンドNV中心量子ネットワークノードと795nmフォトニック時間ビン量子ビットをThuliumおよびRubidium量子メモリと接続する量子インターフェースについて報告する。 このインタフェースは2段階の低雑音量子周波数変換と波形整形を用いて時間およびスペクトル光子プロファイルと一致する。 2光子量子干渉は、変換された795nm光子とネイティブなNV中心光子の間で(89.5$\pm$ 1.9)%の非識別性を示す。 我々はこのインタフェースを用いて、795nmのフォトニック量子ビット入力状態の偏りのないセットからNV中心のスピン量子ビットへのリアルタイムフィードフォワードを含む量子テレポーテーションを実証し、テレポーテーションの忠実度(75.5$\pm$1.0)%を達成する。 この概念実証実験は、異なる量子ネットワークハードウェアの相互接続の可能性を示している。

We report on a quantum interface linking a diamond NV center quantum network node and 795nm photonic time-bin qubits compatible with Thulium and Rubidium quantum memories. The interface makes use of two-stage low-noise quantum frequency conversion and waveform shaping to match temporal and spectral photon profiles. Two-photon quantum interference shows high indistinguishability of (89.5 $\pm$ 1.9)% between converted 795nm photons and the native NV center photons. We use the interface to demonstrate quantum teleportation including real-time feedforward from an unbiased set of 795nm photonic qubit input states to the NV center spin qubit, achieving a teleportation fidelity of (75.5 $\pm$ 1.0)%. This proof-of-concept experiment shows the feasibility of interconnecting different quantum network hardware.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# すべてを修正するための一流:1つの正規化流とスイッチによる高エネルギー物理学のシミュレーションの改善

One flow to correct them all: improving simulations in high-energy physics with a single normalising flow and a switch ( http://arxiv.org/abs/2403.18582v1 )

ライセンス: Link先を確認
Caio Cesar Daumann, Mauro Donega, Johannes Erdmann, Massimiliano Galli, Jan Lukas Späh, Davide Valsecchi, (参考訳) シミュレーションイベントは、ほとんどの高エネルギー物理分析において重要な要素である。 しかし、シミュレーションの不完全性は、観測されたデータとシミュレーションされた事象の間に大きな違いをもたらす可能性がある。 関係する観測物に対するそのような誤モデリングの効果は、スケール因子、重み付き、あるいは観測物の分布とその相関を変更することによって、効果的に補正されなければならない。 本稿では,ブール条件付き単一正規化フローに基づく単純なアーキテクチャを用いて,1つの多次元分布(シミュレーション)を1つの多次元分布(データ)に変換する補正手法を提案する。 本手法の有効性を,観測対象の非自明な誤モデリングを用いた物理刺激型玩具データセットに適用し,その相関性を示す。

Simulated events are key ingredients in almost all high-energy physics analyses. However, imperfections in the simulation can lead to sizeable differences between the observed data and simulated events. The effects of such mismodelling on relevant observables must be corrected either effectively via scale factors, with weights or by modifying the distributions of the observables and their correlations. We introduce a correction method that transforms one multidimensional distribution (simulation) into another one (data) using a simple architecture based on a single normalising flow with a boolean condition. We demonstrate the effectiveness of the method on a physics-inspired toy dataset with non-trivial mismodelling of several observables and their correlations.
翻訳日:2024-03-28 16:48:33 公開日:2024-03-27
# 電場の共鳴交差効果と量子センサ

Resonances crossing effect and quantum sensor of electric fields ( http://arxiv.org/abs/2403.18585v1 )

ライセンス: Link先を確認
Andrea Sacchetti, (参考訳) エネルギー準位の正確な交差現象は稀に起こる現象であるが、準安定状態に関連する量子共鳴の場合、この現象はより頻繁に起こり、様々なシナリオが生じる。 外部直流電場を受ける2レベル量子系における共鳴の想像上の部分の正確な交差が存在する場合、そのような交差が存在しない場合は、減衰ビーティング現象が発生する。 この事実は、明示的な1次元モデルで数値的に検証され、外部磁場強度が割り当てられた値を持つか否かを非常に単純な方法で決定する量子センサーを設計する可能性を示唆している。

While the phenomenon of the exact crossing of energy levels is a rarely occurring event, in the case of quantum resonances associated with metastable states this phenomenon is much more frequent and various scenarios can occur. When there is an exact crossing of the imaginary parts of the resonances in a two-level quantum system subject to an external DC electric field, then a damped beating phenomenon occurs, which is absent if there is no such crossing. This fact, tested numerically on an explicit one-dimensional model, suggests the possibility of designing quantum sensors to determine in a very simple way whether the external field strength has an assigned value or not.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# 環内の量子逆流:最適境界とフラクタル性

Quantum backflow current in a ring: Optimal bounds and fractality ( http://arxiv.org/abs/2403.18586v1 )

ライセンス: Link先を確認
Arseni Goussev, Felix Quinque, Jaewoo Joo, Andrew Burbanks, (参考訳) 円環内を自由に移動する量子粒子の確率密度は、その角運動量と矛盾する局所的な流れパターンを示すことができ、これは量子逆流と呼ばれる現象である。 本研究では,環に制限された量子粒子を,非負の角運動量を持つ低エネルギー固有状態の固定(任意の)数からなる状態に調製する。 リングの周に沿った特定の点における確率電流の時間依存性挙動について検討する。 我々は、この確率電流に対して正確な下限と上限を定め、量子逆流効果の正確なスコープを明記する。 また、理論境界の95%以上に達する記録的なバックフロー確率移動をもたらす量子状態の解析式も提示する。 さらに, 逆流確率移動を最大化する状態に付随する現在の逆時間関数が, 次元が7/4のフラクタル曲線を形成するという予想を支持する, 数値的および解析的な証拠を得る。 観測されたフラクタル性は、確率移動境界付近の量子逆流の特性的、実験的に関連するシグネチャを与える可能性がある。

The probability density of a quantum particle moving freely within a circular ring can exhibit local flow patterns inconsistent with its angular momentum, a phenomenon known as quantum backflow. In this study, we examine a quantum particle confined to a ring and prepared in a state composed of a fixed (yet arbitrary) number of lowest energy eigenstates with non-negative angular momentum. We investigate the time-dependent behavior of the probability current at a specified point along the ring's circumference. We establish precise lower and upper bounds for this probability current, thereby delineating the exact scope of the quantum backflow effect. We also present an analytical expression for a quantum state that yields a record-high backflow probability transfer, reaching over 95% of the theoretical bound. Furthermore, our investigation yields compelling numerical and analytical evidence supporting the conjecture that the current-versus-time function associated with states maximizing backflow probability transfer forms a fractal curve with a dimension of 7/4. The observed fractality may provide a characteristic, experimentally-relevant signature of quantum backflow near the probability-transfer bound.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# コンピュータビジョンにおける一様入力が活性化空間とエネルギー遅延攻撃に及ぼす影響

The Impact of Uniform Inputs on Activation Sparsity and Energy-Latency Attacks in Computer Vision ( http://arxiv.org/abs/2403.18587v1 )

ライセンス: Link先を確認
Andreas Müller, Erwin Quiring, (参考訳) 近年、資源効率は機械学習にとって重要な役割を担っている。 エネルギーと意思決定のレイテンシは、持続的で実用的なアプリケーションを保証するための2つの重要な側面です。 残念ながら、エネルギー消費と意思決定の遅延は敵に対して堅牢ではない。 研究者は最近、ニューラルネットワークのエネルギー消費と決定レイテンシを高めるために、攻撃者が推論時にいわゆるスポンジ例を計算し、提出できることを実証した。 コンピュータビジョンでは、提案された戦略は、計算の高速化に使用可能なアクティベーションの間隔を小さくして入力を作成する。 本稿では,これらのエネルギー遅延攻撃が活性化空間を減少させるメカニズムを解析する。 特に、入力の均一性が重要なイネーブラーであることがわかった。 均一な画像、すなわち、主に平坦で均一に色のついた表面を持つ画像は、畳み込み、バッチ正規化、ReLUアクティベーションの特定の相互作用により、より多くのアクティベーションをトリガーする。 これらの知見に基づいて、スポンジのサンプルを作成するための2つの新しいシンプルで効果的な戦略を提案する。 本研究では,複数の画像分類モデルを用いて総合評価を行い,従来のスポンジ・サンプル法と同等の空間効果を達成できることを示す。 また、スポンジサンプルが異なるニューラルネットワーク間で転送されることも示しています。 最後に, この結果の有効利用について検討し, 空間性の向上による効率向上について考察する。

Resource efficiency plays an important role for machine learning nowadays. The energy and decision latency are two critical aspects to ensure a sustainable and practical application. Unfortunately, the energy consumption and decision latency are not robust against adversaries. Researchers have recently demonstrated that attackers can compute and submit so-called sponge examples at inference time to increase the energy consumption and decision latency of neural networks. In computer vision, the proposed strategy crafts inputs with less activation sparsity which could otherwise be used to accelerate the computation. In this paper, we analyze the mechanism how these energy-latency attacks reduce activation sparsity. In particular, we find that input uniformity is a key enabler. A uniform image, that is, an image with mostly flat, uniformly colored surfaces, triggers more activations due to a specific interplay of convolution, batch normalization, and ReLU activation. Based on these insights, we propose two new simple, yet effective strategies for crafting sponge examples: sampling images from a probability distribution and identifying dense, yet inconspicuous inputs in natural datasets. We empirically examine our findings in a comprehensive evaluation with multiple image classification models and show that our attack achieves the same sparsity effect as prior sponge-example methods, but at a fraction of computation effort. We also show that our sponge examples transfer between different neural networks. Finally, we discuss applications of our findings for the good by improving efficiency by increasing sparsity.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# ユーザーは同じサイズのlibjpeg-turboやMozJPEGよりもJpegliを好む

Users prefer Jpegli over same-sized libjpeg-turbo or MozJPEG ( http://arxiv.org/abs/2403.18589v1 )

ライセンス: Link先を確認
Martin Bruse, Luca Versari, Zoltan Szabadka, Jyrki Alakuijala, (参考訳) 我々は,MozJPEG,libjpeg-turbo,および新しいJpegliエンコーダを用いたJPEG画像のレーダによるペアワイズ比較を行った。 libjpeg-turboの品質95に類似した画質で画像を圧縮する場合、Jpegli画像はlibjpeg-turboとMozJPEGの両方よりも54%好まれるが、それぞれ3.8ビットと3.5ビットを使用したlibjpeg-turboとMozJPEGは2.8ビットしか使用しなかった。 生のレーティングとソースイメージは、さらなる分析と研究のために公開されています。

We performed pairwise comparisons by human raters of JPEG images from MozJPEG, libjpeg-turbo and our new Jpegli encoder. When compressing images at a quality similar to libjpeg-turbo quality 95, the Jpegli images were 54% likely to be preferred over both libjpeg-turbo and MozJPEG images, but used only 2.8 bits per pixel compared to libjpeg-turbo and MozJPEG that used 3.8 and 3.5 bits per pixel respectively. The raw ratings and source images are publicly available for further analysis and study.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# 均質なトケナイザ:リモートセンシング画像理解のための均質なビジュアルトケナイザ

Homogeneous Tokenizer Matters: Homogeneous Visual Tokenizer for Remote Sensing Image Understanding ( http://arxiv.org/abs/2403.18593v1 )

ライセンス: Link先を確認
Run Shao, Zhaoyang Zhang, Chao Tao, Yunsheng Zhang, Chengli Peng, Haifeng Li, (参考訳) トークン化器は、大型モデルの基本的な構成要素の1つであり、長い間見過ごされてきたか、視覚的なタスクで誤解されている。 大きな言語モデルの大きな理解力の1つの要因は、自然言語のトークンーザが意味のある単語やサブワードを言語の基本的な要素として利用することである。 対照的に、Patch Embedのようなパッチベースの手法で表される主流のビジュアルトークンは、意味のない長方形のパッチを視覚の基本要素として頼りにしており、言語における単語やサブワードのように効果的に機能することができない。 トークン化器の本質から始めて、視覚に対して意味的に独立した領域(SIR)を定義した。 我々は、単純なホモジニアスな視覚的tOKenizer: HOOKを設計した。 HOOK は主に Object Perception Module (OPM) と Object Vectorization Module (OVM) の2つのモジュールで構成されている。 均一性を達成するため、OPMは画像を4*4ピクセルのシードに分割し、注意機構を利用してSIRを知覚する。 OVMは、同じSIR内で種をマージするためにクロスアテンションを使用する。 適応性を達成するため、OVMは学習可能なベクトルの可変数をクロスアテンションクエリとして定義し、トークン量の調整を可能にする。 我々は, NWPU-RESISC45, WHU-RS19分類データセット, GID5分割データセットについて, 疎密なタスクに対する実験を行った。 その結果,HOOKによって得られた視覚トークンは個々の物体に対応し,均一性を示すことがわかった。 HOOK は2つのタスクで Patch Embed を 6 % と 10 % で上回り、比較に使用するベースラインと比較して最先端のパフォーマンスを達成した。 1枚の画像に100枚以上のトークンを必要とするPatch Embedと比較して、HOOKはスパースタスクと密集タスクに6個と8個のトークンしか必要とせず、効率は1.5倍から2.8倍に向上した。 コードはhttps://github.com/GeoX-Lab/Hook.comから入手できる。

The tokenizer, as one of the fundamental components of large models, has long been overlooked or even misunderstood in visual tasks. One key factor of the great comprehension power of the large language model is that natural language tokenizers utilize meaningful words or subwords as the basic elements of language. In contrast, mainstream visual tokenizers, represented by patch-based methods such as Patch Embed, rely on meaningless rectangular patches as basic elements of vision, which cannot serve as effectively as words or subwords in language. Starting from the essence of the tokenizer, we defined semantically independent regions (SIRs) for vision. We designed a simple HOmogeneous visual tOKenizer: HOOK. HOOK mainly consists of two modules: the Object Perception Module (OPM) and the Object Vectorization Module (OVM). To achieve homogeneity, the OPM splits the image into 4*4 pixel seeds and then utilizes the attention mechanism to perceive SIRs. The OVM employs cross-attention to merge seeds within the same SIR. To achieve adaptability, the OVM defines a variable number of learnable vectors as cross-attention queries, allowing for the adjustment of token quantity. We conducted experiments on the NWPU-RESISC45, WHU-RS19 classification dataset, and GID5 segmentation dataset for sparse and dense tasks. The results demonstrate that the visual tokens obtained by HOOK correspond to individual objects, which demonstrates homogeneity. HOOK outperformed Patch Embed by 6\% and 10\% in the two tasks and achieved state-of-the-art performance compared to the baselines used for comparison. Compared to Patch Embed, which requires more than one hundred tokens for one image, HOOK requires only 6 and 8 tokens for sparse and dense tasks, respectively, resulting in efficiency improvements of 1.5 to 2.8 times. The code is available at https://github.com/GeoX-Lab/Hook.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# 不均一周流性ニューラル演算子:デジタル画像相関測定による生体組織と構成法則の解明

Heterogeneous Peridynamic Neural Operators: Discover Biotissue Constitutive Law and Microstructure From Digital Image Correlation Measurements ( http://arxiv.org/abs/2403.18597v1 )

ライセンス: Link先を確認
Siavash Jafarzadeh, Stewart Silling, Lu Zhang, Colton Ross, Chung-Hao Lee, S. M. Rakibur Rahman, Shuodao Wang, Yue Yu, (参考訳) ヒト組織は高度に組織化された構造であり、特定のコラーゲン繊維の配列は点ごとに異なる。 このような不均一性の影響は組織機能にとって重要な役割を担っているため、デジタル画像相関データなどの実験結果から繊維配向の分布を発見し、理解することが非常に重要である。 この目的のために、異種異方性物質のデータ駆動構成モデリングのためのヘテロPNO(heteroPNO)アプローチを導入する。 目的は、非局所構成法則と材料ミクロ構造の両方を、荷重場-変位場測定から不均一繊維配向場の形で学習することである。 そこで本研究では,二相学習手法を提案する。 まず、ニューラルネットワークに基づくカーネル関数と非局所結合力という形で同質構成則を学習し、データから複雑な同質材料応答を捉える。 次に、第2フェーズにおいて学習結合力とカーネル関数を再起動し、各材料点に対する繊維配向場と共にトレーニングする。 ヘテロPNOを学習した物質モデルでは, 状態に基づく周辺構造から, 線形運動量と角運動量のバランスが保証されている。 さらに、不均一性と非線形構成関係の影響をそれぞれ核関数と結合力によって捉え、物理的解釈性を実現する。 その結果、ヘテロPNOアーキテクチャーは、大きな変形状態にある異方性ヘテロジニアス反応を持つ生体組織の構成モデルを学ぶことができる。 さらに、このフレームワークは、新しい、目に見えないローディングインスタンスに対して、変位と応力場予測を提供することができる。

Human tissues are highly organized structures with specific collagen fiber arrangements varying from point to point. The effects of such heterogeneity play an important role for tissue function, and hence it is of critical to discover and understand the distribution of such fiber orientations from experimental measurements, such as the digital image correlation data. To this end, we introduce the heterogeneous peridynamic neural operator (HeteroPNO) approach, for data-driven constitutive modeling of heterogeneous anisotropic materials. The goal is to learn both a nonlocal constitutive law together with the material microstructure, in the form of a heterogeneous fiber orientation field, from loading field-displacement field measurements. To this end, we propose a two-phase learning approach. Firstly, we learn a homogeneous constitutive law in the form of a neural network-based kernel function and a nonlocal bond force, to capture complex homogeneous material responses from data. Then, in the second phase we reinitialize the learnt bond force and the kernel function, and training them together with a fiber orientation field for each material point. Owing to the state-based peridynamic skeleton, our HeteroPNO-learned material models are objective and have the balance of linear and angular momentum guaranteed. Moreover, the effects from heterogeneity and nonlinear constitutive relationship are captured by the kernel function and the bond force respectively, enabling physical interpretability. As a result, our HeteroPNO architecture can learn a constitutive model for a biological tissue with anisotropic heterogeneous response undergoing large deformation regime. Moreover, the framework is capable to provide displacement and stress field predictions for new and unseen loading instances.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# RAP: 教育ビデオにおける適応的手続き計画のための検索型プランナー

RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2403.18600v1 )

ライセンス: Link先を確認
Ali Zare, Yulei Niu, Hammad Ayyubi, Shih-fu Chang, (参考訳) 指導ビデオにおけるプロシージャプランニングでは、初期状態と対象状態の視覚的観察に基づいて一連のアクションステップを生成する。 1)適応的手順: 先行研究は、アクションステップの数が知られ、固定されているという非現実的な仮定を持ち、シーケンスの長さが変化する現実世界のシナリオでは、一般化不可能なモデルに繋がる。 2)時間的関係:段階的関係知識を理解することは合理的かつ実行可能な計画の作成に不可欠である。 アノテーションコスト:ステップレベルのラベル (タイムスタンプ) やシーケンスレベルのラベル (アクションカテゴリ) でアノテーションを付加することで,その一般化性を大規模データセットに限定し,作業集約化が図られている。本研究では,命令ビデオにおける適応的プロシージャ計画(Adaptive procedure planning)と呼ばれる,手順長が固定的あるいは事前決定されていない,新たな実践的な設定を提案する。 これらの課題に対処するために、Retrieval-Augmented Planner(RAP)モデルを紹介します。 具体的には、適応的な手続きにおいて、RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。 時間的関係のために、RAPはトレーニングビデオから最も関連性の高い状態-アクションペアを明示的に検索し、生成されたプロシージャを更新する外部メモリモジュールを確立する。 高アノテーションコストに対処するため、RAPは弱い教師付き学習手法を使用して、トレーニングデータセットをアクションステップの擬似ラベルを生成することで、他のタスク関連無注釈ビデオに拡張する。 CrossTaskとCOINベンチマークの実験では、従来の固定長モデルよりもRAPの方が優れていることが示され、適応プロシージャ計画のための強力なベースラインソリューションとして確立された。

Procedure Planning in instructional videos entails generating a sequence of action steps based on visual observations of the initial and target states. Despite the rapid progress in this task, there remain several critical challenges to be solved: (1) Adaptive procedures: Prior works hold an unrealistic assumption that the number of action steps is known and fixed, leading to non-generalizable models in real-world scenarios where the sequence length varies. (2) Temporal relation: Understanding the step temporal relation knowledge is essential in producing reasonable and executable plans. (3) Annotation cost: Annotating instructional videos with step-level labels (i.e., timestamp) or sequence-level labels (i.e., action category) is demanding and labor-intensive, limiting its generalizability to large-scale datasets.In this work, we propose a new and practical setting, called adaptive procedure planning in instructional videos, where the procedure length is not fixed or pre-determined. To address these challenges we introduce Retrieval-Augmented Planner (RAP) model. Specifically, for adaptive procedures, RAP adaptively determines the conclusion of actions using an auto-regressive model architecture. For temporal relation, RAP establishes an external memory module to explicitly retrieve the most relevant state-action pairs from the training videos and revises the generated procedures. To tackle high annotation cost, RAP utilizes a weakly-supervised learning manner to expand the training dataset to other task-relevant, unannotated videos by generating pseudo labels for action steps. Experiments on CrossTask and COIN benchmarks show the superiority of RAP over traditional fixed-length models, establishing it as a strong baseline solution for adaptive procedure planning.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# FlexEdit: フレキシブルで制御可能な拡散ベースのオブジェクト中心の画像編集

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing ( http://arxiv.org/abs/2403.18605v1 )

ライセンス: Link先を確認
Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham, (参考訳) 我々の研究は、形状の相違による非現実的な結果や、オブジェクトの置換や挿入の制限など、オブジェクト中心の編集問題に対する従来のアプローチに見られる制限に対処する。 この目的のために、FlexEditというフレキシブルで制御可能なオブジェクトの編集フレームワークを導入し、FlexEditブロックを使って各デノナイズステップでレイトを反復的に調整します。 最初は、特定のオブジェクトの制約に合わせるために、テスト時に遅延を最適化します。 そこで,本フレームワークでは,対象画像に新たなコンテンツをシームレスにブレンドしながら,背景を保護するために適応マスクを自動抽出する。 オブジェクト編集タスクにおけるFlexEditの汎用性を実証し、実画像と合成画像の両方からのサンプルと、オブジェクト中心の編集用に設計された新しい評価指標を用いて評価テストスイートをキュレートする。 我々は様々な編集シナリオについて広範な実験を行い、最近の先進的なテキスト誘導画像編集手法よりも編集フレームワークの優位性を実証した。 私たちのプロジェクトページはhttps://flex-edit.github.io/で公開されています。

Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a flexible and controllable editing framework for objects where we iteratively adjust latents at each denoising step using our FlexEdit block. Initially, we optimize latents at test time to align with specified object constraints. Then, our framework employs an adaptive mask, automatically extracted during denoising, to protect the background while seamlessly blending new content into the target image. We demonstrate the versatility of FlexEdit in various object editing tasks and curate an evaluation test suite with samples from both real and synthetic images, along with novel evaluation metrics designed for object-centric editing. We conduct extensive experiments on different editing scenarios, demonstrating the superiority of our editing framework over recent advanced text-guided image editing methods. Our project page is published at https://flex-edit.github.io/.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# Spikewhisper:低消費電力デバイス上でのフェデレーションニューロモーフィック学習に対する一時的なスパイクバックドア攻撃

Spikewhisper: Temporal Spike Backdoor Attacks on Federated Neuromorphic Learning over Low-power Devices ( http://arxiv.org/abs/2403.18607v1 )

ライセンス: Link先を確認
Hanqing Fu, Gaolei Li, Jun Wu, Jianhua Li, Xi Lin, Kai Zhou, Yuchen Liu, (参考訳) フェデレーションニューロモルフィック学習(FedNL)は、イベント駆動のスパイクニューラルネットワークとフェデレーション学習フレームワークを活用して、分散低消費電力デバイス上でインテリジェント分析タスクを効果的に実行すると同時に、攻撃に対する脆弱性を実行する。 従来のディープニューラルネットワークに対するバックドア攻撃の脅威は、一般的に時間不変のデータから生じる。 しかし、FedNLでは、未知の脅威が時間変化のスパイク信号に隠されている可能性がある。 本稿では,複数の悪意あるクライアントが異なるタイミングで異なるトリガを許容できるため,攻撃者が可能な限り検出を回避できる,Spikewhisperと呼ばれる時間分割多重化の概念を用いて,FedNLベースのシステムの新たな脆弱性を探求する。 特に、Spikewhisperのステルスネスは、各悪意のあるクライアントが1つのローカルトリガだけを神経形標本の特定のタイムスライスに貼り付け、また各ローカルトリガの極性と動きを攻撃者によって設定できるグローバルトリガの時間領域ディバイザビリティから導かれる。 2つの異なるニューロモルフィックデータセットに基づく大規模な実験により、スパイクウィスファーの攻撃成功率は時間的に集中的な攻撃よりも高いことが示された。 さらに、スパイクウィスファーの効果がトリガー持続時間に敏感であることが検証された。

Federated neuromorphic learning (FedNL) leverages event-driven spiking neural networks and federated learning frameworks to effectively execute intelligent analysis tasks over amounts of distributed low-power devices but also perform vulnerability to poisoning attacks. The threat of backdoor attacks on traditional deep neural networks typically comes from time-invariant data. However, in FedNL, unknown threats may be hidden in time-varying spike signals. In this paper, we start to explore a novel vulnerability of FedNL-based systems with the concept of time division multiplexing, termed Spikewhisper, which allows attackers to evade detection as much as possible, as multiple malicious clients can imperceptibly poison with different triggers at different timeslices. In particular, the stealthiness of Spikewhisper is derived from the time-domain divisibility of global triggers, in which each malicious client pastes only one local trigger to a certain timeslice in the neuromorphic sample, and also the polarity and motion of each local trigger can be configured by attackers. Extensive experiments based on two different neuromorphic datasets demonstrate that the attack success rate of Spikewispher is higher than the temporally centralized attacks. Besides, it is validated that the effect of Spikewispher is sensitive to the trigger duration.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# スパイキング神経膜システムとスパイキング神経ネットワークの学習モデルに関する研究

A survey on learning models of spiking neural membrane systems and spiking neural networks ( http://arxiv.org/abs/2403.18609v1 )

ライセンス: Link先を確認
Prithwineel Paul, Petr Sosik, Lucie Ciencialova, (参考訳) スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、特定の脳のような特性を持つ、生物学的にインスパイアされたニューラルネットワークのモデルである。 過去数十年間、このモデルは深層学習の成功により、コンピュータサイエンスコミュニティで注目を集めてきた。 SNNでは、スパイクトレインとスパイクトレインを通してニューロン間の通信が行われる。 これはこれらのモデルを、スパイクの頻度を実数値信号に置き換える‘標準’人工ニューラルネットワーク(ANN)と区別する。 スパイキングニューラルPシステム(SNPS)は、より形式的オートマトン原理に基づくSNNの分岐と見なすことができ、膜計算理論の枠組みの中で多くの変種が発達している。 本稿では,SNN と SNPS の構造,機能,利点,欠点を,まず簡単に比較する。 この記事では、SNNおよびSNPS形式の両方の機械学習およびディープラーニングモデルの最近の結果と応用について調査する。

Spiking neural networks (SNN) are a biologically inspired model of neural networks with certain brain-like properties. In the past few decades, this model has received increasing attention in computer science community, owing also to the successful phenomenon of deep learning. In SNN, communication between neurons takes place through the spikes and spike trains. This differentiates these models from the ``standard'' artificial neural networks (ANN) where the frequency of spikes is replaced by real-valued signals. Spiking neural P systems (SNPS) can be considered a branch of SNN based more on the principles of formal automata, with many variants developed within the framework of the membrane computing theory. In this paper, we first briefly compare structure and function, advantages and drawbacks of SNN and SNPS. A key part of the article is a survey of recent results and applications of machine learning and deep learning models of both SNN and SNPS formalisms.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# CNNのスケーラブルリプシッツ推定

Scalable Lipschitz Estimation for CNNs ( http://arxiv.org/abs/2403.18613v1 )

ライセンス: Link先を確認
Yusuf Sulehman, Tingting Mu, (参考訳) ディープニューラルネットワークのリプシッツ定数を推定することは、一般化可能性や対向ロバスト性を示すのに役立つため、関心が高まっている。 特に畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン関連のアプリケーションにおける最近の成功の多くを支えている。 しかし、リプシッツ定数を推定する既存の手法は厳密であるが、CNNに適用した場合のスケーラビリティは限られている。 そこで本研究では,CNNのリプシッツ定数推定を高速化する手法を提案する。 中心となる考え方は、大きな畳み込みブロックをジョイント層とワイドワイド分割によって小さなブロックの集合に分割することである。 我々は、より小さなブロックのリプシッツ定数の観点から、より大きなブロックのリプシッツ定数の上界を証明した。 分割係数を変化させることで、結果の方法は精度やスケーラビリティを優先して調整でき、並列化が可能である。 拡張されたスケーラビリティと既存のベースラインに匹敵する精度を、さまざまな実験を通じて示す。

Estimating the Lipschitz constant of deep neural networks is of growing interest as it is useful for informing on generalisability and adversarial robustness. Convolutional neural networks (CNNs) in particular, underpin much of the recent success in computer vision related applications. However, although existing methods for estimating the Lipschitz constant can be tight, they have limited scalability when applied to CNNs. To tackle this, we propose a novel method to accelerate Lipschitz constant estimation for CNNs. The core idea is to divide a large convolutional block via a joint layer and width-wise partition, into a collection of smaller blocks. We prove an upper-bound on the Lipschitz constant of the larger block in terms of the Lipschitz constants of the smaller blocks. Through varying the partition factor, the resulting method can be adjusted to prioritise either accuracy or scalability and permits parallelisation. We demonstrate an enhanced scalability and comparable accuracy to existing baselines through a range of experiments.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# 熱力学的アンサンブルの量子濃度不等式と等価性:最適質量輸送法

Quantum concentration inequalities and equivalence of the thermodynamical ensembles: an optimal mass transport approach ( http://arxiv.org/abs/2403.18617v1 )

ライセンス: Link先を確認
Giacomo De Palma, Davide Pastorello, (参考訳) 我々は、任意の積状態または指数的に崩壊する相関を持つ任意の状態において測定された任意の局所観測可能な量子スピン系に対する新しい濃度不等式を証明した。 我々の結果は、スピンを正則格子に配置する必要はなく、任意の距離でスピンに作用する項を含む可観測性の場合をカバーする。 さらに、局所的なW1距離を導入し、局所観測値に対する2つの状態の識別可能性を定量化する。 一般状態と指数的に崩壊する相関を持つ状態の間の局所的なW1距離が、相対エントロピーの関数によって上界であることが、輸送コストの不等式を証明した。 最後に、ギブス状態が指数関数的に崩壊する相関を持つハミルトニアンの量子統計力学の正準とミクロ正準のアンサンブルと弱固有状態熱化仮説の等価性を証明するためにそのような不等式を適用する。

We prove new concentration inequalities for quantum spin systems which apply to any local observable measured on any product state or on any state with exponentially decaying correlations. Our results do not require the spins to be arranged in a regular lattice, and cover the case of observables that contain terms acting on spins at arbitrary distance. Moreover, we introduce a local W1 distance, which quantifies the distinguishability of two states with respect to local observables. We prove a transportation-cost inequality stating that the local W1 distance between a generic state and a state with exponentially decaying correlations is upper bounded by a function of their relative entropy. Finally, we apply such inequality to prove the equivalence between the canonical and microcanonical ensembles of quantum statistical mechanics and the weak eigenstate thermalization hypothesis for the Hamiltonians whose Gibbs states have exponentially decaying correlations.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# 反トラスト、Amazon、アルゴリズム監査

Antitrust, Amazon, and Algorithmic Auditing ( http://arxiv.org/abs/2403.18623v1 )

ライセンス: Link先を確認
Abhisek Dash, Abhijnan Chakraborty, Saptarshi Ghosh, Animesh Mukherjee, Jens Frankenreiter, Stefan Bechtold, Krishna P. Gummadi, (参考訳) デジタル市場において、反トラスト法と特別規制は、今日のデジタルプラットフォームがすべての人の生活で果たす支配的な役割にもかかわらず、市場が競争力を維持することを目的としている。 伝統的な市場とは異なり、市場参加者の行動はこれらの市場で容易に観察できる。 我々は、Amazonが一般的に自己紹介と表現されるプラクティスにどの程度従事しているかについて、一連の実証的な調査を提示する。 本稿では,アルゴリズム監査をベースとし,大規模デジタル市場を規制する規制環境において,この論文で使用されるコンピュータサイエンスツールをどのように利用できるかについて議論する。

In digital markets, antitrust law and special regulations aim to ensure that markets remain competitive despite the dominating role that digital platforms play today in everyone's life. Unlike traditional markets, market participant behavior is easily observable in these markets. We present a series of empirical investigations into the extent to which Amazon engages in practices that are typically described as self-preferencing. We discuss how the computer science tools used in this paper can be used in a regulatory environment that is based on algorithmic auditing and requires regulating digital markets at scale.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# コード言語モデルによる脆弱性検出: どれくらい遠いか?

Vulnerability Detection with Code Language Models: How Far Are We? ( http://arxiv.org/abs/2403.18624v1 )

ライセンス: Link先を確認
Yangruibo Ding, Yanjun Fu, Omniyyah Ibrahim, Chawin Sitawarin, Xinyun Chen, Basel Alomair, David Wagner, Baishakhi Ray, Yizheng Chen, (参考訳) コード言語モデル(コードLM)と脆弱性検出に対する関心が高まっている状況において、脆弱性検出のためのコードLMの有効性について検討する。 我々の分析では、データ品質の低さ、ラベルの精度の低さ、重複率の高さなど、既存の脆弱性データセットの重大な欠陥が明らかとなり、現実的な脆弱性検出シナリオにおける信頼性の低いモデルパフォーマンスにつながります。 さらに、これらのデータセットで使用される評価方法は、現実世界の脆弱性検出を代表していない。 これらの課題に対処するために、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットであるPrimeVulを紹介します。 PrimeVulは、データセットを大幅に拡張しながら、人間検証されたベンチマークに匹敵するラベル精度を実現する、新しいデータラベリングテクニックを取り入れている。 また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装し、データ漏洩の問題を軽減するとともに、より現実的な評価指標と設定を導入する。 この包括的なアプローチは、実環境におけるLMのパフォーマンスをより正確に評価することを目的としている。 PrimeVul上でのコードLMの評価は、既存のベンチマークがこれらのモデルの性能を大幅に過大評価していることを示している。 例えば、最先端の7Bモデルは、BigVulでは68.26%のF1を記録したが、PrimeVulでは3.09%のF1しか獲得できなかった。 高度なトレーニング技術と GPT-3.5 や GPT-4 のような大型モデルによる性能向上の試みは失敗に終わり、その結果は最も厳密な環境でのランダムな推測に似ていた。 これらの調査結果は、現在の機能とセキュリティロールにコードLMをデプロイする実践的要件との間にかなりのギャップがあることを浮き彫りにし、この領域におけるより革新的な研究の必要性を強調している。

In the context of the rising interest in code language models (code LMs) and vulnerability detection, we study the effectiveness of code LMs for detecting vulnerabilities. Our analysis reveals significant shortcomings in existing vulnerability datasets, including poor data quality, low label accuracy, and high duplication rates, leading to unreliable model performance in realistic vulnerability detection scenarios. Additionally, the evaluation methods used with these datasets are not representative of real-world vulnerability detection. To address these challenges, we introduce PrimeVul, a new dataset for training and evaluating code LMs for vulnerability detection. PrimeVul incorporates a novel set of data labeling techniques that achieve comparable label accuracy to human-verified benchmarks while significantly expanding the dataset. It also implements a rigorous data de-duplication and chronological data splitting strategy to mitigate data leakage issues, alongside introducing more realistic evaluation metrics and settings. This comprehensive approach aims to provide a more accurate assessment of code LMs' performance in real-world conditions. Evaluating code LMs on PrimeVul reveals that existing benchmarks significantly overestimate the performance of these models. For instance, a state-of-the-art 7B model scored 68.26% F1 on BigVul but only 3.09% F1 on PrimeVul. Attempts to improve performance through advanced training techniques and larger models like GPT-3.5 and GPT-4 were unsuccessful, with results akin to random guessing in the most stringent settings. These findings underscore the considerable gap between current capabilities and the practical requirements for deploying code LMs in security roles, highlighting the need for more innovative research in this domain.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# アルゼンチンにおける糖尿病リスク人物の識別に機械学習を用いた最初の経験

First Experiences with the Identification of People at Risk for Diabetes in Argentina using Machine Learning Techniques ( http://arxiv.org/abs/2403.18631v1 )

ライセンス: Link先を確認
Enzo Rucci, Gonzalo Tittarelli, Franco Ronchetti, Jorge F. Elgart, Laura Lanzarini, Juan José Gagliardino, (参考訳) 2型糖尿病(T2D)とプレ糖尿病(PD)の検出は、病原性症状の欠如と既知の危険因子の欠如により、医学における真の課題である。 機械学習モデルのいくつかの提案は、リスクのある人々の識別を可能にするが、その状態の性質は、ある集団に適したモデルが必ずしも別の集団に適しているとは限らないようにしている。 本稿では,アルゼンチンにおけるT2DとPDのリスクのある人を特定するための予測モデルの開発と評価について論じる。 まず、データベースは徹底的に前処理され、3つの特定のデータセットが生成される。 5つの異なる分類モデルを適用した結果、これらのモデルを用いて2つのデータセットに対して非常に優れた性能が得られた。 特に、RF、DT、ANNは大きな分類能力を示し、検討中の指標に対して良い値を示した。 アルゼンチンにこの種のツールがないことを考えると、この研究はより洗練されたモデルの開発に向けた第一歩である。

Detecting Type 2 Diabetes (T2D) and Prediabetes (PD) is a real challenge for medicine due to the absence of pathogenic symptoms and the lack of known associated risk factors. Even though some proposals for machine learning models enable the identification of people at risk, the nature of the condition makes it so that a model suitable for one population may not necessarily be suitable for another. In this article, the development and assessment of predictive models to identify people at risk for T2D and PD specifically in Argentina are discussed. First, the database was thoroughly preprocessed and three specific datasets were generated considering a compromise between the number of records and the amount of available variables. After applying 5 different classification models, the results obtained show that a very good performance was observed for two datasets with some of these models. In particular, RF, DT, and ANN demonstrated great classification power, with good values for the metrics under consideration. Given the lack of this type of tool in Argentina, this work represents the first step towards the development of more sophisticated models.
翻訳日:2024-03-28 16:38:49 公開日:2024-03-27
# 音声とテキストを用いた音声からの感情認識のための融合手法

Fusion approaches for emotion recognition from speech using acoustic and text-based features ( http://arxiv.org/abs/2403.18635v1 )

ライセンス: Link先を確認
Leonardo Pepino, Pablo Riera, Luciana Ferrer, Agustin Gravano, (参考訳) 本稿では,音声とテキストによる特徴量を用いた音声からの感情の分類手法について検討する。 本稿では,BERT を用いた文脈的単語埋め込みを行い,音声の書き起こしに含まれる情報を表現し,Glove の埋め込みよりも優れた性能を示す。 また,IEMOCAPとMPP-PODCASTデータセットを用いて,音声とテキストのモダリティを組み合わせるための異なる戦略を提案し,比較する。 評価された融合アプローチ間では微妙な差異しか観測されていないが, 両方のデータセットにおいて, 融合音響系とテキストベース系が有用であることが判明した。 最後に、IEMOCAPでは、クロスバリデーションの折り畳みを定義するために使われる基準が結果に大きく影響することを示す。 特に、このデータセットのフォールドを作成する標準的な方法は、テキストベースのシステムの性能を非常に楽観的に推定する結果となり、いくつかの以前の研究が転写を組み込むことの利点を過大評価する可能性があることを示唆している。

In this paper, we study different approaches for classifying emotions from speech using acoustic and text-based features. We propose to obtain contextualized word embeddings with BERT to represent the information contained in speech transcriptions and show that this results in better performance than using Glove embeddings. We also propose and compare different strategies to combine the audio and text modalities, evaluating them on IEMOCAP and MSP-PODCAST datasets. We find that fusing acoustic and text-based systems is beneficial on both datasets, though only subtle differences are observed across the evaluated fusion approaches. Finally, for IEMOCAP, we show the large effect that the criteria used to define the cross-validation folds have on results. In particular, the standard way of creating folds for this dataset results in a highly optimistic estimation of performance for the text-based system, suggesting that some previous works may overestimate the advantage of incorporating transcriptions.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# ストロークセグメンテーションのためのトランスフォーマーベースのアーキテクチャ:レビュー

Transformers-based architectures for stroke segmentation: A review ( http://arxiv.org/abs/2403.18637v1 )

ライセンス: Link先を確認
Yalda Zafari-Ghadim, Essam A. Rashed, Mohamed Mabrok, (参考訳) ストロークは依然として重要な世界的な健康上の問題であり、タイムリーな介入と患者の成果を改善するための正確かつ効率的な診断ツールを必要としている。 深層学習の方法論の出現は、医用画像解析の風景を変容させてきた。 近年、自然言語処理用に設計されたTransformersは、医療画像解析を含む様々なコンピュータビジョンアプリケーションに顕著な能力を発揮している。 この総合的なレビューは、ストロークセグメンテーションの文脈で適用された最先端のTransformerベースのアーキテクチャを詳細に調査することを目的としている。 脳卒中病理学、画像モダリティ、正確な診断とセグメンテーションに関わる課題の探求から始まります。 その後、レビューはトランスフォーマーの基本的な考え方を掘り下げ、それらのアーキテクチャの複雑さと、医療画像内の複雑な空間情報を効果的に捉えるためのメカニズムに関する詳細な洞察を提供する。 既存の文献は体系的に分類され分析され、ストロークセグメンテーションにトランスフォーマーを利用する様々なアプローチについて議論されている。 性能や計算効率の考慮を含め、これらの手法の長所と短所を強調した批判的評価が提供される。 さらに, 今後の研究開発への道筋を探る。

Stroke remains a significant global health concern, necessitating precise and efficient diagnostic tools for timely intervention and improved patient outcomes. The emergence of deep learning methodologies has transformed the landscape of medical image analysis. Recently, Transformers, initially designed for natural language processing, have exhibited remarkable capabilities in various computer vision applications, including medical image analysis. This comprehensive review aims to provide an in-depth exploration of the cutting-edge Transformer-based architectures applied in the context of stroke segmentation. It commences with an exploration of stroke pathology, imaging modalities, and the challenges associated with accurate diagnosis and segmentation. Subsequently, the review delves into the fundamental ideas of Transformers, offering detailed insights into their architectural intricacies and the underlying mechanisms that empower them to effectively capture complex spatial information within medical images. The existing literature is systematically categorized and analyzed, discussing various approaches that leverage Transformers for stroke segmentation. A critical assessment is provided, highlighting the strengths and limitations of these methods, including considerations of performance and computational efficiency. Additionally, this review explores potential avenues for future research and development
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# SDSAT:セマンティック適応トークンを用いた投機的復号化によるLCM推論の高速化

SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens ( http://arxiv.org/abs/2403.18647v1 )

ライセンス: Link先を確認
Chengbo Liu, Yong Zhu, (参考訳) 本稿では,SDSAT(Semantic Adaptive Tokens)を用いたSpeculative Decodingを通じて,大規模言語モデル(LLM)の高速化手法を提案する。 この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。 中心となる戦略は以下のとおりである。 1) 構造を変更せずにフレキシブルな復号能力を持つ意味適応トークンを組み込むことにより、モデルを微調整し、高品質なドラフトトークンを生成する。 2)標準トークンに影響を与えないトレーニング手法を用いることで,トレーニングオーバーヘッドを最小限に抑えながら,オリジナルのフレームワーク上で並列復号能力を得ることができる。 3) グリーディ探索と核サンプリングの両方を用いて, 「二段階ドリフト検証」 生成戦略を考案した。 CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。 https://github.com/hasuoshenyun/SDSATを参照してください。

We propose an acceleration scheme for large language models (LLMs) through Speculative Decoding with Semantic Adaptive Tokens (SDSAT). The primary objective of this design is to enhance the LLM model's ability to generate draft tokens more accurately without compromising the model's accuracy. The core strategies involve: 1) Fine-tune the model by incorporating semantic adaptive tokens that possess flexible decoding capabilities without changing its structure, allowing them to generate high-quality draft tokens. 2) By employing a training method that does not affect the standard tokens, the model can acquire parallel decoding abilities atop its original framework with minimal training overhead. 3) We have designed the "two-step-draft-then-verify" generation strategies using both greedy search and nucleus sampling. Experiments conducted on the CodeLlama-13B and 7B models have yielded speed increases of over 3.5X and 3.0X, respectively. Please refer to https://github.com/hasuoshenyun/SDSAT.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# 複数センサにおけるデータアノテーション問題への対処--Scania Collected Datasetの解法

Addressing Data Annotation Challenges in Multiple Sensors: A Solution for Scania Collected Datasets ( http://arxiv.org/abs/2403.18649v1 )

ライセンス: Link先を確認
Ajinkya Khoche, Aron Asefaw, Alejandro Gonzalez, Bogdan Timus, Sina Sharif Mansouri, Patric Jensfelt, (参考訳) 自動運転車のデータアノテーションは、ディープニューラルネットワーク(DNN)ベースのモデルの開発や、知覚システムの性能評価において重要なステップである。 この方式は、光検出・ランドング(LiDAR)や無線検出・ランドング(RADAR)といったアクティブセンサーから取得した、時系列および登録された一連の点集合に3Dバウンディングボックスを追加する形式をとることが多い。 複数のアクティブセンサーをアノテートする場合、ポイントをそれぞれ一貫した座標フレームとタイムスタンプに変換する必要がある。 しかし、非常にダイナミックなオブジェクトは、各センサーのデータに異なるタイムスタンプに現れるため、ユニークな課題となる。 物体の速度がわからなければ、その位置は異なるセンサー出力で異なるように見える。 したがって、運動補償の後にも、非常にダイナミックな物体は同一フレーム内の複数のセンサーと一致せず、人間のアノテータは、全ての物体をキャプチャする独自のバウンディングボックスを追加するのに苦労する。 この記事では、主にScaniaが収集したデータセットのコンテキスト内で、この問題に対処することに焦点を当てます。 提案手法は,アノテートされた物体の軌跡を入力とし,移動水平推定(MHE)を用いてその速度を頑健に推定する。 推定速度プロファイルを用いてアノテートボックスの位置を補正し、元のアノテーションで見逃されたオブジェクトクラスタにボックスを追加する。

Data annotation in autonomous vehicles is a critical step in the development of Deep Neural Network (DNN) based models or the performance evaluation of the perception system. This often takes the form of adding 3D bounding boxes on time-sequential and registered series of point-sets captured from active sensors like Light Detection and Ranging (LiDAR) and Radio Detection and Ranging (RADAR). When annotating multiple active sensors, there is a need to motion compensate and translate the points to a consistent coordinate frame and timestamp respectively. However, highly dynamic objects pose a unique challenge, as they can appear at different timestamps in each sensor's data. Without knowing the speed of the objects, their position appears to be different in different sensor outputs. Thus, even after motion compensation, highly dynamic objects are not matched from multiple sensors in the same frame, and human annotators struggle to add unique bounding boxes that capture all objects. This article focuses on addressing this challenge, primarily within the context of Scania collected datasets. The proposed solution takes a track of an annotated object as input and uses the Moving Horizon Estimation (MHE) to robustly estimate its speed. The estimated speed profile is utilized to correct the position of the annotated box and add boxes to object clusters missed by the original annotation.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# サブスペース制約されたタイラー推定器の理論的保証

Theoretical Guarantees for the Subspace-Constrained Tyler's Estimator ( http://arxiv.org/abs/2403.18658v1 )

ライセンス: Link先を確認
Gilad Lerman, Feng Yu, Teng Zhang, (参考訳) この研究は、データセット内の低次元部分空間の復元のために設計されたサブスペース制約されたタイラー推定器(STE)を分析する。 弱い不リエ・アウトリアモデルを想定し、不リエの分数は、頑健な部分空間回復問題の計算硬度に繋がる分数よりも小さくすることができる。 この設定では、反復アルゴリズムであるSTEの初期化が特定の条件を満たすならば、STEは基礎となる部分空間を効果的に回復することができる。 さらに、一般化された干し草モデルの下では、TylerのM-estimator (TME) によって初期化されたSTEが、TMEが扱えるほど小さすぎる場合、サブスペースを復元できることが示される。

This work analyzes the subspace-constrained Tyler's estimator (STE) designed for recovering a low-dimensional subspace within a dataset that may be highly corrupted with outliers. It assumes a weak inlier-outlier model and allows the fraction of inliers to be smaller than a fraction that leads to computational hardness of the robust subspace recovery problem. It shows that in this setting, if the initialization of STE, which is an iterative algorithm, satisfies a certain condition, then STE can effectively recover the underlying subspace. It further shows that under the generalized haystack model, STE initialized by the Tyler's M-estimator (TME), can recover the subspace when the fraction of iniliers is too small for TME to handle.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# INEXA: オブジェクト中心のプロセスマイニングによるインタラクティブで説明可能なプロセスモデル抽象化

INEXA: Interactive and Explainable Process Model Abstraction Through Object-Centric Process Mining ( http://arxiv.org/abs/2403.18659v1 )

ライセンス: Link先を確認
Janik-Vasily Benzin, Gyunam Park, Juergen Mangler, Stefanie Rinderle-Ma, (参考訳) プロセスイベントは、異なる粒度レベルで複数の情報システムによって記録される。 結果のイベントログに基づいて、プロセスモデルもさまざまな粒度レベルで検出される。 例えば、きめ細かい粒度レベルで格納されたイベントは、結果として生じるモデル要素の数が多いため、発見されたプロセスモデルを表示するのを妨げる可能性がある。 例えば、現実世界の製造プロセスのプロセスモデルは、1,489のモデル要素と2,000以上のアークから構成される。 既存のプロセスモデル抽象化技術は、モデルのサイズを減らすのに役立ちますが、基盤となるイベントログから切り離すことができます。 既存のイベント抽象化技術は、混合粒度レベルの分析や、適切な粒度レベルの対話的な探索をサポートしない。 異なる粒度レベルで発見されたプロセスモデルの探索を可能にするために,イベントログへのリンクを保持するインタラクティブで説明可能なプロセスモデル抽象化手法であるINEXAを提案する。 出発点として、INEXAは58のモデル要素を持つプロセスモデルに対して、大きなプロセスモデルを「表示可能な」サイズに集約する。 次に、プロセスアナリストは粒度レベルをインタラクティブに調査し、適用される抽象化は、説明可能性のためにイベントログに自動的にトレースされる。

Process events are recorded by multiple information systems at different granularity levels. Based on the resulting event logs, process models are discovered at different granularity levels, as well. Events stored at a fine-grained granularity level, for example, may hinder the discovered process model to be displayed due the high number of resulting model elements. The discovered process model of a real-world manufacturing process, for example, consists of 1,489 model elements and over 2,000 arcs. Existing process model abstraction techniques could help reducing the size of the model, but would disconnect it from the underlying event log. Existing event abstraction techniques do neither support the analysis of mixed granularity levels, nor interactive exploration of a suitable granularity level. To enable the exploration of discovered process models at different granularity levels, we propose INEXA, an interactive, explainable process model abstraction method that keeps the link to the event log. As a starting point, INEXA aggregates large process models to a "displayable" size, e.g., for the manufacturing use case to a process model with 58 model elements. Then, the process analyst can explore granularity levels interactively, while applied abstractions are automatically traced in the event log for explainability.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# InstructBrush: 画像編集のための意図に基づくインストラクション最適化

InstructBrush: Learning Attention-based Instruction Optimization for Image Editing ( http://arxiv.org/abs/2403.18660v1 )

ライセンス: Link先を確認
Ruoyu Zhao, Qingnan Fan, Fei Kou, Shuai Qin, Hong Gu, Wei Wu, Pengcheng Xu, Mingrui Zhu, Nannan Wang, Xinbo Gao, (参考訳) 近年,画像編集において,命令ベースの画像編集手法が注目されている。 しかし,これらの手法は,様々な編集先を包含しているにも関わらず,言語を通して正確に記述することが困難な編集作業には役に立たない。 本稿では,このギャップを埋める命令ベースの画像編集手法であるInstructBrushを提案する。 既存の画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。 InstructBrush, Attention-based Instruction Optimization と Transformation-oriented Instruction Initialization の2つの重要な技術が導入された。 オープンなシナリオで画像編集を指導するインバージョン手法を探索するため,豊富なシーンと編集タイプを含む変換指向ペアドベンチマーク(TOP-Bench)を構築した。 このベンチマークの作成は、命令逆転のさらなる探索の道を開く。 定量的かつ質的に,本手法は編集性能に優れ,目的の編集効果とセマンティックに一致している。

In recent years, instruction-based image editing methods have garnered significant attention in image editing. However, despite encompassing a wide range of editing priors, these methods are helpless when handling editing tasks that are challenging to accurately describe through language. We propose InstructBrush, an inversion method for instruction-based image editing methods to bridge this gap. It extracts editing effects from exemplar image pairs as editing instructions, which are further applied for image editing. Two key techniques are introduced into InstructBrush, Attention-based Instruction Optimization and Transformation-oriented Instruction Initialization, to address the limitations of the previous method in terms of inversion effects and instruction generalization. To explore the ability of instruction inversion methods to guide image editing in open scenarios, we establish a TransformationOriented Paired Benchmark (TOP-Bench), which contains a rich set of scenes and editing types. The creation of this benchmark paves the way for further exploration of instruction inversion. Quantitatively and qualitatively, our approach achieves superior performance in editing and is more semantically consistent with the target editing effects.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# 量子生成学習のベンチマーク:quRKを用いた拡張性と耐雑音性の検討

Benchmarking Quantum Generative Learning: A Study on Scalability and Noise Resilience using QUARK ( http://arxiv.org/abs/2403.18662v1 )

ライセンス: Link先を確認
Florian J. Kiwit, Maximilian A. Wolf, Marwa Marso, Philipp Ross, Jeanette M. Lorenz, Carlos A. Riofrío, Andre Luckow, (参考訳) 量子コンピューティングは、指数関数的に大きなヒルベルト空間を生かして、機械学習アルゴリズムに破壊的な影響を約束する。 しかし、量子機械学習(QML)を産業レベルのアプリケーションにスケールする方法は明らかになっていない。 本稿では,量子生成学習アプリケーションのスケーラビリティと耐雑音性について検討する。 有限ショットノイズ統計と量子ノイズによる統計的ノイズの存在下でのトレーニング性能について検討し,QML法のスケーラビリティを解析するためにデコヒーレンスによるトレーニング性能について検討した。 我々は、QMLアルゴリズムのスケーリングにおける進歩の追跡と課題の特定に厳密なベンチマーク手法を採用し、QMLシステムのキャラクタリゼーションがどのように加速され、単純化され、QUIRKフレームワークを使用する場合に再現可能であるかを示す。 その結果,QGANはQCBMほど次元の呪いの影響を受けず,QCBMはノイズに対してどの程度耐性があるかがわかる。

Quantum computing promises a disruptive impact on machine learning algorithms, taking advantage of the exponentially large Hilbert space available. However, it is not clear how to scale quantum machine learning (QML) to industrial-level applications. This paper investigates the scalability and noise resilience of quantum generative learning applications. We consider the training performance in the presence of statistical noise due to finite-shot noise statistics and quantum noise due to decoherence to analyze the scalability of QML methods. We employ rigorous benchmarking techniques to track progress and identify challenges in scaling QML algorithms, and show how characterization of QML systems can be accelerated, simplified, and made reproducible when the QUARK framework is used. We show that QGANs are not as affected by the curse of dimensionality as QCBMs and to which extent QCBMs are resilient to noise.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# ニューラルネットワークに基づくPiecewiseサバイバルモデル

Neural Network-Based Piecewise Survival Models ( http://arxiv.org/abs/2403.18664v1 )

ライセンス: Link先を確認
Olov Holmer, Erik Frisk, Mattias Krysander, (参考訳) 本稿では,ニューラルネットワークを用いた生存モデルの一群について述べる。 モデルは、時間分割におけるハザード関数と密度関数の断片的定義に基づいて指定され、定数と線形の断片的定義の両方が提示され、4つのモデルの族となる。 これらのモデルは、よく使われる離散時間および離散指数モデルの拡張と見なすことができ、そのため、この標準モデルの集合に柔軟性を加えることができる。 シミュレーションデータセットを使用することで、計算時間のごく一部しか必要とせず、非常に表現力が高く、最先端のエネルギーベースモデルと比較すると、モデルの性能がよいことが示される。

In this paper, a family of neural network-based survival models is presented. The models are specified based on piecewise definitions of the hazard function and the density function on a partitioning of the time; both constant and linear piecewise definitions are presented, resulting in a family of four models. The models can be seen as an extension of the commonly used discrete-time and piecewise exponential models and thereby add flexibility to this set of standard models. Using a simulated dataset the models are shown to perform well compared to the highly expressive, state-of-the-art energy-based model, while only requiring a fraction of the computation time.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# コンテンツレコメンデーションの改善:多様性とコールドスタートユーザのための知識グラフに基づくセマンティックコントラスト学習

Improving Content Recommendation: Knowledge Graph-Based Semantic Contrastive Learning for Diversity and Cold-Start Users ( http://arxiv.org/abs/2403.18667v1 )

ライセンス: Link先を確認
Yejin Kim, Scott Rome, Kevin Foley, Mayur Nankani, Rimon Melamed, Javier Morales, Abhay Yadav, Maria Peifer, Sardar Hamidian, H. Howie Huang, (参考訳) データスパーシリティ、コールドスタート問題、レコメンデーションシステムの多様性に関連する課題に対処することは、極めて重要かつ必要である。 多くの現在のソリューションは、アイテムベースとユーザイテムの協調的なシグナルを組み合わせることで、これらの問題に対処するために知識グラフを活用している。 このアプローチの一般的なトレンドは、モデルの複雑さをエスカレートし、多様性を減らし、タスクを複雑化するコストで、ランキングパフォーマンスを改善することである。 クリックスルー率やリコールなど、高いランクベースのパフォーマンスを達成することのみに頼るのではなく、パーソナライズされ、多様なレコメンデーションを提供することが不可欠です。 本稿では,マルチタスク学習のハイブリッド手法を提案する。 項目メタデータに基づいた正と負のペアをサンプリングし、項目ベースのコントラスト学習を記述テキストに適用する。 我々のアプローチは、テキストからの意味情報を活用することにより、知識グラフ内のエンティティ間の関係をよりよく理解することを可能にする。 これにより、より正確で、関連性があり、多様なユーザーレコメンデーションが得られ、アイテムとのインタラクションがほとんどないコールドスタートユーザーにも利益をもたらす。 提案手法の有効性を検証するために,広く利用されている2つのデータセットについて広範な実験を行った。 本研究は, ユーザ・イテム相互作用と項目ベース信号の協調学習が, 極めて効果的であることを示すものである。 さらに,項目ベースのコントラスト学習が,一様性やアライメントといった指標によって示されるように,エンティティの埋め込みの質を高めることを示す。

Addressing the challenges related to data sparsity, cold-start problems, and diversity in recommendation systems is both crucial and demanding. Many current solutions leverage knowledge graphs to tackle these issues by combining both item-based and user-item collaborative signals. A common trend in these approaches focuses on improving ranking performance at the cost of escalating model complexity, reducing diversity, and complicating the task. It is essential to provide recommendations that are both personalized and diverse, rather than solely relying on achieving high rank-based performance, such as Click-through Rate, Recall, etc. In this paper, we propose a hybrid multi-task learning approach, training on user-item and item-item interactions. We apply item-based contrastive learning on descriptive text, sampling positive and negative pairs based on item metadata. Our approach allows the model to better understand the relationships between entities within the knowledge graph by utilizing semantic information from text. It leads to more accurate, relevant, and diverse user recommendations and a benefit that extends even to cold-start users who have few interactions with items. We perform extensive experiments on two widely used datasets to validate the effectiveness of our approach. Our findings demonstrate that jointly training user-item interactions and item-based signals using synopsis text is highly effective. Furthermore, our results provide evidence that item-based contrastive learning enhances the quality of entity embeddings, as indicated by metrics such as uniformity and alignment.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# 関連性を目指して

Aiming for Relevance ( http://arxiv.org/abs/2403.18668v1 )

ライセンス: Link先を確認
Bar Eini Porat, Danny Eytan, Uri Shalit, (参考訳) 生体標識は集中治療単位(ICU)において重要である。 患者の状態を追跡し、臨床的に重要な変化を特定するために使用される。 有害事象を早期に検出するためには, バイタルサイン軌跡の予測が重要である。 しかし、RMSEのような従来の機械学習のメトリクスは、そのような予測の真の臨床的関連性を捉えるのに失敗することが多い。 本稿では,臨床基準からの逸脱,全体的な傾向,傾向の逸脱に焦点をあて,臨床状況と整合した新たなバイタルサイン予測性能指標を提案する。 これらの指標は、ICU臨床医へのインタビューを通じて得られた経験的効用曲線から得られたものである。 シミュレーションおよび実際の臨床データセット(MIMIC, eICU)を用いて測定値の有用性を検証する。 さらに,これらの指標をニューラルネットワークの損失関数として用いて,臨床的に重要な事象を予測できるモデルを構築した。 本研究は、ICU患者ケアを改善することを約束する、臨床的に関連する機械学習モデルの評価と最適化の道を開くものである。 10ページ、9枚。

Vital signs are crucial in intensive care units (ICUs). They are used to track the patient's state and to identify clinically significant changes. Predicting vital sign trajectories is valuable for early detection of adverse events. However, conventional machine learning metrics like RMSE often fail to capture the true clinical relevance of such predictions. We introduce novel vital sign prediction performance metrics that align with clinical contexts, focusing on deviations from clinical norms, overall trends, and trend deviations. These metrics are derived from empirical utility curves obtained in a previous study through interviews with ICU clinicians. We validate the metrics' usefulness using simulated and real clinical datasets (MIMIC and eICU). Furthermore, we employ these metrics as loss functions for neural networks, resulting in models that excel in predicting clinically significant events. This research paves the way for clinically relevant machine learning model evaluation and optimization, promising to improve ICU patient care. 10 pages, 9 figures.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# Fact Checking Beyond Training Set

Fact Checking Beyond Training Set ( http://arxiv.org/abs/2403.18671v1 )

ライセンス: Link先を確認
Payam Karisani, Heng Ji, (参考訳) 日常的なクレームの正確性を評価するのに時間がかかり、場合によってはドメインの専門知識が必要になる。 我々は、レトリバーリーダーとして知られる一般的な事実チェックパイプラインが、あるドメインからラベル付きデータに基づいてトレーニングされ、別のドメインで使用される際に、性能劣化に悩まされていることを実証的に実証した。 その後、パイプラインの各コンポーネントを探索し、この問題に対処するための新しいアルゴリズムを提案する。 本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。 私たちの中核となる考え方は、まずラベル付けされたソースデータにバイエンコーダをトレーニングし、次にラベル付けされていないターゲットデータを使用して2つの別々のドキュメントとクレームエンコーダを敵対的にトレーニングすることです。 次に、読者コンポーネントに集中して、クレームや証拠文書の順序に敏感であるようにトレーニングすることを提案する。 我々の経験的評価は、そのような読者は分布シフトに対して高いロバスト性を示すという仮説を支持する。 我々の知る限り、マルチトピックの事実チェックデータセットは公開されていない。 そこで本研究では,2つのよく知られた事実チェックデータセットを再利用するための簡易な自動手法を提案する。 次に、これらのデータセットから8つの事実チェックシナリオを構築し、GPT4を使用して合成データを生成する最近のドメイン適応モデルを含む、強力なベースラインモデルと比較する。

Evaluating the veracity of everyday claims is time consuming and in some cases requires domain expertise. We empirically demonstrate that the commonly used fact checking pipeline, known as the retriever-reader, suffers from performance deterioration when it is trained on the labeled data from one domain and used in another domain. Afterwards, we delve into each component of the pipeline and propose novel algorithms to address this problem. We propose an adversarial algorithm to make the retriever component robust against distribution shift. Our core idea is to initially train a bi-encoder on the labeled source data, and then, to adversarially train two separate document and claim encoders using unlabeled target data. We then focus on the reader component and propose to train it such that it is insensitive towards the order of claims and evidence documents. Our empirical evaluations support the hypothesis that such a reader shows a higher robustness against distribution shift. To our knowledge, there is no publicly available multi-topic fact checking dataset. Thus, we propose a simple automatic method to re-purpose two well-known fact checking datasets. We then construct eight fact checking scenarios from these datasets, and compare our model to a set of strong baseline models, including recent domain adaptation models that use GPT4 for generating synthetic data.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# コンピュータビジョンにおけるロバストで説明可能なモデルの深層学習

Deep Learning for Robust and Explainable Models in Computer Vision ( http://arxiv.org/abs/2403.18674v1 )

ライセンス: Link先を確認
Mohammadreza Amirian, (参考訳) 最近の機械学習とディープラーニング(MLとDL)の研究は、膨大な量のデータを活用する優れたツールを提供し、数百万のパラメータで巨大なモデルを最適化し、画像処理のための正確なネットワークを得る。 これらの開発は、自動化と人的支援AI産業で人工知能(AI)を使用する大きな機会を開く。 しかし、多くのモデルがデプロイされ、実際に使用されるようになり、多くの課題が生まれました。 この論文は、MLとDLを実際に使用する際の堅牢性と説明可能性の問題に対処する様々なアプローチを提示している。 信頼性とロバスト性は、認証とデプロイが実際に実施される前に、あらゆるモデルの重要なコンポーネントである。 深層畳み込みニューラルネットワーク(CNN)は、敵攻撃の文献に記述されているように、回転やスケーリング、意図的な操作などの入力の変換に対する脆弱性を示す。 さらに、AIベースのモデルに対する信頼を構築するには、現在のモデルをより深く理解し、より説明しやすく、事前解釈可能な方法を開発する必要がある。 この論文は、コンピュータビジョンモデルの堅牢性と説明可能性の発展を示す。 さらに、この論文は、視覚モデルの特徴応答可視化(モデルの解釈)を用いて、解釈可能性や頑健性は関係のないように見えるが、ロバスト性を改善する一例を提供する。 堅牢で説明可能な視覚モデルのための方法論開発に加えて、この論文の重要なメッセージは、視覚モデルを理解し、その設計と堅牢性を改善するツールとしてモデル解釈技術を導入することである。 理論的発展に加えて、この論文は医療画像や感情計算など、さまざまな文脈におけるMLとDLのいくつかの応用を実証している。

Recent breakthroughs in machine and deep learning (ML and DL) research have provided excellent tools for leveraging enormous amounts of data and optimizing huge models with millions of parameters to obtain accurate networks for image processing. These developments open up tremendous opportunities for using artificial intelligence (AI) in the automation and human assisted AI industry. However, as more and more models are deployed and used in practice, many challenges have emerged. This thesis presents various approaches that address robustness and explainability challenges for using ML and DL in practice. Robustness and reliability are the critical components of any model before certification and deployment in practice. Deep convolutional neural networks (CNNs) exhibit vulnerability to transformations of their inputs, such as rotation and scaling, or intentional manipulations as described in the adversarial attack literature. In addition, building trust in AI-based models requires a better understanding of current models and developing methods that are more explainable and interpretable a priori. This thesis presents developments in computer vision models' robustness and explainability. Furthermore, this thesis offers an example of using vision models' feature response visualization (models' interpretations) to improve robustness despite interpretability and robustness being seemingly unrelated in the related research. Besides methodological developments for robust and explainable vision models, a key message of this thesis is introducing model interpretation techniques as a tool for understanding vision models and improving their design and robustness. In addition to the theoretical developments, this thesis demonstrates several applications of ML and DL in different contexts, such as medical imaging and affective computing.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# 超高速共振吸収におけるモロー様三重項

Mollow-like triplets in ultra-fast resonant absorption ( http://arxiv.org/abs/2403.18676v1 )

ライセンス: Link先を確認
Axel Stenquist, Felipe Zapata, Edvin Olofsson, Yijie Liao, Elna Sveborg, Jakob Nicolai Bruhnke, Claudio Verdozzi, Jan Marcus Dahlström, (参考訳) 滑らかなレーザー場の共振吸収により, モロー状三重項パターンが得られることを示す。 このような三重項の一般的な条件は、超ガウスパルスシーケンスによって導出され、図示される。 ガウスパルスは三重項を示すことができず、超ガウスパルスはパルス領域によって三重項を形成することができ、フラットトップパルスは1回のラビサイクル後に三重項を吸収することができる。 本研究の結果は, 可観測物質と異なる類似点と相違点を強調するために, 共振蛍光と並べて比較した。 高強度限界では、中心吸収ピークが非対称であることを示し、これは2レベル原子物理学を超えた非線形光電離によるものである。

We show that resonant absorption of smooth laser fields can yield Mollow-like triplet patterns. General conditions for such triplets are derived and illustrated with a super-Gaussian pulse sequence. Gaussian pulses can not exhibit triplets, super-Gaussian pulses can form triplets depending on the pulse area and flat-top pulses can produce absorption triplets after one Rabi cycle. Our results are compared side-by-side with resonance fluorescence to emphasize similarities and differences between these unlike observables. In the high-intensity limit, we show that the central absorption peak is asymmetric, which we attribute to non-linear photoionization, beyond two-level atomic physics.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# ジスプロシウムボース-アインシュタイン凝縮体の青色反発電位

A blue repulsive potential for dysprosium Bose-Einstein condensates ( http://arxiv.org/abs/2403.18677v1 )

ライセンス: Link先を確認
Niccolò Preti, Nicolò Antolini, Giulio Biagioni, Andrea Fioretti, Giovanni Modugno, Luca Tanzi, Carlo Gabbanini, (参考訳) 量子気体の短波長反発電位は、新しい系を実現し、新しい現象を研究することができる。 ここでは、400nm付近の波長で、スペクトルの青色領域におけるジスプロシウム原子の反発光ポテンシャルの実現について報告する。 我々は、スペクトルフィルタダイオードレーザーシステムを用いて、ジスプロシウムの偏光率のスカラー成分とテンソル成分の両方を測定する。 ボース=アインシュタイン凝縮体を操作するのに適したポテンシャル強度の実装について, 散乱寿命が1秒を超えることを実証する。 このタイプの光学ポテンシャルは双極子超流動と超固体の研究の興味深い方向を開く。

Short-wavelength repulsive potentials for quantum gases allow to realize new systems and to study new phenomena. Here we report the realization of repulsive optical potentials for dysprosium atoms in the blue region of the spectrum, at wavelengths close to 400 nm. We employ a spectrallyfiltered diode laser system to measure both scalar and tensorial components of the polarizability of dysprosium, which we find in good agreement with the theoretical predictions. We demonstrate the implementation of potential strengths appropriate to manipulate Bose-Einstein condensates, with scattering-limited lifetimes exceeding one second. This type of optical potentials opens interesting directions for the study of dipolar superfluids and supersolids.
翻訳日:2024-03-28 16:29:03 公開日:2024-03-27
# 学期中等教育における大規模言語モデルの活用に関する調査研究

An Exploratory Study on Upper-Level Computing Students' Use of Large Language Models as Tools in a Semester-Long Project ( http://arxiv.org/abs/2403.18679v1 )

ライセンス: Link先を確認
Ben Arie Tanay, Lexy Arinze, Siddhant S. Joshi, Kirsten A. Davis, James C. Davis, (参考訳) 背景: ChatGPT や CoPilot のような大規模言語モデル (LLM) がソフトウェア工学の実践に影響を与える。 ソフトウェアエンジニアリング教育者は、将来のソフトウェアエンジニアにそのようなツールの使い方を教える必要がある。 現在,教室でのLSMの使用について報告する研究は少ない。 したがって、LLMに対する学生の認識と、これらのシフトするパラダイムにコンピュータカリキュラムを適応させる可能性を評価することが重要である。 目的: 本研究の目的は, 学期間ソフトウェアエンジニアリングプロジェクトにおいて, LLMの使用経験とアプローチを検討することである。 Design/Method: プルデュー大学の上級ソフトウェア工学コースからデータを収集しました。 このコースはプロジェクトベースラーニング(PBL)設計を使用する。 学生たちはプロジェクトにおいてChatGPTやCopilotといったLLMを使用した。 これらの学生チームのサンプルをインタビューし,(1)プロジェクトにおいてLLMをどのように利用したか,(2)学期を通じてLLMに対する視点がどう変化したのかを調べた。 本研究では,学生の利用パターンや学習成果に関連するテーマを特定するために,データを分析した。 results/Discussion: 学生がプロジェクト内でLLMを利用する場合、そのユースケースは技術と専門のアプリケーションの両方をカバーする。 さらに,これらの学生は,LLMが情報収集やタスク完了に有効なツールであると認識している。 しかし,LLMの責任は,学習成果に損なわれることなく利用されることが懸念された。 本研究は,LLMを学習の成果を損なうことなく学習支援として組み込むことができるかを理解するために,低レベルのコンピュータ工学コースにおけるLLMの使用状況について,今後の研究を推奨するものである。

Background: Large Language Models (LLMs) such as ChatGPT and CoPilot are influencing software engineering practice. Software engineering educators must teach future software engineers how to use such tools well. As of yet, there have been few studies that report on the use of LLMs in the classroom. It is, therefore, important to evaluate students' perception of LLMs and possible ways of adapting the computing curriculum to these shifting paradigms. Purpose: The purpose of this study is to explore computing students' experiences and approaches to using LLMs during a semester-long software engineering project. Design/Method: We collected data from a senior-level software engineering course at Purdue University. This course uses a project-based learning (PBL) design. The students used LLMs such as ChatGPT and Copilot in their projects. A sample of these student teams were interviewed to understand (1) how they used LLMs in their projects; and (2) whether and how their perspectives on LLMs changed over the course of the semester. We analyzed the data to identify themes related to students' usage patterns and learning outcomes. Results/Discussion: When computing students utilize LLMs within a project, their use cases cover both technical and professional applications. In addition, these students perceive LLMs to be efficient tools in obtaining information and completion of tasks. However, there were concerns about the responsible use of LLMs without being detrimental to their own learning outcomes. Based on our findings, we recommend future research to investigate the usage of LLM's in lower-level computer engineering courses to understand whether and how LLMs can be integrated as a learning aid without hurting the learning outcomes.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# NL-ITI: ITI法の改良のための探索と介入の最適化

NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method ( http://arxiv.org/abs/2403.18680v1 )

ライセンス: Link先を確認
Jakub Hoscilowicz, Adam Wiacek, Jan Chojnacki, Adam Cieslak, Leszek Michon, Vitalii Urbanevych, Artur Janicki, (参考訳) 大型言語モデル(LLM)は偽情報を返す傾向がある。 これはAI分野における大きな課題の1つだ。 本稿では,ITI(Inference-Time-Intervention)のパラダイムについて検討する。 第一段階では、最も望ましい種類の知識(例えば、真実)を含む注意頭を特定する。 その後、推定中に、選択された注目ヘッドのサブセットに対してLSMアクティベーションをシフトする。 非線形探索と多点干渉(Non-Linear ITI, NL-ITI)を導入することにより, ITIフレームワークをさらに改善した。 NL-ITIはTruthfulQAを含む多種多様なマルチチョイスベンチマークでテストされ、ベースラインITIの結果に対して約14%のMC1メートル法の改善が報告されている。 NL-ITIは、MMLUのビジネス倫理サブドメインにおいて、ベースラインのLLaMA2-7Bよりも約18%のMC1の改善という、他のテストセットの奨励的な結果も達成している。 さらに、NL-ITIはLLMの挙動(Kulback-Leiblerの発散によって測定されるように)の侵襲性を低下させながら、より優れた性能を発揮する。

Large Language Models (LLM) are prone to returning false information. It constitutes one of major challenges in the AI field. In our work, we explore paradigm introduced by Inference-Time-Intervention (ITI). In first stage, it identifies attention heads, which contain the highest amount of desired type of knowledge (e.g., truthful). Afterwards, during inference, LLM activations are shifted for chosen subset of attention heads. We further improved the ITI framework by introducing a nonlinear probing and multi-token intervention - Non-Linear ITI (NL-ITI). NL-ITI is tested on diverse multiple-choice benchmarks, including TruthfulQA, on which we report around 14% MC1 metric improvement with respect to the baseline ITI results. NL-ITI achieves also encouraging results on other testsets - on Business Ethics subdomain of MMLU, around 18% MC1 improvement over baseline LLaMA2-7B. Additionally, NL-ITI performs better while being less invasive in the behavior of LLM at the same time (as measured by Kullback-Leibler divergence).
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# TransFusion: トランスフォーマーによるコントラスト学習

TransFusion: Contrastive Learning with Transformers ( http://arxiv.org/abs/2403.18681v1 )

ライセンス: Link先を確認
Huanran Li, Daniel Pimentel-Alarcón, (参考訳) 本稿では,コントラスト学習のプロセスをより分析的で説明しやすいものにするための新しいフレームワークであるTransFusionを提案する。 TransFusionはアテンションブロックで構成されており、そのソフトマックスはReLUに置き換えられ、最終的なブロックの重み付け操作は、アジャケーシ行列を出力として残すために切り離される。 このモデルは、Jensen-Shannonの出力とターゲット親和性行列の最小化によって訓練され、各サンプルのペアが同一または異なるクラスに属しているかどうかを示す。 TransFusionの主な貢献は、データ拡張の最大レベルと効果的なコントラスト学習に必要な最小バッチサイズという、2つの基本的な質問に答えるための理論的限界を定義することである。 さらに実験結果から,TransFusionは複雑な実世界のデータからクラスタを分離する機能をうまく抽出し,下流タスクの分類精度を向上させることが示唆された。

This paper proposes a novel framework, TransFusion, designed to make the process of contrastive learning more analytical and explainable. TransFusion consists of attention blocks whose softmax being replaced by ReLU, and its final block's weighted-sum operation is truncated to leave the adjacency matrix as the output. The model is trained by minimizing the Jensen-Shannon Divergence between its output and the target affinity matrix, which indicates whether each pair of samples belongs to the same or different classes. The main contribution of TransFusion lies in defining a theoretical limit for answering two fundamental questions in the field: the maximum level of data augmentation and the minimum batch size required for effective contrastive learning. Furthermore, experimental results indicate that TransFusion successfully extracts features that isolate clusters from complex real-world data, leading to improved classification accuracy in downstream tasks.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# 2次元双極性ボースガス中のベレジンスキー-コステリッツ-チューレス遷移の探索

Exploring the Berezinskii-Kosterlitz-Thouless Transition in a Two-dimensional Dipolar Bose Gas ( http://arxiv.org/abs/2403.18683v1 )

ライセンス: Link先を確認
Yifei He, Ziting Chen, Haoting Zhen, Mingchen Huang, Mithilesh K Parit, Gyu-Boong Jo, (参考訳) 長距離および異方性双極子相互作用は量子系において複素位を誘導する。 特に2次元 (2D) では、準長距離秩序を持つ超流動がベレジンスキー-コステリッツ-トゥーレス機構 (BKT) を介して現れる。 ここでは、エルビウム原子の準2次元双極性ボースガスにおいて、通常の気体から超流動相へのBKT遷移を観察する。 双極子の向きを制御し、拡張コヒーレンスを監視し、状態方程式を測定することによって遷移点を特徴づける。 これにより、2次元における双極子相互作用の効果的な短距離記述に基づいて、BKT遷移の体系的な理解を得ることができる。 さらに、2次元超流体の双極性を確立する超流動状態における異方性密度変動と非局所効果を観察する。 その結果, 双極子粒子の挙動を2次元で理解し, 双極子超流動層における複雑な秩序を調べる機会が開けた。

Long-range and anisotropic dipolar interactions induce complex order in quantum systems. It becomes particularly interesting in two-dimension (2D), where the superfluidity with quasi-long-range order emerges via Berezinskii-Kosterlitz-Thouless (BKT) mechanism, which still remains elusive with dipolar interactions. Here, we observe the BKT transition from a normal gas to the superfluid phase in a quasi-2D dipolar Bose gas of erbium atoms. Controlling the orientation of dipoles, we characterize the transition point by monitoring extended coherence and measuring the equation of state. This allows us to gain a systematic understanding of the BKT transition based on an effective short-range description of dipolar interaction in 2D. Additionally, we observe anisotropic density fluctuations and non-local effects in the superfluid regime, which establishes the dipolar nature of the 2D superfluid. Our results lay the ground for understanding the behavior of dipolar bosons in 2D and open up opportunities for examining complex orders in a dipolar superfluid.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# Dense Retrievalのためのスケーリング法則

Scaling Laws For Dense Retrieval ( http://arxiv.org/abs/2403.18684v1 )

ライセンス: Link先を確認
Yan Fang, Jingtao Zhan, Qingyao Ai, Jiaxin Mao, Weihang Su, Jia Chen, Yiqun Liu, (参考訳) ニューラルネットワークのスケールアップは、特に言語生成において、幅広いタスクにおいて大きな進歩をもたらした。 従来の研究では、ニューラルネットワークの性能は予測可能なスケーリング法則によく準拠し、トレーニングセットのサイズやモデルサイズなどの要因と相関していた。 この洞察は、特に大規模な実験が資源集約化の度合いを増すにつれて、貴重である。 しかし、このようなスケーリング法則は、検索指標の離散的性質と、検索タスクにおけるトレーニングデータとモデルサイズの間の複雑な関係により、厳密な検索において完全には研究されていない。 本研究では,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを検討する。 そこで本研究では,異なるパラメータで実装し,異なる量の注釈付きデータで訓練した高密度検索モデルを用いて,比較対数類似度を評価指標として使用し,広範な実験を行うことを提案する。 その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。 さらに、アノテーションの品質への影響を評価するために、一般的なデータ拡張手法によるスケーリングについて検討し、予算制約の下で最適なリソース配分戦略を見つけるために、スケーリング法を適用した。 これらの知見は,高密度検索モデルのスケーリング効果の理解に大きく貢献し,今後の研究に有意義なガイダンスを提供すると考えられる。

Scaling up neural models has yielded significant advancements in a wide array of tasks, particularly in language generation. Previous studies have found that the performance of neural models frequently adheres to predictable scaling laws, correlated with factors such as training set size and model size. This insight is invaluable, especially as large-scale experiments grow increasingly resource-intensive. Yet, such scaling law has not been fully explored in dense retrieval due to the discrete nature of retrieval metrics and complex relationships between training data and model sizes in retrieval tasks. In this study, we investigate whether the performance of dense retrieval models follows the scaling law as other neural models. We propose to use contrastive log-likelihood as the evaluation metric and conduct extensive experiments with dense retrieval models implemented with different numbers of parameters and trained with different amounts of annotated data. Results indicate that, under our settings, the performance of dense retrieval models follows a precise power-law scaling related to the model size and the number of annotations. Additionally, we examine scaling with prevalent data augmentation methods to assess the impact of annotation quality, and apply the scaling law to find the best resource allocation strategy under a budget constraint. We believe that these insights will significantly contribute to understanding the scaling effect of dense retrieval models and offer meaningful guidance for future research endeavors.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# Atributos における多品種多種多種多種間共生の表現

Representatividad Muestral en la Incertidumbre Simétrica Multivariada para la Selección de Atributos ( http://arxiv.org/abs/2403.18685v1 )

ライセンス: Link先を確認
Gustavo Sosa-Cabrera, (参考訳) 本研究では,多変量対称不確実性(MSU)測定の振る舞いを,情報的および非情報的ランダムな特徴の混合による統計的シミュレーション手法を用いて解析する。 実験では、属性の数、濃度、サンプルサイズがMSUにどのように影響するかが示されている。 本論では, 結果の観察を通じて, これらの3つの要因の異なる組み合わせで, MSUの良好な品質を保ったヒューリスティックな条件を提案し, 次元減少の過程を推し進めるための新しい有用な基準を提供する。 t'ecnicas de simulaci\'on estad\'isticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. t'ecnicas de simulaci\'on estad\'isticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria。 MSU como medida, sus cardinalidades y el tama\~no muestral afectan al MSU como medida。 Esta tesis, centralte la observaci\'on de resultados hemos propuesto una condici\'on que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducci\'on de dimensionalidad。

In this work, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. In this thesis, through observation of results, it is proposed an heuristic condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction. -- En el presente trabajo hemos analizado el comportamiento de una versi\'on multivariada de la incertidumbre sim\'etrica a trav\'es de t\'ecnicas de simulaci\'on estad\'isticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. Los experimentos muestran como el n\'umero de atributos, sus cardinalidades y el tama\~no muestral afectan al MSU como medida. En esta tesis, mediante la observaci\'on de resultados hemos propuesto una condici\'on que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducci\'on de dimensionalidad.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# InceptionTime vs. Wavelet -- 時系列分類の比較

InceptionTime vs. Wavelet -- A comparison for time series classification ( http://arxiv.org/abs/2403.18687v1 )

ライセンス: Link先を確認
Daniel Klenkert, Daniel Schaeffer, Julian Stauch, (参考訳) ニューラルネットワークは、赤外線データの分類に使われた。 2つの異なるアプローチが比較された。 ひとつは、InceptionTimeネットワークのカスタム実装を使用して、時系列データの直接的な分類に基づいている。 他の手法では、信号のウェーブレット変換の2次元画像を生成し、その後ResNetの実装を用いて分類した。 適切なハイパーパラメータ設定を選択することで、90%以上の分類精度が得られ、直接アプローチは95.2パーセントに達する。

Neural networks were used to classify infrasound data. Two different approaches were compared. One based on the direct classification of time series data, using a custom implementation of the InceptionTime network. For the other approach, we generated 2D images of the wavelet transformation of the signals, which were subsequently classified using a ResNet implementation. Choosing appropriate hyperparameter settings, both achieve a classification accuracy of above 90 %, with the direct approach reaching 95.2 %.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# Annolid: 必要なものはすべてアノテーション、セグメンテーション、追跡

Annolid: Annotate, Segment, and Track Anything You Need ( http://arxiv.org/abs/2403.18690v1 )

ライセンス: Link先を確認
Chen Yang, Thomas A. Cleland, (参考訳) Annolidは、ビデオファイル内の研究対象のセグメンテーション、ラベル付け、追跡のために設計されたディープラーニングベースのソフトウェアパッケージで、主に動物の行動分析に焦点を当てている。 最先端のインスタンスセグメンテーション法に基づいて、AnnolidはCutieビデオオブジェクトセグメンテーションモデルを利用して、1つのアノテートされたフレームから複数の動物を回復力のあるマーカーなしで追跡する。 Segment Anything と Grounding-DINO の戦略を統合することで、認識可能な動物や物体のテキストコマンドによる自動マスキングとセグメンテーションが可能になり、手作業によるアノテーションの必要がなくなる。 オブジェクトセグメンテーションに対するAnnolidの包括的なアプローチは、幅広い行動分析の応用に柔軟に対応し、凍結、掘削、パップハドリング、社会的相互作用などの多様な行動状態の分類と、動物とその身体部分の追跡を可能にする。

Annolid is a deep learning-based software package designed for the segmentation, labeling, and tracking of research targets within video files, focusing primarily on animal behavior analysis. Based on state-of-the-art instance segmentation methods, Annolid now harnesses the Cutie video object segmentation model to achieve resilient, markerless tracking of multiple animals from single annotated frames, even in environments in which they may be partially or entirely concealed by environmental features or by one another. Our integration of Segment Anything and Grounding-DINO strategies additionally enables the automatic masking and segmentation of recognizable animals and objects by text command, removing the need for manual annotation. Annolid's comprehensive approach to object segmentation flexibly accommodates a broad spectrum of behavior analysis applications, enabling the classification of diverse behavioral states such as freezing, digging, pup huddling, and social interactions in addition to the tracking of animals and their body parts.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# Sachdev-Ye-Kitaev相互作用による欠陥共形場理論の構築

Building defect conformal field theory from the Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2403.18691v1 )

ライセンス: Link先を確認
Yang Ge, Shao-Kai Jian, (参考訳) 欠陥と拡張された臨界自由度の間の結合は、欠陥共形場理論(英語版)(File conformal field theory, CFT)として知られる興味深い理論を生み出している。 本研究では, 欠陥点におけるSYK$_q$相互作用と$N$Majorana鎖を結合することにより, 境界およびインターフェースCFTの新たなファミリーを導入する。 分析の結果,$q=2$との相互作用は新たな限界欠陥となることがわかった。 汎用的なサドル点法を用いて, 欠陥CFTの$g$関数や有効中心電荷など, ユニークな絡み合い特性を計算した。 さらに,CFT法を用いて伝送係数を解析的に評価した。 驚いたことに、送信係数は欠陥全体にわたる有効中心電荷との普遍的関係から大きなN$制限で逸脱し、我々の欠陥 CFT がガウス欠陥 CFT の既知のすべての例を超えていることを示唆している。

The coupling between defects and extended critical degrees of freedom gives rise to the intriguing theory known as defect conformal field theory (CFT). In this work, we introduce a novel family of boundary and interface CFTs by coupling $N$ Majorana chains with SYK$_q$ interactions at the defect. Our analysis reveals that the interaction with $q=2$ constitutes a new marginal defect. Employing a versatile saddle point method, we compute unique entanglement characterizations, including the $g$-function and effective central charge, of the defect CFT. Furthermore, we analytically evaluate the transmission coefficient using CFT techniques. Surprisingly, the transmission coefficient deviates from the universal relation with the effective central charge across the defect at the large $N$ limit, suggesting that our defect CFT extends beyond all known examples of Gaussian defect CFT.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# Invalsiベンチマーク:イタリア語の数学的および言語理解を測る言語モデル

The Invalsi Benchmark: measuring Language Models Mathematical and Language understanding in Italian ( http://arxiv.org/abs/2403.18697v1 )

ライセンス: Link先を確認
Andrea Esuli, Giovanni Puccetti, (参考訳) イタリア語はいずれも高いリソース言語ですが、現時点では、この言語でのみ事前訓練された言語モデルはありません。 これにより、イタリア語における言語モデルの性能を評価するために利用可能なベンチマークの数が少なくなる。 本研究は,イタリア語における数学的理解と言語理解のモデル性能を評価するための2つの新しいベンチマークを示す。 これらのベンチマークは、イタリアの学校システムにおいて、11歳から18歳の学生が実施した実際のテストに基づいており、そのため、教養や教育の専門家によって検証されている。 このデータセットを検証するために,我々は,イタリア語で記述する上で最高の9つの言語モデルの性能を評価する。 これは、現在の言語モデルが60\%の精度でバインドされている、挑戦的なベンチマークであることを示す。 このデータセットのリリースは、イタリア語の数学的および言語理解の将来モデルを改善するための道を開いたと信じている。

While Italian is by all metrics a high resource language, currently, there are isn't a Language Model pre-trained exclusively in this language. This results in a lower number of available benchmarks to evaluate the performance of language models in Italian. This work presents two new benchmarks to evaluate the models performance on mathematical understanding and language understanding in Italian. These benchmarks are based on real tests that are undertaken by students of age between 11 and 18 within the Italian school system and have therefore been validated by several experts in didactics and pedagogy. To validate this dataset we evaluate the performance of 9 language models that are the best performing when writing in Italian, including our own fine-tuned models. We show that this is a challenging benchmark where current language models are bound by 60\% accuracy. We believe that the release of this dataset paves the way for improving future models mathematical and language understanding in Italian.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# オルソノーマルアンカー(CLOA)を用いたコントラスト学習

Contrastive Learning with Orthonormal Anchors (CLOA) ( http://arxiv.org/abs/2403.18699v1 )

ライセンス: Link先を確認
Huanran Li, Daniel Pimentel-Alarcón, (参考訳) 本研究では,コントラスト学習における不安定性問題に対処すること,特にInfoNCE損失関数とその導関数について検討する。 我々はこれらの損失関数が制限的な挙動を示すことを批判的に観察し、埋め込みが特異点にマージする傾向にある収束現象を導いた。 この「オーバーフュージョン」効果は、その後の教師あり学習タスクの分類精度に有害である。 理論的解析により、ランク1線型部分空間に等化または制限された埋め込みがInfoNCEの局所最小値を表すことを示す。 この課題に応えて、我々は、通常、微調整フェーズで使用されるよりも、同じまたは少ないラベル付きデータを活用する革新的な戦略を導入しました。 提案した損失であるOrthonormal Anchor Regression Lossは、埋め込みクラスタをアンタングル化し、各埋め込みの特異性を著しく向上するとともに、密集した明確に定義されたクラスタへのアグリゲーションを確実にするように設計されている。 CIFAR10およびCIFAR100データセットで得られた結果から,従来のラベル要件のごく一部で顕著な改善が示された。

This study focuses on addressing the instability issues prevalent in contrastive learning, specifically examining the InfoNCE loss function and its derivatives. We reveal a critical observation that these loss functions exhibit a restrictive behavior, leading to a convergence phenomenon where embeddings tend to merge into a singular point. This "over-fusion" effect detrimentally affects classification accuracy in subsequent supervised-learning tasks. Through theoretical analysis, we demonstrate that embeddings, when equalized or confined to a rank-1 linear subspace, represent a local minimum for InfoNCE. In response to this challenge, our research introduces an innovative strategy that leverages the same or fewer labeled data than typically used in the fine-tuning phase. The loss we proposed, Orthonormal Anchor Regression Loss, is designed to disentangle embedding clusters, significantly enhancing the distinctiveness of each embedding while simultaneously ensuring their aggregation into dense, well-defined clusters. Our method demonstrates remarkable improvements with just a fraction of the conventional label requirements, as evidenced by our results on CIFAR10 and CIFAR100 datasets.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# UAV用Fpga型ニューラルスラスト制御器

Fpga-Based Neural Thrust Controller for UAVs ( http://arxiv.org/abs/2403.18703v1 )

ライセンス: Link先を確認
Sharif Azem, David Scheunert, Mengguang Li, Jonas Gehrunger, Kai Cui, Christian Hochberger, Heinz Koepp, (参考訳) 無人航空機(UAV)の出現は、最先端のアルゴリズムを実装するための汎用的で費用対効果の高いプラットフォームを提供することによって、様々な分野を改善した。 幅広いタスクを達成するために、複雑さと動的環境条件に対処するために、オンボードコンピューティングを強化する必要性が高まっている。 近年、深層ニューラルネットワーク(DNN)、特に強化学習(RL)と組み合わせて、UAVの適応性と性能、特に未知の環境での応用が進んでいる。 しかし、DNNの計算要求は、多くのUAVで利用可能な限られた計算資源に挑戦する。 本研究では、この課題に対する実行可能なソリューションとして、フィールドプログラマブルゲートアレイ(FPGA)の使用について検討し、柔軟性、高性能、エネルギー、時間効率を提供する。 本稿では,Artix-7 FPGAを搭載した,オープンソースのマイクロUAVプラットフォーム用の新しいハードウェアボードを提案する。 実世界実験を用いて,RLに基づく低レベルコントローラの実装により,その機能検証に成功した。

The advent of unmanned aerial vehicles (UAVs) has improved a variety of fields by providing a versatile, cost-effective and accessible platform for implementing state-of-the-art algorithms. To accomplish a broader range of tasks, there is a growing need for enhanced on-board computing to cope with increasing complexity and dynamic environmental conditions. Recent advances have seen the application of Deep Neural Networks (DNNs), particularly in combination with Reinforcement Learning (RL), to improve the adaptability and performance of UAVs, especially in unknown environments. However, the computational requirements of DNNs pose a challenge to the limited computing resources available on many UAVs. This work explores the use of Field Programmable Gate Arrays (FPGAs) as a viable solution to this challenge, offering flexibility, high performance, energy and time efficiency. We propose a novel hardware board equipped with an Artix-7 FPGA for a popular open-source micro-UAV platform. We successfully validate its functionality by implementing an RL-based low-level controller using real-world experiments.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# 条件付きワッサースタイン距離とベイジアンOTフローマッチングへの応用

Conditional Wasserstein Distances with Applications in Bayesian OT Flow Matching ( http://arxiv.org/abs/2403.18705v1 )

ライセンス: Link先を確認
Jannis Chemseddine, Paul Hagemann, Christian Wald, Gabriele Steidl, (参考訳) 逆問題において、多くの条件生成モデルは、合同測度と学習近似との距離を最小化することにより、後続測度を近似する。 このアプローチは、クルバック-リーブラー発散の場合の後方測度間の距離も制御するが、一般には、ワッサーシュタイン距離には当てはまらない。 本稿では,後部における期待するワッサーシュタイン距離と等しい制限結合の集合を通じて,条件付きワッサーシュタイン距離を導入する。 興味深いことに、条件付きワッサーシュタイン 1 流の二重定式化は条件付きワッサースタイン GAN 文学における損失に非常に自然な方法で類似している。 我々は条件付きワッサーシュタイン距離の理論的性質を導出し、対応する測地線と速度場と流れのODEを特徴づける。 その後、条件付きワッサーシュタイン距離を緩和することにより速度場を近似する。 これに基づいて,ベイズ逆問題の解法としてOTフローマッチングの拡張を提案し,その逆問題とクラス条件画像生成における数値的優位性を示す。

In inverse problems, many conditional generative models approximate the posterior measure by minimizing a distance between the joint measure and its learned approximation. While this approach also controls the distance between the posterior measures in the case of the Kullback--Leibler divergence, this is in general not hold true for the Wasserstein distance. In this paper, we introduce a conditional Wasserstein distance via a set of restricted couplings that equals the expected Wasserstein distance of the posteriors. Interestingly, the dual formulation of the conditional Wasserstein-1 flow resembles losses in the conditional Wasserstein GAN literature in a quite natural way. We derive theoretical properties of the conditional Wasserstein distance, characterize the corresponding geodesics and velocity fields as well as the flow ODEs. Subsequently, we propose to approximate the velocity fields by relaxing the conditional Wasserstein distance. Based on this, we propose an extension of OT Flow Matching for solving Bayesian inverse problems and demonstrate its numerical advantages on an inverse problem and class-conditional image generation.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# 少数のサンプルを用いた高密度ビジョン変換器圧縮

Dense Vision Transformer Compression with Few Samples ( http://arxiv.org/abs/2403.18708v1 )

ライセンス: Link先を確認
Hanxiao Zhang, Yifan Zhou, Guo-Hua Wang, Jianxin Wu, (参考訳) 少数のショットモデル圧縮は、大きめのモデルを小さなトレーニングセット(ラベルなしでも)でよりコンパクトなモデルに圧縮することを目的としている。 ブロックレベルのプルーニングは、近ごろ、数ショットのCNN圧縮において高い精度と低レイテンシを実現するための主要な手法として登場した。 しかし、ViT(Vision Transformers)のわずかな圧縮は、まだほとんど探索されていないため、新しい課題が浮かび上がっている。 特に、スパース圧縮の問題は従来のCNN数ショット法に存在し、異なるモデルサイズで圧縮されたモデルしか生成できない。 本稿では,DC-ViT と呼ばれる数ショットのVT圧縮のための新しいフレームワークを提案する。 ブロック全体をドロップする代わりに、DC-ViTはMLPモジュールの一部を保持し再利用しながらアテンションモジュールを選択的に除去する。 DC-ViTは密度の高い圧縮を可能にし、多数の圧縮されたモデルを出力し、モデルの複雑さの範囲を密に設定する。 DC-ViTは、最新の数ショット圧縮法を10パーセントのマージンで上回り、ViTとその変種による圧縮のレイテンシが低い。

Few-shot model compression aims to compress a large model into a more compact one with only a tiny training set (even without labels). Block-level pruning has recently emerged as a leading technique in achieving high accuracy and low latency in few-shot CNN compression. But, few-shot compression for Vision Transformers (ViT) remains largely unexplored, which presents a new challenge. In particular, the issue of sparse compression exists in traditional CNN few-shot methods, which can only produce very few compressed models of different model sizes. This paper proposes a novel framework for few-shot ViT compression named DC-ViT. Instead of dropping the entire block, DC-ViT selectively eliminates the attention module while retaining and reusing portions of the MLP module. DC-ViT enables dense compression, which outputs numerous compressed models that densely populate the range of model complexity. DC-ViT outperforms state-of-the-art few-shot compression methods by a significant margin of 10 percentage points, along with lower latency in the compression of ViT and its variants.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# セルオートマタモデルとCNN-LSTMアーキテクチャを用いた交通流予測のためのディープラーニング

Deep Learning for Traffic Flow Prediction using Cellular Automata-based Model and CNN-LSTM architecture ( http://arxiv.org/abs/2403.18710v1 )

ライセンス: Link先を確認
Zhaohui Yang, Kshitij Jerath, (参考訳) 近年の研究では、深層学習による交通流の予測が試みられているが、結果はまちまちである。 これらのアプローチは2つの大きな課題に直面します。 まず、ディープラーニングニューラルネットワークのトレーニングには、トラフィックフローシステムではまだ利用できない大量のトレーニングデータが必要である。 第二に、データが利用可能である場合でも、ニューラルネットワークは、将来のトラフィック状態をうまく予測するために、最も可能なトラフィックフローのダイナミクスをカバーする歴史的なデータにアクセスする必要がある。 特に、これらのディープラーニングアプローチは、既存の重要な知識ベースにもかかわらず、トラフィックフローのダイナミクスに関するドメイン知識を十分に活用していない。 本研究では,Long Short Term Memory (LSTM) を用いた畳み込みニューラルネットワーク(CNN)を用いて,トラフィックフローの予測を成功させるとともに,セルラーオートマトンに基づくトラフィックフローの統計力学モデルを用いてトレーニングとテストデータを生成することを提案する。 この論文のもうひとつの大きな貢献は、より小さな交通システムのシミュレーションから、大規模な交通システムのトレーニングデータを実際にサンプリングできるという洞察である。 これは、統計力学モデルの正規化エネルギー分布がスケール不変であり、大規模交通システムにおけるデータ生成の負担を大幅に軽減する。 得られたシミュレーションは、予測された交通流と真の交通流のダイナミックスとの良好な一致を示している。

Recent works have attempted to use deep learning to predict future states of traffic flow, but have met with mixed results. These approaches face two key challenges. First, training deep learning neural networks requires large amounts of training data which are not yet easily available for traffic flow systems. Second, even when data is available, the neural networks require access to historical data that covers most possible traffic flow dynamics to successfully predict future traffic states. Specifically, these deep learning approaches do not fully leverage domain-knowledge about traffic flow dynamics, despite a significant existing knowledge-base. In this work, we propose to solve both issues using a Convolutional Neural Network (CNNs) with Long Short Term Memory (LSTM) deep learning architecture to successfully predict traffic flow, while leveraging a cellular automata-based statistical mechanics model of traffic flow to generate training and test data. Another major contribution of this paper is the insight that training data for a large traffic system can actually be sampled from the simulations of a much smaller traffic system. This is achieved through observing that the normalized energy distribution of the statistical mechanics model is scale invariant, which significantly eases the burden of data generation for large scale traffic systems. The resulting simulations indicate good agreement between the predicted and the true traffic flow dynamics.
翻訳日:2024-03-28 16:19:17 公開日:2024-03-27
# SAT-NGP : 衛星画像からの高速過渡的3次元再構成のためのニューラルネットワークプリミティブ

SAT-NGP : Unleashing Neural Graphics Primitives for Fast Relightable Transient-Free 3D reconstruction from Satellite Imagery ( http://arxiv.org/abs/2403.18711v1 )

ライセンス: Link先を確認
Camille Billouard, Dawa Derksen, Emmanuelle Sarrazin, Bruno Vallet, (参考訳) 現在のステレオビジョンパイプラインは、衛星画像の複数のペアや三脚を使用する場合、高精度な3D再構成を実現する。 しかし、これらのパイプラインは、マルチ日付取得の結果起こりうる画像間の変化に敏感である。 このようなバリエーションは主に、変動する影、反射、過渡的な物体(車、植生)によるものである。 このような変化を考慮するために、Neural Radiance Fields (NeRF) が最近、マルチ日付衛星画像に適用されている。 しかし、Neuralメソッドは非常に計算集約的であり、標準的なステレオビジョンパイプラインの数分と比較して、学習に数十時間を要する。 Instant Neural Graphics Primitivesのアイデアに従い、効率的なサンプリング戦略とマルチレゾリューションハッシュエンコーディングを用いて学習を加速することを提案する。 衛星ニューラルネットワークプリミティブ(SAT-NGP)は3次元再構成の品質を維持しながら学習時間を15分に短縮する。

Current stereo-vision pipelines produce high accuracy 3D reconstruction when using multiple pairs or triplets of satellite images. However, these pipelines are sensitive to the changes between images that can occur as a result of multi-date acquisitions. Such variations are mainly due to variable shadows, reflexions and transient objects (cars, vegetation). To take such changes into account, Neural Radiance Fields (NeRF) have recently been applied to multi-date satellite imagery. However, Neural methods are very compute-intensive, taking dozens of hours to learn, compared with minutes for standard stereo-vision pipelines. Following the ideas of Instant Neural Graphics Primitives we propose to use an efficient sampling strategy and multi-resolution hash encoding to accelerate the learning. Our model, Satellite Neural Graphics Primitives (SAT-NGP) decreases the learning time to 15 minutes while maintaining the quality of the 3D reconstruction.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# AIによる画像品質評価にテキストプロンプトを導入する

Bringing Textual Prompt to AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2403.18714v1 )

ライセンス: Link先を確認
Bowen Qu, Haohui Li, Wei Gao, (参考訳) AI生成画像(AGI)は本質的にマルチモーダルな性質を持つ。 自然シナリオにおける従来の画像品質評価(IQA)とは異なり、AGIs品質評価(AGIQA)は画像とテキストの対応を考慮に入れている。 これは、ユニモーダルIQA法を混乱させる基底真理スコアに結合される。 そこで本研究では,AGIQAのマルチモーダルフレームワークであるIP-IQA(AGIs Quality Assessment via Image and Prompt)を導入する。 具体的には、AGIとそれに対応するテキストプロンプトの理解を深めるために、Image2Promptという新しいインクリメンタル事前学習タスクを提案する。 また、新規な特別な[QA]トークンとともに、効果的で効率的なイメージプロンプト融合モジュールも適用した。 どちらもプラグアンドプレイで、画像とそれに対応するプロンプトの協調に役立ちます。 実験により,我々のIP-IQAがAGIQA-1kおよびAGIQA-3kデータセットの最先端化を実現していることが示された。 コードは利用可能です。

AI-Generated Images (AGIs) have inherent multimodal nature. Unlike traditional image quality assessment (IQA) on natural scenarios, AGIs quality assessment (AGIQA) takes the correspondence of image and its textual prompt into consideration. This is coupled in the ground truth score, which confuses the unimodal IQA methods. To solve this problem, we introduce IP-IQA (AGIs Quality Assessment via Image and Prompt), a multimodal framework for AGIQA via corresponding image and prompt incorporation. Specifically, we propose a novel incremental pretraining task named Image2Prompt for better understanding of AGIs and their corresponding textual prompts. An effective and efficient image-prompt fusion module, along with a novel special [QA] token, are also applied. Both are plug-and-play and beneficial for the cooperation of image and its corresponding prompt. Experiments demonstrate that our IP-IQA achieves the state-of-the-art on AGIQA-1k and AGIQA-3k datasets. Code will be available.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# インストラクティブ・コントラスト・デコーディングを用いた大規模視覚言語モデルにおける幻覚の緩和

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding ( http://arxiv.org/abs/2403.18715v1 )

ライセンス: Link先を確認
Xintong Wang, Jingheng Pan, Liang Ding, Chris Biemann, (参考訳) LVLM(Large Vision-Language Models)は、視覚入力からコンテキスト的に詳細で一貫性のある応答を生成するのに、ますます適している。 しかし,マルチモーダルな意思決定やオープンエンドジェネレーションにおけるそれらの応用は,生成したテキストが視覚内容の不正確な表現をする幻覚の顕著な頻度によって妨げられる。 そこで本研究では,LVLM推論における幻覚の低減を目的とした,命令コントラスト復号法(ICD)を提案する。 本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。 ICDは、標準および命令障害からの分布を対比し、アライメントの不確実性を増大させ、元の分布から幻覚概念を効果的に抽出する。 識別ベンチマーク (POPE, MME) と生成ベンチマーク (LLaVa-Bench) の総合的な実験を通じて, ICDは対象レベルの幻覚と属性レベルの幻覚の両方を著しく緩和することを示した。 さらに,本手法は幻覚だけでなく,LVLMの認識能力や認識能力を著しく向上させる。

Large Vision-Language Models (LVLMs) are increasingly adept at generating contextually detailed and coherent responses from visual inputs. However, their application in multimodal decision-making and open-ended generation is hindered by a notable rate of hallucinations, where generated text inaccurately represents the visual contents. To address this issue, this paper introduces the Instruction Contrastive Decoding (ICD) method, a novel approach designed to reduce hallucinations during LVLM inference. Our method is inspired by our observation that what we call disturbance instructions significantly exacerbate hallucinations in multimodal fusion modules. ICD contrasts distributions from standard and instruction disturbance, thereby increasing alignment uncertainty and effectively subtracting hallucinated concepts from the original distribution. Through comprehensive experiments on discriminative benchmarks (POPE and MME) and a generative benchmark (LLaVa-Bench), we demonstrate that ICD significantly mitigates both object-level and attribute-level hallucinations. Moreover, our method not only addresses hallucinations but also significantly enhances the general perception and recognition capabilities of LVLMs.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 乱数生成器の統計的テストとそのランダムネス抽出による改善

Statistical testing of random number generators and their improvement using randomness extraction ( http://arxiv.org/abs/2403.18716v1 )

ライセンス: Link先を確認
Cameron Foreman, Richie Yeung, Florian J. Curchod, (参考訳) ランダムナンバージェネレータ(RNG)は、特に暗号化環境では、ビルドとテストが難しいことで知られている。 出力の統計的特性のみをテストすることでRNGの品質を決定的に決定することはできないが、数値的なテストは強力な検証ツールであり、唯一普遍的に適用可能な方法である。 本研究では,既存の統計的テストスイートに基づく総合統計テスト環境(STE)を提示し,利用可能とする。 STEは、認証機関が必要とするものを超えて、集中的なテストまで、軽量(即ち高速)で実行するようにパラメータ化することができる。 これを用いて、いくつかのRNGの統計特性をベンチマークし、それらを互いに比較する。 次に、RNGの出力品質を仮定の異なるセットで改善し、STEによる数値的なテストによってその影響を分析するランダム性抽出器の形で、様々な後処理手法を提示し、実装する。

Random number generators (RNGs) are notoriously hard to build and test, especially in a cryptographic setting. Although one cannot conclusively determine the quality of an RNG by testing the statistical properties of its output alone, running numerical tests is both a powerful verification tool and the only universally applicable method. In this work, we present and make available a comprehensive statistical testing environment (STE) that is based on existing statistical test suites. The STE can be parameterised to run lightweight (i.e. fast) all the way to intensive testing, which goes far beyond what is required by certification bodies. With it, we benchmark the statistical properties of several RNGs, comparing them against each other. We then present and implement a variety of post-processing methods, in the form of randomness extractors, which improve the RNG's output quality under different sets of assumptions and analyse their impact through numerical testing with the STE.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 深部因果生成モデルの半教師付き学習

Semi-Supervised Learning for Deep Causal Generative Models ( http://arxiv.org/abs/2403.18717v1 )

ライセンス: Link先を確認
Yasin Ibrahim, Hermione Warr, Konstantinos Kamnitsas, (参考訳) 医療画像解析の進歩には、"$y$が$z$であった場合、$x$はどのように変化するか? しかし、このような事実的問題に対処する因果生成モデルの訓練には、現在、関連するすべての変数が観察され、対応するラベルがトレーニングデータで利用可能であることが要求されている。 しかし、臨床データは全患者の完全な記録を持っておらず、最先端の因果生成モデルでは十分に活用できない。 そこで本研究では,変数間の因果関係を利用して全データの利用を最大化する半教師付き深い因果生成モデルを開発した。 それぞれのサンプルが完全にラベル付けされているか、完全にラベル付けされていないかで、また各サンプルに異なるラベルが欠落しているというより臨床的に現実的なケースでこれを調査する。 不完全なラベルを持つサンプルであっても、因果推論の手法を利用して、欠落した値を推測し、現実的な反事実を生成する。

Developing models that can answer questions of the form "How would $x$ change if $y$ had been $z$?" is fundamental for advancing medical image analysis. Training causal generative models that address such counterfactual questions, though, currently requires that all relevant variables have been observed and that corresponding labels are available in training data. However, clinical data may not have complete records for all patients and state of the art causal generative models are unable to take full advantage of this. We thus develop, for the first time, a semi-supervised deep causal generative model that exploits the causal relationships between variables to maximise the use of all available data. We explore this in the setting where each sample is either fully labelled or fully unlabelled, as well as the more clinically realistic case of having different labels missing for each sample. We leverage techniques from causal inference to infer missing values and subsequently generate realistic counterfactuals, even for samples with incomplete labels.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# システム・オン・チップ・アーキテクチャのためのリソース分離テスト

Testing Resource Isolation for System-on-Chip Architectures ( http://arxiv.org/abs/2403.18720v1 )

ライセンス: Link先を確認
Philippe Ledent, Radu Mateescu, Wendelin Serwe, (参考訳) ハードウェアレベルでのリソースアイソレーションの確保は、モノのインターネットにおけるセキュリティ向上に向けた重要なステップである。 適切なテストを生成するための一般的に受け入れられたテクニックはいまだに存在しないが、システムレベルでテストを生成することが明確になった。 本稿では,資源分離のためのテスト生成におけるモデリングの側面,すなわち,動作のモデル化と意図したテストシナリオの表現について述べる。 本稿では,産業標準PSSと適合性テストに基づく学術的アプローチの両面について述べる。

Ensuring resource isolation at the hardware level is a crucial step towards more security inside the Internet of Things. Even though there is still no generally accepted technique to generate appropriate tests, it became clear that tests should be generated at the system level. In this paper, we illustrate the modeling aspects in test generation for resource isolation, namely modeling the behavior and expressing the intended test scenario. We present both aspects using the industrial standard PSS and an academic approach based on conformance testing.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 確率的強化学習法の確率論的モデル検査

Probabilistic Model Checking of Stochastic Reinforcement Learning Policies ( http://arxiv.org/abs/2403.18725v1 )

ライセンス: Link先を確認
Dennis Gross, Helge Spieker, (参考訳) 本稿では,確率的強化学習(RL)ポリシーを検証する手法を提案する。 このアプローチは、アルゴリズムとその対応する環境がMarkovプロパティに一括して準拠する限り、任意のRLアルゴリズムと互換性がある。 この設定では、環境の将来状態は、その現在の状態と実行されたアクションにのみ依存し、以前の状態やアクションとは独立して実行されるべきである。 提案手法は,モデルチェックと呼ばれる検証手法をRLと統合し,マルコフ決定プロセス,訓練されたRLポリシ,確率計算木論理(PCTL)式を利用して,モデルチェッカー Storm を通じて検証可能な形式モデルを構築する。 提案手法の適用性を複数のベンチマークで実証し,決定論的安全性推定法と一意なモノリシックモデル検査法と比較した。 以上より,本手法は確率的RLポリシーの検証に適していることが示唆された。

We introduce a method to verify stochastic reinforcement learning (RL) policies. This approach is compatible with any RL algorithm as long as the algorithm and its corresponding environment collectively adhere to the Markov property. In this setting, the future state of the environment should depend solely on its current state and the action executed, independent of any previous states or actions. Our method integrates a verification technique, referred to as model checking, with RL, leveraging a Markov decision process, a trained RL policy, and a probabilistic computation tree logic (PCTL) formula to build a formal model that can be subsequently verified via the model checker Storm. We demonstrate our method's applicability across multiple benchmarks, comparing it to baseline methods called deterministic safety estimates and naive monolithic model checking. Our results show that our method is suited to verify stochastic RL policies.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# イメージアンビエント照明正規化に向けて

Towards Image Ambient Lighting Normalization ( http://arxiv.org/abs/2403.18730v1 )

ライセンス: Link先を確認
Florin-Alexandru Vasluianu, Tim Seizinger, Zongwei Wu, Rakesh Ranjan, Radu Timofte, (参考訳) 照明の正規化は、広範囲の応用において重要だが未調査の修復作業である。 しかし、既存の研究はしばしば影の除去の文脈でこのタスクを単純化し、光源を1つに制限し、シーンを単純化し、複雑な自己陰影を除外し、表面クラスを滑らかなものに制限する。 有望ではあるが、そのような単純化は日常的に遭遇するより現実的な設定への一般化を妨げている。 本稿では,より広義の環境下での影の相互作用,画像復元,影の除去などを研究することを目的とした,Ambient Lighting Normalization (ALN) という課題を提案する。 ALNの適切なデータセットの欠如に対処するために,複数の光源から得られたサンプルと,その種の最初の複雑な地形から得られた自己陰影を含む,大規模高解像度データセットであるAmbient6Kを導入する。 ベンチマークでは、様々な主流手法を選択し、Ambient6K上でそれらを厳格に評価する。 さらに,異なる照明条件下で局所領域を選択的に復元するための画像周波数結合エントロピーを最大化し,影の局所化に頼らずに新たな強基線であるIFBlendを提案する。 実験の結果,IFBlendはAmbient6KのSOTAスコアを達成し,マスク先行のシャドウ固有モデルと比較して従来のシャドウ除去ベンチマーク上での競合性能を示した。 データセット、ベンチマーク、コードはhttps://github.com/fvasluianu97/IFBlendで公開されている。

Lighting normalization is a crucial but underexplored restoration task with broad applications. However, existing works often simplify this task within the context of shadow removal, limiting the light sources to one and oversimplifying the scene, thus excluding complex self-shadows and restricting surface classes to smooth ones. Although promising, such simplifications hinder generalizability to more realistic settings encountered in daily use. In this paper, we propose a new challenging task termed Ambient Lighting Normalization (ALN), which enables the study of interactions between shadows, unifying image restoration and shadow removal in a broader context. To address the lack of appropriate datasets for ALN, we introduce the large-scale high-resolution dataset Ambient6K, comprising samples obtained from multiple light sources and including self-shadows resulting from complex geometries, which is the first of its kind. For benchmarking, we select various mainstream methods and rigorously evaluate them on Ambient6K. Additionally, we propose IFBlend, a novel strong baseline that maximizes Image-Frequency joint entropy to selectively restore local areas under different lighting conditions, without relying on shadow localization priors. Experiments show that IFBlend achieves SOTA scores on Ambient6K and exhibits competitive performance on conventional shadow removal benchmarks compared to shadow-specific models with mask priors. The dataset, benchmark, and code are available at https://github.com/fvasluianu97/IFBlend.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 説明可能性の統合による製造品質予測モデルの強化

Enhancing Manufacturing Quality Prediction Models through the Integration of Explainability Methods ( http://arxiv.org/abs/2403.18731v1 )

ライセンス: Link先を確認
Dennis Gross, Helge Spieker, Arnaud Gotlieb, Ricardo Knoblauch, (参考訳) 本研究は,機械学習モデルの性能向上のための説明可能性技術を用いて,製粉プロセスの品質を予測する手法である。 この手法はMLモデルの初期訓練を伴い、その後、説明可能性法で識別された無関係な特徴を除去する微調整フェーズが続く。 この手続き的な改良は、性能の向上、製造コストの削減の道を開くこと、訓練されたMLモデルのより良い理解をもたらす。 本研究は,製造領域における予測モデルの説明と最適化における説明可能性手法の有用性を強調した。

This research presents a method that utilizes explainability techniques to amplify the performance of machine learning (ML) models in forecasting the quality of milling processes, as demonstrated in this paper through a manufacturing use case. The methodology entails the initial training of ML models, followed by a fine-tuning phase where irrelevant features identified through explainability methods are eliminated. This procedural refinement results in performance enhancements, paving the way for potential reductions in manufacturing costs and a better understanding of the trained ML models. This study highlights the usefulness of explainability techniques in both explaining and optimizing predictive models in the manufacturing realm.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 量子機械学習のための光コーンの特徴選択

Light-cone feature selection for quantum machine learning ( http://arxiv.org/abs/2403.18733v1 )

ライセンス: Link先を確認
Yudai Suzuki, Rei Sakuma, Hideaki Kawaguchi, (参考訳) 特徴選択は、古典的な機械学習において訓練されたモデルの予測性能と解釈可能性を改善する上で重要な役割を果たす。 一方、従来の特徴選択のユーザビリティは量子機械学習タスクに限られる可能性があり、この技術は古典的なデータタスクに量子回路を埋め込むための明確な解釈を提供しておらず、より重要なのは量子データタスクには適用できないことである。 本研究では,量子機械学習に着目した特徴選択手法を提案する。 我々のスキームは、量子モデルの光錐(すなわち部分空間)を特徴として扱い、対応する局所量子カーネルのトレーニングを通じて関連するものを選択する。 1)古典的な入力の特徴選択,(2)データ埋め込みのための回路アーキテクチャ探索,(3)量子機械学習モデルの圧縮,(4)量子データのための部分空間選択,である。 提案するフレームワークは、量子機械学習の実践的なタスクへの応用への道を開くものだ。 また、このテクニックは、量子機械学習タスクが本当に量子性を必要としているかどうかを実際にテストするために使用することができる。

Feature selection plays an essential role in improving the predictive performance and interpretability of trained models in classical machine learning. On the other hand, the usability of conventional feature selection could be limited for quantum machine learning tasks; the technique might not provide a clear interpretation on embedding quantum circuits for classical data tasks and, more importantly, is not applicable to quantum data tasks. In this work, we propose a feature selection method with a specific focus on quantum machine learning. Our scheme treats the light-cones (i.e., subspace) of quantum models as features and then select relevant ones through training of the corresponding local quantum kernels. We numerically demonstrate its versatility for four different applications using toy tasks: (1) feature selection of classical inputs, (2) circuit architecture search for data embedding, (3) compression of quantum machine learning models and (4) subspace selection for quantum data. The proposed framework paves the way towards applications of quantum machine learning to practical tasks. Also, this technique could be used to practically test if the quantum machine learning tasks really need quantumness, while it is beyond the scope of this work.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 深部神経回路による動脈瘤の分節と検出の改善のための血管合成モデル

A vascular synthetic model for improved aneurysm segmentation and detection via Deep Neural Networks ( http://arxiv.org/abs/2403.18734v1 )

ライセンス: Link先を確認
Rafic Nader, Florent Autrusseau, Vincent L'Allinec, Romain Bourcier, (参考訳) そこで本研究では,脳動脈,分岐部,頭蓋内大動脈瘤など,脳血管の様々な構成成分を模倣する,完全な合成モデルを提案する。 このモデルを構築することで、3D畳み込みニューラルネットワーク(CNN)によって、様々な血管疾患(動脈解離・血栓症など)の分節または検出、あるいは、分岐や動脈瘤などの脳血管の一部分を識別するために、脳動脈のかなりのデータセットを提供することが目的であった。 本研究は特に脳動脈瘤(ICA)の検出とセグメンテーションに焦点を当てる。 脳動脈瘤は、しばしば、ウィリスの円(Circle of Willis)と呼ばれる血管樹の特定の構造に発生する。 ICAを検出・監視するために様々な研究がなされており、その成果はディープラーニング(DL)に基づく。 具体的には、磁気共鳴血管造影(MRA)により得られた脳血管を模倣できる完全な合成3Dモデル、特に飛行時間(TOF)の原理を提案する。 様々なMRIモダリティの中で、MRA-TOFは血管の比較的良好なレンダリングを可能にし、非侵襲的(対照的な液体注入は行わない)である。 本モデルは,動脈形状,ICA形状,背景雑音を同時に再現するように設計されている。 血管の形状は3次元スプライン関数の補間によりモデル化され、背景MRIノイズの統計的特性はMRA取得から収集され、モデル内で再生される。 本研究では, 合成血管モデルを網羅的に記述し, ICAセグメンテーションと検出のために設計されたニューラルネットワークを構築し, そして, 合成モデルデータの拡張により得られた性能ギャップの詳細な評価を行う。

We hereby present a full synthetic model, able to mimic the various constituents of the cerebral vascular tree: the cerebral arteries, the bifurcations and the intracranial aneurysms. By building this model, our goal was to provide a substantial dataset of brain arteries which could be used by a 3D Convolutional Neural Network (CNN) to either segment or detect/recognize various vascular diseases (such as artery dissection/thrombosis) or even some portions of the cerebral vasculature, such as the bifurcations or aneurysms. In this study, we will particularly focus on Intra-Cranial Aneurysm (ICA) detection and segmentation. The cerebral aneurysms most often occur on a particular structure of the vascular tree named the Circle of Willis. Various studies have been conducted to detect and monitor the ICAs and those based on Deep Learning (DL) achieve the best performances. Specifically, in this work, we propose a full synthetic 3D model able to mimic the brain vasculature as acquired by Magnetic Resonance Angiography (MRA), and more particularly the Time Of Flight (TOF) principle. Among the various MRI modalities, the MRA-TOF allows to have a relatively good rendering of the blood vessels and is non-invasive (no contrast liquid injection). Our model has been designed to simultaneously mimic the arteries geometry, the ICA shape and the background noise. The geometry of the vascular tree is modeled thanks to an interpolation with 3D Spline functions, and the statistical properties of the background MRI noise is collected from MRA acquisitions and reproduced within the model. In this work, we thoroughly describe the synthetic vasculature model, we build up a neural network designed for ICA segmentation and detection, and finally, we carry out an in-depth evaluation of the performance gap gained thanks to the synthetic model data augmentation.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 演算子学習のための非線形モデル還元

Nonlinear model reduction for operator learning ( http://arxiv.org/abs/2403.18735v1 )

ライセンス: Link先を確認
Hamidreza Eivazi, Stefan Wittek, Andreas Rausch, (参考訳) 演算子学習は無限次元関数空間間の写像を近似する方法を提供する。 ディープ・オペレーター・ネットワーク (Deep operator network, DeepONets) はこの分野で注目に値するアーキテクチャである。 近年、モデル縮小とニューラルネットワークに基づくDeepONetの拡張、適切な直交分解(POD)-DeepONetは、いくつかのベンチマークテストの精度で他のアーキテクチャより優れている。 我々は、ニューラルネットワークとカーネル主成分分析(KPCA)を組み合わせて演算子学習を行う効率的なフレームワークを提案する。 本結果は,POD-DeepONetよりもKPCA-DeepONetの方が優れていることを示す。

Operator learning provides methods to approximate mappings between infinite-dimensional function spaces. Deep operator networks (DeepONets) are a notable architecture in this field. Recently, an extension of DeepONet based on model reduction and neural networks, proper orthogonal decomposition (POD)-DeepONet, has been able to outperform other architectures in terms of accuracy for several benchmark tests. We extend this idea towards nonlinear model order reduction by proposing an efficient framework that combines neural networks with kernel principal component analysis (KPCA) for operator learning. Our results demonstrate the superior performance of KPCA-DeepONet over POD-DeepONet.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 操作データとニューラルネットワークに基づく生存モデルの利用

Usage-Specific Survival Modeling Based on Operational Data and Neural Networks ( http://arxiv.org/abs/2403.18739v1 )

ライセンス: Link先を確認
Olov Holmer, Mattias Krysander, Erik Frisk, (参考訳) メンテナンス計画において、コンポーネントがいつ失敗するかの正確な予測が不可欠であり、これらの障害時間の分布をモデル化することによって、生存モデルは、この文脈で特に有用であることが示されている。 提案手法は、スナップショットと呼ばれる特定のタイミングで継続的に収集され、保存されるデータを使用してトレーニングされる従来のニューラルネットワークベースの生存モデルに基づいている。 このタイプのトレーニングデータの重要な特性は、特定の個人から複数のスナップショットを含むことができ、その結果、データが独立していないため、標準の極大トレーニングを直接適用できないことである。 しかし、この論文は、もしデータが全てのスナップショット時間が同じ特定のフォーマットで、同種サンプルと呼ばれる全ての個人が同じである場合、最大限のトレーニングを適用でき、望ましい結果が得られることを示している。 多くの場合、データは均一にサンプリングされることはなく、この場合、データを均質にサンプリングするために再サンプリングすることが提案されている。 データセットがどれだけ密集しているかは重要なパラメータであり、良い結果をもたらすのに十分な大きさのデータセットを選択するべきであるが、トレーニングを遅くするデータセットのサイズも大きくなる。 トレーニング中に必要となるサンプルの数を減らすため,トレーニング開始前にデータセットを再サンプリングする代わりに,トレーニング開始時にデータセットをランダムに再サンプリングする手法を提案する。 提案手法は,シミュレーションデータセットと初期電池故障実験データセットの両方を用いて評価する。 結果は、データが均一にサンプリングされた場合、方法論は意図通りに動作し、正確な生存モデルを生成することを示す。 また、各エポック上でデータセットをランダムに再サンプリングすることは、トレーニングデータのサイズを減らす効果的な方法であることを示した。

Accurate predictions of when a component will fail are crucial when planning maintenance, and by modeling the distribution of these failure times, survival models have shown to be particularly useful in this context. The presented methodology is based on conventional neural network-based survival models that are trained using data that is continuously gathered and stored at specific times, called snapshots. An important property of this type of training data is that it can contain more than one snapshot from a specific individual which results in that standard maximum likelihood training can not be directly applied since the data is not independent. However, the papers show that if the data is in a specific format where all snapshot times are the same for all individuals, called homogeneously sampled, maximum likelihood training can be applied and produce desirable results. In many cases, the data is not homogeneously sampled and in this case, it is proposed to resample the data to make it homogeneously sampled. How densely the dataset is sampled turns out to be an important parameter; it should be chosen large enough to produce good results, but this also increases the size of the dataset which makes training slow. To reduce the number of samples needed during training, the paper also proposes a technique to, instead of resampling the dataset once before the training starts, randomly resample the dataset at the start of each epoch during the training. The proposed methodology is evaluated on both a simulated dataset and an experimental dataset of starter battery failures. The results show that if the data is homogeneously sampled the methodology works as intended and produces accurate survival models. The results also show that randomly resampling the dataset on each epoch is an effective way to reduce the size of the training data.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 人間のフィードバックによるアライメントの学習ダイナミクスの理解

Understanding the Learning Dynamics of Alignment with Human Feedback ( http://arxiv.org/abs/2403.18742v1 )

ライセンス: Link先を確認
Shawn Im, Yixuan Li, (参考訳) 大規模言語モデル(LLM)を人間の意図で調整することは、現実世界のシステムにモデルを安全にデプロイするための重要なタスクとなっている。 既存のアライメントアプローチは経験的な成功を見てきたが、これらの手法がモデル行動にどのように影響するか理論的に理解することは未解決の問題である。 我々の研究は、人間の嗜好アライメントの学習力学を理論的に解析するための最初の試みである。 本稿では,嗜好データセットの分布がモデル更新率にどのように影響するかを正式に示すとともに,トレーニング精度に厳密な保証を与える。 我々の理論はまた、最適化がより高い選好性で特定の振る舞いを優先順位付けする傾向がある複雑な現象も明らかにしている。 我々は、現代のLCMとアライメントタスクに関する知見を実証的に検証し、理論的な洞察を強化し、将来のアライメントアプローチの考察に光を当てる。 Disclaimer: この論文には攻撃的なテキストが含まれており、読者の判断は推奨される。

Aligning large language models (LLMs) with human intentions has become a critical task for safely deploying models in real-world systems. While existing alignment approaches have seen empirical success, theoretically understanding how these methods affect model behavior remains an open question. Our work provides an initial attempt to theoretically analyze the learning dynamics of human preference alignment. We formally show how the distribution of preference datasets influences the rate of model updates and provide rigorous guarantees on the training accuracy. Our theory also reveals an intricate phenomenon where the optimization is prone to prioritizing certain behaviors with higher preference distinguishability. We empirically validate our findings on contemporary LLMs and alignment tasks, reinforcing our theoretical insights and shedding light on considerations for future alignment approaches. Disclaimer: This paper contains potentially offensive text; reader discretion is advised.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# CYCLE: コード生成を自己定義する学習

CYCLE: Learning to Self-Refine the Code Generation ( http://arxiv.org/abs/2403.18746v1 )

ライセンス: Link先を確認
Yangruibo Ding, Marcus J. Min, Gail Kaiser, Baishakhi Ray, (参考訳) 事前訓練されたコード言語モデルは、コード生成において有望なパフォーマンスを達成し、人間の開発者のプログラミング効率を改善した。 しかし、その自己抑制能力は、通常、1回予測の精度だけに焦点を当てた、既存のコードLMの評価によって見落とされてしまう。 LMが正しいプログラムの実装に失敗した場合、開発者は実際に、開発者自身によって書かれていないため、エラー予測のデバッグと修正が難しいと感じている。 残念なことに、我々の研究によると、コードLMは、その欠陥世代を効率的に自己複製することができない。 本稿では,CYCLEフレームワークを提案する。テストスイートが報告した実行結果など,利用可能なフィードバックに基づいて,障害発生を自己定義する学習を行う。 我々は、HumanEval、MBPP、APPSの3つの人気のあるコード生成ベンチマークでCYCLEを評価した。 その結果、CYCLEは一度のコード生成の品質を維持し、時には改善する一方で、コードLMの自己抑制能力を大幅に改善することがわかった。 CYCLEは350M, 1B, 2B, 3Bのパラメータが多様である4種類のCYCLEを実装しており,実験の結果,ベンチマークやモデルサイズによって,CYCLEがコード生成性能を最大63.5%向上することがわかった。 また、CYCLEは3$\times$以上のパラメータを持つコードLMよりも優れています。

Pre-trained code language models have achieved promising performance in code generation and improved the programming efficiency of human developers. However, their self-refinement capability is typically overlooked by the existing evaluations of code LMs, which focus only on the accuracy of the one-time prediction. For the cases when code LMs fail to implement the correct program, developers actually find it hard to debug and fix the faulty prediction since it is not written by the developers themselves. Unfortunately, our study reveals that code LMs cannot efficiently self-refine their faulty generations as well. In this paper, we propose CYCLE framework, learning to self-refine the faulty generation according to the available feedback, such as the execution results reported by the test suites. We evaluate CYCLE on three popular code generation benchmarks, HumanEval, MBPP, and APPS. The results reveal that CYCLE successfully maintains, sometimes improves, the quality of one-time code generation, while significantly improving the self-refinement capability of code LMs. We implement four variants of CYCLE with varied numbers of parameters across 350M, 1B, 2B, and 3B, and the experiments show that CYCLE consistently boosts the code generation performance, by up to 63.5%, across benchmarks and varied model sizes. We also notice that CYCLE outperforms code LMs that have 3$\times$ more parameters in self-refinement.
翻訳日:2024-03-28 16:09:33 公開日:2024-03-27
# 一般的な量子資源は、作業抽出タスクの利点を提供する

General quantum resources provide advantages in work extraction tasks ( http://arxiv.org/abs/2403.18753v1 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Manuel Gessner, (参考訳) 作業抽出によって状態とチャネルの両方の一般的な量子リソースを認証するための熱力学的タスクを提供し、一般的な量子リソースが作業抽出に有利であることを示す。 このような作業抽出タスクは、一方のデバイスに依存しない方法で量子絡みの認証にさらに適用することができる。 応用として,グローバルに分散した絡み合いに起因する局所的に抽出可能なエネルギーの一種である,新しいタイプの異常エネルギーフローを報告する。 最後に、この新しい異常なエネルギーフローの存在は、測定の不整合性と等価であることを示す。

We provide a thermodynamic task to certify the general quantum resources of both states and channels via work extraction, showing that general quantum resources provide advantages in work extraction. Such work extraction tasks can be further applied to certify quantum entanglement in a one-sided device-independent way. As an application, we report a novel type of anomalous energy flow -- a type of locally extractable energy that is attributed to the globally distributed entanglement. Finally, we show that the existence of this novel anomalous energy flow is equivalent to measurement incompatibility.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# 多目的進化的影響の最大化:分散、予算、公正、時間

Many-Objective Evolutionary Influence Maximization: Balancing Spread, Budget, Fairness, and Time ( http://arxiv.org/abs/2403.18755v1 )

ライセンス: Link先を確認
Elia Cunegatti, Leonardo Lucio Custode, Giovanni Iacca, (参考訳) インフルエンス・最大化(IM)問題は、情報伝達を最大限に広めることのできるグラフ内のノードの集合を見つけ出そうとする。 この問題はNPハードであることが知られており、通常、影響(スプレッド)を最大化し、任意に第二の目的を最適化することで研究される。 しかし、多くの実践的なシナリオでは、IM問題の複数の側面を同時に最適化する必要がある。 本研究では,シードセットサイズの影響の最大化と最小化に加えて,予算,公平性,コミュニティ,時間といったIM固有の目的関数が最適化された最初のケーススタディを提案する。 そこで本研究では、NSGA-IIに基づくMOEIM(Multi-Objective Evolutionary Algorithm for Influence Maximization)を提案する。 我々は,9つのグラフデータセット,2つのヒューリスティック手法,関連するMOEA,最先端のDeep Learningアプローチを含む2つの実験的な設定でMOEIMを比較した。 実験の結果、MOEIMはテストされた多目的設定の大部分において、総合的に競合他社を上回っていることがわかった。 結論として,目的間の相関についても検討し,新たな知見を得た。 コードベースはhttps://github.com/eliacunegatti/MOEIMで公開されている。

The Influence Maximization (IM) problem seeks to discover the set of nodes in a graph that can spread the information propagation at most. This problem is known to be NP-hard, and it is usually studied by maximizing the influence (spread) and, optionally, optimizing a second objective, such as minimizing the seed set size or maximizing the influence fairness. However, in many practical scenarios multiple aspects of the IM problem must be optimized at the same time. In this work, we propose a first case study where several IM-specific objective functions, namely budget, fairness, communities, and time, are optimized on top of the maximization of influence and minimization of the seed set size. To this aim, we introduce MOEIM (Many-Objective Evolutionary Algorithm for Influence Maximization) a Multi-Objective Evolutionary Algorithm (MOEA) based on NSGA-II incorporating graph-aware operators and a smart initialization. We compare MOEIM in two experimental settings, including a total of nine graph datasets, two heuristic methods, a related MOEA, and a state-of-the-art Deep Learning approach. The experiments show that MOEIM overall outperforms the competitors in most of the tested many-objective settings. To conclude, we also investigate the correlation between the objectives, leading to novel insights into the topic. The codebase is available at https://github.com/eliacunegatti/MOEIM.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# 胸部X線画像を用いた深層学習による鎖骨下動脈硬化の検出

Detection of subclinical atherosclerosis by image-based deep learning on chest x-ray ( http://arxiv.org/abs/2403.18756v1 )

ライセンス: Link先を確認
Guglielmo Gallone, Francesco Iodice, Alberto Presta, Davide Tore, Ovidio de Filippo, Michele Visciano, Carlo Alberto Barbano, Alessandro Serafini, Paola Gorrini, Alessandro Bruno, Walter Grosso Marra, James Hughes, Mario Iannaccone, Paolo Fonio, Attilio Fiandrotti, Alessandro Depaoli, Marco Grangetto, Gaetano Maria de Ferrari, Fabrizio D'Ascenzo, (参考訳) エイムズ。 扁平な前頭胸X線上における鎖骨下動脈硬化の認識のための深層学習ベースのシステムを開発する。 方法と結果。 冠動脈カルシウム(CAC)スコア(AI-CACモデル)を予測する深層学習アルゴリズムを, 臨床上の理由から, 460胸部X線(トレーニングコホート80%, 内的検証コホート20%)と胸部X線と胸部CTを併用した一次予防(58.4%, 中央値63[51-74]歳)を用いて開発し, 3カ月以内に施行した。 CACスコアは胸部CTで算出した。 同施設90名を対象に, 時間非依存コホートを用いて検討を行った(外的検証)。 曲線下領域(AUC)で評価したAI-CACモデルの診断精度が主な結果であった。 総合的なAI-CACスコアは35 (0-388) であり、28.9%の患者はAI-CACを持っていない。 CAC>0を同定するためのAI-CACモデルのAUCは、内部検証コホートでは0.90、外部検証コホートでは0.77であった。 感度は両コホートともに92%以上であった。 全身コホート(n=540)では、AI-CAC=0の患者では4.3年後に単一のASCVDイベントが発生した。 AI-CAC>0の患者は、ASCVDイベントのKaplan Meier推定が有意に高かった(13.5%対3.4%、log-rank=0.013)。 結論。 AI-CACモデルは, 胸部X線下動脈硬化を高感度で正確に検出し, 負の予測値の高いASCVD事象を予測する。 AI-CACモデルをCVのリスク階層化を洗練させるか、あるいは機会論的スクリーニングツールとして採用するには、将来的な評価が必要である。

Aims. To develop a deep-learning based system for recognition of subclinical atherosclerosis on a plain frontal chest x-ray. Methods and Results. A deep-learning algorithm to predict coronary artery calcium (CAC) score (the AI-CAC model) was developed on 460 chest x-ray (80% training cohort, 20% internal validation cohort) of primary prevention patients (58.4% male, median age 63 [51-74] years) with available paired chest x-ray and chest computed tomography (CT) indicated for any clinical reason and performed within 3 months. The CAC score calculated on chest CT was used as ground truth. The model was validated on an temporally-independent cohort of 90 patients from the same institution (external validation). The diagnostic accuracy of the AI-CAC model assessed by the area under the curve (AUC) was the primary outcome. Overall, median AI-CAC score was 35 (0-388) and 28.9% patients had no AI-CAC. AUC of the AI-CAC model to identify a CAC>0 was 0.90 in the internal validation cohort and 0.77 in the external validation cohort. Sensitivity was consistently above 92% in both cohorts. In the overall cohort (n=540), among patients with AI-CAC=0, a single ASCVD event occurred, after 4.3 years. Patients with AI-CAC>0 had significantly higher Kaplan Meier estimates for ASCVD events (13.5% vs. 3.4%, log-rank=0.013). Conclusion. The AI-CAC model seems to accurately detect subclinical atherosclerosis on chest x-ray with elevated sensitivity, and to predict ASCVD events with elevated negative predictive value. Adoption of the AI-CAC model to refine CV risk stratification or as an opportunistic screening tool requires prospective evaluation.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# ModaLink: 画像とポイントを効率よく認識するためのモダリティの統合

ModaLink: Unifying Modalities for Efficient Image-to-PointCloud Place Recognition ( http://arxiv.org/abs/2403.18762v1 )

ライセンス: Link先を確認
Weidong Xie, Lun Luo, Nanfei Ye, Yi Ren, Shaoyi Du, Minhang Wang, Jintao Xu, Rui Ai, Weihao Gu, Xieyuanli Chen, (参考訳) 位置認識は、ロボットや自動運転車が自らをローカライズし、事前に構築された地図のループを閉じるための重要なタスクである。 単一モードのセンサベースの手法は良好な性能を示したが、ポイントクラウドデータベースから画像を取得するためのクロスモーダルな位置認識は依然として難しい問題である。 現在のクロスモーダル法では、画像の深度推定を用いて3Dポイントに変換するが、これは通常計算集約的で、深度監視のための高価なラベル付きデータを必要とする。 本研究では,画像のエンコードとクラウドを位置識別記述子に変換するための,高速で軽量なフレームワークを提案する。 本研究では,FoV(FoV)変換モジュールを用いて,点雲を画像に類似したモダリティに変換する手法を提案する。 このモジュールは深さ推定の必要性を排除し、その後のモジュールがリアルタイムのパフォーマンスを達成するのを助ける。 さらに、非負の分解に基づくエンコーダを設計し、点群と画像間の相互に一貫した意味的特徴を抽出する。 このエンコーダは、検索のためのより独特なグローバルな記述子を生成する。 KITTIデータセットを用いた実験結果から,提案手法はリアルタイムに動作しながら,最先端の性能を実現することができることがわかった。 17kmの軌道をカバーしたHAOMOデータセットのさらなる評価は、実用的な一般化能力を示している。 https://github.com/haomo-ai/ModaLink.git。

Place recognition is an important task for robots and autonomous cars to localize themselves and close loops in pre-built maps. While single-modal sensor-based methods have shown satisfactory performance, cross-modal place recognition that retrieving images from a point-cloud database remains a challenging problem. Current cross-modal methods transform images into 3D points using depth estimation for modality conversion, which are usually computationally intensive and need expensive labeled data for depth supervision. In this work, we introduce a fast and lightweight framework to encode images and point clouds into place-distinctive descriptors. We propose an effective Field of View (FoV) transformation module to convert point clouds into an analogous modality as images. This module eliminates the necessity for depth estimation and helps subsequent modules achieve real-time performance. We further design a non-negative factorization-based encoder to extract mutually consistent semantic features between point clouds and images. This encoder yields more distinctive global descriptors for retrieval. Experimental results on the KITTI dataset show that our proposed methods achieve state-of-the-art performance while running in real time. Additional evaluation on the HAOMO dataset covering a 17 km trajectory further shows the practical generalization capabilities. We have released the implementation of our methods as open source at: https://github.com/haomo-ai/ModaLink.git.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# CaT: 足の運動強化学習の終端としての制約

CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning ( http://arxiv.org/abs/2403.18765v1 )

ライセンス: Link先を確認
Elliot Chane-Sane, Pierre-Alexandre Leziart, Thomas Flayols, Olivier Stasse, Philippe Souères, Nicolas Mansard, (参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、四足歩行のような複雑なロボットタスクを解くという、驚くべき結果を実証している。 しかし、現在の解決者は、厳しい制約を尊重する効率的なポリシーを作成できない。 本研究では,制約をロボット学習に統合し,新しい制約付きRLアルゴリズムであるConstraints as Terminations (CaT)を提案する。 古典的制約付きRLの定式化とは別に、政策学習中の確率的項による制約を再構築する: 制約の違反は、RLエージェントが達成可能な将来的な報酬を終了する確率を誘導する。 本稿では,ロボット学習において広く使われているRLアルゴリズムを最小限に修正することで,この定式化に対するアルゴリズム的アプローチを提案する。 提案手法は, 複雑化や計算オーバーヘッドを伴わずに, 制約の厳密化を図り, より広範な採用の障壁を緩和する。 実四足歩行ロボットSoloを用いた実証評価により,CaTが制約をRLフレームワークに組み込むための説得力のあるソリューションであることを実証した。 ビデオとコードはhttps://constraints-as-termminations.github.io.comで公開されている。

Deep Reinforcement Learning (RL) has demonstrated impressive results in solving complex robotic tasks such as quadruped locomotion. Yet, current solvers fail to produce efficient policies respecting hard constraints. In this work, we advocate for integrating constraints into robot learning and present Constraints as Terminations (CaT), a novel constrained RL algorithm. Departing from classical constrained RL formulations, we reformulate constraints through stochastic terminations during policy learning: any violation of a constraint triggers a probability of terminating potential future rewards the RL agent could attain. We propose an algorithmic approach to this formulation, by minimally modifying widely used off-the-shelf RL algorithms in robot learning (such as Proximal Policy Optimization). Our approach leads to excellent constraint adherence without introducing undue complexity and computational overhead, thus mitigating barriers to broader adoption. Through empirical evaluation on the real quadruped robot Solo crossing challenging obstacles, we demonstrate that CaT provides a compelling solution for incorporating constraints into RL frameworks. Videos and code are available at https://constraints-as-terminations.github.io.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# 競合確率的サンプルサイズ最適化によるビッグデータクラスタリング

Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means ( http://arxiv.org/abs/2403.18766v1 )

ライセンス: Link先を確認
Rustam Mussabayev, Ravil Mussabayev, (参考訳) 本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。 提案手法は並列処理,確率的サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。 従来の技術で直面するスケーラビリティと計算時間の課題に対処する。 アルゴリズムは、実行中の各ワーカーのサンプルサイズを動的に調整し、パフォーマンスを最適化する。 これらのサンプルサイズからのデータは継続的に分析され、最も効率的な構成の識別が容易になる。 異なるサンプルサイズを用いて作業者間での競合要素を組み込むことで、Big-meansアルゴリズムの効率をさらに刺激する。 本質的に、アルゴリズムは並列コンピューティング環境で確率的かつ競合的なサンプリング戦略を用いることで、計算時間とクラスタリング品質のバランスをとる。

This paper introduces a novel K-means clustering algorithm, an advancement on the conventional Big-means methodology. The proposed method efficiently integrates parallel processing, stochastic sampling, and competitive optimization to create a scalable variant designed for big data applications. It addresses scalability and computation time challenges typically faced with traditional techniques. The algorithm adjusts sample sizes dynamically for each worker during execution, optimizing performance. Data from these sample sizes are continually analyzed, facilitating the identification of the most efficient configuration. By incorporating a competitive element among workers using different sample sizes, efficiency within the Big-means algorithm is further stimulated. In essence, the algorithm balances computational time and clustering quality by employing a stochastic, competitive sampling strategy in a parallel computing setting.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# 古典フィードバックを用いた非局所超伝導量子ビット間の多粒子絡み合わせの効率的な生成

Efficient Generation of Multi-partite Entanglement between Non-local Superconducting Qubits using Classical Feedback ( http://arxiv.org/abs/2403.18768v1 )

ライセンス: Link先を確認
Akel Hashim, Ming Yuan, Pranav Gokhale, Larry Chen, Christian Juenger, Neelay Fruitwala, Yilun Xu, Gang Huang, Liang Jiang, Irfan Siddiqi, (参考訳) 量子絡み合いは、量子コンピュータと古典的コンピュータを区別する主要な特徴の1つである。 ゲートベースの量子コンピューティングでは、絡み合った状態の生成や量子プロセッサ間の絡み合いの分布は、絡み合った量子ビットの数で増加する回路深さを必要とすることが多い。 しかし、テレポーテーションベースの量子コンピューティングでは、量子ビット数で一定となる回路深さの絡み合った状態を決定論的に生成することができる。 本研究は,150 nsのフィードバックレイテンシを持つ高速なFPGAベースの制御ハードウェアによって支援され,超伝導量子ビット間の非局所多部絡みを発生させるテレポーテーションベースのプロトコルの有用性について検討する。 まずグリーンバーガー・ホーネ・ザイリンガー状態(GHZ)と非局所CNOTゲートを一定深さで生成するためのよく知られたプロトコルを示す。 次に、3つの非局所量子ビット間の一定深さで非有界ファンアウト(すなわち制御NOT-NOT)ゲートを実装するために両方のプロトコルを利用する。 最後に、量子プロセッサの反対側の量子ビット間の決定論的状態テレポーテーションと絡み合いスワップを実証する。

Quantum entanglement is one of the primary features which distinguishes quantum computers from classical computers. In gate-based quantum computing, the creation of entangled states or the distribution of entanglement across a quantum processor often requires circuit depths which grow with the number of entangled qubits. However, in teleportation-based quantum computing, one can deterministically generate entangled states with a circuit depth that is constant in the number of qubits, provided that one has access to an entangled resource state, the ability to perform mid-circuit measurements, and can rapidly transmit classical information. In this work, aided by fast classical FPGA-based control hardware with a feedback latency of only 150 ns, we explore the utility of teleportation-based protocols for generating non-local, multi-partite entanglement between superconducting qubits. First, we demonstrate well-known protocols for generating Greenberger-Horne-Zeilinger (GHZ) states and non-local CNOT gates in constant depth. Next, we utilize both protocols for implementing an unbounded fan-out (i.e., controlled-NOT-NOT) gate in constant depth between three non-local qubits. Finally, we demonstrate deterministic state teleportation and entanglement swapping between qubits on opposite side of our quantum processor.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# 反射予測によるニューラルプロトフォーム再構成の改良

Improved Neural Protoform Reconstruction via Reflex Prediction ( http://arxiv.org/abs/2403.18769v1 )

ライセンス: Link先を確認
Liang Lu, Jingzhi Wang, David R. Mortensen, (参考訳) 原語復興は歴史的言語学の中心である。 比較法は言語科学史上最も影響力のある理論的・方法論的な枠組みの1つであり、言語学者は規則的な音変化の仮定に基づいて、その反射(近代語)から原形(再構成された祖先語)を推測することができる。 驚くべきことに、多くの計算言語学者は、様々な計算モデルを通して比較再構成を運用しようと試みており、最も成功したのは、与えられた反射集合のプロトフォームを予測する問題をシーケンス・ツー・シーケンス問題として扱うエンコーダ・デコーダモデルである。 我々は、このフレームワークは比較方法の最も重要な側面の1つを無視している: プロトフォームはコグネート集合(関連する反射の集合)から推論可能であるだけでなく、その反射もプロトフォームから推論可能であるべきである。 本稿では, 反射予測モデルを用いて, 復元モデルから候補となるプロトフォームを再現するシステムを提案する。 比較手法のより完全な実装により、4つの中国・ロマンスデータセットのうち3つの最先端のプロトフォーム再構成手法を克服できることを示す。

Protolanguage reconstruction is central to historical linguistics. The comparative method, one of the most influential theoretical and methodological frameworks in the history of the language sciences, allows linguists to infer protoforms (reconstructed ancestral words) from their reflexes (related modern words) based on the assumption of regular sound change. Not surprisingly, numerous computational linguists have attempted to operationalize comparative reconstruction through various computational models, the most successful of which have been supervised encoder-decoder models, which treat the problem of predicting protoforms given sets of reflexes as a sequence-to-sequence problem. We argue that this framework ignores one of the most important aspects of the comparative method: not only should protoforms be inferable from cognate sets (sets of related reflexes) but the reflexes should also be inferable from the protoforms. Leveraging another line of research -- reflex prediction -- we propose a system in which candidate protoforms from a reconstruction model are reranked by a reflex prediction model. We show that this more complete implementation of the comparative method allows us to surpass state-of-the-art protoform reconstruction methods on three of four Chinese and Romance datasets.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# CheckEval: Checklistによる大規模言語モデルによるロバスト評価フレームワーク

CheckEval: Robust Evaluation Framework using Large Language Model via Checklist ( http://arxiv.org/abs/2403.18771v1 )

ライセンス: Link先を確認
Yukyung Lee, Joonghoon Kim, Jaehee Kim, Hyowon Cho, Pilsung Kang, (参考訳) 本稿では,大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、評価基準を詳細なサブアスペクトに分割し、それぞれにBooleanの質問のチェックリストを構築し、評価を単純化することで、これらの課題に対処する。 このアプローチはプロセスをより解釈しやすくするだけでなく、特定の評価次元に焦点をあてることで、結果の堅牢性と信頼性を大幅に向上させる。 SummEvalベンチマークを用いたケーススタディを通じて検証されたCheckEvalは、人間の判断と強い相関関係を示している。 さらに、非常に一貫性のあるアノテーション間の合意を示す。 これらの結果から, 客観的, フレキシブル, 正確な評価におけるCheckEvalの有効性が示唆された。 カスタマイズ可能でインタラクティブなフレームワークを提供することで、CheckEvalはLLMを評価に使用するための新しい標準を設定し、フィールドの進化するニーズに対応し、将来のLLMベースの評価のための明確な方法を確立する。

We introduce CheckEval, a novel evaluation framework using Large Language Models, addressing the challenges of ambiguity and inconsistency in current evaluation methods. CheckEval addresses these challenges by dividing evaluation criteria into detailed sub-aspects and constructing a checklist of Boolean questions for each, simplifying the evaluation. This approach not only renders the process more interpretable but also significantly enhances the robustness and reliability of results by focusing on specific evaluation dimensions. Validated through a focused case study using the SummEval benchmark, CheckEval indicates a strong correlation with human judgments. Furthermore, it demonstrates a highly consistent Inter-Annotator Agreement. These findings highlight the effectiveness of CheckEval for objective, flexible, and precise evaluations. By offering a customizable and interactive framework, CheckEval sets a new standard for the use of LLMs in evaluation, responding to the evolving needs of the field and establishing a clear method for future LLM-based evaluation.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# ImageNet-D:拡散合成対象のニューラルネットワークロバストネスのベンチマーク

ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object ( http://arxiv.org/abs/2403.18775v1 )

ライセンス: Link先を確認
Chenshuang Zhang, Fei Pan, Junmo Kim, In So Kweon, Chengzhi Mao, (参考訳) 我々は、視覚知覚の堅牢性のための厳密なベンチマークを確立する。 ImageNet-C、ImageNet-9、Stylized ImageNetのような合成画像は、合成汚職、背景、テクスチャに対する特定のタイプの評価を提供するが、それらの堅牢性ベンチマークは特定のバリエーションに制限されており、合成品質が低い。 本研究では,深層モデルのロバスト性を評価するハードイメージを合成するためのデータソースとして生成モデルを導入する。 拡散モデルを活用することで、これまでのどの作業よりも多様な背景、テクスチャ、素材を持つ画像を生成することができ、このベンチマークを ImageNet-D と呼ぶ。 実験の結果、ImageNet-Dは標準的なResNet視覚分類器からCLIPやMiniGPT-4のような最新の基礎モデルまで、様々な視覚モデルに顕著な精度低下をもたらし、その精度を最大60倍まで低下させることがわかった。 我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。 コードとデータセットはhttps://github.com/chenshuang-zhang/imagenet_d.comで公開されている。

We establish rigorous benchmarks for visual perception robustness. Synthetic images such as ImageNet-C, ImageNet-9, and Stylized ImageNet provide specific type of evaluation over synthetic corruptions, backgrounds, and textures, yet those robustness benchmarks are restricted in specified variations and have low synthetic quality. In this work, we introduce generative model as a data source for synthesizing hard images that benchmark deep models' robustness. Leveraging diffusion models, we are able to generate images with more diversified backgrounds, textures, and materials than any prior work, where we term this benchmark as ImageNet-D. Experimental results show that ImageNet-D results in a significant accuracy drop to a range of vision models, from the standard ResNet visual classifier to the latest foundation models like CLIP and MiniGPT-4, significantly reducing their accuracy by up to 60\%. Our work suggests that diffusion models can be an effective source to test vision models. The code and dataset are available at https://github.com/chenshuang-zhang/imagenet_d.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# オンデバイスバーチャルアシスタントのための世界英語言語モデルを目指して

Towards a World-English Language Model for On-Device Virtual Assistants ( http://arxiv.org/abs/2403.18783v1 )

ライセンス: Link先を確認
Rricha Jalota, Lyan Verwimp, Markus Nussbaum-Thom, Amr Mousa, Arturo Argueta, Youssef Oualil, (参考訳) 仮想アシスタント(VA)のためのニューラルネットワーク言語モデル(NNLM)は一般的に言語、地域、場合によってはデバイスに依存し、拡張とメンテナンスの労力を増大させる。 NNLMを1つ以上のカテゴリに組み合わせることで、スケーラビリティが向上する。 本研究は、地域英語の変種を組み合わせて、オンデバイスVAのための '`World English'' NNLMを構築する。 特に,既存のNNLMの方言特化特性をモデル化するためのアダプタボトルネックの適用について検討した。 アダプタモジュールは,サブネットワーク全体の特化よりも,方言のモデリングに有効であることが判明した。 この洞察と生産モデルの設計の活用に基づいて、我々は、我々の単一方言モデルの正確性、レイテンシ、メモリ制約を満たすWorld English NNLMの新しいアーキテクチャを導入します。

Neural Network Language Models (NNLMs) for Virtual Assistants (VAs) are generally language-, region-, and in some cases, device-dependent, which increases the effort to scale and maintain them. Combining NNLMs for one or more of the categories is one way to improve scalability. In this work, we combine regional variants of English to build a ``World English'' NNLM for on-device VAs. In particular, we investigate the application of adapter bottlenecks to model dialect-specific characteristics in our existing production NNLMs {and enhance the multi-dialect baselines}. We find that adapter modules are more effective in modeling dialects than specializing entire sub-networks. Based on this insight and leveraging the design of our production models, we introduce a new architecture for World English NNLM that meets the accuracy, latency, and memory constraints of our single-dialect models.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# SplatFace: 最適表面を利用したガウスのスプラッター顔復元

SplatFace: Gaussian Splat Face Reconstruction Leveraging an Optimizable Surface ( http://arxiv.org/abs/2403.18784v1 )

ライセンス: Link先を確認
Jiahao Luo, Jing Liu, James Davis, (参考訳) SplatFaceは3次元人間の顔再構成のための新しいガウススプレイティングフレームワークであり、正確な事前決定幾何に依存しない。 本手法は,高品質な新規ビューレンダリングと高精度な3Dメッシュ再構成の両方を同時に実現するように設計されている。 本研究では,3次元形態モデル(3DMM)を組み込んで表面幾何学的構造を提供し,入力画像の限られたセットで顔の再構成を可能にする。 我々は,相乗的非剛性アライメントプロセスを通じて,ガウス面と変形面の両方を洗練させる共同最適化戦略を導入する。 ガウス位置と共分散の両方を考慮することによりアライメントを改善するために,新しい距離計量であるスプラ・トゥ・サーフェス(splat-to- Surface)を提案する。 表面情報は、世界空間の密度化プロセスを統合するためにも利用され、より優れた再構成品質が得られる。 提案手法は,新しいビュー合成における他のガウススプラッティング手法と,幾何学的精度の高い3次元顔メッシュの作成において,他の3次元再構成手法と競合することを示す。

We present SplatFace, a novel Gaussian splatting framework designed for 3D human face reconstruction without reliance on accurate pre-determined geometry. Our method is designed to simultaneously deliver both high-quality novel view rendering and accurate 3D mesh reconstructions. We incorporate a generic 3D Morphable Model (3DMM) to provide a surface geometric structure, making it possible to reconstruct faces with a limited set of input images. We introduce a joint optimization strategy that refines both the Gaussians and the morphable surface through a synergistic non-rigid alignment process. A novel distance metric, splat-to-surface, is proposed to improve alignment by considering both the Gaussian position and covariance. The surface information is also utilized to incorporate a world-space densification process, resulting in superior reconstruction quality. Our experimental analysis demonstrates that the proposed method is competitive with both other Gaussian splatting techniques in novel view synthesis and other 3D reconstruction methods in producing 3D face meshes with high geometric precision.
翻訳日:2024-03-28 15:59:48 公開日:2024-03-27
# 連続観測による浮遊ナノ粒子の運動状態下におけるスクイーズ

Squeezing below the ground state of motion of a continuously monitored levitating nanoparticle ( http://arxiv.org/abs/2403.18790v1 )

ライセンス: Link先を確認
Qiongyuan Wu, Diana Chisholm, Rafael Muffato, Tiberius Georgescu, Jack Homans, Hendrik Ulbricht, Matteo Carlesso, Mauro Paternostro, (参考訳) Squeezingは、量子情報処理と量子センシングにとって重要なリソースである。 浮遊ナノメカニクスでは、質量粒子のトラップ周波数の時間的制御により、運動の収縮状態を生成することができる。 しかし、達成可能なスクイージングの量は、通常、有害な環境効果に悩まされる。 我々は、トラップ電位の注意深く時間制御を組み込んで、測定バックアクションを含む最も関連するノイズ源を十分に考慮することにより、機械的スクイーズを行う手法の性能を解析する。 我々の提案は、実験的な最先端に近いものであり、量子状態工学にとって貴重なツールである。

Squeezing is a crucial resource for quantum information processing and quantum sensing. In levitated nanomechanics, squeezed states of motion can be generated via temporal control of the trapping frequency of a massive particle. However, the amount of achievable squeezing typically suffers from detrimental environmental effects. We analyze the performance of a scheme that, by embedding careful time-control of trapping potentials and fully accounting for the most relevant sources of noise -- including measurement backaction -- achieves significant levels of mechanical squeezing. The feasibility of our proposal, which is close to experimental state-of-the-art, makes it a valuable tool for quantum state engineering.
翻訳日:2024-03-28 15:59:47 公開日:2024-03-27
# 拡散特徴の集約によるオブジェクトポス推定

Object Pose Estimation via the Aggregation of Diffusion Features ( http://arxiv.org/abs/2403.18791v1 )

ライセンス: Link先を確認
Tianfu Wang, Guosheng Hu, Hongguang Wang, (参考訳) 画像からオブジェクトのポーズを推定することは3Dシーン理解の重要な課題であり、最近のアプローチでは、非常に大きなベンチマークで有望な結果を示している。 しかしながら、これらのメソッドは、目に見えないオブジェクトを扱う際に、大幅なパフォーマンス低下を経験します。 画像特徴の限定的な一般化性から生じると我々は信じている。 この問題に対処するために、我々は拡散モデル、例えば安定拡散(Stable Diffusion)の特徴を詳細に分析する。 この分析に基づいて、オブジェクトのポーズ推定にこれらの拡散機能を革新的に導入する。 そこで本研究では,異なる粒度の拡散特性を効果的に捕捉・集約し,オブジェクトのポーズ推定の一般化性を大幅に向上する3つのアーキテクチャを提案する。 提案手法は,3つのベンチマークデータセット,LM,O-LM,T-LESSに対して,最先端の手法よりもかなり優れている。 特に,本手法は,従来の未確認オブジェクトに対して98.2%対93.5%,未確認O-LMでは85.9%対76.3%,未確認O-LMでは98.2%対93.5%と高い精度を達成し,本手法の強い一般化性を示した。 私たちのコードはhttps://github.com/Tianfu18/diff-feats-poseでリリースされています。

Estimating the pose of objects from images is a crucial task of 3D scene understanding, and recent approaches have shown promising results on very large benchmarks. However, these methods experience a significant performance drop when dealing with unseen objects. We believe that it results from the limited generalizability of image features. To address this problem, we have an in-depth analysis on the features of diffusion models, e.g. Stable Diffusion, which hold substantial potential for modeling unseen objects. Based on this analysis, we then innovatively introduce these diffusion features for object pose estimation. To achieve this, we propose three distinct architectures that can effectively capture and aggregate diffusion features of different granularity, greatly improving the generalizability of object pose estimation. Our approach outperforms the state-of-the-art methods by a considerable margin on three popular benchmark datasets, LM, O-LM, and T-LESS. In particular, our method achieves higher accuracy than the previous best arts on unseen objects: 98.2% vs. 93.5% on Unseen LM, 85.9% vs. 76.3% on Unseen O-LM, showing the strong generalizability of our method. Our code is released at https://github.com/Tianfu18/diff-feats-pose.
翻訳日:2024-03-28 15:59:47 公開日:2024-03-27
# 非クリフォードゲートの量子誤差緩和の理論

Theory of quantum error mitigation for non-Clifford gates ( http://arxiv.org/abs/2403.18793v1 )

ライセンス: Link先を確認
David Layden, Bradley Mitchell, Karthik Siva, (参考訳) 量子誤差軽減技術は、複数の関連するノイズ回路を実行し、特定の方法でそれらの出力を組み合わせることで、ノイズのない量子回路を模倣する。 そのような技法がいかにうまく機能するかは、根底にある門がいかにうるさいかに強く依存していると考えられている。 小さな角度に対する$R_{ZZ}(\theta)$のような弱い絡み合うゲートは、CNOTやCZのようなクリフォードゲートの絡み合うよりもノイズが少なく、量子力学をシミュレートする回路に自然に現れる。 しかし、このような弱い絡み合うゲートはクリフォードではないため、現在最も顕著なエラー軽減手法である確率的エラーキャンセル(PEC)とゼロノイズ外挿法(ZNE)の2つとは相容れない。 本稿では,これらの手法を非クリフォードゲートに一般化し,相補的な2つの部分からなる。 最初の部分は、ランダムなパウリゲートを追加して測定結果を処理することで、サンプリングオーバーヘッドを犠牲にして、任意の量子チャネルを(ほとんど)任意の望ましいチャネルに効果的に変換する方法を示しています。 これにより、そのようなゲートを詳細に特徴付けることができれば、非クリフォードゲートのノイズをキャンセルまたは適切に増幅することができる。 第二部では、ノイズの多い$R_{ZZ}(\theta)$ gatesに対して、そうするテクニックを導入している。 これらの技術は、状態準備と測定(SPAM)の誤差に対して堅牢であり、多くの実験で濃度と感度の厳しい特徴を示す。 これらはランダム化ベンチマークと関連しており、エラー軽減の文脈を超えても関心があるかもしれない。 非クリフォードゲートは関連するクリフォードよりもノイズが少なくなるが、そのノイズは基本的により複雑であり、誤りの軽減に驚くべき、時には望ましくない効果をもたらす可能性がある。 このトレードオフが広く有利であるかどうかは不明だ。

Quantum error mitigation techniques mimic noiseless quantum circuits by running several related noisy circuits and combining their outputs in particular ways. How well such techniques work is thought to depend strongly on how noisy the underlying gates are. Weakly-entangling gates, like $R_{ZZ}(\theta)$ for small angles $\theta$, can be much less noisy than entangling Clifford gates, like CNOT and CZ, and they arise naturally in circuits used to simulate quantum dynamics. However, such weakly-entangling gates are non-Clifford, and are therefore incompatible with two of the most prominent error mitigation techniques to date: probabilistic error cancellation (PEC) and the related form of zero-noise extrapolation (ZNE). This paper generalizes these techniques to non-Clifford gates, and comprises two complementary parts. The first part shows how to effectively transform any given quantum channel into (almost) any desired channel, at the cost of a sampling overhead, by adding random Pauli gates and processing the measurement outcomes. This enables us to cancel or properly amplify noise in non-Clifford gates, provided we can first characterize such gates in detail. The second part therefore introduces techniques to do so for noisy $R_{ZZ}(\theta)$ gates. These techniques are robust to state preparation and measurement (SPAM) errors, and exhibit concentration and sensitivity--crucial features in many experiments. They are related to randomized benchmarking, and may also be of interest beyond the context of error mitigation. We find that while non-Clifford gates can be less noisy than related Cliffords, their noise is fundamentally more complex, which can lead to surprising and sometimes unwanted effects in error mitigation. Whether this trade-off can be broadly advantageous remains to be seen.
翻訳日:2024-03-28 15:59:47 公開日:2024-03-27
# ガンバ:マムバとマーリー・ガウシアン・スプレイティング シングルビュー3D再構築

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction ( http://arxiv.org/abs/2403.18795v1 )

ライセンス: Link先を確認
Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang, (参考訳) 我々は,自動化された3Dコンテンツ作成パイプラインの需要が増大する中で,単一の画像から3Dアセットを効率的に再構築する課題に取り組む。 従来はSDS(Score Distillation Smpling)とNeural Radiance Fields(NeRF)が主流であった。 その大きな成功にもかかわらず、これらのアプローチは、長い最適化とかなりのメモリ使用量のために、実用的な制限に直面している。 本報告では, 単一視点画像からエンド・ツー・エンドの3次元再構成モデルであるガンバについて述べる。(1) 多数の3次元ガウス表現を効率的に3次元ガウス分割プロセスに活用すること,(2) バックボーン設計: コンテキスト依存推論と線形スケーラビリティをシーケンス(token)長で実現し, 相当数のガウスを収容すること。 Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。 我々は,実世界のOmniObject3Dデータセットを用いて,既存の最適化ベースおよびフィードフォワード3D生成手法に対するガンバの評価を行った。 ここでGambaは、定性的かつ定量的に競合生成能力を示しながら、1つのNVIDIA A100 GPUで約0.6秒の驚くべき速度を実現している。

We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# 非標準ラグランジュ派と分枝ハミルトン派

Nonstandard Lagrangians and branched Hamiltonians: A brief review ( http://arxiv.org/abs/2403.18801v1 )

ライセンス: Link先を確認
Bijan Bagchi, Aritra Ghosh, Miloslav Znojil, (参考訳) 時折、ラグランジュ人の非伝統的な形態が文学に注目されている。 例えば、そのようなラグランジアンは、特にLi\'{e}nard クラスの型を含む、非線形力学のいくつかの側面と深い関係を持ち、また、その量子化の問題は、対応するハミルトニアンの複数の分岐を開き、関連する固有函数に特異点が存在することに終始する。 本稿では、そのようなラグランジアンと関連する分枝ハミルトニアンの古典理論の簡単なレビューを行い、Li\'{e}nard型システムの例から始める。 次に、ラグランジアンが2つ以上の力を持つ速度に依存しながら、計算可能な数学的構造を持ちながら、関連する分枝ハミルトニアンをそのような系に記述する他のケースを取り上げる。 様々な例として、分枝ハミルトニアン理論における運動量依存質量の概念の出現を強調する。

Time and again, non-conventional forms of Lagrangians have found attention in the literature. For one thing, such Lagrangians have deep connections with several aspects of nonlinear dynamics including specifically the types of the Li\'{e}nard class; for another, very often the problem of their quantization opens up multiple branches of the corresponding Hamiltonians, ending up with the presence of singularities in the associated eigenfunctions. In this article, we furnish a brief review of the classical theory of such Lagrangians and the associated branched Hamiltonians, starting with the example of Li\'{e}nard-type systems. We then take up other cases where the Lagrangians depend upon the velocity with powers greater than two while still having a tractable mathematical structure, while also describing the associated branched Hamiltonians for such systems. For various examples, we emphasize upon the emergence of the notion of momentum-dependent mass in the theory of branched Hamiltonians.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# 大規模言語モデルにおける長期的事実性

Long-form factuality in large language models ( http://arxiv.org/abs/2403.18802v1 )

ライセンス: Link先を確認
Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le, (参考訳) 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。 まずGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成する。 そこで我々は,LLMエージェントを,探索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。 SAFEは、LLMを使用して、長文の応答を個々の事実の集合に分解し、検索クエリをGoogle検索に送信し、検索結果で事実がサポートされているかどうかを判定する多段階推論プロセスを用いて、各事実の精度を評価する。 さらに,F1スコアを長期的事実性のための集計指標として拡張することを提案する。 そこで我々は,応答(精度)におけるサポート対象事実の割合と,ユーザの好む応答長(リコール)を表すハイパーパラメータに対する提供対象事実の割合のバランスをとる。 実験により, LLMエージェントが超人格評価を達成できることが実証された。約16k個の個々の事実に基づいて, SAFEはクラウドソーシングされた人称アノテータの72%と一致し, 100個の不一致事例のランダムなサブセットでは, SAFEが76%の確率で勝利した。 同時に、SAFEはヒトのアノテーターの20倍以上の安価である。 また、LongFactの13の言語モデル(Gemini, GPT, Claude, PaLM-2)をベンチマークし、より大きな言語モデルが一般的により優れた長文の事実性を実現することを発見した。 LongFact、SAFE、およびすべての実験コードはhttps://github.com/google-deepmind/long-form-factualityで入手できる。

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# 事前学習型言語モデルにおけるジェンダーバイアスの予測手法

Projective Methods for Mitigating Gender Bias in Pre-trained Language Models ( http://arxiv.org/abs/2403.18803v1 )

ライセンス: Link先を確認
Hillary Dawkins, Isar Nejadgholi, Daniel Gillis, Judi McCuaig, (参考訳) NLPにおける性バイアスの緩和は、静的な単語の埋め込みの偏りと長い歴史を結び付けている。 最近では、事前訓練された言語モデルのデバイアス化に注意が向けられている。 我々は,単語埋め込みのために開発された最も単純な射影的デバイアス法が,BERTの内部表現に適用した場合にどの程度役立つかを検討する。 プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。 提案手法は,BERTの次の文予測タスクで測定された内在バイアスの低減と,微調整時の下流環境における観察バイアスの軽減に有効である。 そこで本研究では,本態性バイアスを定量化するための一般的なジェンダーバイアス評価試験の批判的分析を行い,その結果,テストセットの強化と新たなバイアス尺度が得られた。 射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。 この発見は、言語モデリングタスクや次の文予測に基づく固有のバイアステストセットが、バイアス付き言語モデルを開発する唯一のベンチマークではない、という警告となる。

Mitigation of gender bias in NLP has a long history tied to debiasing static word embeddings. More recently, attention has shifted to debiasing pre-trained language models. We study to what extent the simplest projective debiasing methods, developed for word embeddings, can help when applied to BERT's internal representations. Projective methods are fast to implement, use a small number of saved parameters, and make no updates to the existing model parameters. We evaluate the efficacy of the methods in reducing both intrinsic bias, as measured by BERT's next sentence prediction task, and in mitigating observed bias in a downstream setting when fine-tuned. To this end, we also provide a critical analysis of a popular gender-bias assessment test for quantifying intrinsic bias, resulting in an enhanced test set and new bias measures. We find that projective methods can be effective at both intrinsic bias and downstream bias mitigation, but that the two outcomes are not necessarily correlated. This finding serves as a warning that intrinsic bias test sets, based either on language modeling tasks or next sentence prediction, should not be the only benchmark in developing a debiased language model.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# モジュール性伝達は可能か? : 知識蒸留レンズを用いたケーススタディ

Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation ( http://arxiv.org/abs/2403.18804v1 )

ライセンス: Link先を確認
Mateusz Klimaszewski, Piotr Andruszkiewicz, Alexandra Birch, (参考訳) Modular Deep Learningの台頭は、様々な自然言語処理アプリケーションにおけるその可能性を示している。 パラメータ効率細調整(PEFT)のモジュラリティは、ドメイン適応から多言語設定まで、さまざまなユースケースで有効であることが示されている。 しかしながら、これらの作業はすべて、モジュールコンポーネントがトレーニングされ、1つのトレーニング済み言語モデル(PLM)内にデプロイされる場合をカバーする。 このモデル固有のセットアップは、モジュラーアーキテクチャが達成しようとしている、非常にモジュール性に関する大きな制限となります。 現在のモジュラーアプローチがモデル間で転送可能であるか、より堅牢でより大きなPLMからより小さなPLMへモジュールを転送できるかどうかを問う。 本研究では,モデル圧縮によく用いられる知識蒸留のレンズを用いて,このギャップを埋めることを目的としている。 さらに,不適合なPLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。 Named Entity Recognition, Natural Language Inference, Paraphrase Identification task over multiple languages and PEFT methodという実験は、転送可能なモジュラリティの最初の可能性を示している。

The rise of Modular Deep Learning showcases its potential in various Natural Language Processing applications. Parameter-efficient fine-tuning (PEFT) modularity has been shown to work for various use cases, from domain adaptation to multilingual setups. However, all this work covers the case where the modular components are trained and deployed within one single Pre-trained Language Model (PLM). This model-specific setup is a substantial limitation on the very modularity that modular architectures are trying to achieve. We ask whether current modular approaches are transferable between models and whether we can transfer the modules from more robust and larger PLMs to smaller ones. In this work, we aim to fill this gap via a lens of Knowledge Distillation, commonly used for model compression, and present an extremely straightforward approach to transferring pre-trained, task-specific PEFT modules between same-family PLMs. Moreover, we propose a method that allows the transfer of modules between incompatible PLMs without any change in the inference complexity. The experiments on Named Entity Recognition, Natural Language Inference, and Paraphrase Identification tasks over multiple languages and PEFT methods showcase the initial potential of transferable modularity.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# ECoDepth:単眼深度推定のための拡散モデルの効率的な条件付け

ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation ( http://arxiv.org/abs/2403.18807v1 )

ライセンス: Link先を確認
Suraj Patni, Aradhye Agarwal, Chetan Arora, (参考訳) パララックス・キューが存在しない場合、学習に基づく単一画像深度推定(SIDE)モデルは、画像のシェーディングと文脈的キューに大きく依存する。 この単純さは魅力的だが、大きなデータセットやさまざまなデータセットでそのようなモデルをトレーニングする必要がある。 CLIPのような事前訓練された基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善されることが示されている。 このことから着想を得て、本稿では、事前学習したViTモデルから生成されたグローバル画像の事前利用について検討し、より詳細な文脈情報を提供する。 大規模なデータセット上で事前学習されたViTモデルからの埋め込みベクトルは、疑似画像キャプションを生成する通常の経路よりもSIDEの関連情報をキャプチャし、次にCLIPベースのテキスト埋め込みを行う。 そこで本研究では,ViT埋め込みを前提とした拡散バックボーンを用いた新しいSIDEモデルを提案する。 提案手法は,現在のSOTA(VPD)の0.069に対して,Abs Rel誤差0.059(14%の改善)を達成し,NYUv2データセット上でSIDEのための新しい最先端SOTA(State-of-the-art)を確立する。 そして、KITTIデータセットでは、現在のSOTA(GEDepth)の0.142に比べてSq Rel誤差が0.139(2%改善)である。 また,NYUv2でトレーニングしたモデルを用いたゼロショット転送では,ZoeDepthによる16%,18%,45%,9%に比べてNeWCRFよりも20%,23%,81%,25%の相対的な改善(Sun-RGBD,iBims1,DIODE,HyperSim)が見られた。 コードはhttps://github.com/Aradhye2002/EcoDepth.comで公開されている。

In the absence of parallax cues, a learning-based single image depth estimation (SIDE) model relies heavily on shading and contextual cues in the image. While this simplicity is attractive, it is necessary to train such models on large and varied datasets, which are difficult to capture. It has been shown that using embeddings from pre-trained foundational models, such as CLIP, improves zero shot transfer in several applications. Taking inspiration from this, in our paper we explore the use of global image priors generated from a pre-trained ViT model to provide more detailed contextual information. We argue that the embedding vector from a ViT model, pre-trained on a large dataset, captures greater relevant information for SIDE than the usual route of generating pseudo image captions, followed by CLIP based text embeddings. Based on this idea, we propose a new SIDE model using a diffusion backbone which is conditioned on ViT embeddings. Our proposed design establishes a new state-of-the-art (SOTA) for SIDE on NYUv2 dataset, achieving Abs Rel error of 0.059(14% improvement) compared to 0.069 by the current SOTA (VPD). And on KITTI dataset, achieving Sq Rel error of 0.139 (2% improvement) compared to 0.142 by the current SOTA (GEDepth). For zero-shot transfer with a model trained on NYUv2, we report mean relative improvement of (20%, 23%, 81%, 25%) over NeWCRFs on (Sun-RGBD, iBims1, DIODE, HyperSim) datasets, compared to (16%, 18%, 45%, 9%) by ZoeDepth. The code is available at https://github.com/Aradhye2002/EcoDepth.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# Duolando: ダンス伴奏のためのオフポリティ強化学習による低速GPT

Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment ( http://arxiv.org/abs/2403.18811v1 )

ライセンス: Link先を確認
Li Siyao, Tianpei Gu, Zhitao Yang, Zhengyu Lin, Ziwei Liu, Henghui Ding, Lei Yang, Chen Change Loy, (参考訳) 本稿では,ダンスパートナーからのレスポンシブな動きの発生を必要とするダンス伴奏(ダンス伴奏)と呼ばれる3Dダンス生成の分野において,リードダンサーの動きと同期した「フォロワ(フォロワ)」という新たなタスクを導入する。 既存のソロやグループダンス生成タスクとは異なり、デュエットダンスのシナリオは両者の相互作用の度合いを高め、ポーズとポジションの両方で微妙な調整を必要とする。 このタスクを支援するために、我々はまず、プロのダンサーのパフォーマンスを約117分間記録することで、大規模で多様なデュエット型ダンスデータセットDD100を構築した。 本課題に固有の課題に対処するため,GPTに基づくDuolandoモデルを提案する。 本研究は,GPTが未確認条件(音楽・リーダー動作)に対して安定した結果を生成できる能力をさらに強化するために,人為的な報酬によって導かれる,流通外のサンプリングから実行可能な軌道を探索する,非政治強化学習戦略を考案する。 収集したデータセットと提案手法に基づいて,慎重に設計した指標を用いたベンチマークを構築した。

We introduce a novel task within the field of 3D dance generation, termed dance accompaniment, which necessitates the generation of responsive movements from a dance partner, the "follower", synchronized with the lead dancer's movements and the underlying musical rhythm. Unlike existing solo or group dance generation tasks, a duet dance scenario entails a heightened degree of interaction between the two participants, requiring delicate coordination in both pose and position. To support this task, we first build a large-scale and diverse duet interactive dance dataset, DD100, by recording about 117 minutes of professional dancers' performances. To address the challenges inherent in this task, we propose a GPT-based model, Duolando, which autoregressively predicts the subsequent tokenized motion conditioned on the coordinated information of the music, the leader's and the follower's movements. To further enhance the GPT's capabilities of generating stable results on unseen conditions (music and leader motions), we devise an off-policy reinforcement learning strategy that allows the model to explore viable trajectories from out-of-distribution samplings, guided by human-defined rewards. Based on the collected dataset and proposed method, we establish a benchmark with several carefully designed metrics.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# 近似パターンマッチングの通信複雑性について

On the Communication Complexity of Approximate Pattern Matching ( http://arxiv.org/abs/2403.18812v1 )

ライセンス: Link先を確認
Tomasz Kociumaka, Jakob Nogler, Philip Wellnitz, (参考訳) 数十年前のPattern Matching with Edits問題では、long-n$ string $T$ (テキスト)、 length-m$ string $P$ (パターン)、 positive integer $k$ (しきい値)が与えられた。 この問題の一方的な通信の複雑さは、入力文字列の$P$と$T$にアクセスすることなく、答えをエンコードするために必要な最小の空間量である。 Clifford, Kociumaka, Porat [SODA 2019] は$\Omega(n/m \cdot k \log(m/k))$ bits が必須であり、$O(n/m \cdot k\log (m|\Sigma|/k))$ bits が十分であることを示した。 近年のランニングタイムの改善 (Charalampopoulos, Kociumaka, Wellnitz, FOCS 2020, 2022) にもかかわらず、編集とのパターンマッチングの通信の複雑さは未探索のままであり、その下限は$\Omega(n/m \cdot k\log(m/k))$ bits、上限は$O(n/m \cdot k^3\log m)$ bitsであった。 本研究では,$O(n/m \cdot k \log^2m)$ビットの上限を証明し,対数的因子まで最適な通信複雑性を確立する。 また、$O(n/m \cdot k \log m \log (m|\Sigma|))$ bits は、$k$-error の発生毎に$P$ in $T$ のエンコードを可能にする。 我々は、新しい結果の裏にある技術を活用して、パターンマッチングと編集のための量子アルゴリズムを得る。

The decades-old Pattern Matching with Edits problem, given a length-$n$ string $T$ (the text), a length-$m$ string $P$ (the pattern), and a positive integer $k$ (the threshold), asks to list all fragments of $T$ that are at edit distance at most $k$ from $P$. The one-way communication complexity of this problem is the minimum amount of space needed to encode the answer so that it can be retrieved without accessing the input strings $P$ and $T$. The closely related Pattern Matching with Mismatches problem (defined in terms of the Hamming distance instead of the edit distance) is already well understood from the communication complexity perspective: Clifford, Kociumaka, and Porat [SODA 2019] proved that $\Omega(n/m \cdot k \log(m/k))$ bits are necessary and $O(n/m \cdot k\log (m|\Sigma|/k))$ bits are sufficient; the upper bound allows encoding not only the occurrences of $P$ in $T$ with at most $k$ mismatches but also the substitutions needed to make each $k$-mismatch occurrence exact. Despite recent improvements in the running time [Charalampopoulos, Kociumaka, and Wellnitz; FOCS 2020 and 2022], the communication complexity of Pattern Matching with Edits remained unexplored, with a lower bound of $\Omega(n/m \cdot k\log(m/k))$ bits and an upper bound of $O(n/m \cdot k^3\log m)$ bits stemming from previous research. In this work, we prove an upper bound of $O(n/m \cdot k \log^2 m)$ bits, thus establishing the optimal communication complexity up to logarithmic factors. We also show that $O(n/m \cdot k \log m \log (m|\Sigma|))$ bits allow encoding, for each $k$-error occurrence of $P$ in $T$, the shortest sequence of edits needed to make the occurrence exact. We leverage the techniques behind our new result on the communication complexity to obtain quantum algorithms for Pattern Matching with Edits.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# モデルカウントによる量子回路の等価チェック

Equivalence Checking of Quantum Circuits by Model Counting ( http://arxiv.org/abs/2403.18813v1 )

ライセンス: Link先を確認
Jingyi Mei, Tim Coopmans, Marcello Bonsangue, Alfons Laarman, (参考訳) 2つの量子回路間の等価性を検証することは難しい問題であり、実際のデバイスに対する量子アルゴリズムのコンパイルと最適化には重要な問題である。 本稿では、重み付きモデルカウント(WMC)に対して、(ユニバーサル)量子回路等価問題をチューリング還元する。 我々の出発点は、量子回路の等価性チェックがいわゆるパウリ基底で可能であることを示す民俗定理である。 我々はこの知見を量子回路シミュレーションのWMC符号化と組み合わせ、トフォリゲートをサポートして拡張する。 最後に、モデルカウンターによって計算された重みが実際に還元を実現することを証明した。 オープンソースの実装により、この手法はZX計算と決定図に基づく最先端の等価性チェックツールより優れていることを示す。

Verifying equivalence between two quantum circuits is a hard problem, that is nonetheless crucial in compiling and optimizing quantum algorithms for real-world devices. This paper gives a Turing reduction of the (universal) quantum circuits equivalence problem to weighted model counting (WMC). Our starting point is a folklore theorem showing that equivalence checking of quantum circuits can be done in the so-called Pauli-basis. We combine this insight with a WMC encoding of quantum circuit simulation, which we extend with support for the Toffoli gate. Finally, we prove that the weights computed by the model counter indeed realize the reduction. With an open-source implementation, we demonstrate that this novel approach can outperform a state-of-the-art equivalence-checking tool based on ZX calculus and decision diagrams.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# Mini-Gemini:多モードビジョン言語モデルの可能性を探る

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models ( http://arxiv.org/abs/2403.18814v1 )

ライセンス: Link先を確認
Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia, (参考訳) 本稿では,マルチモーダル・ビジョン言語モデル(VLM)を改良した,シンプルかつ効果的なフレームワークであるMini-Geminiを紹介する。 基本的なビジュアルダイアログと推論を容易にするVLMの進歩にもかかわらず、パフォーマンスギャップはGPT-4やGeminiのような先進的なモデルと比べて持続する。 我々は、高解像度の視覚トークン、高品質データ、VLM誘導生成という3つの側面から、より良いパフォーマンスとあらゆるワークフローのためにVLMのポテンシャルをマイニングすることでギャップを狭めようとしている。 視覚的トークン数を増大させることなく,高精細化のための付加的な視覚的エンコーダを提案する。 さらに、画像の正確な理解と推論に基づく生成を促進する高品質なデータセットを構築し、現在のVLMの運用範囲を広げる。 一般に、Mini-GeminiはVLMの可能性をさらに掘り下げ、イメージ理解、推論、生成を同時に行う現在のフレームワークを強化する。 Mini-Gemini は 2B から 34B までの一連の高密度および高密度な MoE 言語モデル (LLM) をサポートしている。 いくつかのゼロショットベンチマークで主要なパフォーマンスを達成でき、開発済みのプライベートモデルを超えている。 コードとモデルはhttps://github.com/dvlab-research/MiniGemini.comで入手できる。

In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at https://github.com/dvlab-research/MiniGemini.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# Garment3DGen: 3Dガーメントスティル化とテクスチャ生成

Garment3DGen: 3D Garment Stylization and Texture Generation ( http://arxiv.org/abs/2403.18816v1 )

ライセンス: Link先を確認
Nikolaos Sarafianos, Tuur Stuyck, Xiaoyu Xiang, Yilei Li, Jovan Popovic, Rakesh Ranjan, (参考訳) 本稿では,単一の入力画像が与えられたベースメッシュから3次元衣服資産を合成する新しい手法であるGarment3DGenを紹介する。 提案手法では,テキストプロンプトなど,実画像と合成画像の両方に基づいて3次元テクスチャ化された衣服を作成できる。 生成された資産は人体に直接描画し、シミュレーションすることができる。 まず,最近の画像の3次元拡散手法の進歩を活用して3次元衣服測地を創出する。 しかし、これらのジオメトリは下流のタスクでは直接利用できないため、擬似地下構造として利用し、ベーステンプレートメッシュを変形させて生成された3Dターゲットに適合させるメッシュ変形最適化手順を構築することを提案する。 第二に、入力ベースメッシュが所望の目標に向かって自由に変形するが、メッシュの品質とトポロジーをシミュレートできるように、慎重に設計された損失を導入する。 最後に、テクスチャ推定モジュールは、グローバルかつ局所的に一貫した高忠実度テクスチャマップを生成し、入力ガイダンスを忠実にキャプチャし、生成した3Dアセットをレンダリングする。 Garment3DGenを使用すると、アーティストの介入を必要とせずにテクスチャ化された3D衣服を選択できる。 シミュレーション可能な3Dアセットを生成したいと望む衣服を記述したテキストプロンプトを提供することができる。 本稿では,実物と生物の両方の資産に関する定量的・定性的な比較を多数提示し,シミュレーション可能な3D衣料の創出方法のユースケースを提供する。

We introduce Garment3DGen a new method to synthesize 3D garment assets from a base mesh given a single input image as guidance. Our proposed approach allows users to generate 3D textured clothes based on both real and synthetic images, such as those generated by text prompts. The generated assets can be directly draped and simulated on human bodies. First, we leverage the recent progress of image to 3D diffusion methods to generate 3D garment geometries. However, since these geometries cannot be utilized directly for downstream tasks, we propose to use them as pseudo ground-truth and set up a mesh deformation optimization procedure that deforms a base template mesh to match the generated 3D target. Second, we introduce carefully designed losses that allow the input base mesh to freely deform towards the desired target, yet preserve mesh quality and topology such that they can be simulated. Finally, a texture estimation module generates high-fidelity texture maps that are globally and locally consistent and faithfully capture the input guidance, allowing us to render the generated 3D assets. With Garment3DGen users can generate the textured 3D garment of their choice without the need of artist intervention. One can provide a textual prompt describing the garment they desire to generate a simulation-ready 3D asset. We present a plethora of quantitative and qualitative comparisons on various assets both real and generated and provide use-cases of how one can generate simulation-ready 3D garments.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# ObjectDrop:光現実的物体除去と挿入のためのブートストラップ対策

ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion ( http://arxiv.org/abs/2403.18818v1 )

ライセンス: Link先を確認
Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen, (参考訳) 拡散モデルは画像編集に革命をもたらしたが、しばしば物理的法則に違反した画像を生成する。 自己教師型アプローチの限界を分析することにより,q{counterfactual}データセットを中心とした実用的なソリューションを提案する。 提案手法では,1つのオブジェクトの削除前後のシーンをキャプチャすると同時に,他の変更を最小限に抑える。 このデータセット上で拡散モデルを微調整することで、オブジェクトを除去するだけでなく、シーンへの影響も除去できるのです。 しかし,この手法をフォトリアリスティックなオブジェクト挿入に適用するには,極めて大きなデータセットが必要であることがわかった。 この課題に対処するために、我々は、小さな対物データセットでトレーニングされたオブジェクト除去モデルを活用するブートストラップの監視を提案し、このデータセットを大幅に拡張した。 本手法は,光写実的物体除去・挿入において,特に現場における物体の影響のモデル化において,先行手法よりも優れていた。

Diffusion models have revolutionized image editing but often generate images that violate physical laws, particularly the effects of objects on the scene, e.g., occlusions, shadows, and reflections. By analyzing the limitations of self-supervised approaches, we propose a practical solution centered on a \q{counterfactual} dataset. Our method involves capturing a scene before and after removing a single object, while minimizing other changes. By fine-tuning a diffusion model on this dataset, we are able to not only remove objects but also their effects on the scene. However, we find that applying this approach for photorealistic object insertion requires an impractically large dataset. To tackle this challenge, we propose bootstrap supervision; leveraging our object removal model trained on a small counterfactual dataset, we synthetically expand this dataset considerably. Our approach significantly outperforms prior methods in photorealistic object removal and insertion, particularly at modeling the effects of objects on the scene.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# COCOによるオブジェクト検出のベンチマーク:新しいパスフォワード

Benchmarking Object Detectors with COCO: A New Path Forward ( http://arxiv.org/abs/2403.18819v1 )

ライセンス: Link先を確認
Shweta Singh, Aayan Yadav, Jitesh Jain, Humphrey Shi, Justin Johnson, Karan Desai, (参考訳) Common Objects in Context (COCO)データセットは、過去10年にわたってオブジェクト検出器のベンチマークに役立っている。 すべてのデータセットと同様に、COCOはアノテーションの手順から生じる微妙なエラーと欠陥を含んでいる。 高パフォーマンスモデルの出現により、COCOのこれらのエラーが、その実用性を確実にベンチマークし、さらなる進歩を妨げているかどうかを問う。 回答を求めるため,COCO(2017年版)から数千のマスクを検査し,不正確なマスク境界,非排他的アノテーション付インスタンス,誤ラベル付きマスクなど,さまざまな種類のエラーを明らかにする。 COCOの普及により、これらの誤りを補正し、先行研究との連続性を維持することを選択する。 我々はCOCO-ReM(Refined Masks)を開発した。 我々は、50個の物体検出器を評価し、COCO-ReMにおいて、よりシャープなマスクを予測するモデルは、COCO-2017のエラーにより誤ってペナル化されていることを確認した。 さらに,COCO-ReMでトレーニングしたモデルは,COCO-2017でトレーニングした大規模モデルよりも早く収束し,スコアが高く,オブジェクト検出器の改善におけるデータ品質の重要性を強調した。 これらの結果から,COCO-ReMを将来の物体検出研究に活用することを提唱した。 私たちのデータセットはhttps://cocorem.xyz.comで公開されています。

The Common Objects in Context (COCO) dataset has been instrumental in benchmarking object detectors over the past decade. Like every dataset, COCO contains subtle errors and imperfections stemming from its annotation procedure. With the advent of high-performing models, we ask whether these errors of COCO are hindering its utility in reliably benchmarking further progress. In search for an answer, we inspect thousands of masks from COCO (2017 version) and uncover different types of errors such as imprecise mask boundaries, non-exhaustively annotated instances, and mislabeled masks. Due to the prevalence of COCO, we choose to correct these errors to maintain continuity with prior research. We develop COCO-ReM (Refined Masks), a cleaner set of annotations with visibly better mask quality than COCO-2017. We evaluate fifty object detectors and find that models that predict visually sharper masks score higher on COCO-ReM, affirming that they were being incorrectly penalized due to errors in COCO-2017. Moreover, our models trained using COCO-ReM converge faster and score higher than their larger variants trained using COCO-2017, highlighting the importance of data quality in improving object detectors. With these findings, we advocate using COCO-ReM for future object detection research. Our dataset is available at https://cocorem.xyz
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# MetaCap: スパースビューヒューマンパフォーマンスキャプチャとレンダリングのためのマルチビュー画像からのメタラーニング

MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering ( http://arxiv.org/abs/2403.18820v1 )

ライセンス: Link先を確認
Guoxing Sun, Rishabh Dabral, Pascal Fua, Christian Theobalt, Marc Habermann, (参考訳) まばらなRGB観測から得られた忠実な人間のパフォーマンスキャプチャとフリービューレンダリングは、視覚とグラフィックの長年の問題である。 主な課題は、観測の欠如と設定の固有のあいまいさ、例えば閉塞、深さのあいまいさである。 その結果、高頻度の外観や幾何の細部を密な設定で捉えることに大きな期待を抱いている放射場は、単にスパースビューの入力に過度に適合するため、スパースカメラの視界で「na\」を監督する場合には、不十分に機能することがわかった。 そこで我々はMetaCapを提案する。MetaCapは高効率で高品質な幾何復元と新しいビュー合成のための手法であり、非常にスパースで、しかも人間の単一のビューである。 私たちのキーとなるアイデアは、被写体の重量を多視点ビデオからメタラーニングすることです。 この前はネットワークウェイトの初期化が優れており、スパースビューキャプチャの曖昧さを効果的に解決する。 人体の関節構造と動きによって引き起こされる表面の変形のため、そのような事前の学習は簡単ではない。 そこで,ポーズ正準化空間におけるフィールド重みのメタラーニングを提案し,空間的特徴範囲を小さくし,特徴学習をより効果的にする。 その結果、フィールドパラメータを微調整して、目立たないポーズ、新しい照明条件、新規でスパースな(モノラルな)カメラビューに素早く一般化することができる。 異なるシナリオ下での手法の評価には,高密度カメラドームと細いカメラリグの両方を収録した新たなデータセットWildDynaCapを収集し,パブリックおよびワイルドDynaCapデータセットの最近の最先端手法と比較して,優れた結果を示す。

Faithful human performance capture and free-view rendering from sparse RGB observations is a long-standing problem in Vision and Graphics. The main challenges are the lack of observations and the inherent ambiguities of the setting, e.g. occlusions and depth ambiguity. As a result, radiance fields, which have shown great promise in capturing high-frequency appearance and geometry details in dense setups, perform poorly when na\"ively supervising them on sparse camera views, as the field simply overfits to the sparse-view inputs. To address this, we propose MetaCap, a method for efficient and high-quality geometry recovery and novel view synthesis given very sparse or even a single view of the human. Our key idea is to meta-learn the radiance field weights solely from potentially sparse multi-view videos, which can serve as a prior when fine-tuning them on sparse imagery depicting the human. This prior provides a good network weight initialization, thereby effectively addressing ambiguities in sparse-view capture. Due to the articulated structure of the human body and motion-induced surface deformations, learning such a prior is non-trivial. Therefore, we propose to meta-learn the field weights in a pose-canonicalized space, which reduces the spatial feature range and makes feature learning more effective. Consequently, one can fine-tune our field parameters to quickly generalize to unseen poses, novel illumination conditions as well as novel and sparse (even monocular) camera views. For evaluating our method under different scenarios, we collect a new dataset, WildDynaCap, which contains subjects captured in, both, a dense camera dome and in-the-wild sparse camera rigs, and demonstrate superior results compared to recent state-of-the-art methods on both public and WildDynaCap dataset.
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# 実音場:音響-視覚室音響データセットとベンチマーク

Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark ( http://arxiv.org/abs/2403.18821v1 )

ライセンス: Link先を確認
Ziyang Chen, Israel D. Gebru, Christian Richardt, Anurag Kumar, William Laney, Andrew Owens, Alexander Richard, (参考訳) 複数のモードから実音響室データをキャプチャするRAF(Real Acoustic Fields)という新しいデータセットを提案する。 このデータセットは、マルチビュー画像と組み合わせた高品質で密集した部屋インパルス応答データと、部屋内の音の発信者やリスナーの正確な6DoFポーズ追跡データを含む。 このデータセットを用いて,従来合成データに依存していた新しい音響合成とインパルス応答生成の既存手法の評価を行った。 評価では,既存の音声・音声・視覚モデルについて,複数の基準に対して徹底的に評価し,実世界のデータ上での性能を高めるための設定を提案する。 また、視覚データ(画像と深度)を神経音場モデルに組み込むことによる影響を調べる実験を行った。 さらに,シミュレーションデータを用いてモデルを事前学習し,希少な実世界のデータを微調整する,単純なsim2realアプローチの有効性を実証した。 RAFは、密集した部屋の音響データを提供する最初のデータセットであり、オーディオおよびオーディオ・ビジュアル・ニューラル・アコースティック・フィールド・モデリング技術に取り組む研究者にとって理想的なリソースである。 デモとデータセットはプロジェクトのページで公開されている。

We present a new dataset called Real Acoustic Fields (RAF) that captures real acoustic room data from multiple modalities. The dataset includes high-quality and densely captured room impulse response data paired with multi-view images, and precise 6DoF pose tracking data for sound emitters and listeners in the rooms. We used this dataset to evaluate existing methods for novel-view acoustic synthesis and impulse response generation which previously relied on synthetic data. In our evaluation, we thoroughly assessed existing audio and audio-visual models against multiple criteria and proposed settings to enhance their performance on real-world data. We also conducted experiments to investigate the impact of incorporating visual data (i.e., images and depth) into neural acoustic field models. Additionally, we demonstrated the effectiveness of a simple sim2real approach, where a model is pre-trained with simulated data and fine-tuned with sparse real-world data, resulting in significant improvements in the few-shot learning approach. RAF is the first dataset to provide densely captured room acoustic data, making it an ideal resource for researchers working on audio and audio-visual neural acoustic field modeling techniques. Demos and datasets are available on our project page: https://facebookresearch.github.io/real-acoustic-fields/
翻訳日:2024-03-28 15:50:03 公開日:2024-03-27
# 機械学習形成エネルギーを用いたショットガン結晶構造予測

Shotgun crystal structure prediction using machine-learned formation energies ( http://arxiv.org/abs/2305.02158v4 )

ライセンス: Link先を確認
Chang Liu, Hiromasa Tamaki, Tomoyasu Yokoyama, Kensuke Wakasugi, Satoshi Yotsuhashi, Minoru Kusaba, Ryo Yoshida, (参考訳) 組み立てられた原子の安定あるいは準安定な結晶構造は、原子配置の空間上で定義されたエネルギー表面の大域的または局所的なミニマを見つけることで予測できる。 一般にこれは、単位セルに30以上の原子を含むような大規模システムでは実行不可能な、第1原理のエネルギー計算を繰り返す必要がある。 そこで我々は, 簡単な機械学習ワークフローを用いて, 結晶構造予測問題の解決に多大な進歩を遂げた; 第一原理エネルギー計算に機械学習サロゲートを用いて, 仮想的に生成した結晶構造の大規模なライブラリを用いて, 非定位単発スクリーニングを行った。 本手法は, 第一原理計算から得られた少数のトレーニングサンプルのみを用いて, 結晶前状態の高精度なエネルギー予測を可能にする伝達学習と, 有望かつ多種多様な結晶構造をスクリーニングするための生成モデルである。 ここでは、トレーニングサンプルの生成と、最終的に狭くなった結晶構造の最適化のために、第一原理計算を行った。 我々のショットガン法は, 第一原理計算の繰り返しに大きく依存する従来の手法に比べて計算量が少なく, 90種類の結晶構造の予測を含むベンチマークタスクにおいて, 92.2%に達するという異常な予測精度を達成した。

Stable or metastable crystal structures of assembled atoms can be predicted by finding the global or local minima of the energy surface defined on the space of the atomic configurations. Generally, this requires repeated first-principles energy calculations that are impractical for large systems, such as those containing more than 30 atoms in the unit cell. Here, we have made significant progress in solving the crystal structure prediction problem with a simple but powerful machine-learning workflow; using a machine-learning surrogate for first-principles energy calculations, we performed non-iterative, single-shot screening using a large library of virtually created crystal structures. The present method relies on two key technical components: transfer learning, which enables a highly accurate energy prediction of pre-relaxed crystalline states given only a small set of training samples from first-principles calculations, and generative models to create promising and diverse crystal structures for screening. Here, first-principles calculations were performed only to generate the training samples, and for the optimization of a dozen or fewer finally narrowed-down crystal structures. Our shotgun method proved to be computationally less demanding compared to conventional methods, which heavily rely on iterations of first-principles calculations, and achieved an exceptional prediction accuracy, reaching 92.2% in a benchmark task involving the prediction of 90 different crystal structures.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# ChatGPTがSPADE(Sustainability, PrivAcy, Digital divide, Ethics)を必要としている: レビュー

ChatGPT Needs SPADE (Sustainability, PrivAcy, Digital divide, and Ethics) Evaluation: A Review ( http://arxiv.org/abs/2305.03123v3 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev, Weizheng Wang, Lewis Nkenyereye, (参考訳) ChatGPTは、デバイス上で消費者が利用できるもう1つの大きな言語モデル(LLM)である。 近年,チャットGPTや他のLLMの有効性,効率性,統合性,感情性を示す研究が数多く発表されている。 対照的に、本研究では、サステナビリティ、プライバシ、ディジタルディビジョン、倫理といった、主に見落とされがちな重要な側面に焦点を当て、チャットGPTだけでなく、会話ボットのカテゴリにおけるその後の全てのエントリは、サステナビリティ、プリヴエイシー、デジタルディビジョン、倫理(SPADE)の評価を受けるべきであることを示唆している。 本稿では、上記の特徴に則って、チャットGPTにまつわる問題や懸念について詳細に論じる。 また,最近のEU AI 法について,SPADE の評価に従って簡潔に論じる。 我々は仮説を仮説化された事実とともに予備的なデータ収集と可視化によって支持する。 また、各懸念事項に対する緩和や勧告も提案する。 さらに、倫理、デジタル分割、持続可能性に関するEUのAI政策に関する政策や勧告も提案する。

ChatGPT is another large language model (LLM) vastly available for the consumers on their devices but due to its performance and ability to converse effectively, it has gained a huge popularity amongst research as well as industrial community. Recently, many studies have been published to show the effectiveness, efficiency, integration, and sentiments of chatGPT and other LLMs. In contrast, this study focuses on the important aspects that are mostly overlooked, i.e. sustainability, privacy, digital divide, and ethics and suggests that not only chatGPT but every subsequent entry in the category of conversational bots should undergo Sustainability, PrivAcy, Digital divide, and Ethics (SPADE) evaluation. This paper discusses in detail the issues and concerns raised over chatGPT in line with aforementioned characteristics. We also discuss the recent EU AI Act briefly in accordance with the SPADE evaluation. We support our hypothesis by some preliminary data collection and visualizations along with hypothesized facts. We also suggest mitigations and recommendations for each of the concerns. Furthermore, we also suggest some policies and recommendations for EU AI policy act concerning ethics, digital divide, and sustainability.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# LLMを不服従させる: ジェイルブレイクの形式化、分析、検出

Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks ( http://arxiv.org/abs/2305.14965v4 )

ライセンス: Link先を確認
Abhinav Rao, Sachin Vashistha, Atharva Naik, Somak Aditya, Monojit Choudhury, (参考訳) 商用のLarge Language Models (LLMs) による最近の調査では、非専門家のユーザは単にプロンプトを操作するだけで LLM をジェイルブレイクでき、結果として出力の退行、プライバシとセキュリティの侵害、攻撃的なアウトプット、コンテンツ規制ポリシー違反などが発生する。 これらの攻撃とその緩和を形式化し分析するための限定的な研究が実施されている。 我々は、このギャップを、形式主義と既知の(そして可能な)ジェイルブレイクの分類の提案によって埋める。 本稿では,既存のjailbreak手法とオープンソースおよび商用LCM(GPTベースモデル,OPT,BLOOM,FLAN-T5-XXLなど)の有効性について検討する。 さらに、既知の攻撃に対する効果の観点から、脱獄検知の課題についても論じる。 さらに分析するために、3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースします。

Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating their prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited studies have been conducted to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We survey existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT-based models, OPT, BLOOM, and FLAN-T5-XXL). We further discuss the challenges of jailbreak detection in terms of their effectiveness against known attacks. For further analysis, we release a dataset of model outputs across 3700 jailbreak prompts over 4 tasks.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# Dial-MAE:検索型対話システムのためのテキスト・マスク付き自動エンコーダ

Dial-MAE: ConTextual Masked Auto-Encoder for Retrieval-based Dialogue Systems ( http://arxiv.org/abs/2306.04357v5 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu, (参考訳) 対話応答の選択は、所定のユーザとシステム発話履歴に基づいて、複数の候補から適切な応答を選択することを目的としている。 既存のほとんどの作品は、主にクロスエンコーダ用に調整されたポストトレーニングと微調整に焦点を当てている。 しかし,対話応答選択における高密度エンコーダに適したポストトレーニング手法は存在しない。 我々は,高密度対話システム(BERTなど)をベースとした現在の言語モデルを高密度エンコーダとして使用する場合,対話コンテキストと応答を個別に符号化し,両表現の整合化に苦慮する。 そこで我々は,対話応答選択における高密度エンコーダに適した,単純かつ効果的なポストトレーニング手法であるDial-MAE(Dialogue Contextual Masking Auto-Encoder)を提案する。 Dial-MAEは非対称エンコーダデコーダアーキテクチャを用いて、対話のセマンティクスを高密度ベクトルに圧縮し、対話コンテキストの特徴と応答の整合性を改善する。 実験の結果,Dial-MAEは高い有効性を示し,評価された2つのベンチマークで最先端の性能を実現することができた。

Dialogue response selection aims to select an appropriate response from several candidates based on a given user and system utterance history. Most existing works primarily focus on post-training and fine-tuning tailored for cross-encoders. However, there are no post-training methods tailored for dense encoders in dialogue response selection. We argue that when the current language model, based on dense dialogue systems (such as BERT), is employed as a dense encoder, it separately encodes dialogue context and response, leading to a struggle to achieve the alignment of both representations. Thus, we propose Dial-MAE (Dialogue Contextual Masking Auto-Encoder), a straightforward yet effective post-training technique tailored for dense encoders in dialogue response selection. Dial-MAE uses an asymmetric encoder-decoder architecture to compress the dialogue semantics into dense vectors, which achieves better alignment between the features of the dialogue context and response. Our experiments have demonstrated that Dial-MAE is highly effective, achieving state-of-the-art performance on two commonly evaluated benchmarks.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# 政策誘導軌道拡散による世界モデル

World Models via Policy-Guided Trajectory Diffusion ( http://arxiv.org/abs/2312.08533v4 )

ライセンス: Link先を確認
Marc Rigter, Jun Yamada, Ingmar Posner, (参考訳) 世界モデルはインテリジェントエージェントを開発するための強力なツールである。 一連の行動の結果を予測することで、世界モデルは、合成データ、すなわち「想像力」を用いて、政治上の強化学習(RL)を通じてポリシーを最適化することができる。 既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。 軌道長が大きくなるにつれて、予測誤差は必然的に化合物となる。 本研究では, 自己回帰的でない新しい世界モデリング手法を提案する。 我々のアプローチであるPolyGRAD(PolyGRAD)は、政策の行動分布の勾配に加え、デノナイジングモデルを利用して、初期ランダムな状態と行動の軌跡をオンライン合成軌道に拡散させる。 我々は,PolyGRAD,スコアベース生成モデル,および分類器誘導拡散モデル間の関係を分析する。 以上の結果から,PolyGRADは,自己回帰拡散を除いて,短い軌道の軌道予測誤差において,最先端のベースラインよりも優れていたことが示唆された。 短い軌道では、PolyGRADは自己回帰拡散と同様の誤差を得るが、計算量は少ない。 長い軌道では、PolyGRADはベースラインに匹敵するパフォーマンスを得る。 この実験により, MuJoCo の連続制御領域において, 実効性ポリシーをオンライン RL でトレーニングできることが実証された。 そこでPolyGRADは, 自己回帰サンプリングを伴わない, 正確なオンライン世界モデリングのための新しいパラダイムを導入した。

World models are a powerful tool for developing intelligent agents. By predicting the outcome of a sequence of actions, world models enable policies to be optimised via on-policy reinforcement learning (RL) using synthetic data, i.e. in "in imagination". Existing world models are autoregressive in that they interleave predicting the next state with sampling the next action from the policy. Prediction error inevitably compounds as the trajectory length grows. In this work, we propose a novel world modelling approach that is not autoregressive and generates entire on-policy trajectories in a single pass through a diffusion model. Our approach, Policy-Guided Trajectory Diffusion (PolyGRAD), leverages a denoising model in addition to the gradient of the action distribution of the policy to diffuse a trajectory of initially random states and actions into an on-policy synthetic trajectory. We analyse the connections between PolyGRAD, score-based generative models, and classifier-guided diffusion models. Our results demonstrate that PolyGRAD outperforms state-of-the-art baselines in terms of trajectory prediction error for short trajectories, with the exception of autoregressive diffusion. For short trajectories, PolyGRAD obtains similar errors to autoregressive diffusion, but with lower computational requirements. For long trajectories, PolyGRAD obtains comparable performance to baselines. Our experiments demonstrate that PolyGRAD enables performant policies to be trained via on-policy RL in imagination for MuJoCo continuous control domains. Thus, PolyGRAD introduces a new paradigm for accurate on-policy world modelling without autoregressive sampling.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# EMAGE:表現型マスドオーディオジェスチャモデリングによる一元的音声合成を目指して

EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling ( http://arxiv.org/abs/2401.00374v4 )

ライセンス: Link先を確認
Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Xuefei Zhe, Naoya Iwamoto, Bo Zheng, Michael J. Black, (参考訳) 本研究では,顔,局所体,手,グローバルな動きを包含する,音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。 そこで我々はまずBEAT2(BEAT-SMPLX-FLAME)を導入した。 BEAT2はMoShed SMPLX本体をFLAMEヘッドパラメータと組み合わせ、頭部、首、指の動きのモデリングをさらに洗練し、コミュニティ標準化された高品質な3Dモーションキャプチャーデータセットを提供する。 EMAGEは、トレーニング中にマスクされたボディジェスチャの事前情報を活用し、推論性能を向上する。 Masked Audio Gesture Transformerが組み込まれており、オーディオとジェスチャーのヒントを効果的にエンコードする。 マスクされたジェスチャーから符号化された身体のヒントは、顔と身体の動きを生成するために別々に使用される。 さらに、EMAGEは音声のリズムと内容から音声特徴を適応的にマージし、4つの合成VQ-VAEを用いて結果の忠実度と多様性を高める。 実験により、EMAGEは最先端の性能を持つ全体的ジェスチャーを生成し、事前定義された空間的時間的ジェスチャー入力を受け入れ、完全な音声同期結果を生成する。 私たちのコードとデータセットはhttps://pantomatrix.github.io/EMAGE/で公開されています。

We propose EMAGE, a framework to generate full-body human gestures from audio and masked gestures, encompassing facial, local body, hands, and global movements. To achieve this, we first introduce BEAT2 (BEAT-SMPLX-FLAME), a new mesh-level holistic co-speech dataset. BEAT2 combines MoShed SMPLX body with FLAME head parameters and further refines the modeling of head, neck, and finger movements, offering a community-standardized, high-quality 3D motion captured dataset. EMAGE leverages masked body gesture priors during training to boost inference performance. It involves a Masked Audio Gesture Transformer, facilitating joint training on audio-to-gesture generation and masked gesture reconstruction to effectively encode audio and body gesture hints. Encoded body hints from masked gestures are then separately employed to generate facial and body movements. Moreover, EMAGE adaptively merges speech features from the audio's rhythm and content and utilizes four compositional VQ-VAEs to enhance the results' fidelity and diversity. Experiments demonstrate that EMAGE generates holistic gestures with state-of-the-art performance and is flexible in accepting predefined spatial-temporal gesture inputs, generating complete, audio-synchronized results. Our code and dataset are available at https://pantomatrix.github.io/EMAGE/
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# 部分Whole-Hierarchy Message Passingによる3次元部品組み立て

Generative 3D Part Assembly via Part-Whole-Hierarchy Message Passing ( http://arxiv.org/abs/2402.17464v3 )

ライセンス: Link先を確認
Bi'an Du, Xiang Gao, Wei Hu, Renjie Liao, (参考訳) 生成3D部品の組み立ては、部品の関係を理解し、現実的な3D形状を組み立てるための6-DoFのポーズを予測する。 先行研究はしばしば個々の部分の幾何学に焦点を合わせ、対象の全体階層を無視している。 2つの重要な観察を活用。 1)スーパーパートポーズはパートポーズに関する強いヒントを与え、 2) より少ないスーパーパーツによりスーパーパーツのポーズを予測しやすく, 効率的な3次元部品組立のための部分階層型メッセージパッシングネットワークを提案する。 まず、意味ラベルを使わずに幾何学的に類似した部分をグループ化してスーパーパーツを導入する。 次に、部分全体階層エンコーダを用い、スーパーパートエンコーダは入力部分に基づいて潜在スーパーパートポーズを予測する。 その後、潜在ポーズを用いて点雲を変換し、超部分情報を集約する部分エンコーダに供給し、部分関係を推論して全ての部分ポーズを予測する。 練習では、地道な部分のみのポーズが求められる。 推論中、予測された超部分の潜在ポーズは解釈可能性を高める。 PartNetデータセットを用いた実験結果から,本手法は部分的および接続精度が向上し,解釈可能な階層的部品の組み立てが可能となった。 コードはhttps://github.com/pkudba/3DHPAで入手できる。

Generative 3D part assembly involves understanding part relationships and predicting their 6-DoF poses for assembling a realistic 3D shape. Prior work often focus on the geometry of individual parts, neglecting part-whole hierarchies of objects. Leveraging two key observations: 1) super-part poses provide strong hints about part poses, and 2) predicting super-part poses is easier due to fewer superparts, we propose a part-whole-hierarchy message passing network for efficient 3D part assembly. We first introduce super-parts by grouping geometrically similar parts without any semantic labels. Then we employ a part-whole hierarchical encoder, wherein a super-part encoder predicts latent super-part poses based on input parts. Subsequently, we transform the point cloud using the latent poses, feeding it to the part encoder for aggregating super-part information and reasoning about part relationships to predict all part poses. In training, only ground-truth part poses are required. During inference, the predicted latent poses of super-parts enhance interpretability. Experimental results on the PartNet dataset show that our method achieves state-of-the-art performance in part and connectivity accuracy and enables an interpretable hierarchical part assembly. Code is available at https://github.com/pkudba/3DHPA.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# 病態検出のための病状記述の分解:多視点視覚言語事前学習フレームワーク

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework ( http://arxiv.org/abs/2403.07636v3 )

ライセンス: Link先を確認
Vu Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu, Bowen Zhang, Zhibin Liao, Qi Wu, Minh-Son To, Johan W. Verjans, (参考訳) 医学的視覚言語事前訓練(VLP)は研究の最前線として現れており、問合せ画像と各疾患のテキスト記述を比較することで、ゼロショットの病理診断を可能にしている。 バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。 これにより、対象の疾患のテキスト表現と不一致が生じる。 本稿では,病態の視覚的発現に関する事前知識を活用し,疾患記述をその基本的側面に分解する新しいVLPフレームワークを提案する。 これは、大きな言語モデルと医療専門家に相談することで達成される。 Transformerモジュールを統合することで、入力画像と病気の多様な要素を整合させ、アスペクト中心の画像表現を生成する。 各側面からマッチングを統合することにより、画像とその関連疾患の適合性を改善する。 さらに、アスペクト指向の表現に乗じて、既知の疾患や未知の疾患を処理し、包括的検出の有効性を最適化したデュアルヘッドトランスフォーマーを提案する。 下流の7つのデータセットで実験を行い、最新の手法の精度を最大8.56%向上させ、17.0%に改善した。 私たちのコードはhttps://github.com/HieuPhan33/MAVLで公開されています。

Medical vision language pre-training (VLP) has emerged as a frontier of research, enabling zero-shot pathological recognition by comparing the query image with the textual descriptions for each disease. Due to the complex semantics of biomedical texts, current methods struggle to align medical images with key pathological findings in unstructured reports. This leads to the misalignment with the target disease's textual representation. In this paper, we introduce a novel VLP framework designed to dissect disease descriptions into their fundamental aspects, leveraging prior knowledge about the visual manifestations of pathologies. This is achieved by consulting a large language model and medical experts. Integrating a Transformer module, our approach aligns an input image with the diverse elements of a disease, generating aspect-centric image representations. By consolidating the matches from each aspect, we improve the compatibility between an image and its associated disease. Additionally, capitalizing on the aspect-oriented representations, we present a dual-head Transformer tailored to process known and unknown diseases, optimizing the comprehensive detection efficacy. Conducting experiments on seven downstream datasets, ours improves the accuracy of recent methods by up to 8.56% and 17.0% for seen and unseen categories, respectively. Our code is released at https://github.com/HieuPhan33/MAVL.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# Deep Limit Order Book Forecasting

Deep Limit Order Book Forecasting ( http://arxiv.org/abs/2403.09267v3 )

ライセンス: Link先を確認
Antonio Briola, Silvia Bartolucci, Tomaso Aste, (参考訳) 我々は最先端の深層学習手法を利用してNASDAQ取引所で取引された異種株の高頻度リミットオーダーブックの中間価格変動の予測可能性を探る。 そこで我々は,大規模リミットオーダーブックデータを効率的に処理し,最先端のディープラーニングモデルの予測能力を定量的に評価するオープンソースコードベースである 'LOBFrame' をリリースする。 私たちの結果は2倍です。 本研究は,株の微細構造特性が深層学習の有効性に影響を及ぼし,その高い予測能力が必ずしも実行可能な取引信号に対応していないことを実証する。 従来の機械学習のメトリクスは、リミットオーダーブックのコンテキストにおける予測の質を適切に評価できない。 代替として、完全トランザクションを正確に予測する確率に着目して、予測の実用性を評価する革新的な運用フレームワークを提案する。 この研究は、深層学習技術の応用、その範囲と限界について情報的かつ堅牢な決定を行うための、学者や実践者に道のりを与え、限界秩序書の創発的な統計的性質を効果的に活用する。

We exploit cutting-edge deep learning methodologies to explore the predictability of high-frequency Limit Order Book mid-price changes for a heterogeneous set of stocks traded on the NASDAQ exchange. In so doing, we release `LOBFrame', an open-source code base to efficiently process large-scale Limit Order Book data and quantitatively assess state-of-the-art deep learning models' forecasting capabilities. Our results are twofold. We demonstrate that the stocks' microstructural characteristics influence the efficacy of deep learning methods and that their high forecasting power does not necessarily correspond to actionable trading signals. We argue that traditional machine learning metrics fail to adequately assess the quality of forecasts in the Limit Order Book context. As an alternative, we propose an innovative operational framework that evaluates predictions' practicality by focusing on the probability of accurately forecasting complete transactions. This work offers academics and practitioners an avenue to make informed and robust decisions on the application of deep learning techniques, their scope and limitations, effectively exploiting emergent statistical properties of the Limit Order Book.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# 簡易拡散シュレーディンガー橋

Simplified Diffusion Schrödinger Bridge ( http://arxiv.org/abs/2403.14623v2 )

ライセンス: Link先を確認
Zhicong Tang, Tiankai Hang, Shuyang Gu, Dong Chen, Baining Guo, (参考訳) 本稿では、複雑なデータ生成におけるDSBの限界に対処し、より高速な収束と性能向上を実現するため、Score-based Generative Models (SGMs) との一体化を容易にするDiffusion Schr\"odinger Bridge (DSB) の新たな理論的単純化を提案する。 DSB の初期ソリューションとして SGM を採用することで,本手法は両フレームワークの長所を生かし,より効率的なトレーニングプロセスの確保と SGM の性能向上を実現している。 また、理論的近似にも拘わらず、ネットワークの適合性を実質的に改善するパラメータ化手法を提案する。 本研究は,DSBの簡易化の有効性を実験的に検証し,その大幅な改善を実証した。 この研究の貢献が、先進的な生成モデリングの道を開くと信じている。 コードはhttps://github.com/checkcrab/SDSB.comで入手できる。

This paper introduces a novel theoretical simplification of the Diffusion Schr\"odinger Bridge (DSB) that facilitates its unification with Score-based Generative Models (SGMs), addressing the limitations of DSB in complex data generation and enabling faster convergence and enhanced performance. By employing SGMs as an initial solution for DSB, our approach capitalizes on the strengths of both frameworks, ensuring a more efficient training process and improving the performance of SGM. We also propose a reparameterization technique that, despite theoretical approximations, practically improves the network's fitting capabilities. Our extensive experimental evaluations confirm the effectiveness of the simplified DSB, demonstrating its significant improvements. We believe the contributions of this work pave the way for advanced generative modeling. The code is available at https://github.com/checkcrab/SDSB.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# 微分可能シミュレーションによる四足歩行の学習

Learning Quadruped Locomotion Using Differentiable Simulation ( http://arxiv.org/abs/2403.14864v2 )

ライセンス: Link先を確認
Yunlong Song, Sangbae Kim, Davide Scaramuzza, (参考訳) 近年の脚付きロボット制御の進歩はモデルレス強化学習によって促進されているが、我々は微分可能シミュレーションの可能性を探る。 ロボットモデルを用いた低変量1次勾配の計算により、より高速な収束とより安定した訓練を約束するが、これまでは脚付きロボット制御の使用はシミュレーションに限られていた。 微分可能シミュレーションの主な課題は、接触の多い環境、例えば四足歩行における不連続性によるロボットタスクの複雑な最適化環境にある。 この研究は、これらの課題を克服するための、新しい、微分可能なシミュレーションフレームワークを提案する。 鍵となる考え方は、接触による不連続性を示す複雑な全身シミュレーションを2つの別々の連続領域に分離することである。 その後、単純化されたモデルから得られたロボット状態を、より正確で微分不可能なシミュレータと整合させ、十分なシミュレーション精度を維持する。 本フレームワークは,並列化を伴わない単一シミュレーションロボットを用いて,四足歩行を数分で学習することを可能にする。 われわれのアプローチでは、GPUの並列化で強化された場合、四足歩行ロボットは、トロット、ペース、バウンド、ガロップといった多様な移動スキルを数分で挑戦的な地形で習得することができる。 さらに,実世界のゼロショットにおけるロコモーション性能も向上する。 我々の知る限りでは、本研究は実際の四足歩行ロボットを制御するために微分可能シミュレーションを使用した最初の実演である。 この研究は、実世界における足の移動に微分可能なシミュレーションを使用するための重要な洞察を提供する。

While most recent advancements in legged robot control have been driven by model-free reinforcement learning, we explore the potential of differentiable simulation. Differentiable simulation promises faster convergence and more stable training by computing low-variant first-order gradients using the robot model, but so far, its use for legged robot control has remained limited to simulation. The main challenge with differentiable simulation lies in the complex optimization landscape of robotic tasks due to discontinuities in contact-rich environments, e.g., quadruped locomotion. This work proposes a new, differentiable simulation framework to overcome these challenges. The key idea involves decoupling the complex whole-body simulation, which may exhibit discontinuities due to contact, into two separate continuous domains. Subsequently, we align the robot state resulting from the simplified model with a more precise, non-differentiable simulator to maintain sufficient simulation accuracy. Our framework enables learning quadruped walking in minutes using a single simulated robot without any parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills, including trot, pace, bound, and gallop, on challenging terrains in minutes. Additionally, our policy achieves robust locomotion performance in the real world zero-shot. To the best of our knowledge, this work represents the first demonstration of using differentiable simulation for controlling a real quadruped robot. This work provides several important insights into using differentiable simulations for legged locomotion in the real world.
翻訳日:2024-03-28 11:56:31 公開日:2024-03-27
# UniTraj: スケーラブルな自動車軌道予測のための統一フレームワーク

UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction ( http://arxiv.org/abs/2403.15098v2 )

ライセンス: Link先を確認
Lan Feng, Mohammadhossein Bahari, Kaouther Messaoud Ben Amor, Éloi Zablocki, Matthieu Cord, Alexandre Alahi, (参考訳) 車両軌道予測は、データ駆動型ソリューションにますます依存しているが、異なるデータドメインにスケールする能力と、その一般化に対するより大きなデータセットサイズの影響は、まだ解明されていない。 これらの質問は、複数のデータセットを使用することで研究できるが、データフォーマット、マップ解決、セマンティックセマンティックタイプなど、いくつかの相違点があるため、難しい。 これらの課題に対処するために、様々なデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを導入し、車両軌道予測分野の新しい機会を示す。 特に、UniTrajを用いて広範な実験を行い、他のデータセットに転送するとモデルの性能が著しく低下することがわかった。 しかし、データサイズと多様性の増大はパフォーマンスを大幅に向上させ、nuScenesデータセットの新たな最先端結果をもたらす。 これらの知見を説明するために,データセットの特徴に関する洞察を提供する。 コードはここにある。 https://github.com/vita-epfl/UniTraj

Vehicle trajectory prediction has increasingly relied on data-driven solutions, but their ability to scale to different data domains and the impact of larger dataset sizes on their generalization remain under-explored. While these questions can be studied by employing multiple datasets, it is challenging due to several discrepancies, e.g., in data formats, map resolution, and semantic annotation types. To address these challenges, we introduce UniTraj, a comprehensive framework that unifies various datasets, models, and evaluation criteria, presenting new opportunities for the vehicle trajectory prediction field. In particular, using UniTraj, we conduct extensive experiments and find that model performance significantly drops when transferred to other datasets. However, enlarging data size and diversity can substantially improve performance, leading to a new state-of-the-art result for the nuScenes dataset. We provide insights into dataset characteristics to explain these findings. The code can be found here: https://github.com/vita-epfl/UniTraj
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 量子アニールを用いた実世界のパッケージ配送経路問題の解決

Solving a Real-World Package Delivery Routing Problem Using Quantum Annealers ( http://arxiv.org/abs/2403.15114v2 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Antón Asla, (参考訳) 近年,量子コンピューティングとルーティング問題との連携に焦点をあてた研究が盛んに行われている。 作品の多くは、トラベルセールスマン問題や自動車ルーティング問題といった古典的な問題を中心に展開している。 これらの問題に取り組むことは価値があるが、彼らの学術的指向性が現実世界の要求に満たされていないことは否定できない。 本研究の目的は,問題緩和や技術的ショートカットを回避し,現実的な事例の解決方法を提案することである。 代わりに、Q4RPDと呼ばれる量子古典ハイブリッド・ソルバが開発され、車両の異種系統、優先配送、パッケージの重みと寸法の2つの値で特徴づけられる容量などの実際の制約を考慮に入れている。 Q4RPDはD波のLeap Constrained Quadratic Model Hybrid Solverを利用する。 Q4RPDの適用を実証するために、6つの異なるインスタンスからなる実験が実施されている。

Research focused on the conjunction between quantum computing and routing problems has been very prolific in recent years. Most of the works revolve around classical problems such as the Traveling Salesman Problem or the Vehicle Routing Problem. Even though working on these problems is valuable, it is also undeniable that their academic-oriented nature falls short of real-world requirements. The main objective of this research is to present a solving method for realistic instances, avoiding problem relaxations or technical shortcuts. Instead, a quantum-classical hybrid solver has been developed, coined Q4RPD, that considers a set of real constraints such as a heterogeneous fleet of vehicles, priority deliveries, and capacities characterized by two values: weight and dimensions of the packages. Q4RPD resorts to the Leap Constrained Quadratic Model Hybrid Solver of D-Wave. To demonstrate the application of Q4RPD, an experimentation composed of six different instances has been conducted, aiming to serve as illustrative examples.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 言語画像事前学習のための中心型マスキング

Centered Masking for Language-Image Pre-Training ( http://arxiv.org/abs/2403.15837v2 )

ライセンス: Link先を確認
Mingliang Liang, Martha Larson, (参考訳) 言語画像事前学習のためのガウスマスキング(GLIP)について,視覚言語モデルの事前学習中に画像パッチをマスキングするための,新しい,単純かつ効果的な手法を提案する。 GLIPはFast Language- Image Pre-Training (FLIP)上に構築されており、CLIPモデルのトレーニング中に画像パッチをランダムにマスクする。 GLIPは、画像の中心にある画像パッチの重要性にインスパイアされたガウス分布を用いた、ランダムマスキングを中心マスキングに置き換える。 実験結果から示すように,GLIPはFLIPと同じ計算コストを保ちながら,下流のデータセットやタスクにまたがるパフォーマンスを改善している。 GLIPの利点は容易に得ることができ、ガウスの微妙なチューニングを必要とせず、また画像を含むデータセットに適用できることを示す。

We introduce Gaussian masking for Language-Image Pre-Training (GLIP) a novel, straightforward, and effective technique for masking image patches during pre-training of a vision-language model. GLIP builds on Fast Language-Image Pre-Training (FLIP), which randomly masks image patches while training a CLIP model. GLIP replaces random masking with centered masking, that uses a Gaussian distribution and is inspired by the importance of image patches at the center of the image. GLIP retains the same computational savings as FLIP, while improving performance across a range of downstream datasets and tasks, as demonstrated by our experimental results. We show the benefits of GLIP to be easy to obtain, requiring no delicate tuning of the Gaussian, and also applicable to data sets containing images without an obvious center focus.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# $\textit{LinkPrompt}$: Promptベースの言語モデルに対する自然および普遍的敵攻撃

$\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models ( http://arxiv.org/abs/2403.16432v2 )

ライセンス: Link先を確認
Yue Xu, Wenjie Wang, (参考訳) Promptベースの学習は、プレトレーニング言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。 モデルの微調整に固定プロンプトテンプレートを使う代わりに、最適化によるプロンプト探索の有効性を示す研究もある。 PLM上でのプロンプトベースの学習の迅速な最適化プロセスはまた、モデルを誤解させる敵のプロンプトの生成に関する洞察を与え、このパラダイムの敵の脆弱性に対する懸念を提起する。 近年の研究では、UAT(Universal adversarial triggers)が生成され、対象のPLMの予測だけでなく、プロンプトベースのファインチューニングモデル(PFM)の予測も変更可能であることが示されている。 しかし、以前の作品に見られるUATは、しばしば読めないトークンや文字であり、適応的な防御を持つ自然なテキストと容易に区別できる。 本研究では,UAT の自然性を考察し,ターゲット PLM や PFM を効果的に攻撃するだけでなく,トリガトークン間の自然性も維持する勾配に基づくビーム探索アルゴリズムによりUAT を生成する逆攻撃アルゴリズムである $\textit{LinkPrompt}$ を開発する。 大規模な結果は、$\textit{LinkPrompt}$と、$\textit{LinkPrompt}$によって生成されたUATのオープンソースLlama2とAPIアクセスLLM GPT-3.5-turboへの転送可能性を示している。

Prompt-based learning is a new language model training paradigm that adapts the Pre-trained Language Models (PLMs) to downstream tasks, which revitalizes the performance benchmarks across various natural language processing (NLP) tasks. Instead of using a fixed prompt template to fine-tune the model, some research demonstrates the effectiveness of searching for the prompt via optimization. Such prompt optimization process of prompt-based learning on PLMs also gives insight into generating adversarial prompts to mislead the model, raising concerns about the adversarial vulnerability of this paradigm. Recent studies have shown that universal adversarial triggers (UATs) can be generated to alter not only the predictions of the target PLMs but also the prediction of corresponding Prompt-based Fine-tuning Models (PFMs) under the prompt-based learning paradigm. However, UATs found in previous works are often unreadable tokens or characters and can be easily distinguished from natural texts with adaptive defenses. In this work, we consider the naturalness of the UATs and develop $\textit{LinkPrompt}$, an adversarial attack algorithm to generate UATs by a gradient-based beam search algorithm that not only effectively attacks the target PLMs and PFMs but also maintains the naturalness among the trigger tokens. Extensive results demonstrate the effectiveness of $\textit{LinkPrompt}$, as well as the transferability of UATs generated by $\textit{LinkPrompt}$ to open-sourced Large Language Model (LLM) Llama2 and API-accessed LLM GPT-3.5-turbo.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# Deep Machining: Latheマシンの加工誤差のオンライン予測

DeepMachining: Online Prediction of Machining Errors of Lathe Machines ( http://arxiv.org/abs/2403.16451v3 )

ライセンス: Link先を確認
Xiang-Li Lu, Hwai-Jung Hsu, Che-Wei Chou, H. T. Kung, Chen-Hsin Lee, (参考訳) 深層学習に基づくAIシステムDeepMachiningについて述べる。 我々は工場の生産データに基づいてDeepMachiningを構築し評価した。 具体的には、まず、与えられた旋盤の操作に対して深層学習モデルを事前訓練し、加工状態の健全な特徴を学習する。 そして、トレーニング済みのモデルを微調整して、特定の加工タスクに適応する。 我々はDeepMachiningが、異なるワークピースやカットツールを含む複数のタスクに対して高い予測精度を実現することを実証した。 我々の知る限りでは、この研究は、学習済みの深層学習モデルを用いて、機械の加工誤差を予測する最初の工場実験の1つである。

We describe DeepMachining, a deep learning-based AI system for online prediction of machining errors of lathe machine operations. We have built and evaluated DeepMachining based on manufacturing data from factories. Specifically, we first pretrain a deep learning model for a given lathe machine's operations to learn the salient features of machining states. Then, we fine-tune the pretrained model to adapt to specific machining tasks. We demonstrate that DeepMachining achieves high prediction accuracy for multiple tasks that involve different workpieces and cutting tools. To the best of our knowledge, this work is one of the first factory experiments using pre-trained deep-learning models to predict machining errors of lathe machines.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# LLMは、インコンテクストの低リソース言語学習者がほとんどいない

LLMs Are Few-Shot In-Context Low-Resource Language Learners ( http://arxiv.org/abs/2403.16512v2 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Pascale Fung, (参考訳) In-context Learning (ICL) は、大規模な言語モデル(LLM)に対して、短いインコンテキスト情報のみを使用して、不足言語で多様なタスクを実行する権限を与え、高リソースと低リソースの言語間のギャップを狭めるための重要な手段を提供する。 それにもかかわらず、低リソース言語のためのICLを探究する研究はごくわずかであり、そのほとんどはフランス語やスペイン語のような比較的高リソース言語に焦点を当てている。 本研究では,25の低リソース言語と7の比較的高リソース言語に対して,ICLとその言語間変動(X-ICL)を広範囲に研究する。 本研究は、低リソース言語におけるILCとLLMの有効性を評価するだけでなく、テキスト内ラベルアライメントの欠点を識別し、より効果的な代替手段であるクエリアライメントを導入する。 さらに、低リソース言語に対するICLの様々な側面に関する貴重な洞察を提供する。 本研究は,LLMの低リソース理解の質を高めるために,目的言語における言語ギャップを閉じ,目標とする低リソースと高リソース言語とのセマンティクスを整合させることにより,意味的関連情報を通じて,低リソース理解の質を高めることの重要性を結論づける。 我々の研究は、特に低リソース言語において、ICL研究を進めることの重要性を強調しています。

In-context learning (ICL) empowers large language models (LLMs) to perform diverse tasks in underrepresented languages using only short in-context information, offering a crucial avenue for narrowing the gap between high-resource and low-resource languages. Nonetheless, there is only a handful of works explored ICL for low-resource languages with most of them focusing on relatively high-resource languages, such as French and Spanish. In this work, we extensively study ICL and its cross-lingual variation (X-ICL) on 25 low-resource and 7 relatively higher-resource languages. Our study not only assesses the effectiveness of ICL with LLMs in low-resource languages but also identifies the shortcomings of in-context label alignment, and introduces a more effective alternative: query alignment. Moreover, we provide valuable insights into various facets of ICL for low-resource languages. Our study concludes the significance of few-shot in-context information on enhancing the low-resource understanding quality of LLMs through semantically relevant information by closing the language gap in the target language and aligning the semantics between the targeted low-resource and the high-resource language that the model is proficient in. Our work highlights the importance of advancing ICL research, particularly for low-resource languages.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 文書インテリジェンスのためのビジュアルガイド生成テキストレイアウト事前学習

Visually Guided Generative Text-Layout Pre-training for Document Intelligence ( http://arxiv.org/abs/2403.16516v2 )

ライセンス: Link先を確認
Zhiming Mao, Haoli Bai, Lu Hou, Jiansheng Wei, Xin Jiang, Qun Liu, Kam-Fai Wong, (参考訳) 以前の研究では、事前学習技術が視覚的文書理解(VDU)の性能を向上させることが示されており、通常は、文書テキストとレイアウト(例えば、テキストの位置やテーブルセル)の両方を知覚し、推論する能力を持つモデルを必要とする。 そこで本稿では,ViTLPと名づけられた生成テキストの事前学習を視覚的に指導する手法を提案する。 文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 また,トランスフォーマーによる長文処理の制限に対処するため,VTLPが任意の長さの単語集約文書を処理できるように,単純かつ効果的な多節生成事前学習方式を導入する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。 さらに、VTLPは様々な下流VDUタスクに効果的に適用できる。 大規模な実験により、VTLPは、情報抽出、文書分類、文書質問応答など、既存のVDUタスクのベースラインよりも競合する性能を達成している。

Prior study shows that pre-training techniques can boost the performance of visual document understanding (VDU), which typically requires models to gain abilities to perceive and reason both document texts and layouts (e.g., locations of texts and table-cells). To this end, we propose visually guided generative text-layout pre-training, named ViTLP. Given a document image, the model optimizes hierarchical language and layout modeling objectives to generate the interleaved text and layout sequence. In addition, to address the limitation of processing long documents by Transformers, we introduce a straightforward yet effective multi-segment generative pre-training scheme, facilitating ViTLP to process word-intensive documents of any length. ViTLP can function as a native OCR model to localize and recognize texts of document images. Besides, ViTLP can be effectively applied to various downstream VDU tasks. Extensive experiments show that ViTLP achieves competitive performance over existing baselines on benchmark VDU tasks, including information extraction, document classification, and document question answering.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 相対論的指数型スピノル軌道とその多電子ディラック方程式解への応用

Relativistic exponential-type spinor orbitals and their use in many-electron Dirac equation solution ( http://arxiv.org/abs/2403.17029v2 )

ライセンス: Link先を確認
Ali Bagci, (参考訳) ディラック・クーロン型微分方程式とその解相対論的指数型スピノル軌道を導入する。 これらは作用素不変量、すなわちディラック不変量に対する修正形式を提供し、多電子系の計算における角成分の扱いを単純化する。 相対論的クーロンエネルギーは、不完全ガンマ関数を含む放射関数で表される1$-$電子ポテンシャルに対するポアソン方程式のスペクトル解を用いて決定される。 不完全ガンマ関数の計算は、それらの級数表現に付随する緩やかな収束率に起因する問題に対処する。 このような困難は、双方向法と超放射関数を用いることで解消される。 クーロンエネルギー計算の効率を向上させる相対論的補助関数の新しい定式化について述べる。 これらの定式化はまた、非整数主量子数を持つ指数軌道の完全正則な直交集合を用いて、ポアソン方程式の解に対する直交展開を求めることにも寄与する。 それらは有意義な代替級数表現を提供するかもしれない。

Dirac-Coulomb type differential equation and its solution relativistic exponential-type spinor orbitals are introduced. They provide a revised form for operator invariants, namely Dirac invariants, simplifying the treatment of the angular components in calculation of many-electron systems. The relativistic Coulomb energy is determined by employing a spectral solution to Poisson's equation for the one$-$electron potential, which is expressed in terms of radial functions involving incomplete gamma functions. The computation for incomplete gamma functions posses challenges due to slow convergence rate associated with their series representation. Such difficulties are eliminated through use of the bi-directional method along with hyper-radial functions. A new formulation for relativistic auxiliary functions that improve the efficiency in Coulomb energy calculations is presented. These formulations also contribute to inquiring into orthogonal expansions for solutions to Poisson's equation using complete orthonormal sets of exponential orbitals with non-integer principal quantum numbers. They may provide a meaningful alternative series representations.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 多言語関係抽出データのためのガイド付き距離スーパービジョン:新しい言語に適応する

Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language ( http://arxiv.org/abs/2403.17143v2 )

ライセンス: Link先を確認
Alistair Plum, Tharindu Ranasinghe, Christoph Purschke, (参考訳) 関係抽出は、デジタル人文科学と関連する主題の文脈において、伝記情報を抽出し理解するために不可欠である。 機械学習モデルをトレーニングして関係を抽出できるデータセットを構築することに対するコミュニティの関心が高まっている。 しかし、このようなデータセットの注釈付けは、英語に限定されるだけでなく、高価で時間を要する可能性がある。 本稿では,ドイツにおける大規模生物関係抽出データセットの作成のために,遠距離監視法を適用した。 我々のデータセットは,9種類の関係型に対して80,000以上のインスタンスで構成されており,ドイツで最大規模の関係抽出データセットである。 また、2000のインスタンスで手動で注釈付きデータセットを作成し、モデルを評価し、ガイド付き遠隔監視を使用してコンパイルされたデータセットと一緒にリリースします。 私たちは、自動生成されたデータセット上に、最先端の機械学習モデルをトレーニングし、それらもリリースします。 さらに、低リソース言語の多くに利益をもたらす多言語および多言語間実験を実験する。

Relation extraction is essential for extracting and understanding biographical information in the context of digital humanities and related subjects. There is a growing interest in the community to build datasets capable of training machine learning models to extract relationships. However, annotating such datasets can be expensive and time-consuming, in addition to being limited to English. This paper applies guided distant supervision to create a large biographical relationship extraction dataset for German. Our dataset, composed of more than 80,000 instances for nine relationship types, is the largest biographical German relationship extraction dataset. We also create a manually annotated dataset with 2000 instances to evaluate the models and release it together with the dataset compiled using guided distant supervision. We train several state-of-the-art machine learning models on the automatically created dataset and release them as well. Furthermore, we experiment with multilingual and cross-lingual experiments that could benefit many low-resource languages.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# SeSaMe:メンタルヘルスセンシング研究のための自己申告地上真実をシミュレートするフレームワーク

SeSaMe: A Framework to Simulate Self-Reported Ground Truth for Mental Health Sensing Studies ( http://arxiv.org/abs/2403.17219v2 )

ライセンス: Link先を確認
Akshat Choube, Vedant Das Swain, Varun Mishra, (参考訳) モバイルおよびウェアラブル技術の進歩は、人の精神的、行動的、感情的な健康を受動的に監視することを可能にする。 これらのアプローチは一般的に、機械学習(ML)モデルをトレーニングするために、うつ病、ストレス、不安といった自己申告結果の縦断的な収集に依存します。 しかし、継続的な自己申告の必要性は参加者に大きな負担を与え、しばしば誘惑、ラベルの欠如、不適切な反応をもたらす。 本研究では,デジタルメンタルヘルス研究における参加者の負担を軽減するために,メンタルモデル(SeSaMe)フレームワークを用いた尺度シミュレーションを導入する。 事前訓練された大規模言語モデル(LLM)を活用することで、SeSaMeは参加者の心理的尺度に対する反応のシミュレーションを可能にする。 SeSaMeでは、研究者は参加者の内部行動の配置に関する情報をLLMに促すことができ、LLMは参加者のメンタルモデルを構築し、心理的スケールで反応をシミュレートすることができる。 本稿では,GPT-4を用いて1つのスケールで応答をシミュレートするSeSaMeの応用例を示す。 また,人間とSeSaMeを模擬した心理尺度のアライメントも評価した。 そこで本研究では,既成のうつ病と不安スクリーニングタスクを再現することにより,機械学習モデルのトレーニングにおいて,SeSaMeシミュレーション応答を基礎的真理として活用する実験を行った。 以上の結果から,SeSaMeは有望なアプローチであることが示されたが,そのアライメントはスケールや予測対象によって異なる可能性がある。 また,シミュレーションデータを用いたモデルの性能は,ほとんどの評価シナリオにおいて実データと同等であった。 受動的センシング研究において、研究者が地道収集に直面する課題に、SeSaMeがもたらす影響について論じる。

Advances in mobile and wearable technologies have enabled the potential to passively monitor a person's mental, behavioral, and affective health. These approaches typically rely on longitudinal collection of self-reported outcomes, e.g., depression, stress, and anxiety, to train machine learning (ML) models. However, the need to continuously self-report adds a significant burden on the participants, often resulting in attrition, missing labels, or insincere responses. In this work, we introduce the Scale Scores Simulation using Mental Models (SeSaMe) framework to alleviate participants' burden in digital mental health studies. By leveraging pre-trained large language models (LLMs), SeSaMe enables the simulation of participants' responses on psychological scales. In SeSaMe, researchers can prompt LLMs with information on participants' internal behavioral dispositions, enabling LLMs to construct mental models of participants to simulate their responses on psychological scales. We demonstrate an application of SeSaMe, where we use GPT-4 to simulate responses on one scale using responses from another as behavioral information. We also evaluate the alignment between human and SeSaMe-simulated responses to psychological scales. Then, we present experiments to inspect the utility of SeSaMe-simulated responses as ground truth in training ML models by replicating established depression and anxiety screening tasks from a previous study. Our results indicate SeSaMe to be a promising approach, but its alignment may vary across scales and specific prediction objectives. We also observed that model performance with simulated data was on par with using the real data for training in most evaluation scenarios. We conclude by discussing the potential implications of SeSaMe in addressing some challenges researchers face with ground-truth collection in passive sensing studies.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 自律走行における単眼深度推定に対する物理的3次元対向攻撃

Physical 3D Adversarial Attacks against Monocular Depth Estimation in Autonomous Driving ( http://arxiv.org/abs/2403.17301v2 )

ライセンス: Link先を確認
Junhao Zheng, Chenhao Lin, Jiahao Sun, Zhengyu Zhao, Qian Li, Chao Shen, (参考訳) 深層学習に基づく単眼深度推定(MDE)は、自律運転に広く適用されており、敵の攻撃に対して脆弱であることが知られている。 これまでのMDEモデルに対する物理的攻撃は2次元の敵パッチに依存していたため、MDEマップ内の小さな局所的な領域にしか影響しないが、様々な視点で失敗する。 これらの制約に対処するため、3D Depth Fool(3D$^2$Fool)を提案する。 3D$^2$Foolは、モデル車両に非依存な3D対向テクスチャの生成と、雨や霧などの悪天候条件下での堅牢性の改善に特化している。 実験により, 車両, MDEモデル, 気象条件, 視点など, 様々なシナリオにおける3D$^2$Foolの優れた性能が検証された。 物理車載モデルに3Dテクスチャを印刷した実世界の実験は、我々の3D$^2$Foolが10m以上のMDE誤差を引き起こすことをさらに証明している。

Deep learning-based monocular depth estimation (MDE), extensively applied in autonomous driving, is known to be vulnerable to adversarial attacks. Previous physical attacks against MDE models rely on 2D adversarial patches, so they only affect a small, localized region in the MDE map but fail under various viewpoints. To address these limitations, we propose 3D Depth Fool (3D$^2$Fool), the first 3D texture-based adversarial attack against MDE models. 3D$^2$Fool is specifically optimized to generate 3D adversarial textures agnostic to model types of vehicles and to have improved robustness in bad weather conditions, such as rain and fog. Experimental results validate the superior performance of our 3D$^2$Fool across various scenarios, including vehicles, MDE models, weather conditions, and viewpoints. Real-world experiments with printed 3D textures on physical vehicle models further demonstrate that our 3D$^2$Fool can cause an MDE error of over 10 meters.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 解釈可能なグラフに基づく視覚質問応答のための固有部分グラフ生成

Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering ( http://arxiv.org/abs/2403.17647v2 )

ライセンス: Link先を確認
Pascal Tilli, Ngoc Thang Vu, (参考訳) VQA(Visual Question Answering)におけるディープラーニングに基づく手法の成功は、説明可能な手法の需要を同時に増加させてきた。 説明可能な人工知能(XAI)のほとんどの手法は、本質的なアプローチではなく、ポストホックな説明を生成することに重点を置いており、後者は解釈可能なモデルを特徴づけている。 本稿では,グラフベースのVQAに対する解釈可能なアプローチを導入し,GQAデータセット上での競合性能を示す。 このアプローチは、解釈可能性とパフォーマンスのギャップを埋める。 本モデルは,質問応答過程のサブグラフをその説明として内在的に生成し,意思決定に関する洞察を与えるように設計されている。 生成したサブグラフの質を評価するため、グラフニューラルネットワークの実証されたポストホックな説明可能性法と比較し、人間による評価を行う。 また,人間の評価指標と相関する定量的指標を提示し,生成した説明文の自動評価指標として機能する。 実装はhttps://github.com/DigitalPhonetics/Intrinsic-Subgraph-Generation-for-VQAで公開しています。

The large success of deep learning based methods in Visual Question Answering (VQA) has concurrently increased the demand for explainable methods. Most methods in Explainable Artificial Intelligence (XAI) focus on generating post-hoc explanations rather than taking an intrinsic approach, the latter characterizing an interpretable model. In this work, we introduce an interpretable approach for graph-based VQA and demonstrate competitive performance on the GQA dataset. This approach bridges the gap between interpretability and performance. Our model is designed to intrinsically produce a subgraph during the question-answering process as its explanation, providing insight into the decision making. To evaluate the quality of these generated subgraphs, we compare them against established post-hoc explainability methods for graph neural networks, and perform a human evaluation. Moreover, we present quantitative metrics that correlate with the evaluations of human assessors, acting as automatic metrics for the generated explanatory subgraphs. Our implementation is available at https://github.com/DigitalPhonetics/Intrinsic-Subgraph-Generation-for-VQA.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# 不確実なラベリングを伴う半教師付き学習の漸近ベイズリスク

Asymptotic Bayes risk of semi-supervised learning with uncertain labeling ( http://arxiv.org/abs/2403.17767v2 )

ライセンス: Link先を確認
Victor Leger, Romain Couillet, (参考訳) 本稿では,ガウス混合モデルに基づく半教師付き分類について考察する。 我々の主な目的はベイズリスクを計算することである。 我々はベイズリスクの挙動と、このモデルにおける最もよく知られたアルゴリズムを比較した。 この比較は最終的にアルゴリズムに新たな洞察を与える。

This article considers a semi-supervised classification setting on a Gaussian mixture model, where the data is not labeled strictly as usual, but instead with uncertain labels. Our main aim is to compute the Bayes risk for this model. We compare the behavior of the Bayes risk and the best known algorithm for this model. This comparison eventually gives new insights over the algorithm.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# フェデレーションラーニングによるデータメッシュの強化

Empowering Data Mesh with Federated Learning ( http://arxiv.org/abs/2403.17878v2 )

ライセンス: Link先を確認
Haoyuan Li, Salman Toor, (参考訳) データアーキテクチャの進化は、データ管理のボトルネックを解消し、インテリジェントな意思決定を促進することを目的として、データレイクの台頭を目の当たりにしてきた。 しかし、この集中型アーキテクチャは、データソースの急増と、タイムリーな分析と処理に対する需要の増加によって制限されている。 これらの課題を克服するために、新しいデータパラダイムであるData Meshが提案されている。 Data Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱うと同時に、ドメインとそのデータ製品を監視するためのフェデレートされたガバナンスを維持する。 Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。 データが各ドメインチームによってローカルに保存される分散アーキテクチャでは、従来の集中型機械学習は複数のドメイン、特にセキュリティに敏感な組織に対して効果的な分析を行うことができない。 この目的のために、フェデレートラーニングをData Meshに組み込んだ先駆的なアプローチを導入しました。 私たちの知る限りでは、これは、フェデレートされた学習メソッドをData Meshパラダイムに統合する上で重要な進歩を示す最初のオープンソース応用作品です。

The evolution of data architecture has seen the rise of data lakes, aiming to solve the bottlenecks of data management and promote intelligent decision-making. However, this centralized architecture is limited by the proliferation of data sources and the growing demand for timely analysis and processing. A new data paradigm, Data Mesh, is proposed to overcome these challenges. Data Mesh treats domains as a first-class concern by distributing the data ownership from the central team to each data domain, while keeping the federated governance to monitor domains and their data products. Many multi-million dollar organizations like Paypal, Netflix, and Zalando have already transformed their data analysis pipelines based on this new architecture. In this decentralized architecture where data is locally preserved by each domain team, traditional centralized machine learning is incapable of conducting effective analysis across multiple domains, especially for security-sensitive organizations. To this end, we introduce a pioneering approach that incorporates Federated Learning into Data Mesh. To the best of our knowledge, this is the first open-source applied work that represents a critical advancement toward the integration of federated learning methods into the Data Mesh paradigm, underscoring the promising prospects for privacy-preserving and decentralized data analysis strategies within Data Mesh architecture.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# R2D2を用いたスケーラブル非カルテシアン磁気共鳴イメージング

Scalable Non-Cartesian Magnetic Resonance Imaging with R2D2 ( http://arxiv.org/abs/2403.17905v2 )

ライセンス: Link先を確認
Yiwei Chen, Chao Tang, Amir Aghabiglou, Chung San Chu, Yves Wiaux, (参考訳) 非カルテシアン磁気共鳴画像再構成のための新しい手法を提案する。 アンロールアーキテクチャはデータ一貫性レイヤを介して堅牢性を提供するが、ディープニューラルネットワーク(DNN)に計測演算子を埋め込むことは、大規模に非現実的になる可能性がある。 代替的なPlug-and-Play(PnP)アプローチでは、DNNは測定環境に不自由であり、この制限の影響を受けず、有効性も証明されているが、その高い反復性はスケーラビリティにも影響を及ぼす。 このスケーラビリティ問題に対処するために、最近天文学的イメージングで導入された「Residual-to-Residual DNNシリーズ」を高ダイナミックレンジイメージング(R2D2)に活用する。 R2D2の再構成は一連の残像として形成され、前回の繰り返しの画像推定と関連するデータを入力として取り込んだDNNの出力として反復的に推定される。 この方法はMatching Pursuitアルゴリズムの学習版と解釈できる。 我々は、ラジアルk空間サンプリング取得シーケンスを考慮したシミュレーションでR2D2を実証する。 我々の予備的な結果は、R2D2が達成できることを示唆している。 (i) NUFFT ベースのデータ一貫性層を組み込む必要により,R2D2-Net は拡張不可能である。 (II)データ一貫性のためのFFTに基づく近似を組み込んだR2D2-Netのスケーラブル版に優れた再構成品質 (3)PnPの再現性は優れているが、イテレーションは少ない。

We propose a new approach for non-Cartesian magnetic resonance image reconstruction. While unrolled architectures provide robustness via data-consistency layers, embedding measurement operators in Deep Neural Network (DNN) can become impractical at large scale. Alternative Plug-and-Play (PnP) approaches, where the denoising DNNs are blind to the measurement setting, are not affected by this limitation and have also proven effective, but their highly iterative nature also affects scalability. To address this scalability challenge, we leverage the "Residual-to-Residual DNN series for high-Dynamic range imaging (R2D2)" approach recently introduced in astronomical imaging. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of DNNs taking the previous iteration's image estimate and associated data residual as inputs. The method can be interpreted as a learned version of the Matching Pursuit algorithm. We demonstrate R2D2 in simulation, considering radial k-space sampling acquisition sequences. Our preliminary results suggest that R2D2 achieves: (i) suboptimal performance compared to its unrolled incarnation R2D2-Net, which is however non-scalable due to the necessary embedding of NUFFT-based data-consistency layers; (ii) superior reconstruction quality to a scalable version of R2D2-Net embedding an FFT-based approximation for data consistency; (iii) superior reconstruction quality to PnP, while only requiring few iterations.
翻訳日:2024-03-28 11:48:28 公開日:2024-03-27
# CEIMVEN: 乳がん検出と超音波画像からの分類のための高効率ネット(V1-V2)アーキテクチャのエッジ実装

CEIMVEN: An Approach of Cutting Edge Implementation of Modified Versions of EfficientNet (V1-V2) Architecture for Breast Cancer Detection and Classification from Ultrasound Images ( http://arxiv.org/abs/2308.13356v3 )

ライセンス: Link先を確認
Sheekar Banerjee, Md. Kamrul Hasan Monir, (参考訳) 間違いなく乳がんは、世界中で最も広範で恐ろしいがんの1つだと自覚している。 毎年何百万という女性が影響を受けています。 乳がんは女性の死亡数の最大の原因となっている。 近年, 超音波画像やマンモグラフィーから乳がんを検出・分類し, 深部神経ネットワークの天体的触覚を解析する上で, 医用画像処理とプロセッシングが重要な役割を担っている。 本研究では,EfficientNet-V1 (b0-b7) とEfficientNet-V2 (b0-b3) を,CEIMVEN と命名された超音波画像で比較した。 我々は、EfficientNetバージョンの事前学習モデルを使用するために、転送学習アプローチを利用した。 我々は、ハイパーパラメータチューニング手順を起動し、完全に接続されたレイヤーを追加し、前例のない異常値を破棄し、カスタム修正されたEfficientNetアーキテクチャの精度を記録した。 我々のディープラーニングモデルトレーニングアプローチは、関心領域(ROI)技術と複数の分類(良性、悪性、正常)で影響を受ける領域を同定することに関連していた。 修正版のEfficientNet-V1(b0-99.15%、b1-98.58%、b2-98.43%、b3-98.01%、b4-98.86%、b5-97.72%、b6-97.72%、b7-98.72%)とEfficientNet-V2(b0-99.29%、b1-99.01%、b2-98.72%、b3-99.43%)から得られた近似的なテスト精度は、超音波画像から乳がんを早期に検出・分類するための非常に明るい未来と強力なディープラーニングアプローチを示している。 この研究のコードは、https://github.com/ac005sheekar/CEIMVEN-Breast.comで公開されている。

Undoubtedly breast cancer identifies itself as one of the most widespread and terrifying cancers across the globe. Millions of women are getting affected each year from it. Breast cancer remains the major one for being the reason of largest number of demise of women. In the recent time of research, Medical Image Computing and Processing has been playing a significant role for detecting and classifying breast cancers from ultrasound images and mammograms, along with the celestial touch of deep neural networks. In this research, we focused mostly on our rigorous implementations and iterative result analysis of different cutting-edge modified versions of EfficientNet architectures namely EfficientNet-V1 (b0-b7) and EfficientNet-V2 (b0-b3) with ultrasound image, named as CEIMVEN. We utilized transfer learning approach here for using the pre-trained models of EfficientNet versions. We activated the hyper-parameter tuning procedures, added fully connected layers, discarded the unprecedented outliers and recorded the accuracy results from our custom modified EfficientNet architectures. Our deep learning model training approach was related to both identifying the cancer affected areas with region of interest (ROI) techniques and multiple classifications (benign, malignant and normal). The approximate testing accuracies we got from the modified versions of EfficientNet-V1 (b0- 99.15%, b1- 98.58%, b2- 98.43%, b3- 98.01%, b4- 98.86%, b5- 97.72%, b6- 97.72%, b7- 98.72%) and EfficientNet-V2 (b0- 99.29%, b1- 99.01%, b2- 98.72%, b3- 99.43%) are showing very bright future and strong potentials of deep learning approach for the successful detection and classification of breast cancers from the ultrasound images at a very early stage. The code for this research is available here: https://github.com/ac005sheekar/CEIMVEN-Breast.
翻訳日:2024-03-28 11:38:35 公開日:2024-03-27
# No-Reference Point Cloud Quality Assessmentのためのマルチビューフュージョンによる対照的な事前訓練

Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2403.10066v3 )

ライセンス: Link先を確認
Ziyu Shan, Yujie Zhang, Qi Yang, Haichen Yang, Yiling Xu, Jenq-Neng Hwang, Xiaozhong Xu, Shan Liu, (参考訳) No-Reference Point Cloud Quality Assessment (NR-PCQA)は、利用可能な参照のない歪んだ点雲の知覚的品質を自動評価することを目的としており、ディープニューラルネットワークの利用により大幅に改善されている。 しかし、学習に基づくNR-PCQA法はラベル付きデータの不足に悩まされ、通常、一般化の観点からは準最適に実行される。 そこで本研究では,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。 表現空間のアンカーを得るために、異なる歪みの点雲を画像に投影し、局所パッチをランダムに混合して複数の歪みの混合画像を生成する。 生成したアンカーを利用することで、知覚品質が内容と歪みの両方に密接に関連しているという哲学に従って、品質に配慮したコントラスト損失を通じて事前学習プロセスを制約する。 さらに、モデル微調整段階において、複数の視点から投影された画像の特徴を効果的に統合する意味誘導多視点融合モジュールを提案する。 実験結果から,提案手法はPCQA法よりも高い性能を示した。 さらなる調査は、CoPAが既存の学習ベースのPCQAモデルにも役立つことを実証している。

No-reference point cloud quality assessment (NR-PCQA) aims to automatically evaluate the perceptual quality of distorted point clouds without available reference, which have achieved tremendous improvements due to the utilization of deep neural networks. However, learning-based NR-PCQA methods suffer from the scarcity of labeled data and usually perform suboptimally in terms of generalization. To solve the problem, we propose a novel contrastive pre-training framework tailored for PCQA (CoPA), which enables the pre-trained model to learn quality-aware representations from unlabeled data. To obtain anchors in the representation space, we project point clouds with different distortions into images and randomly mix their local patches to form mixed images with multiple distortions. Utilizing the generated anchors, we constrain the pre-training process via a quality-aware contrastive loss following the philosophy that perceptual quality is closely related to both content and distortion. Furthermore, in the model fine-tuning stage, we propose a semantic-guided multi-view fusion module to effectively integrate the features of projected images from multiple perspectives. Extensive experiments show that our method outperforms the state-of-the-art PCQA methods on popular benchmarks. Further investigations demonstrate that CoPA can also benefit existing learning-based PCQA models.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# Re2LLM: セッションベースのレコメンデーションのためのリフレクティブ強化大言語モデル

Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation ( http://arxiv.org/abs/2403.16427v3 )

ライセンス: Link先を確認
Ziyan Wang, Yingpeng Du, Zhu Sun, Haoyan Chua, Kaidong Feng, Wenya Wang, Jie Zhang, (参考訳) 大規模言語モデル (LLMs) はセッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして登場し, プロンプトベースと微調整ベースの両方の手法が広く研究されている。 しかし、従来の手法では、タスク固有のフィードバックが欠如しているため、LLMの正しい推論を引き出すための最適なプロンプトに苦しむため、不満足なレコメンデーションが生じる。 後者の手法はドメイン固有の知識でLLMを微調整しようとするが、高い計算コストやオープンソースのバックボーンへの依存といった制限に直面している。 このような問題に対処するため、我々はSBRのための反射強化大言語モデル(Re2LLM)を提案し、LLMがより正確なレコメンデーションに不可欠な専門知識に集中するよう誘導する。 特に,LLMが理解しやすく,消化しやすい知識を効果的に抽出するために,まず反射探索モジュールを設計する。 具体的には,LLMに対して自己回帰による推薦誤りの検証を指示し,これらの誤りを修正可能なヒントを含む知識ベース(KB)を構築する。 さらに,LLMの正しい推論を効率的に行うために,軽量検索エージェントを訓練するための強化利用モジュールを考案する。 タスク固有のフィードバックに基づいて、構築されたKBからヒントを選択することを学び、そこでヒントは、より良いレコメンデーションのためにLLMの推論を修正するためのガイダンスとして役立ちます。 複数の実世界のデータセットに対する大規模な実験は、我々の手法が常に最先端の手法より優れていることを示した。

Large Language Models (LLMs) are emerging as promising approaches to enhance session-based recommendation (SBR), where both prompt-based and fine-tuning-based methods have been widely investigated to align LLMs with SBR. However, the former methods struggle with optimal prompts to elicit the correct reasoning of LLMs due to the lack of task-specific feedback, leading to unsatisfactory recommendations. Although the latter methods attempt to fine-tune LLMs with domain-specific knowledge, they face limitations such as high computational costs and reliance on open-source backbones. To address such issues, we propose a Reflective Reinforcement Large Language Model (Re2LLM) for SBR, guiding LLMs to focus on specialized knowledge essential for more accurate recommendations effectively and efficiently. In particular, we first design the Reflective Exploration Module to effectively extract knowledge that is readily understandable and digestible by LLMs. To be specific, we direct LLMs to examine recommendation errors through self-reflection and construct a knowledge base (KB) comprising hints capable of rectifying these errors. To efficiently elicit the correct reasoning of LLMs, we further devise the Reinforcement Utilization Module to train a lightweight retrieval agent. It learns to select hints from the constructed KB based on the task-specific feedback, where the hints can serve as guidance to help correct LLMs reasoning for better recommendations. Extensive experiments on multiple real-world datasets demonstrate that our method consistently outperforms state-of-the-art methods.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# 事前学習言語モデルを用いたアドホック文書検索のための粗調整

Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models ( http://arxiv.org/abs/2403.16915v3 )

ライセンス: Link先を確認
Atsushi Keyaki, Ribeka Keyaki, (参考訳) 事前学習言語モデル(PLMベースのIR)を用いた情報検索システムの微調整には,下流のタスク固有学習に加えて,クエリ表現とクエリ文書関係の学習が必要である。 本研究では,事前学習と微調整を橋渡しする中間学習段階として粗調整を導入する。 粗いチューニングにおける問合せ表現と問合せ文書の関係を学習することにより、微調整の負荷を低減し、下流IRタスクの学習効果を改善することを目指す。 粗いチューニングのためのクエリ文書ペア予測(QDPP)を提案し,クエリ文書ペアの適切性を予測する。 評価実験により,提案手法は4つのアドホック文書検索データセットにおいてMRRとnDCG@5を大幅に改善することが示された。 さらに,クエリ予測タスクの結果から,粗いチューニングがクエリ表現とクエリ文書関係の学習を促進することが示唆された。

Fine-tuning in information retrieval systems using pre-trained language models (PLM-based IR) requires learning query representations and query-document relations, in addition to downstream task-specific learning. This study introduces coarse-tuning as an intermediate learning stage that bridges pre-training and fine-tuning. By learning query representations and query-document relations in coarse-tuning, we aim to reduce the load of fine-tuning and improve the learning effect of downstream IR tasks. We propose Query-Document Pair Prediction (QDPP) for coarse-tuning, which predicts the appropriateness of query-document pairs. Evaluation experiments show that the proposed method significantly improves MRR and/or nDCG@5 in four ad-hoc document retrieval datasets. Furthermore, the results of the query prediction task suggested that coarse-tuning facilitated learning of query representation and query-document relations.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# バイオメディカルイメージングタスクのための言語モデルとフリーブースター

Language Models are Free Boosters for Biomedical Imaging Tasks ( http://arxiv.org/abs/2403.17343v2 )

ライセンス: Link先を確認
Zhixin Lai, Jing Wu, Suiyao Chen, Yucheng Zhou, Naira Hovakimyan, (参考訳) 本研究では,従来の言語やテキストデータがない領域であるバイオメディカルイメージングタスクのエンコーダの一部として,残留型大規模言語モデル(LLM)の予期せぬ有効性を明らかにする。 この手法は、予め訓練されたLCMから抽出した冷凍変圧器ブロックを、視覚トークンの直接処理のための革新的なエンコーダ層として利用することにより、確立した手法から分岐する。 この戦略は、言語駆動のプロンプトとインプットを隠蔽する標準のマルチモーダルビジョン言語フレームワークから大きく離れている。 これらのLLMは,2次元および3次元の視覚的分類タスクを含む,様々なバイオメディカルイメージングアプリケーションにおいて,プラグ・アンド・プレイ・ブースターとしての性能向上を図っている。 より興味深いことに,提案したフレームワークは,MedMNIST-2Dおよび3Dの広範囲な標準化データセットに対して,最先端の結果を新たに設定し,優れた性能を実現した。 本研究は, バイオメディカルイメージングにLLMを応用し, 本専門領域におけるその可能性の理解を深めるための新たな道を開くことを目的としている。

In this study, we uncover the unexpected efficacy of residual-based large language models (LLMs) as part of encoders for biomedical imaging tasks, a domain traditionally devoid of language or textual data. The approach diverges from established methodologies by utilizing a frozen transformer block, extracted from pre-trained LLMs, as an innovative encoder layer for the direct processing of visual tokens. This strategy represents a significant departure from the standard multi-modal vision-language frameworks, which typically hinge on language-driven prompts and inputs. We found that these LLMs could boost performance across a spectrum of biomedical imaging applications, including both 2D and 3D visual classification tasks, serving as plug-and-play boosters. More interestingly, as a byproduct, we found that the proposed framework achieved superior performance, setting new state-of-the-art results on extensive, standardized datasets in MedMNIST-2D and 3D. Through this work, we aim to open new avenues for employing LLMs in biomedical imaging and enriching the understanding of their potential in this specialized domain.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# MA4DIV:検索結果の多様化のためのマルチエージェント強化学習

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification ( http://arxiv.org/abs/2403.17421v2 )

ライセンス: Link先を確認
Yiqun Chen, Jiaxin Mao, Yi Zhang, Dehong Ma, Long Xia, Jun Fan, Daiting Shi, Zhicong Cheng, Simiu Gu, Dawei Yin, (参考訳) 検索結果の多様化(SRD)の目的は、選択した文書が可能な限り多くのサブトピックをカバーすることである。 既存の手法は主に「欲求選択(greedy selection)」というパラダイムを用いており、すなわち、一度に最も多様性の高い文書を選択する。 これらのアプローチは非効率であり、最適以下の状態に容易に閉じ込められる傾向にある。 さらに、例えば$\alpha$-NDCGのように、多様性の計量を概ね最適化することを目的としている方法もあるが、結果は依然として準最適である。 これらの課題に対処するために,MARL (Multi-Agent reinforcement learning) を導入した。 このアプローチでは、各文書はエージェントであり、検索結果の多様化は複数のエージェント間の協調的なタスクとしてモデル化される。 このアプローチにより、$\alpha$-NDCGなどの多様性メトリクスを直接最適化し、高いトレーニング効率を達成することができる。 公開TRECデータセットの予備実験を行い,MA4DIVの有効性と可能性を実証した。 パブリックTRECデータセットのクエリ数が限られていることを考慮し、業界ソースから大規模なデータセットを構築し、MA4DIVが既存の産業規模データセットのベースラインよりも有効性と効率の両方を著しく向上させることを示す。

The objective of search result diversification (SRD) is to ensure that selected documents cover as many different subtopics as possible. Existing methods primarily utilize a paradigm of "greedy selection", i.e., selecting one document with the highest diversity score at a time. These approaches tend to be inefficient and are easily trapped in a suboptimal state. In addition, some other methods aim to approximately optimize the diversity metric, such as $\alpha$-NDCG, but the results still remain suboptimal. To address these challenges, we introduce Multi-Agent reinforcement learning (MARL) for search result DIVersity, which called MA4DIV. In this approach, each document is an agent and the search result diversification is modeled as a cooperative task among multiple agents. This approach allows for directly optimizing the diversity metrics, such as $\alpha$-NDCG, while achieving high training efficiency. We conducted preliminary experiments on public TREC datasets to demonstrate the effectiveness and potential of MA4DIV. Considering the limited number of queries in public TREC datasets, we construct a large-scale dataset from industry sources and show that MA4DIV achieves substantial improvements in both effectiveness and efficiency than existing baselines on a industrial scale dataset.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# 強化学習におけるコスト制約行動の緩和

Imitating Cost-Constrained Behaviors in Reinforcement Learning ( http://arxiv.org/abs/2403.17456v2 )

ライセンス: Link先を確認
Qian Shao, Pradeep Varakantham, Shih-Fen Cheng, (参考訳) 複雑な計画とスケジューリングの問題は、様々な最適化やヒューリスティックなアプローチで長い間解決されてきた。 近年,これらの問題を解決する代替手段として,専門家によるデモンストレーションから学ぶことを目的とした模倣学習が提案されている。 一般的には、模倣学習は、専門家の行動を観察して報酬(または好み)モデルまたは行動方針を直接学習するように設計されている。 既存の模倣学習や逆強化学習は、主に制約のない環境(例えば、車両が消費する燃料に制限はない)で模倣に焦点を当てている。 しかし、多くの現実世界のドメインでは、専門家の振る舞いは報酬(または好み)だけでなく、制約によっても支配される。 例えば、自動運転車の配送に関する決定は、ルートの選好/回帰(過去の需要データに依存する)だけでなく、車の燃料や利用可能な時間にも依存している。 このような問題では、報酬モデルによって決定されるだけでなく、コスト制約のあるモデルにも依存するため、模倣学習は困難である。 本稿では,トラジェクティブコスト制約の存在下での専門家分布と一致する複数の方法を提案する。 (a)ラグランジュ的方法 ロ メタグラディエントは、期待したリターンと制約違反の最小化との間に良いトレードオフを見出すことができる。 (c)コスト違反に基づく交互化勾配。 試行錯誤学習アプローチは,コスト制約の少ない動作を模倣し,メタグラディエントベースのアプローチが最高のパフォーマンスを達成することを実証的に示す。

Complex planning and scheduling problems have long been solved using various optimization or heuristic approaches. In recent years, imitation learning that aims to learn from expert demonstrations has been proposed as a viable alternative to solving these problems. Generally speaking, imitation learning is designed to learn either the reward (or preference) model or directly the behavioral policy by observing the behavior of an expert. Existing work in imitation learning and inverse reinforcement learning has focused on imitation primarily in unconstrained settings (e.g., no limit on fuel consumed by the vehicle). However, in many real-world domains, the behavior of an expert is governed not only by reward (or preference) but also by constraints. For instance, decisions on self-driving delivery vehicles are dependent not only on the route preferences/rewards (depending on past demand data) but also on the fuel in the vehicle and the time available. In such problems, imitation learning is challenging as decisions are not only dictated by the reward model but are also dependent on a cost-constrained model. In this paper, we provide multiple methods that match expert distributions in the presence of trajectory cost constraints through (a) Lagrangian-based method; (b) Meta-gradients to find a good trade-off between expected return and minimizing constraint violation; and (c) Cost-violation-based alternating gradient. We empirically show that leading imitation learning approaches imitate cost-constrained behaviors poorly and our meta-gradient-based approach achieves the best performance.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# 期待対現実:実践における侵入検知システムの評価

Expectations Versus Reality: Evaluating Intrusion Detection Systems in Practice ( http://arxiv.org/abs/2403.17458v2 )

ライセンス: Link先を確認
Jake Hesford, Daniel Cheng, Alan Wan, Larry Huynh, Seungho Kim, Hyoungshick Kim, Jin B. Hong, (参考訳) 本稿は,近年のIDS間の実証的な比較を行い,利用者が要求に応じて最適なソリューションを選択するための客観的比較を行う。 以上の結果から,攻撃の種類や複雑性,データセット内のネットワーク環境など,外部変数に依存するソリューションがひとつもないことが示唆された。 例えば、BoT_IoTとStratosphere IoTデータセットはいずれもIoT関連の攻撃をキャプチャするが、深いニューラルネットワークはBoT_IoTデータセットを使用したテストでは最高、HELADはStratosphere IoTデータセットを使用したテストでは最高だった。 したがって、ディープニューラルネットワークソリューションは、テストされたデータセットで平均的なF1スコアが高かったが、必ずしも最高のパフォーマンスであるとは限らない。 さらに、文献やプロジェクトリポジトリからIDSを使用することの難しさについても論じる。

Our paper provides empirical comparisons between recent IDSs to provide an objective comparison between them to help users choose the most appropriate solution based on their requirements. Our results show that no one solution is the best, but is dependent on external variables such as the types of attacks, complexity, and network environment in the dataset. For example, BoT_IoT and Stratosphere IoT datasets both capture IoT-related attacks, but the deep neural network performed the best when tested using the BoT_IoT dataset while HELAD performed the best when tested using the Stratosphere IoT dataset. So although we found that a deep neural network solution had the highest average F1 scores on tested datasets, it is not always the best-performing one. We further discuss difficulties in using IDS from literature and project repositories, which complicated drawing definitive conclusions regarding IDS selection.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# 動的プレフィックスチューニングによる混合開始応答生成

Mix-Initiative Response Generation with Dynamic Prefix Tuning ( http://arxiv.org/abs/2403.17636v2 )

ライセンス: Link先を確認
Yuxiang Nie, Heyan Huang, Xian-Ling Mao, Lizi Liao, (参考訳) 混合イニシアチブは、会話の方向を制御する上で重要な要素の1つである。 話者にとって、受動的に反応するか、積極的に反応するということは、かなり異なる反応をもたらす。 しかし、ほとんどの対話システムは、異なるイニシアチブ間で区別されることなく、全体的な応答生成モデルを訓練することに焦点を当てている。 モデルが異なるイニシアチブを混同し、不適切な応答を生成するという、クロス汚染問題につながります。 さらに、イニシアティブラベルのための多くの人的アノテーションを取得することは、コストがかかる。 この問題に対処するため,我々は生成モデルから異なるイニシアチブを分離し,教師なし設定と教師なし設定の両方でイニシアチブ対応のプレフィックスを学習する,一般の混合開始動的プリフィックスチューニングフレームワーク(IDPT)を提案する。 具体的には、IDPTは、イニシアティブ因子を異なるプレフィックスパラメータに分解し、アテンションメカニズムを使用して、ジェネレーションを動的に誘導するイニシアティブの選択を調整する。 プレフィックスパラメータは、正確なイニシアティブ予測とミックス開始応答生成に調整することができる。 2つの公開対話データセットの大規模な実験により、提案したIDPTは、自動測定と人的評価の両方において、以前のベースラインを上回っていることが示された。 また、操作されたイニシアティブで適切なレスポンスを生成することもできる。

Mixed initiative serves as one of the key factors in controlling conversation directions. For a speaker, responding passively or leading proactively would result in rather different responses. However, most dialogue systems focus on training a holistic response generation model without any distinction among different initiatives. It leads to the cross-contamination problem, where the model confuses different initiatives and generates inappropriate responses. Moreover, obtaining plenty of human annotations for initiative labels can be expensive. To address this issue, we propose a general mix-Initiative Dynamic Prefix Tuning framework (IDPT) to decouple different initiatives from the generation model, which learns initiative-aware prefixes in both supervised and unsupervised settings. Specifically, IDPT decouples initiative factors into different prefix parameters and uses the attention mechanism to adjust the selection of initiatives in guiding generation dynamically. The prefix parameters can be tuned towards accurate initiative prediction as well as mix-initiative response generation. Extensive experiments on two public dialogue datasets show that the proposed IDPT outperforms previous baselines on both automatic metrics and human evaluations. It also manages to generate appropriate responses with manipulated initiatives.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27
# Fermihedral:Fermion-to-Qubitエンコーディングの最適コンパイルについて

Fermihedral: On the Optimal Compilation for Fermion-to-Qubit Encoding ( http://arxiv.org/abs/2403.17794v2 )

ライセンス: Link先を確認
Yuhao Liu, Shize Che, Junyu Zhou, Yunong Shi, Gushu Li, (参考訳) 本稿では,Fermionic Hamiltonianに対する最適なFermion-to-qubitエンコーディングの発見に焦点を当てたコンパイラフレームワークであるFermihedralを紹介する。 フェルミオンから量子ビットへの符号化は、フェルミオン量子系の効率的なシミュレーションに量子コンピューティングを利用するための重要なステップである。 パウリ代数を用いることで、フェルミヘドラルはフェルミオン・ト・キュービット符号化の複雑な制約と目的をブール満足度問題に再定義し、高性能な解法で解ける。 大規模シナリオに対応するため,指数関数的に多くの節からオーバーヘッドを緩和する近似最適解を求める2つの新しい手法を提案する。 多様なフェルミオニオン系における評価は、Fermihedralの優位性を強調し、コンパイルされた回路における実装コスト、ゲート数、回路深さの大幅な削減を示す。 IonQのデバイスにおける実システム実験は、その有効性を確認し、特にシミュレーションの精度を向上した。

This paper introduces Fermihedral, a compiler framework focusing on discovering the optimal Fermion-to-qubit encoding for targeted Fermionic Hamiltonians. Fermion-to-qubit encoding is a crucial step in harnessing quantum computing for efficient simulation of Fermionic quantum systems. Utilizing Pauli algebra, Fermihedral redefines complex constraints and objectives of Fermion-to-qubit encoding into a Boolean Satisfiability problem which can then be solved with high-performance solvers. To accommodate larger-scale scenarios, this paper proposed two new strategies that yield approximate optimal solutions mitigating the overhead from the exponentially large number of clauses. Evaluation across diverse Fermionic systems highlights the superiority of Fermihedral, showcasing substantial reductions in implementation costs, gate counts, and circuit depth in the compiled circuits. Real-system experiments on IonQ's device affirm its effectiveness, notably enhancing simulation accuracy.
翻訳日:2024-03-28 11:38:34 公開日:2024-03-27